優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢

高分子材料大數(shù)據(jù)研究:共性基礎、進展及挑戰(zhàn)

作者:劉倫洋 丁芳 李云琦 來源:《高分子學報》日期:2022-06-15人氣:4717

高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時,也成為全球人類可持續(xù)發(fā)展和環(huán)境保護的主要挑戰(zhàn)之一. 高分子材料的機械熱、光電聲磁、分離、降解和加工性質是設計、生產和應用的聚焦內容,其柔性可設計的特征,有力地支撐著社會的多樣化發(fā)展,對密切相關的組成、加工、結構及其性質關系的認識也在不斷完善中. 在對高分子材料個性化、智能化生產和應用的驅動下,傳統(tǒng)經驗理論提供的定性指導模型漸不能滿足,而對支撐給定性質實現(xiàn)材料逆設計的定量決策模型產生大量需求. 特別是人們對于給定目標性質實現(xiàn)對材料組成工藝精準定位“逆設計”的渴求,迫切需要對高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進展. 基于我們4年前對材料基因組學研究的梳理[1],本文將介紹對高分子材料大數(shù)據(jù)研究共性基礎的進一步思考,綜述近幾年高分子材料大數(shù)據(jù)研究的代表性進展,探討高分子材料大數(shù)據(jù)研究這一急速升溫領域的前沿方向和當前面臨的主要挑戰(zhàn).

1 材料大數(shù)據(jù)研究的共性基礎

眾所周知,人類探索未知世界存在4種認知范式,即以實驗試錯法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計算模擬仿真為主的第三范式,和以數(shù)據(jù)驅動創(chuàng)新為主的第四范式. 這4種范式都可以產生基礎可用的數(shù)據(jù),在數(shù)據(jù)基礎上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識,進一步凝練出法則(principle)從而獲得智慧,即科學認知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在該框架中,人類生活生產和研究長期匯集的基礎科學數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開共享,機器學習、人工智能、深度學習和大數(shù)據(jù)(注:這4個專業(yè)名詞的內涵具有高度重疊的共同知識,但有不同的側重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術手段,正快速地發(fā)展并重塑著生產力和生活模式. 統(tǒng)計力學和貝葉斯統(tǒng)計學與多個學科交叉,先后形成了生物信息學、化學信息學和材料信息學3個前沿學科. 目前生物信息學發(fā)展的典型代表是AlphaFold2[2]的產生,在預測蛋白質序列到三維折疊結構的經典難題中已經部分超過人類專家. 化學信息學仍在快速發(fā)展中,對短程關聯(lián)體系,小分子、力場和作用、化學語言的符號化和定量表達等的進展強有力地推動著對眾多物理、化學、生物現(xiàn)象和過程的定量認識,其中近幾年以人工智能驅動新藥開發(fā)(即AI制藥)而廣為人知. 而材料信息學正處于急速膨脹階段,個性化和智能制造正滲透到社會的方方面面,有力地支撐著全人類的可持續(xù)發(fā)展和未來美好生活愿景.

高分子材料的大數(shù)據(jù)研究是材料信息學的前沿核心內容,而材料信息學的研究存在如圖1所示的共性框架,即組成-工藝-結構-性質-性能關系(CPSPPr),其中包含組成工藝決定結構,結構性質關系(QSAR/QSPR)以及性質性能關聯(lián)三方面主要內容. 要實現(xiàn)精準可靠的“逆設計”,需要明確CPSPPr中的因果關系,部分或者能可靠外推的充分必要關系,而這幾個要素及其內在可控因素實現(xiàn)定量可計算是首要任務. 下面將圍繞這些因素展開:材料的組成量化了物質的種類即電子、原子、結構或功能基團、結構片段、分子、聚集體、相界面和部件種類及其配比分數(shù),決定了體系的相互作用,相貌形態(tài)和成本. 相互作用用于定量描述材料體系的勢能和動能,也包括表征、生產和應用中對外場的響應. 在25 ℃ (298.15 K),1.01×105 Pa的參考態(tài)下,1個熱力學漲落能量單位與多種性質和響應能量存在如下等價關系,1 kBT = 1 RT/NA,4.11×10-21 J,4.11 pN·nm,9.83×10-22 Cal,0.0256 eV,9.408×10-4 Hartree,6.2×1012 Hz,48.4×104 nm,2.479 kJ·mol-1,0.593 kCal·mol-1,200 cm-1,該等價關系包含kB是Boltzmann因子,T是絕對溫度(K),R是氣體常數(shù),NA是阿伏伽德羅常數(shù),h是普朗克常數(shù),C為真空光速. 其中,除常見能量單位焦耳J,卡路里Cal外,pN nm用于如單分子力譜測量鍵長變化或構象變化,電子伏特eV測量光電能量,Hartree是量子化學計算中的能量單位,赫茲Hz、nm和cm-1則從不同角度衡量探測波的能量. 該關系表明了從微觀到宏觀,相互作用在能量層面上對力、光電聲磁、波和譜學的可探測信號可以實現(xiàn)統(tǒng)一. 對于高分子材料類的軟物質,在高于25 ℃的環(huán)境中,低于1 kB(T=298.15 K)的能量擾動不會引起相態(tài)變化,或誘發(fā)臨界現(xiàn)象. 材料不同尺度相互作用的定量計算可以基于量子化學、全原子和粗?;?、介觀碰撞和耗散力、宏觀連續(xù)介質固體和流體力學. 這些定量信息則來自不同時空尺度的實驗、理論模型和計算方法的相互佐證和層級關聯(lián). 但在大數(shù)據(jù)研究中,不同尺度的相互作用則可被視為平等信息,從而可不受已有模型約束用于建立經驗理論模型之外的關聯(lián)關系. 材料的相態(tài)包含相圖,相變或相轉變,性質和結構特征等數(shù)據(jù)信息,是區(qū)分和刻畫材料組分的本征屬性. 成本是材料產業(yè)化的要素,包括原子經濟、生產和應用的能源成本、生態(tài)成本和經濟成本等.

  

Fig. 1  The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).


在工藝方面,主要包含對配方組分的反應、分散和融合3類操作. 反應是化學鍵的變化,涉及物質本征屬性改變,包括物質的合成、修飾改性、化學交聯(lián)、降解等,常見的因素包括手性、異構、鍵生成斷裂平衡、活性、選擇性以及與反應關聯(lián)的小分子產物,反應過程伴隨的物質和能量擴散和傳遞的調節(jié)控制等. 分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達到熱力學平衡狀態(tài)(一般是熵增過程),或者使物質分布達到具有特定分布結構的穩(wěn)態(tài)狀態(tài). 融合主要是破壞或黏合熱力學不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實現(xiàn)結構錨定(藥物篩選的原則之一)等. 這些工藝涉及較多人為經驗性因素,易造成精細層面的可重復性低,對復雜、精密、長期或在極端條件服役的材料體系,在生產和應用之前一般會引入宏觀尺度的計算機輔助設計/制造(CAD/CAM). 在實際CAD建模計算模擬仿真中,常常需要引入材料中組分的體相宏觀性質,如密度、模量、泊松比以及可以描述物質相態(tài)的本構方程等[3~5],已有一些商業(yè)軟件如Abaqus,Ansys,Comsol等.

性質分為組分、材料和器件性質,組分性質一般接近其本征性質,但在材料的多組分作用下,其性質可能發(fā)生大幅變化. 在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質都很難用組分性質直接或者加權平均近似[6]. 在器件性質層面,材料構成的本體結構和表面形貌都具有重要貢獻. 小分子的流失、材料降解、表面形貌退化等化學或結構性變化都可能導致器件性質失效. 而材料在模擬或實際應用中的機械、熱、光電聲磁、分離、加工性能等則可以解析為多種性質在實際應用場景中給定閾值范圍內的疊加,即材料性能通過一系列標準組合或依據(jù)第一、二和三范式的專家經驗實現(xiàn)性質拆分.

不同于小分子、金屬、無機非金屬材料,利用大數(shù)據(jù)研究實現(xiàn)從性質到分子結構的“逆設計”已有不少成功報道[7~12],高分子材料則少有類似成功,主要障礙在于其結構的定量化,將在下一節(jié)單獨介紹. 在材料大數(shù)據(jù)研究的這些共性因素中,通過一系列變量調控,可以使材料的性質發(fā)生顯著變化. 由于高分子多分散性的特點,高分子材料在CPSPPr中各要素都存在分布,而調控這些分布往往通過圖1的示意模式[1]. 即從某屬性或性質的當前分布A,逐步產生小概率事件偏倚或分布外的離散事件形成拖尾分布B,進而通過持續(xù)條件演化對小概率事件和離散事件的富集產生拖尾分布C,進一步演化為平衡態(tài)或穩(wěn)態(tài)分布D. 典型的例子是Ising模型中磁疇的變化,雖然單個磁子(spin)的取向是瞬時變化的,但在時間或磁場強度的連續(xù)變化中,總能觀察到不同磁子取向的拖尾分布. 高分子材料常見的性質調控、結構控制、相變過程等的序參量分布演化都滿足這個模式. 該模式用統(tǒng)計力學可表述為狀態(tài)密度ρi = exp(-βEi)/Σexp(-βEi),某個性質Z可以通過加權平均得到Z = Σ(zi*ρi)/Σρi,其中β = 1/kBT. 該模式也可通過大數(shù)據(jù)方法核心的Bayes原理表達為


(1)

2 高分子材料結構定量數(shù)據(jù)其中,C,P,SM,D分別代表組成、工藝、結構、表征生產應用條件和分布函數(shù),x則代表組成工藝中的某一可控變量,{ }代表集合.分布函數(shù)D = {ρi} 可以是熱力學平衡分布(高斯分布、玻爾茲曼分布等),也可以是偏倚分布(對數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等),或者是描述材料內部組成基元在正、倒空間(傅里葉變換)的分布. 性質Z可表述為在具有一定結構S和測試應用條件M下可由材料的組成C和加工成型工藝P改變,或者表述為材料在特定條件M下結構及其變化對外場響應而表達出性質Z. 結構S則可以表述為參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動量?x的作用下變化的疊加. 在基于這種表達通式的大數(shù)據(jù)研究中,可以通過對實驗、理論和計算模擬產生的特征進行組合或數(shù)學變換,將前3種范式認為無關的特征聯(lián)合起來構建出新的特征維度,新的特征可能成為性質描述更好的代理量或強關聯(lián)量,或更有效的演化條件,進而利于深入剖析高分子材料CPSPPr中的過程和機理.

一般地,材料結構的定義為組成基元的時空間分布,組成基元可以是電子、原子、離子、基團、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達為笛卡爾坐標、極坐標、內坐標或傅里葉倒空間的基元豐度,或者場模型中的概率密度. 基元的屬性和分布可以隨時間發(fā)生變化,存在內部的熱漲落或對外部的刺激響應,從而通過表征手段獲得信號或表達出材料的不同性質. 結構是一系列探測手段與材料作用的譜學信號,而性質也是材料對外部的刺激響應結果. 因此,材料的定量結構活性/性質關系(QSAR/QSPR)在本質上是不同譜學信號的相互關聯(lián),當某些表征信號可以比較完備地描述性質時,該表征手段常被作為性質的代理量(surrogate). 如利用某種試劑盒的UV特征吸收表達物質的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等. 因為結構可由組成和工藝共同決定,并通過物理、化學的知識闡明機理,因而結構性質關系常用結構特征建立性質的代理模型或代理量,從而用于理解、設計和調節(jié)控制材料的宏觀性質.

從理論和計算模擬仿真角度來看,高分子材料的結構僅包括化學結構和聚集結構兩方面. 化學結構用于區(qū)分組成物質的屬性,其定量化是化學信息學研究的核心內容. 主要包含化學語言的定量描述,包括編碼與解碼,比較成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系統(tǒng). 化學結構的圖論和圖特征表達這類有長久歷史的方法也存在一定程度應用和發(fā)展[13,14]. 在此基礎上,進一步通過分子指紋算法如Avalon、Daylight和開源RDKit庫[15]等計算出組成基元的數(shù)量、鍵連接、鍵角、二面角、共軛面、拓撲和電荷、極性、排斥體積、氫鍵等加權平均的拓撲幾何、物理、化學性質參數(shù). 化學信息學的這些計算方法的目的是從不同角度得到化合物的唯一編碼和性質數(shù)據(jù),但對于具有多層次結構的高分子來說這并不簡單[16],需要在整體覆蓋尺度和細節(jié)分辨率之間權衡[17]. 由于高分子存在手性、異構、構象、拓撲結構和多聚體,多個單體化學鍵連接存在強協(xié)同效應等,使得高分子既不能像蛋白質中的二十余種保守氨基酸進行可以枚舉成序列描述,又不能像小分子的SMILES可直接轉換為數(shù)值向量. 因此,高分子化學結構的定量描述仍需要取得突破.

另一方面是精確力場的發(fā)展,受高通量藥物和精準催化劑設計的驅動,經典的通用力場如CHARMM[18],AMBER,UFF[19],OPLS[20],MMFF[21]等已不能滿足需求,大量的研究工作在通用力場基礎上,針對特定一類分子體系,建立了力場修正,如ReaxFF系列[22],可遷移力場TAFFI[23]等. 對于高分子材料聚集結構的計算可分為粒子模型和場模型,前者將每個結構基元看作具有一定質量、性質和時空間排它占有的實體粒子,后者則描述結構基元在特定時空間的出現(xiàn)概率密度. 而計算模擬方法常見的有量子力學(quantum mechanics,QM),分子力學(molecular mechanism,MM),分子動力學(molecular dynamics,MD),蒙特卡洛(Monte Carlo,MC),耗散粒子動力學(dissipative particle dynamics,DPD),格子波爾茲曼(lattice Boltzmann,LB),密度泛函(density functional theory,DFT),自洽場(self-consistent field method,SCFT),相場模型(phase-field model,PFM)和有限元分析(finite element analysis,F(xiàn)EA)等. 這些計算方法涵蓋了電子、原子、分子、聚集體、相區(qū)、表界面和宏觀組件的多個尺度. 但是目前宏觀尺度和場論的計算方法還無法定量分辨材料的精確化學結構差異,微觀和介觀的計算模擬數(shù)據(jù)難以和宏觀性質形成充要關聯(lián),使“逆設計”陷入困境,這也是高分子材料多尺度計算長期未解決的難題.

該計算難題同樣也存在高分子材料多尺度結構的實驗表征中,特別是聚集結構的定量解析實現(xiàn)還需要長時間的努力. 化學結構、晶體結構或單分散結構通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準確解析,而在計算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實際材料至多有半定量數(shù)據(jù). 常見的材料結構實驗表征和計算方法的共性認識如圖2所示. 結構的實驗表征可分為組分、物相和微觀結構三大類,包括化學、色譜、能譜、質譜和光譜分析等手段. 結構信息的獲取包含材料樣品、探測源、作用原理與信號3部分. 探測源的能量可以從伽瑪射線、電子、中子、X射線、紫外可見紅外/偏振、微波、剪切或周期力等,而這些探測源在與樣品發(fā)生諸如透射、反射、折射、散射/衍射、吸收、熒光、共振和形變等作用后,結構表征信號可以探測到直接的強度或強度差、相位或相位差、微分或積分面積、水平或角度分辨等,從而產生了不同角度、不同原理的結構定量數(shù)據(jù),即譜學信號. 在統(tǒng)計力學的框架中,理論上所有的譜學信號都可以通過量子化學計算獲得,但由于高分子多尺度、多分散和長程關聯(lián)的特性,量化計算的時空尺度和計算成本受限導致可用數(shù)據(jù)非常稀少. 目前機器學習對于小分子化合物的光譜預測已取得一定進展[24],IR[25],MS[26],NMR[27]等在已知條件下能夠較為準確預測和譜圖模式識別. 即使是對于較為復雜的X光吸收光譜(XAFS),通過神經網(wǎng)絡算法結合圖論已能達到高于90%可靠度的準確預測,對峰位的預測誤差小于1 eV[28]. 可以預見,從國家大科學裝置、儀器開發(fā)商到終端科研和檢測人員,對高分子材料結構的定量數(shù)據(jù)一直都十分關注,大數(shù)據(jù)輔助結構定量數(shù)據(jù)的收集、分析和綜合利用的進展報道將越來越多. 大數(shù)據(jù)與結構譜學分析深度結合,未來將繼續(xù)向精細分辨、高通量快速分析,以及多尺度多角度結構數(shù)據(jù)的整合等方向發(fā)展.

  

Fig. 2  The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.



3 大數(shù)據(jù)研究的數(shù)據(jù)和算法進展

材料大數(shù)據(jù)研究的主要流程可參考綜述文獻[1],近4年來該研究領域蓬勃發(fā)展,算法和數(shù)據(jù)兩方面都形成了一些新的趨勢. 大數(shù)據(jù)研究的算法主要包括數(shù)據(jù)挖掘和機器學習兩部分,前者側重從文獻報道、專利、書籍、標準等文本或圖表中的信息批量提取,構建可機讀、可批量計算的數(shù)據(jù)庫或數(shù)據(jù)集,利用統(tǒng)計學呈現(xiàn)數(shù)據(jù)的完備性和代表性,當前的顯著進展與自然語言處理(natural language processing,NLP)以及化學信息學對化學物質的編碼和解碼算法的研究前沿密切關聯(lián). 而機器學習側重于對給定單一或多目標算法的優(yōu)化,自擴展搜索空間和給定函數(shù)的快速收斂. 與之緊密相關的是人們對數(shù)據(jù)資源的認識加深,涌現(xiàn)了一大批長期積累的、由專家參與的數(shù)據(jù)整理建設,目前與高分子材料相關的一些代表性數(shù)據(jù)庫或數(shù)據(jù)集列于表1中. 相比于4年前的綜述調研[1],傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)量,以及材料對應的物化性質等獲得了大量擴充,數(shù)據(jù)的完備性進一步提升,如PoLyInfo (polymer.nims.go.jp/en/). 同時也看到,基于量化和力場準確計算的物化參數(shù)也急劇增加,填補過去大量材料物化性質缺失,如clogP,HOMO,LUMO等. 值得一提的是PubChem (pubchem.ncbi.nlm.nih.gov), Reaxys (www.?reaxys.?com),SciFinder (sso.?cas.?org),QM7/9[29]等數(shù)據(jù)庫支撐了深度學習在小分子設計[30~33],反應合成[34~36]等領域的應用,同時也對高分子的合成和性質預測提供了應用基礎.

Table 1  List of representative data resources for the big data study of polymer materials.

SourcesNameType
BookPolymers: a property database[37]Experimental

Handbook of polymers[38]Experimental

Properties of polymers[6]Experimental

Prediction of polymer properties[39]Experimental

Polymer synthesis: theory and practice[40]Experimental

Polymer handbook[41]Experimental

Phase equilibria and thermodynamic data of aqueous polymer solutions[42]Experimental
OnlinePoLyInfo (polymer.nims.go.jp/en)Experimental

CROW: polymer properties database (polymerdatabase.com)Experimental

Polymers: a property database (poly.chemnetbase.com)Experimental

CAMPUS plastics (campusplastics.com)Experimental

Landolt-B?rnstein (materials.springer.com)Experimental

Polymer property predictor and database (NIST) (pppdb.uchicago.edu)Mixed

Khazana database (khazana.gatech.edu)Simulation

Identify database (www.ringgold.com/identify)Experimental


在機器學習的算法方面,如圖3所示,增強學習[43,44]、主動學習[45]、深度神經網(wǎng)絡等在近幾年取得長足發(fā)展. 在傳統(tǒng)的監(jiān)督式和無監(jiān)督式學習方法中,用于回歸分析、分類算法、聚類和降維分析除了經典算法如隨機森林(random forest, RF)[46]、邏輯回歸(logistic regression)[47]、樸素貝葉斯(naive Bayes)[48]、支持向量機(support vector machine, SVM)[49]、K-means 聚類[50]、層次聚類(hierarchical clustering)[51]和主成分分析(principal component analysis, PCA)[52]等得到進一步的廣泛應用外,一些新的算法也從提出快速地得到應用,多學科交叉促進材料研究模式變化的節(jié)奏隨著信息高度流通明顯加快. 對于缺少大量專家標記數(shù)據(jù)的應用場景,半監(jiān)督式學習算法得到快速發(fā)展,包含自我訓練[53]、協(xié)同訓練[54]、直推式支持向量機[55]和圖網(wǎng)絡方法[56]等.

  

Fig. 3  List of representative machine learning and deep learning algorithms.


在強化學習算法方面,其原理類似于給定模型的計算模擬仿真,通過打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型. 典型的強化學習算法有Q-learning方法(如深度Q-網(wǎng)絡[57],Q值函數(shù)反向傳播算法[57~59]、策略梯度方法[60]和信任區(qū)域策略優(yōu)化[61])等. 這些算法與前述經典學習算法復合或定制用于特定場景,出現(xiàn)了主動學習、強化學習、遷移學習、多任務學習等一系列新的方法分支. 這些算法可以對已知人工數(shù)據(jù)點進行生成擴充[62~66],進而提升模型性能,同時也可助力高分子材料實現(xiàn)高通量實驗和高通量表征[67],為高效構建高分子實驗數(shù)據(jù)庫提供了新思路[68]. 這方面感興趣的讀者可參考文獻[69,70]等書籍了解更多原理和應用細節(jié).

特別值得一提的是近幾年深度學習對整個機器學習算法、人工智能和大數(shù)據(jù)從基礎研究到生產應用都帶來了極大的沖擊. 人工智能自動編程,機器學習數(shù)據(jù)自動生成等的急速發(fā)展與深度學習算法的高速發(fā)展密切相關,在廣泛應用的機器學習編程語言Python,R,Matlab的基礎上,新產生了一些建模框架,如Pytorch,TensorFlow,MxNet等. 一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt[71]和GPTune[72],COMBO[73]等. 也有一些經典的數(shù)據(jù)和算法項目得到持續(xù)發(fā)展,如早期DeepChem開源項目,包括MoleculeNet[74]有機分子的基準和訓練數(shù)據(jù)集,面向化學和材料數(shù)據(jù)的建模軟件ChemML[75],以及面向QSPR/QSAR的自動化工具TPOT[76], auto-sklearn等[77~80]. 但這些數(shù)據(jù)和工具包很少考慮高分子的應用場景,主要原因是數(shù)據(jù)集較小,缺少基準數(shù)據(jù),數(shù)據(jù)不確定性高或歧義較多等. 在算法方面,迄今得到廣泛使用的深度學習算法包括循環(huán)神經網(wǎng)絡(RNN)[81],變分自動編碼器(VAE)[82],生成對抗網(wǎng)絡(GAN)[83]等. 這些算法在高分子材料領域已得到一定的應用并表現(xiàn)出巨大潛力. 如Chen等利用RNN對基于SMILES準確預測了高分子的玻璃化轉變溫度(Tg)[84]. Batra等[85]利用VAE結合高斯過程回歸(GPR)模型發(fā)現(xiàn)了預期在高溫、高電場極端條件下具有潛在使用價值的新聚合物. Hiraide等開發(fā)了一個逆向設計框架GAN算法,對一類具有共性結構的高分子材料實現(xiàn)了從楊氏模量到化學結構的“逆設計”[86].

4 高分子材料大數(shù)據(jù)研究的代表性進展

4.1 進展分類

高分子材料大數(shù)據(jù)研究是材料基因組學或材料信息學中極具挑戰(zhàn)的重要課題,當前階段材料基因組學強調高通量計算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對于高分子材料實現(xiàn)起來存在諸多困難,源于高分子材料多分散和多尺度關聯(lián)等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應不明顯. 近年來仍在高速發(fā)展的化學信息學,聚焦化學語言數(shù)值化、微觀結構多角度精確計量等極大地促進了材料信息學的發(fā)展,特別是在小尺寸強關聯(lián)體系用化學信息學方法可直接指導材料的“逆設計”.

為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進展,在CPSPPr中,主要按材料應用性質分類,包含新型高分子合成與自組裝、機械熱性質、光電聲磁性質、分離性質等材料分類. 在大數(shù)據(jù)計算方法、數(shù)據(jù)集,以及計算預測與實驗驗證迭代的方法和思路的進展也將融合到這些具體材料分類中. 整體來說,得益于化學信息學對物質化學屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無機非金屬材料方面的成功應用,但其他性質的高分子材料大數(shù)據(jù)研究還缺乏能夠推動行業(yè)研究和生產模式發(fā)生改變的顯著成果. 在組成工藝決定結構、結構性質關系(QSPR/QSAR)以及性質性能3類主要關系中,結構性質關系研究較多,而結構多數(shù)限于化學結構,對高分子材料聚集結構的關聯(lián)關系研究報道非常少見. 高分子材料大數(shù)據(jù)研究的實際應用如配方工藝優(yōu)化、材料新性質發(fā)現(xiàn),以及材料組成工藝決定結構的基礎研究這些方面的報道也較少. 下面我們將圍繞材料性質分類對近幾年的代表性進展進行簡要回顧介紹.

4.2 高分子合成與自組裝

高分子合成的大數(shù)據(jù)研究主要集中在催化劑設計、聚合反應中的物料配比投料、小分子和熱量管理,產物的自動分離表征和實驗方案協(xié)同調整等方面. Cooper小組開發(fā)出一種合成機器人,能夠使用機器學習算法對實驗迭代改進,實現(xiàn)目標光催化劑的精準合成[87]. 但對高分子合成而言,聚合反應及后續(xù)產物表征比小分子或無機非金屬材料要復雜得多,Chen等[88]開發(fā)了依賴機器學習的聚合規(guī)劃平臺來應對這一挑戰(zhàn),從化學組成、分子量和分子量分布3個維度優(yōu)化了通過自由基聚合反應得到的高分子產物. 在機器學習與化學合成數(shù)值計算結合方面,Yaron等[89]使用深度強化學習技術來預測原子轉移自由基聚合(ATRP)中聚合物的分子量分布形狀,通過實時預測與反應物料添加控制實現(xiàn)閉環(huán)反饋,從而可以得到具有精準目標分子量分布,如具有高斯分布或雙峰分布的高分子產物.

在高分子的自組裝相圖預測方面,F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經網(wǎng)絡的打分函數(shù),極大地促進了函數(shù)解析的收斂速度,通過深度學習建立了密度分布函數(shù)鞍點對高分子結構和組成參數(shù)的依賴性,實現(xiàn)了自組裝相圖的快速計算[90]. 林嘉平等通過組成和作用空間的網(wǎng)格細化,結合主動學習對SCFT計算相區(qū)邊界的快速定位,提升了自組裝相區(qū)的識別精度[91]. Shen等則借助機器學習與相場模型計算的結合,對聚偏氟依稀PVDF復合物的介電、導電和楊氏模量進行了預測[92],豐富了對CPSPPr中微觀結構和相界面的認識,提升了具有特定微結構高分子新材料的設計能力.

4.3 機械熱性質

由于高分子材料一般隨溫度升高經歷玻璃化轉變溫度(Tg)和熔點(Tm)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體,其機械性質發(fā)生明顯改變. 因此,無論是高分子均聚物、共聚物、共混體系還是復合材料,其機械和熱性質是密不可分的. 在熱性質方面,常被看作高分子本征性質的TgTm以及結晶、玻璃化轉變熱焓等與高分子的化學、立構和拓撲結構密切相關,也是機器學習長期關注的預測目標. 在機械性質方面,主要包括楊氏模量、拉伸模量、損耗角(tanδ)等源于高分子材料形變中的應力-應變關系既是理論計算方法,即本構模型關注的重點,也因其非線性、非單調性等特點成為機器學習挑戰(zhàn)的難題.

對高分子的TgTm的機器學習預測已經有較長的研究歷史. 早期的流行方法是通過van Kervelen提出的基于基團加和性方法來預測[37],該方法的預測值只能提供定性參考. 之后Bicerano[39]引入了一系列物理描述符,包括原子或鍵連接指數(shù),原子間相互作用等構建了高分子Tg相關因素和關聯(lián)關系的物理模型. 近年來,Liu和Cao[93]從DFT計算獲得的4個物理量(極化率、軌道能、熱能和熵)作為特征,進而利用機器學習算法構建了Tg的較為準確預測模型. Joyce等[94]提出了一種基于單體SMILES本征性質通過層級神經網(wǎng)絡算法來預測Tg,Ramprasad等利用主動學習結合GPR[95]對已知聚合物的Tg進行了準確預測. 毫不夸張地說,從早期的自由體積概念解釋Tg[96],到現(xiàn)在利用多因素的機器學習定量預測,玻璃化轉變溫度Tg的預測已然成為高分子材料建立大數(shù)據(jù)研究方法的“試金石”.

通過拉伸曲線和動態(tài)力學曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長率和能量耗散等重要力學性質參數(shù),由于這些量與材料多尺度多因素相關,可用機器學習來建立定量的組成與性質聯(lián)系. Jin等[97]利用機器學習優(yōu)化環(huán)氧樹脂的組成,針對楊氏模量、拉伸強度、斷裂伸長率和Tg 4個性質同時優(yōu)化得到高性能樹脂. 在復合材料方面,Kopal等[98]使用神經網(wǎng)絡準確預測了炭黑含量對橡膠應力-應變曲線的影響規(guī)律,Le等[99,100]應用高斯過程回歸預測拉伸強度,應用神經網(wǎng)絡預測了復合材料楊氏模量對碳納米管量的依賴關系. 對于DMTA曲線,Kopal等[101]采用神經網(wǎng)絡算法對熱塑性聚氨酯建立了指導性定量模型,Jordan等[102]使用神經網(wǎng)絡模型定量描述了聚丙烯的溫度依賴性和應變速率的依賴性. 這些研究雖然實現(xiàn)了給定機械熱性質的準確預測,但“黑盒子”神經網(wǎng)絡模型的低可解釋性,無法給出目標性質的可實施調控方案而一直飽受詬病.

一種變通的路線是將機器學習與計算模擬或本構方程結合起來. 例如:錢虎軍等[103]利用SVM結合MD模擬研究了高分子材料在Tg附近的形變過程,揭示了應變局域化(strain localization)對斷裂失效的重要貢獻. Menon等[104]利用層次機器學習結合Monte Carlo模擬鏈構象及統(tǒng)計力學性質,對聚氨酯彈性體的斷裂強度,斷裂應變和tanδ進行了準確預測. Zhang等[105]利用隨機森林(RF)與MD模擬結合,構建了聚脲化學結構與有限元分析FEA的定量關聯(lián),從而為拓展聚酯類軟-硬嵌段共聚物材料的力學性質提供參考. Ghaderi等[106]將三維應力-應變張量映射約化到一維并建立了可靠代理模型,相較于傳統(tǒng)本構模型在計算速度和精度體現(xiàn)出顯著優(yōu)勢. Chung等[107]通過構建神經網(wǎng)絡本構模型普適性地描述了聚苯乙烯(PS)在不同加載條件下(包括單向、雙軸和三軸的拉伸,壓縮和剪切)的應力-應變關系. 張立群等借助大數(shù)據(jù)分析了85種本構模型對無填充橡膠和高填充橡膠拉伸曲線的準確度[108]. 我們在對聚氨酯彈性體力學性能大數(shù)據(jù)研究中,對本構模型的描述曲線的定量特征、相互等價性及其對聚氨酯彈性體大量拉伸曲線的定量解釋度進行了嚴格論證[109,110],同時也對ABS樹脂的模量、強度和斷裂伸長率的可加和性進行了驗證,發(fā)現(xiàn)斷裂伸長率在不同組合下部分不滿足加和性[111]. 雖然經歷長期的研究和眾多努力,由于機械熱性質的耦合與多尺度結構變化密切相關,無先驗模型直接預測高分子材料的機械熱性質仍然極具挑戰(zhàn).

4.4 光電聲磁性質

由于光電聲磁性質往往是通過幾個納米尺度以內官能團的相互作用體現(xiàn),即使是包含聚集熒光猝滅(ACQ)、聚集誘導發(fā)光(AIE)等前沿究熱點,近程相互作用保障了其性質的信號或代理量可以利用化學信息學方法較為準確地計算和預測. 這類性質預測的核心是將機器學習與高通量第一性原理計算相結合,據(jù)此來設計具有特定光電聲磁性質的高分子材料已有不少報道. 部分代表性工作包括Lu等[112]立足于第一性原理數(shù)據(jù)庫,構建了共軛聚電解質的HOMO/LUMO及其帶隙(Eg)的準確預測模型. Ramprasad等[113]在高分子基因組項目(polymer genome)的支持下,對聚合物及其復合材料的介電性質、絕緣性質、超級電容和靜電儲能等性質進行了準確預測,并推進了新材料的生產應用. 南策文等[114]開發(fā)了反向傳播神經網(wǎng)絡增強的相場模型來模擬聚合物納米復合材料的介電響應、電荷傳輸和擊穿過程,對電容等儲能材料性能進行可靠的虛擬評估,減少材料研發(fā)中的試錯. 一系列的聚合物特性包含帶隙、介電常數(shù)、原子化能和溶解度參數(shù)、濁點等,也可使用機器學習實現(xiàn)準確預測. 例如:高分子折射率QSPR的多元線性模型揭示了sp2雜化碳原子的重要貢獻[115],該思路啟發(fā)了高導熱新型聚合物的設計[116].

在高分子光伏材料方面,Saeki等[117]基于RF預測模型,對聚合物和非富勒烯小分子受體有機光伏性質預測達到85%置信度,進而對二十余萬個虛擬共軛聚合物進行了高通量篩選,篩選出候選的苯并二噻吩和噻唑并噻唑的系列共軛聚合物,進而得到實驗驗證. Min等[118]基于565個供體/非富勒烯受體(D/A)組合,發(fā)現(xiàn)隨機森林模型在LR、MLR、BRT、RF、ANN 5種常用機器學習算法表現(xiàn)最好,為共軛聚合物光伏性能預測算法和指導有機光伏材料設計制備提供了可靠參考. Ohuchi等[119]應用自組織映射的無監(jiān)督機器學習結合分子描述符成功建立了分子化學結構與有機光伏材料的功率轉換效率(PCE)的代理模型. Sun等[120]引入圖論、字符串、描述符和指紋來表示高分子的化學結構,發(fā)現(xiàn)長度超過1000位的特征可以應用多種機器學習算法對PCE實現(xiàn)高準確度穩(wěn)定預測. 在與模擬仿真的結合中,Pablo等[121]通過將監(jiān)督式機器學習算法聚焦光電效率的哈密頓量,通過聚合物的構象集合對非晶和多分散共軛材料中電子結構的計算提供了可靠預測,其計算效率和準確性明顯優(yōu)于已報道方法,為拓展柔性非共軛聚合物光伏材料的高通量設計提供了成功范例.

4.5 分離性質預測

高分子材料在物質分離領域具有廣泛而重要的應用. 物質分離主要有相變(如蒸餾、升華、沉淀、結晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過濾、離心等)、離子交換和膜分離等方法. 在此聚焦聚合物分離膜方面,按應用場景可分為氣體、水處理、離子膜、能源膜和有機分離膜等,按分離物質尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等,膜的組成、微結構和表面是性能調控的核心因素. 而分離膜的性能指標包含驅動力種類和能耗、通量、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素,分離物質需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應性等,聚合物膜的組成、制備工藝和使用條件都會對膜性能產生重要影響. 因此,利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨特的優(yōu)勢. 我們通過對聚合物質子交換膜(PEM)的CPSPPr的開展了一系列大數(shù)據(jù)研究,包括溫度、水含量、復合材料對全氟磺酸(PFSA)膜[122~126],以及碳氫磺酸膜的結構、性質以及膜電極性能的極化曲線[127,128],為設計和制備質子交換膜燃料電池(PEMFC)的核心膜材料提供了可靠參考和虛擬實驗設計工具. 與此同時,對包括聚砜(PSF)、聚醚砜(PES)和聚偏氟乙烯(PVDF)基材的超濾、微濾和納濾膜的性能進行了可靠預測和等級分類,并開發(fā)了相應的軟件包PolySML(發(fā)布在polysml.github.io)來實現(xiàn)計算機輔助材料設計[129]. 基于這些研究,提出了Lsig值方法的特征信息量、信息冗余和預測模型可靠性的一致性判據(jù),該方法對于各類高分子材料的大數(shù)據(jù)研究具有通用性.

在全世界可持續(xù)發(fā)展,我國的“碳達峰,碳中和”等的政策趨勢引導下,氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長. 模型氣體分離對包含CH4/CO2,CO2/N2,O2/N2等也過渡到較難的分離如多組分混合氣體、C1~C4混合氣和烯烴烷烴混合氣等,經典的材料體系分子篩、多酸和MOF等仍占主流,高分子材料則聚焦在聚酰亞胺、芳綸、聚硅烷等對氣體具有不同滲透系數(shù)的致密膜材料. 利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿熱點,Kumar等[130]基于聚合物單體的拓撲結構,利用基于路徑的特征法訓練了高斯過程回歸算法,高通量篩選了萬余種均聚物的氣體分離行為,并合成了兩種最具潛力的聚合物,發(fā)現(xiàn)它們超越了CO2/CH4分離性能的Robeson上限. Lively等[131]利用分子指紋將聚合物結構表征作為機器學習算法的輸入,建立了高精度的聚合物膜透氣性預測模型,該模型對不同官能團的聚合物基材的膜氣體分離性質進行了可靠預測.

在能源膜領域,伴隨著鋰離子電池快速增長的巨大市場,聚合物鋰離子隔膜的研究也大量地豐富起來. Oyaizu等[132]構建了迄今最大的鋰導電固體聚合物電解質數(shù)據(jù)庫(含約104個樣本),利用遷移學習的圖神經網(wǎng)絡準確預測這些電解質的電導率,平均絕對誤差小于1 S/cm. Ganesan等[133]將粗粒化分子動力學模擬和貝葉斯優(yōu)化結合同時預測了離子電導率和粘度兩個目標,給出了鋰離子電池中離子傳輸和機械性質的權衡關系. Grossman 等[134]利用類似的粗粒化分子動力學模擬與機器學習結合,在物理描述符的高維空間剖析了鋰電導率與材料本征性質的關系,為改進電解質配方提供了參考. Seshadri等[135]則為鋰離子電池的電解質創(chuàng)建了圖形化的交互式數(shù)據(jù)平臺,支持材料篩選和性質設計,為計算輔助設計提供了虛擬實驗平臺.

聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報道,值得一提的還有Razmjou等[136]利用神經網(wǎng)絡和貝葉斯正則化算法對超濾納米復合膜的性能預測,He等[137]利用深度學習對陰離子交換膜的OH-電導率預測等. 而MOF方面繼續(xù)取得顯著進展,Snurr等[138]利用機器學習和分子指紋設計了新的MOF材料,使手性小分子的分離效率提升到85%. 契合2021年諾貝爾化學獎對手性反應的支持,手性物質分離迅速成為當前的研究熱點,但相應的高分子分離膜設計和制備充滿挑戰(zhàn),大數(shù)據(jù)研究正助力該難題的解決.

5 難題與挑戰(zhàn)

如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學本質上是譜學數(shù)據(jù)的預測. 目前基于量化計算對小分子的多尺度譜學數(shù)據(jù)已能較為準確的計算和預測,對于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結構和生物活性利用生物信息學的一體化建模(information-driven integrative modeling)已經能夠提供可與人類專家媲美的準確預測. 蛋白與核酸結構定量化的成功與PDB的長期建設密不可分,但對于高分子,由于其二面角旋轉位壘與熱漲落能量1 kBT相當,并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結構數(shù)據(jù)不能夠用原子坐標的辦法直接描述,需要更復雜的構象集合來表示,但目前還缺少公認可靠高效的概念和框架. 在實際的高分子材料體系,往往還包括一定量的復合成分、添加劑或助劑,這些物質分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長程作用的芳環(huán)堆砌、靜電作用等對構象、聚集和性質的影響規(guī)律往往還依賴計算模擬近似分析,缺少可遷移利用的基礎定量數(shù)據(jù). 總的來說,對于具有典型的多分散、局域精度高和大尺度準確、存在非線性、非單調性累積協(xié)同效應的高分子材料體系,從近程作用化學異構和拓撲結構的化學信息學定量描述到跨尺度關聯(lián),大數(shù)據(jù)研究仍面臨權衡. 這些問題在傳統(tǒng)研究中長期存在,常見表述為臨界現(xiàn)象、相變和相轉變、標度行為、多級弛豫等概念模型. 理論模型中會采用了多種近似,如假定結構分布在平均場背景中、或假定高分子鏈長或拓撲結構滿足高斯分布、或假定物質聚集可用隨機相近似(random phase approximation,RPA),或假定結構和性質關系在多層次具有自相似性(self similarity),或在臨界點附近如圖1所示拖尾分布存在標度關系指數(shù)分布等. 在實際應用的材料中,這些假設可能失效但某些模型在一定條件下可能仍舊適用,而理論模型的不可靠性需要嚴格評估. 因此,當前高分子材料大數(shù)據(jù)研究的首要難題和挑戰(zhàn)是系統(tǒng)客觀地評估已有的理論模型、經驗公式的可靠性,以及模型定量描述的準確度和適用性邊界.

其次,隨著研究論文報告數(shù)量快速增長,高分子材料多方面的一手數(shù)據(jù)已相當豐富但某些關注性質仍趨于在較窄的分布區(qū)間,在利用大數(shù)據(jù)構建CPSPPr過程中極有可能出現(xiàn)多重簡并,在機器學習的“黑盒子”算法中出現(xiàn)非唯一解. 在沒有高分子專家深入?yún)⑴c的情況下,有相當一部分研究報道過分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalization error),再加上機器學習黑盒子的特點,需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準性、偏差-方差權衡等方面,合理控制預測性能和可解釋性. 然而近幾年報道的相當一部分機器學習模型的解釋性非常差,甚至某些參量因素可能與目標預測量形成與常規(guī)共識相悖的關系,這些預測模型可能對后續(xù)研究產生誤導. 這類現(xiàn)象正是高分子材料局域弱效應,長程作用累積強響應的典型特征寫照. 另外,在高分子材料大數(shù)據(jù)研究的更多場景,由于研究或應用的關注點不同,每種高分子材料各方面的性質屬性往往存在缺失. 目前通用的一些數(shù)據(jù)缺失值處理方法,如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性,特別是當材料體系在相轉變臨界點附近等. 因此,大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一. 目前已有一些科學家注意到這類問題,如基于博弈理論的Shapley值法[139],或者在有限數(shù)據(jù)集中的SHAP技術等[45]在材料領域已得到初步應用.

歸功于量化計算和化學信息學的進展,目前針對小分子、金屬材料和無機非金屬材料的“逆設計”已能實現(xiàn)高通量計算和高通量篩選. 但對于高分子材料,由于其多分散、多尺度響應的特點,高效可靠的計算方法仍未實現(xiàn). 筆者看來,高分子材料要實現(xiàn)“逆設計”,首先需要建立一系列可靠的基準數(shù)據(jù)集(benchmark dataset),這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結構和性質表征方法,對CPSPPr中各要素有準確描述,且對某類聚焦性質、聚合物種類、加工方法等具有完備性和代表性. 這些數(shù)據(jù)集的建設一方面需要支持科研人員對商品或實驗樣品開展批量的測試表征獲得一致性數(shù)據(jù),另一方面需要支持理論計算人員將已有的大量分散數(shù)據(jù)匯集起來,建立不同源數(shù)據(jù)之間的關聯(lián)和定量轉換關系. 特別是要改變工業(yè)和工程材料數(shù)據(jù)與實驗室測試數(shù)據(jù)脫節(jié),通用報告標準缺乏,相互不能參考,數(shù)據(jù)陷入不同標準中離散不可用的現(xiàn)狀. 即使是同領域的學術論文中,由于缺乏對數(shù)據(jù)、特征和實驗細節(jié)的充分表述,對后續(xù)研究和重復性驗證造成障礙. 如在高分子材料制備、加工過程數(shù)據(jù)的收集和預測,類似不飽和聚酯溶液黏度[140],材料成形過程多尺度結構和特征[141]等方面僅有少量報道. 更普遍地,工業(yè)的拉彎沖測試眾多標準不一,與實驗室測試無法點對點轉換,合成加工工藝缺乏通用制式流程,實驗室個性化,工業(yè)穩(wěn)定性不能一統(tǒng)江湖,也是學術界和工業(yè)界數(shù)據(jù)斷層的重要原因. 在高分子材料從實驗室走向生產線的過程中,還涉及批量生產中的良品率、穩(wěn)定性、樣品/產品性質對調控參數(shù)依賴的一致性等重要的調控數(shù)據(jù). 其中針對大宗材料的特定應用(如聚丙烯樹脂可用于拉絲成纖、吹膜、發(fā)泡、注塑、壓模等制備服裝、醫(yī)療器械、包裝、汽車、家電、自行車、管道、容器等)、或者特定合成加工成形工藝、或者特定應用的多種高分子材料(如前述聚合物分離膜)等,常常需要針對CPSPPr的大數(shù)據(jù)要素中建立圍繞某個保守特性的“小數(shù)據(jù)集”,這對于理論、計算模擬仿真以及大數(shù)據(jù)模型的評估都至關重要. 這些小數(shù)據(jù)集一般都有專家標記,是基準數(shù)據(jù)集的主要形成路線. 經典的橡膠彈性體力學性能本構方程發(fā)展的Treloar數(shù)據(jù)集[142],Bates的兩相自組裝相圖[143]等都是高分子領域極其重要的基準數(shù)據(jù)集,但類似被廣泛認可的基準數(shù)據(jù)集卻極其有限. 通過基準數(shù)據(jù)集,可以明確物理特征的分布范圍、相關因素和關聯(lián)關系,進而挖掘出從分子層面到材料成形的有效調控手段,從而去實現(xiàn)個性化、智能化時代對高分子材料的精準“逆設計”.

在生產方面、無論是原材料合成、母料制備還是器件生產裝配的上中下游企業(yè),如何將大量生產數(shù)據(jù)利用大數(shù)據(jù)先進算法和系統(tǒng)分析,推動生產力革新. 目前的狀況是企業(yè)的生產自動化、物料和能量管理流通、測試和質檢等部門數(shù)據(jù)分散且歸屬于不同的軟件管理系統(tǒng),這些數(shù)據(jù)存在不同編碼并防止批量導出等限制,前期需要企業(yè)投入相當大的人力物力實現(xiàn)數(shù)據(jù)的統(tǒng)一流通. 由于大數(shù)據(jù)技術的人才培養(yǎng)群體還未成規(guī)模,大多數(shù)企業(yè)缺乏相關專業(yè)人才能夠高效地利用這些生產數(shù)據(jù),受權限和保密要求,生產數(shù)據(jù)與企業(yè)外的合作還需對數(shù)據(jù)進一步脫密. 因此,面向生產的大數(shù)據(jù)研究和開發(fā)應用首先要突破數(shù)據(jù)源的壁壘,此外在兼顧連續(xù)性生產的前提下,應謹慎引入聚焦組成配方設計、工藝優(yōu)化、檢測質檢一體化的相關預測模型的部署和更新. 在高分子材料領域,筆者認為當前大數(shù)據(jù)的模式、技術的成熟度還無法全面支撐智能制造工業(yè)4.0的實現(xiàn),但與現(xiàn)代生產制造企業(yè)的ERP,MES,CRM和BTO等管理和生產系統(tǒng)結合開發(fā)數(shù)據(jù)價值,在逐步提升制造模式和生產力水平的變革中一定會帶來正面的收益.

6 結語與展望

高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段,可以預見在未來幾年中,相關的研究報道和生產應用實踐將急劇增加. 得益于生物信息學較為成熟的多學科交叉深入合作和數(shù)據(jù)共享模式,化學信息學對物質屬性的覆蓋度和準確率的提升,以及應對復雜體系和模糊語義的機器學習算法發(fā)展,材料信息學在金屬、無機非金屬和有機小分子材料研究中取得了廣泛的成功,也切實推動了高分子材料的大數(shù)據(jù)研究. 由于高分子材料描述模糊和歧義命名等長期歷史積累問題,以及高分子的多分散、多尺度、非線性協(xié)同效應顯著、長程弱關聯(lián)強響應等特點,對高分子材料的準確定量數(shù)據(jù)和高通量計算難以實現(xiàn),是造成高分子材料大數(shù)據(jù)研究進展滯后的主要因素. 在數(shù)據(jù)的標準化和可共享流通方面,生產應用數(shù)據(jù)與實驗室研究數(shù)據(jù)嚴重脫節(jié)、工業(yè)化和原料供應數(shù)據(jù)不透明造成大量重復表征測試,基于不同關注點對高分子的基礎表征數(shù)據(jù)和性質測試方法等關鍵信息缺失,使高分子材料可用的數(shù)據(jù)庫遠未達到諸如CSD,Reaxys,PDB,UniProt等規(guī)模水平,但專一聚焦的高分子材料數(shù)據(jù)庫已有許多在路上. 高分子材料大數(shù)據(jù)研究基礎的數(shù)據(jù)源建設發(fā)展方向,很可能類似當前計算模擬領域的通用力場和專用力場修正的發(fā)展模式,即通用高分子多譜學數(shù)據(jù)與功能高分子特殊結構性質數(shù)據(jù)的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府機構(如NIST, NIMS等)以及跨國公司等已廣泛布局數(shù)據(jù)的匯集和價值開發(fā),數(shù)據(jù)已成為重要資源. 數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展,在頂層設計和支持下對具有多種應用場景的高分子材料具有高覆蓋度、精細分辨,支持高通量快速分析,提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享. 同時在面向特定應用和研究興趣,前沿領域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉,在高分子新材料研發(fā)或經典問題的研究中產生突破進展.

另一方面,大數(shù)據(jù)研究的核心方法進展是機器學習,傳統(tǒng)的理論和計算模擬方法進展目前僅限于力場的發(fā)展,對于較大尺度的模擬仿真手段如何與大數(shù)據(jù)方法深度融合,極有可能是高分子經典的多尺度難題取得突破的關鍵. 在高分子材料大數(shù)據(jù)研究的核心組成-工藝-結構-性質-性能關系中,應鼓勵研究人員共享新材料多方面的表征數(shù)據(jù)、行業(yè)專家牽頭整理專業(yè)材料或應用領域標準、系統(tǒng)開展不同標準下數(shù)據(jù)的轉換,建設一定規(guī)模的基準數(shù)據(jù)集. 對于單獨小數(shù)據(jù)規(guī)?;蛘植嫉拇髷?shù)據(jù)模型要謹慎對待,客觀評價,避免為預測而預測,或“蹭熱度”的拼湊研究,可能會誤導后續(xù)研究. 同時也要著力培養(yǎng)交叉學科人才,從數(shù)據(jù)挖掘特別是高分子專業(yè)語言的可計算處理、機器學習算法、專業(yè)數(shù)據(jù)分析與可視化、模型評價和理論可解釋性解析等多方面合作,共同推進高分子材料大數(shù)據(jù)研究的快速發(fā)展,從而提升材料和產品設計、生產制造的智能化水平.


關鍵字:優(yōu)秀論文

網(wǎng)絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯(lián)盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯(lián)盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯(lián)盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯(lián)盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言