您的位置：網(wǎng)站首頁(yè) > 優(yōu)秀論文 > 教育論文 > 正文

高分子材料大數(shù)據(jù)研究：共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)

作者：劉倫洋丁芳李云琦來(lái)源：《高分子學(xué)報(bào)》日期：2022-06-15人氣：6263

高分子材料成就了我們生活的方方面面，在提升人類生活的便易性，健康舒適，助力人類探索未知世界的同時(shí)，也成為全球人類可持續(xù)發(fā)展和環(huán)境保護(hù)的主要挑戰(zhàn)之一. 高分子材料的機(jī)械熱、光電聲磁、分離、降解和加工性質(zhì)是設(shè)計(jì)、生產(chǎn)和應(yīng)用的聚焦內(nèi)容，其柔性可設(shè)計(jì)的特征，有力地支撐著社會(huì)的多樣化發(fā)展，對(duì)密切相關(guān)的組成、加工、結(jié)構(gòu)及其性質(zhì)關(guān)系的認(rèn)識(shí)也在不斷完善中. 在對(duì)高分子材料個(gè)性化、智能化生產(chǎn)和應(yīng)用的驅(qū)動(dòng)下，傳統(tǒng)經(jīng)驗(yàn)理論提供的定性指導(dǎo)模型漸不能滿足，而對(duì)支撐給定性質(zhì)實(shí)現(xiàn)材料逆設(shè)計(jì)的定量決策模型產(chǎn)生大量需求. 特別是人們對(duì)于給定目標(biāo)性質(zhì)實(shí)現(xiàn)對(duì)材料組成工藝精準(zhǔn)定位“逆設(shè)計(jì)”的渴求，迫切需要對(duì)高分子材料多因素及其聯(lián)系的定量化研究，即大數(shù)據(jù)研究，取得進(jìn)展. 基于我們4年前對(duì)材料基因組學(xué)研究的梳理^[1]，本文將介紹對(duì)高分子材料大數(shù)據(jù)研究共性基礎(chǔ)的進(jìn)一步思考，綜述近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展，探討高分子材料大數(shù)據(jù)研究這一急速升溫領(lǐng)域的前沿方向和當(dāng)前面臨的主要挑戰(zhàn).

1 材料大數(shù)據(jù)研究的共性基礎(chǔ)

眾所周知，人類探索未知世界存在4種認(rèn)知范式，即以實(shí)驗(yàn)試錯(cuò)法為主的第一范式，以理論推理演繹為主的第二范式，以基于模型的計(jì)算模擬仿真為主的第三范式，和以數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新為主的第四范式. 這4種范式都可以產(chǎn)生基礎(chǔ)可用的數(shù)據(jù)，在數(shù)據(jù)基礎(chǔ)上建立聯(lián)系形成可流通的信息，從信息流中梳理出一定條件下存在的模式形成知識(shí)，進(jìn)一步凝練出法則(principle)從而獲得智慧，即科學(xué)認(rèn)知的DIKW (Data，Information，Knowledge，Wisdom)框架. 在該框架中，人類生活生產(chǎn)和研究長(zhǎng)期匯集的基礎(chǔ)科學(xué)數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開(kāi)共享，機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)和大數(shù)據(jù)(注：這4個(gè)專業(yè)名詞的內(nèi)涵具有高度重疊的共同知識(shí)，但有不同的側(cè)重，相互間聯(lián)系仍在變化中)為代表的新興理念和技術(shù)手段，正快速地發(fā)展并重塑著生產(chǎn)力和生活模式. 統(tǒng)計(jì)力學(xué)和貝葉斯統(tǒng)計(jì)學(xué)與多個(gè)學(xué)科交叉，先后形成了生物信息學(xué)、化學(xué)信息學(xué)和材料信息學(xué)3個(gè)前沿學(xué)科. 目前生物信息學(xué)發(fā)展的典型代表是AlphaFold2^[2]的產(chǎn)生，在預(yù)測(cè)蛋白質(zhì)序列到三維折疊結(jié)構(gòu)的經(jīng)典難題中已經(jīng)部分超過(guò)人類專家. 化學(xué)信息學(xué)仍在快速發(fā)展中，對(duì)短程關(guān)聯(lián)體系，小分子、力場(chǎng)和作用、化學(xué)語(yǔ)言的符號(hào)化和定量表達(dá)等的進(jìn)展強(qiáng)有力地推動(dòng)著對(duì)眾多物理、化學(xué)、生物現(xiàn)象和過(guò)程的定量認(rèn)識(shí)，其中近幾年以人工智能驅(qū)動(dòng)新藥開(kāi)發(fā)(即AI制藥)而廣為人知. 而材料信息學(xué)正處于急速膨脹階段，個(gè)性化和智能制造正滲透到社會(huì)的方方面面，有力地支撐著全人類的可持續(xù)發(fā)展和未來(lái)美好生活愿景.

高分子材料的大數(shù)據(jù)研究是材料信息學(xué)的前沿核心內(nèi)容，而材料信息學(xué)的研究存在如圖1所示的共性框架，即組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系(CPSPPr)，其中包含組成工藝決定結(jié)構(gòu)，結(jié)構(gòu)性質(zhì)關(guān)系(QSAR/QSPR)以及性質(zhì)性能關(guān)聯(lián)三方面主要內(nèi)容. 要實(shí)現(xiàn)精準(zhǔn)可靠的“逆設(shè)計(jì)”，需要明確CPSPPr中的因果關(guān)系，部分或者能可靠外推的充分必要關(guān)系，而這幾個(gè)要素及其內(nèi)在可控因素實(shí)現(xiàn)定量可計(jì)算是首要任務(wù). 下面將圍繞這些因素展開(kāi)：材料的組成量化了物質(zhì)的種類即電子、原子、結(jié)構(gòu)或功能基團(tuán)、結(jié)構(gòu)片段、分子、聚集體、相界面和部件種類及其配比分?jǐn)?shù)，決定了體系的相互作用，相貌形態(tài)和成本. 相互作用用于定量描述材料體系的勢(shì)能和動(dòng)能，也包括表征、生產(chǎn)和應(yīng)用中對(duì)外場(chǎng)的響應(yīng). 在25 ℃ (298.15 K)，1.01×10⁵ Pa的參考態(tài)下，1個(gè)熱力學(xué)漲落能量單位與多種性質(zhì)和響應(yīng)能量存在如下等價(jià)關(guān)系，1 k_BT = 1 RT/N_A，4.11×10^-21 J，4.11 pN·nm，9.83×10^-22 Cal，0.0256 eV，9.408×10^-4 Hartree，6.2×10¹² Hz，48.4×10⁴ nm，2.479 kJ·mol^-1，0.593 kCal·mol^-1，200 cm^-1，該等價(jià)關(guān)系包含k_B是Boltzmann因子，T是絕對(duì)溫度(K)，R是氣體常數(shù)，N_A是阿伏伽德羅常數(shù)，h是普朗克常數(shù)，C為真空光速. 其中，除常見(jiàn)能量單位焦耳J，卡路里Cal外，pN nm用于如單分子力譜測(cè)量鍵長(zhǎng)變化或構(gòu)象變化，電子伏特eV測(cè)量光電能量，Hartree是量子化學(xué)計(jì)算中的能量單位，赫茲Hz、nm和cm^-1則從不同角度衡量探測(cè)波的能量. 該關(guān)系表明了從微觀到宏觀，相互作用在能量層面上對(duì)力、光電聲磁、波和譜學(xué)的可探測(cè)信號(hào)可以實(shí)現(xiàn)統(tǒng)一. 對(duì)于高分子材料類的軟物質(zhì)，在高于25 ℃的環(huán)境中，低于1 k_BT (T=298.15 K)的能量擾動(dòng)不會(huì)引起相態(tài)變化，或誘發(fā)臨界現(xiàn)象. 材料不同尺度相互作用的定量計(jì)算可以基于量子化學(xué)、全原子和粗?；?chǎng)、介觀碰撞和耗散力、宏觀連續(xù)介質(zhì)固體和流體力學(xué). 這些定量信息則來(lái)自不同時(shí)空尺度的實(shí)驗(yàn)、理論模型和計(jì)算方法的相互佐證和層級(jí)關(guān)聯(lián). 但在大數(shù)據(jù)研究中，不同尺度的相互作用則可被視為平等信息，從而可不受已有模型約束用于建立經(jīng)驗(yàn)理論模型之外的關(guān)聯(lián)關(guān)系. 材料的相態(tài)包含相圖，相變或相轉(zhuǎn)變，性質(zhì)和結(jié)構(gòu)特征等數(shù)據(jù)信息，是區(qū)分和刻畫(huà)材料組分的本征屬性. 成本是材料產(chǎn)業(yè)化的要素，包括原子經(jīng)濟(jì)、生產(chǎn)和應(yīng)用的能源成本、生態(tài)成本和經(jīng)濟(jì)成本等.

Fig. 1 The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).

在工藝方面，主要包含對(duì)配方組分的反應(yīng)、分散和融合3類操作. 反應(yīng)是化學(xué)鍵的變化，涉及物質(zhì)本征屬性改變，包括物質(zhì)的合成、修飾改性、化學(xué)交聯(lián)、降解等，常見(jiàn)的因素包括手性、異構(gòu)、鍵生成斷裂平衡、活性、選擇性以及與反應(yīng)關(guān)聯(lián)的小分子產(chǎn)物，反應(yīng)過(guò)程伴隨的物質(zhì)和能量擴(kuò)散和傳遞的調(diào)節(jié)控制等. 分散是通過(guò)對(duì)體系助劑或能量輸入，提升物相接觸交換界面，使材料快速達(dá)到熱力學(xué)平衡狀態(tài)(一般是熵增過(guò)程)，或者使物質(zhì)分布達(dá)到具有特定分布結(jié)構(gòu)的穩(wěn)態(tài)狀態(tài). 融合主要是破壞或黏合熱力學(xué)不相容表界面使體系成為整體，如表面活性劑、膠黏劑或者“鎖-鑰原理”實(shí)現(xiàn)結(jié)構(gòu)錨定(藥物篩選的原則之一)等. 這些工藝涉及較多人為經(jīng)驗(yàn)性因素，易造成精細(xì)層面的可重復(fù)性低，對(duì)復(fù)雜、精密、長(zhǎng)期或在極端條件服役的材料體系，在生產(chǎn)和應(yīng)用之前一般會(huì)引入宏觀尺度的計(jì)算機(jī)輔助設(shè)計(jì)/制造(CAD/CAM). 在實(shí)際CAD建模計(jì)算模擬仿真中，常常需要引入材料中組分的體相宏觀性質(zhì)，如密度、模量、泊松比以及可以描述物質(zhì)相態(tài)的本構(gòu)方程等^[3~5]，已有一些商業(yè)軟件如Abaqus，Ansys，Comsol等.

性質(zhì)分為組分、材料和器件性質(zhì)，組分性質(zhì)一般接近其本征性質(zhì)，但在材料的多組分作用下，其性質(zhì)可能發(fā)生大幅變化. 在高分子材料體系里，無(wú)論是從單體到聚合物，還是聚合物鏈的交聯(lián)、共混等，材料性質(zhì)都很難用組分性質(zhì)直接或者加權(quán)平均近似^[6]. 在器件性質(zhì)層面，材料構(gòu)成的本體結(jié)構(gòu)和表面形貌都具有重要貢獻(xiàn). 小分子的流失、材料降解、表面形貌退化等化學(xué)或結(jié)構(gòu)性變化都可能導(dǎo)致器件性質(zhì)失效. 而材料在模擬或?qū)嶋H應(yīng)用中的機(jī)械、熱、光電聲磁、分離、加工性能等則可以解析為多種性質(zhì)在實(shí)際應(yīng)用場(chǎng)景中給定閾值范圍內(nèi)的疊加，即材料性能通過(guò)一系列標(biāo)準(zhǔn)組合或依據(jù)第一、二和三范式的專家經(jīng)驗(yàn)實(shí)現(xiàn)性質(zhì)拆分.

不同于小分子、金屬、無(wú)機(jī)非金屬材料，利用大數(shù)據(jù)研究實(shí)現(xiàn)從性質(zhì)到分子結(jié)構(gòu)的“逆設(shè)計(jì)”已有不少成功報(bào)道^[7~12]，高分子材料則少有類似成功，主要障礙在于其結(jié)構(gòu)的定量化，將在下一節(jié)單獨(dú)介紹. 在材料大數(shù)據(jù)研究的這些共性因素中，通過(guò)一系列變量調(diào)控，可以使材料的性質(zhì)發(fā)生顯著變化. 由于高分子多分散性的特點(diǎn)，高分子材料在CPSPPr中各要素都存在分布，而調(diào)控這些分布往往通過(guò)圖1的示意模式^[1]. 即從某屬性或性質(zhì)的當(dāng)前分布A，逐步產(chǎn)生小概率事件偏倚或分布外的離散事件形成拖尾分布B，進(jìn)而通過(guò)持續(xù)條件演化對(duì)小概率事件和離散事件的富集產(chǎn)生拖尾分布C，進(jìn)一步演化為平衡態(tài)或穩(wěn)態(tài)分布D. 典型的例子是Ising模型中磁疇的變化，雖然單個(gè)磁子(spin)的取向是瞬時(shí)變化的，但在時(shí)間或磁場(chǎng)強(qiáng)度的連續(xù)變化中，總能觀察到不同磁子取向的拖尾分布. 高分子材料常見(jiàn)的性質(zhì)調(diào)控、結(jié)構(gòu)控制、相變過(guò)程等的序參量分布演化都滿足這個(gè)模式. 該模式用統(tǒng)計(jì)力學(xué)可表述為狀態(tài)密度ρ_i= exp(-βE_i)/Σexp(-βE_i)，某個(gè)性質(zhì)Z可以通過(guò)加權(quán)平均得到Z = Σ(z_i^*ρ_i)/Σρ_i，其中β = 1/k_BT. 該模式也可通過(guò)大數(shù)據(jù)方法核心的Bayes原理表達(dá)為

Z = {C, P | S, M} = {S, ? S ? x | M}, S = {D + ? D ? x | M}

(1)

2 高分子材料結(jié)構(gòu)定量數(shù)據(jù)其中，C，P，S，M，D分別代表組成、工藝、結(jié)構(gòu)、表征生產(chǎn)應(yīng)用條件和分布函數(shù)，x則代表組成工藝中的某一可控變量，{ }代表集合.分布函數(shù)D = {ρ_i} 可以是熱力學(xué)平衡分布(高斯分布、玻爾茲曼分布等)，也可以是偏倚分布(對(duì)數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等)，或者是描述材料內(nèi)部組成基元在正、倒空間(傅里葉變換)的分布. 性質(zhì)Z可表述為在具有一定結(jié)構(gòu)S和測(cè)試應(yīng)用條件M下可由材料的組成C和加工成型工藝P改變，或者表述為材料在特定條件M下結(jié)構(gòu)及其變化對(duì)外場(chǎng)響應(yīng)而表達(dá)出性質(zhì)Z. 結(jié)構(gòu)S則可以表述為參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動(dòng)量?x的作用下變化的疊加. 在基于這種表達(dá)通式的大數(shù)據(jù)研究中，可以通過(guò)對(duì)實(shí)驗(yàn)、理論和計(jì)算模擬產(chǎn)生的特征進(jìn)行組合或數(shù)學(xué)變換，將前3種范式認(rèn)為無(wú)關(guān)的特征聯(lián)合起來(lái)構(gòu)建出新的特征維度，新的特征可能成為性質(zhì)描述更好的代理量或強(qiáng)關(guān)聯(lián)量，或更有效的演化條件，進(jìn)而利于深入剖析高分子材料CPSPPr中的過(guò)程和機(jī)理.

一般地，材料結(jié)構(gòu)的定義為組成基元的時(shí)空間分布，組成基元可以是電子、原子、離子、基團(tuán)、分子片段、分子、聚集體、相區(qū)和器件單元，分布可以表達(dá)為笛卡爾坐標(biāo)、極坐標(biāo)、內(nèi)坐標(biāo)或傅里葉倒空間的基元豐度，或者場(chǎng)模型中的概率密度. 基元的屬性和分布可以隨時(shí)間發(fā)生變化，存在內(nèi)部的熱漲落或?qū)ν獠康拇碳ろ憫?yīng)，從而通過(guò)表征手段獲得信號(hào)或表達(dá)出材料的不同性質(zhì). 結(jié)構(gòu)是一系列探測(cè)手段與材料作用的譜學(xué)信號(hào)，而性質(zhì)也是材料對(duì)外部的刺激響應(yīng)結(jié)果. 因此，材料的定量結(jié)構(gòu)活性/性質(zhì)關(guān)系(QSAR/QSPR)在本質(zhì)上是不同譜學(xué)信號(hào)的相互關(guān)聯(lián)，當(dāng)某些表征信號(hào)可以比較完備地描述性質(zhì)時(shí)，該表征手段常被作為性質(zhì)的代理量(surrogate). 如利用某種試劑盒的UV特征吸收表達(dá)物質(zhì)的生物活性，用楊氏模量刻畫(huà)材料的彈性，特定條件下的熔融指數(shù)衡量高分子材料的加工性，以及溶脹率表征材料的體積穩(wěn)定性等. 因?yàn)榻Y(jié)構(gòu)可由組成和工藝共同決定，并通過(guò)物理、化學(xué)的知識(shí)闡明機(jī)理，因而結(jié)構(gòu)性質(zhì)關(guān)系常用結(jié)構(gòu)特征建立性質(zhì)的代理模型或代理量，從而用于理解、設(shè)計(jì)和調(diào)節(jié)控制材料的宏觀性質(zhì).

從理論和計(jì)算模擬仿真角度來(lái)看，高分子材料的結(jié)構(gòu)僅包括化學(xué)結(jié)構(gòu)和聚集結(jié)構(gòu)兩方面. 化學(xué)結(jié)構(gòu)用于區(qū)分組成物質(zhì)的屬性，其定量化是化學(xué)信息學(xué)研究的核心內(nèi)容. 主要包含化學(xué)語(yǔ)言的定量描述，包括編碼與解碼，比較成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系統(tǒng). 化學(xué)結(jié)構(gòu)的圖論和圖特征表達(dá)這類有長(zhǎng)久歷史的方法也存在一定程度應(yīng)用和發(fā)展^[13,14]. 在此基礎(chǔ)上，進(jìn)一步通過(guò)分子指紋算法如Avalon、Daylight和開(kāi)源RDKit庫(kù)^[15]等計(jì)算出組成基元的數(shù)量、鍵連接、鍵角、二面角、共軛面、拓?fù)浜碗姾?、極性、排斥體積、氫鍵等加權(quán)平均的拓?fù)鋷缀?、物理、化學(xué)性質(zhì)參數(shù). 化學(xué)信息學(xué)的這些計(jì)算方法的目的是從不同角度得到化合物的唯一編碼和性質(zhì)數(shù)據(jù)，但對(duì)于具有多層次結(jié)構(gòu)的高分子來(lái)說(shuō)這并不簡(jiǎn)單^[16]，需要在整體覆蓋尺度和細(xì)節(jié)分辨率之間權(quán)衡^[17]. 由于高分子存在手性、異構(gòu)、構(gòu)象、拓?fù)浣Y(jié)構(gòu)和多聚體，多個(gè)單體化學(xué)鍵連接存在強(qiáng)協(xié)同效應(yīng)等，使得高分子既不能像蛋白質(zhì)中的二十余種保守氨基酸進(jìn)行可以枚舉成序列描述，又不能像小分子的SMILES可直接轉(zhuǎn)換為數(shù)值向量. 因此，高分子化學(xué)結(jié)構(gòu)的定量描述仍需要取得突破.

另一方面是精確力場(chǎng)的發(fā)展，受高通量藥物和精準(zhǔn)催化劑設(shè)計(jì)的驅(qū)動(dòng)，經(jīng)典的通用力場(chǎng)如CHARMM^[18]，AMBER，UFF^[19]，OPLS^[20]，MMFF^[21]等已不能滿足需求，大量的研究工作在通用力場(chǎng)基礎(chǔ)上，針對(duì)特定一類分子體系，建立了力場(chǎng)修正，如ReaxFF系列^[22]，可遷移力場(chǎng)TAFFI^[23]等. 對(duì)于高分子材料聚集結(jié)構(gòu)的計(jì)算可分為粒子模型和場(chǎng)模型，前者將每個(gè)結(jié)構(gòu)基元看作具有一定質(zhì)量、性質(zhì)和時(shí)空間排它占有的實(shí)體粒子，后者則描述結(jié)構(gòu)基元在特定時(shí)空間的出現(xiàn)概率密度. 而計(jì)算模擬方法常見(jiàn)的有量子力學(xué)(quantum mechanics，QM)，分子力學(xué)(molecular mechanism，MM)，分子動(dòng)力學(xué)(molecular dynamics，MD)，蒙特卡洛(Monte Carlo，MC)，耗散粒子動(dòng)力學(xué)(dissipative particle dynamics，DPD)，格子波爾茲曼(lattice Boltzmann，LB)，密度泛函(density functional theory，DFT)，自洽場(chǎng)(self-consistent field method，SCFT)，相場(chǎng)模型(phase-field model，PFM)和有限元分析(finite element analysis，F(xiàn)EA)等. 這些計(jì)算方法涵蓋了電子、原子、分子、聚集體、相區(qū)、表界面和宏觀組件的多個(gè)尺度. 但是目前宏觀尺度和場(chǎng)論的計(jì)算方法還無(wú)法定量分辨材料的精確化學(xué)結(jié)構(gòu)差異，微觀和介觀的計(jì)算模擬數(shù)據(jù)難以和宏觀性質(zhì)形成充要關(guān)聯(lián)，使“逆設(shè)計(jì)”陷入困境，這也是高分子材料多尺度計(jì)算長(zhǎng)期未解決的難題.

該計(jì)算難題同樣也存在高分子材料多尺度結(jié)構(gòu)的實(shí)驗(yàn)表征中，特別是聚集結(jié)構(gòu)的定量解析實(shí)現(xiàn)還需要長(zhǎng)時(shí)間的努力. 化學(xué)結(jié)構(gòu)、晶體結(jié)構(gòu)或單分散結(jié)構(gòu)通過(guò)X光衍射、NMR、冷凍電鏡、小角散射等可以較準(zhǔn)確解析，而在計(jì)算方面，除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外，實(shí)際材料至多有半定量數(shù)據(jù). 常見(jiàn)的材料結(jié)構(gòu)實(shí)驗(yàn)表征和計(jì)算方法的共性認(rèn)識(shí)如圖2所示. 結(jié)構(gòu)的實(shí)驗(yàn)表征可分為組分、物相和微觀結(jié)構(gòu)三大類，包括化學(xué)、色譜、能譜、質(zhì)譜和光譜分析等手段. 結(jié)構(gòu)信息的獲取包含材料樣品、探測(cè)源、作用原理與信號(hào)3部分. 探測(cè)源的能量可以從伽瑪射線、電子、中子、X射線、紫外可見(jiàn)紅外/偏振、微波、剪切或周期力等，而這些探測(cè)源在與樣品發(fā)生諸如透射、反射、折射、散射/衍射、吸收、熒光、共振和形變等作用后，結(jié)構(gòu)表征信號(hào)可以探測(cè)到直接的強(qiáng)度或強(qiáng)度差、相位或相位差、微分或積分面積、水平或角度分辨等，從而產(chǎn)生了不同角度、不同原理的結(jié)構(gòu)定量數(shù)據(jù)，即譜學(xué)信號(hào). 在統(tǒng)計(jì)力學(xué)的框架中，理論上所有的譜學(xué)信號(hào)都可以通過(guò)量子化學(xué)計(jì)算獲得，但由于高分子多尺度、多分散和長(zhǎng)程關(guān)聯(lián)的特性，量化計(jì)算的時(shí)空尺度和計(jì)算成本受限導(dǎo)致可用數(shù)據(jù)非常稀少. 目前機(jī)器學(xué)習(xí)對(duì)于小分子化合物的光譜預(yù)測(cè)已取得一定進(jìn)展^[24]，IR^[25]，MS^[26]，NMR^[27]等在已知條件下能夠較為準(zhǔn)確預(yù)測(cè)和譜圖模式識(shí)別. 即使是對(duì)于較為復(fù)雜的X光吸收光譜(XAFS)，通過(guò)神經(jīng)網(wǎng)絡(luò)算法結(jié)合圖論已能達(dá)到高于90%可靠度的準(zhǔn)確預(yù)測(cè)，對(duì)峰位的預(yù)測(cè)誤差小于1 eV^[28]. 可以預(yù)見(jiàn)，從國(guó)家大科學(xué)裝置、儀器開(kāi)發(fā)商到終端科研和檢測(cè)人員，對(duì)高分子材料結(jié)構(gòu)的定量數(shù)據(jù)一直都十分關(guān)注，大數(shù)據(jù)輔助結(jié)構(gòu)定量數(shù)據(jù)的收集、分析和綜合利用的進(jìn)展報(bào)道將越來(lái)越多. 大數(shù)據(jù)與結(jié)構(gòu)譜學(xué)分析深度結(jié)合，未來(lái)將繼續(xù)向精細(xì)分辨、高通量快速分析，以及多尺度多角度結(jié)構(gòu)數(shù)據(jù)的整合等方向發(fā)展.

Fig. 2 The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.

3 大數(shù)據(jù)研究的數(shù)據(jù)和算法進(jìn)展

材料大數(shù)據(jù)研究的主要流程可參考綜述文獻(xiàn)[1]，近4年來(lái)該研究領(lǐng)域蓬勃發(fā)展，算法和數(shù)據(jù)兩方面都形成了一些新的趨勢(shì). 大數(shù)據(jù)研究的算法主要包括數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)兩部分，前者側(cè)重從文獻(xiàn)報(bào)道、專利、書(shū)籍、標(biāo)準(zhǔn)等文本或圖表中的信息批量提取，構(gòu)建可機(jī)讀、可批量計(jì)算的數(shù)據(jù)庫(kù)或數(shù)據(jù)集，利用統(tǒng)計(jì)學(xué)呈現(xiàn)數(shù)據(jù)的完備性和代表性，當(dāng)前的顯著進(jìn)展與自然語(yǔ)言處理(natural language processing，NLP)以及化學(xué)信息學(xué)對(duì)化學(xué)物質(zhì)的編碼和解碼算法的研究前沿密切關(guān)聯(lián). 而機(jī)器學(xué)習(xí)側(cè)重于對(duì)給定單一或多目標(biāo)算法的優(yōu)化，自擴(kuò)展搜索空間和給定函數(shù)的快速收斂. 與之緊密相關(guān)的是人們對(duì)數(shù)據(jù)資源的認(rèn)識(shí)加深，涌現(xiàn)了一大批長(zhǎng)期積累的、由專家參與的數(shù)據(jù)整理建設(shè)，目前與高分子材料相關(guān)的一些代表性數(shù)據(jù)庫(kù)或數(shù)據(jù)集列于表1中. 相比于4年前的綜述調(diào)研^[1]，傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)量，以及材料對(duì)應(yīng)的物化性質(zhì)等獲得了大量擴(kuò)充，數(shù)據(jù)的完備性進(jìn)一步提升，如PoLyInfo (polymer.nims.go.jp/en/). 同時(shí)也看到，基于量化和力場(chǎng)準(zhǔn)確計(jì)算的物化參數(shù)也急劇增加，填補(bǔ)過(guò)去大量材料物化性質(zhì)缺失，如clogP，HOMO，LUMO等. 值得一提的是PubChem (pubchem.ncbi.nlm.nih.gov), Reaxys (www.?reaxys.?com)，SciFinder (sso.?cas.?org)，QM7/9^[29]等數(shù)據(jù)庫(kù)支撐了深度學(xué)習(xí)在小分子設(shè)計(jì)^[30~33]，反應(yīng)合成^[34~36]等領(lǐng)域的應(yīng)用，同時(shí)也對(duì)高分子的合成和性質(zhì)預(yù)測(cè)提供了應(yīng)用基礎(chǔ).

Table 1 List of representative data resources for the big data study of polymer materials.

Sources	Name	Type
Book	Polymers: a property database^[37]	Experimental
	Handbook of polymers^[38]	Experimental
	Properties of polymers^[6]	Experimental
	Prediction of polymer properties^[39]	Experimental
	Polymer synthesis: theory and practice^[40]	Experimental
	Polymer handbook^[41]	Experimental
	Phase equilibria and thermodynamic data of aqueous polymer solutions^[42]	Experimental
Online	PoLyInfo (polymer.nims.go.jp/en)	Experimental
	CROW: polymer properties database (polymerdatabase.com)	Experimental
	Polymers: a property database (poly.chemnetbase.com)	Experimental
	CAMPUS plastics (campusplastics.com)	Experimental
	Landolt-B?rnstein (materials.springer.com)	Experimental
	Polymer property predictor and database (NIST) (pppdb.uchicago.edu)	Mixed
	Khazana database (khazana.gatech.edu)	Simulation
	Identify database (www.ringgold.com/identify)	Experimental

在機(jī)器學(xué)習(xí)的算法方面，如圖3所示，增強(qiáng)學(xué)習(xí)^[43,44]、主動(dòng)學(xué)習(xí)^[45]、深度神經(jīng)網(wǎng)絡(luò)等在近幾年取得長(zhǎng)足發(fā)展. 在傳統(tǒng)的監(jiān)督式和無(wú)監(jiān)督式學(xué)習(xí)方法中，用于回歸分析、分類算法、聚類和降維分析除了經(jīng)典算法如隨機(jī)森林(random forest, RF)^[46]、邏輯回歸(logistic regression)^[47]、樸素貝葉斯(naive Bayes)^[48]、支持向量機(jī)(support vector machine, SVM)^[49]、K-means 聚類^[50]、層次聚類(hierarchical clustering)^[51]和主成分分析(principal component analysis, PCA)^[52]等得到進(jìn)一步的廣泛應(yīng)用外，一些新的算法也從提出快速地得到應(yīng)用，多學(xué)科交叉促進(jìn)材料研究模式變化的節(jié)奏隨著信息高度流通明顯加快. 對(duì)于缺少大量專家標(biāo)記數(shù)據(jù)的應(yīng)用場(chǎng)景，半監(jiān)督式學(xué)習(xí)算法得到快速發(fā)展，包含自我訓(xùn)練^[53]、協(xié)同訓(xùn)練^[54]、直推式支持向量機(jī)^[55]和圖網(wǎng)絡(luò)方法^[56]等.

Fig. 3 List of representative machine learning and deep learning algorithms.

在強(qiáng)化學(xué)習(xí)算法方面，其原理類似于給定模型的計(jì)算模擬仿真，通過(guò)打分和懲罰函數(shù)在迭代反饋中優(yōu)化，建立代理模型. 典型的強(qiáng)化學(xué)習(xí)算法有Q-learning方法(如深度Q-網(wǎng)絡(luò)^[57]，Q值函數(shù)反向傳播算法^[57~59]、策略梯度方法^[60]和信任區(qū)域策略優(yōu)化^[61])等. 這些算法與前述經(jīng)典學(xué)習(xí)算法復(fù)合或定制用于特定場(chǎng)景，出現(xiàn)了主動(dòng)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等一系列新的方法分支. 這些算法可以對(duì)已知人工數(shù)據(jù)點(diǎn)進(jìn)行生成擴(kuò)充^[62~66]，進(jìn)而提升模型性能，同時(shí)也可助力高分子材料實(shí)現(xiàn)高通量實(shí)驗(yàn)和高通量表征^[67]，為高效構(gòu)建高分子實(shí)驗(yàn)數(shù)據(jù)庫(kù)提供了新思路^[68]. 這方面感興趣的讀者可參考文獻(xiàn)[69,70]等書(shū)籍了解更多原理和應(yīng)用細(xì)節(jié).

特別值得一提的是近幾年深度學(xué)習(xí)對(duì)整個(gè)機(jī)器學(xué)習(xí)算法、人工智能和大數(shù)據(jù)從基礎(chǔ)研究到生產(chǎn)應(yīng)用都帶來(lái)了極大的沖擊. 人工智能自動(dòng)編程，機(jī)器學(xué)習(xí)數(shù)據(jù)自動(dòng)生成等的急速發(fā)展與深度學(xué)習(xí)算法的高速發(fā)展密切相關(guān)，在廣泛應(yīng)用的機(jī)器學(xué)習(xí)編程語(yǔ)言Python，R，Matlab的基礎(chǔ)上，新產(chǎn)生了一些建?？蚣埽鏟ytorch，TensorFlow，MxNet等. 一些新的數(shù)據(jù)和工具包也形成了一定的流行度，如Hyperopt^[71]和GPTune^[72]，COMBO^[73]等. 也有一些經(jīng)典的數(shù)據(jù)和算法項(xiàng)目得到持續(xù)發(fā)展，如早期DeepChem開(kāi)源項(xiàng)目，包括MoleculeNet^[74]有機(jī)分子的基準(zhǔn)和訓(xùn)練數(shù)據(jù)集，面向化學(xué)和材料數(shù)據(jù)的建模軟件ChemML^[75]，以及面向QSPR/QSAR的自動(dòng)化工具TPOT^[76], auto-sklearn等^[77~80]. 但這些數(shù)據(jù)和工具包很少考慮高分子的應(yīng)用場(chǎng)景，主要原因是數(shù)據(jù)集較小，缺少基準(zhǔn)數(shù)據(jù)，數(shù)據(jù)不確定性高或歧義較多等. 在算法方面，迄今得到廣泛使用的深度學(xué)習(xí)算法包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)^[81]，變分自動(dòng)編碼器(VAE)^[82]，生成對(duì)抗網(wǎng)絡(luò)(GAN)^[83]等. 這些算法在高分子材料領(lǐng)域已得到一定的應(yīng)用并表現(xiàn)出巨大潛力. 如Chen等利用RNN對(duì)基于SMILES準(zhǔn)確預(yù)測(cè)了高分子的玻璃化轉(zhuǎn)變溫度(T_g)^[84]. Batra等^[85]利用VAE結(jié)合高斯過(guò)程回歸(GPR)模型發(fā)現(xiàn)了預(yù)期在高溫、高電場(chǎng)極端條件下具有潛在使用價(jià)值的新聚合物. Hiraide等開(kāi)發(fā)了一個(gè)逆向設(shè)計(jì)框架GAN算法，對(duì)一類具有共性結(jié)構(gòu)的高分子材料實(shí)現(xiàn)了從楊氏模量到化學(xué)結(jié)構(gòu)的“逆設(shè)計(jì)”^[86].

4 高分子材料大數(shù)據(jù)研究的代表性進(jìn)展

4.1 進(jìn)展分類

高分子材料大數(shù)據(jù)研究是材料基因組學(xué)或材料信息學(xué)中極具挑戰(zhàn)的重要課題，當(dāng)前階段材料基因組學(xué)強(qiáng)調(diào)高通量計(jì)算、高通量表征和高通量制備及數(shù)據(jù)共享，但高通量對(duì)于高分子材料實(shí)現(xiàn)起來(lái)存在諸多困難，源于高分子材料多分散和多尺度關(guān)聯(lián)等特性. 另一方面，以核酸、蛋白、多糖、多酚和小分子為主要研究對(duì)象的生物信息學(xué)最先發(fā)展成型，這類體系的組成單元收斂可枚舉，多分散性效應(yīng)不明顯. 近年來(lái)仍在高速發(fā)展的化學(xué)信息學(xué)，聚焦化學(xué)語(yǔ)言數(shù)值化、微觀結(jié)構(gòu)多角度精確計(jì)量等極大地促進(jìn)了材料信息學(xué)的發(fā)展，特別是在小尺寸強(qiáng)關(guān)聯(lián)體系用化學(xué)信息學(xué)方法可直接指導(dǎo)材料的“逆設(shè)計(jì)”.

為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進(jìn)展，在CPSPPr中，主要按材料應(yīng)用性質(zhì)分類，包含新型高分子合成與自組裝、機(jī)械熱性質(zhì)、光電聲磁性質(zhì)、分離性質(zhì)等材料分類. 在大數(shù)據(jù)計(jì)算方法、數(shù)據(jù)集，以及計(jì)算預(yù)測(cè)與實(shí)驗(yàn)驗(yàn)證迭代的方法和思路的進(jìn)展也將融合到這些具體材料分類中. 整體來(lái)說(shuō)，得益于化學(xué)信息學(xué)對(duì)物質(zhì)化學(xué)屬性和近程作用的精確刻畫(huà)，光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無(wú)機(jī)非金屬材料方面的成功應(yīng)用，但其他性質(zhì)的高分子材料大數(shù)據(jù)研究還缺乏能夠推動(dòng)行業(yè)研究和生產(chǎn)模式發(fā)生改變的顯著成果. 在組成工藝決定結(jié)構(gòu)、結(jié)構(gòu)性質(zhì)關(guān)系(QSPR/QSAR)以及性質(zhì)性能3類主要關(guān)系中，結(jié)構(gòu)性質(zhì)關(guān)系研究較多，而結(jié)構(gòu)多數(shù)限于化學(xué)結(jié)構(gòu)，對(duì)高分子材料聚集結(jié)構(gòu)的關(guān)聯(lián)關(guān)系研究報(bào)道非常少見(jiàn). 高分子材料大數(shù)據(jù)研究的實(shí)際應(yīng)用如配方工藝優(yōu)化、材料新性質(zhì)發(fā)現(xiàn)，以及材料組成工藝決定結(jié)構(gòu)的基礎(chǔ)研究這些方面的報(bào)道也較少. 下面我們將圍繞材料性質(zhì)分類對(duì)近幾年的代表性進(jìn)展進(jìn)行簡(jiǎn)要回顧介紹.

4.2 高分子合成與自組裝

高分子合成的大數(shù)據(jù)研究主要集中在催化劑設(shè)計(jì)、聚合反應(yīng)中的物料配比投料、小分子和熱量管理，產(chǎn)物的自動(dòng)分離表征和實(shí)驗(yàn)方案協(xié)同調(diào)整等方面. Cooper小組開(kāi)發(fā)出一種合成機(jī)器人，能夠使用機(jī)器學(xué)習(xí)算法對(duì)實(shí)驗(yàn)迭代改進(jìn)，實(shí)現(xiàn)目標(biāo)光催化劑的精準(zhǔn)合成^[87]. 但對(duì)高分子合成而言，聚合反應(yīng)及后續(xù)產(chǎn)物表征比小分子或無(wú)機(jī)非金屬材料要復(fù)雜得多，Chen等^[88]開(kāi)發(fā)了依賴機(jī)器學(xué)習(xí)的聚合規(guī)劃平臺(tái)來(lái)應(yīng)對(duì)這一挑戰(zhàn)，從化學(xué)組成、分子量和分子量分布3個(gè)維度優(yōu)化了通過(guò)自由基聚合反應(yīng)得到的高分子產(chǎn)物. 在機(jī)器學(xué)習(xí)與化學(xué)合成數(shù)值計(jì)算結(jié)合方面，Yaron等^[89]使用深度強(qiáng)化學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)原子轉(zhuǎn)移自由基聚合(ATRP)中聚合物的分子量分布形狀，通過(guò)實(shí)時(shí)預(yù)測(cè)與反應(yīng)物料添加控制實(shí)現(xiàn)閉環(huán)反饋，從而可以得到具有精準(zhǔn)目標(biāo)分子量分布，如具有高斯分布或雙峰分布的高分子產(chǎn)物.

在高分子的自組裝相圖預(yù)測(cè)方面，F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經(jīng)網(wǎng)絡(luò)的打分函數(shù)，極大地促進(jìn)了函數(shù)解析的收斂速度，通過(guò)深度學(xué)習(xí)建立了密度分布函數(shù)鞍點(diǎn)對(duì)高分子結(jié)構(gòu)和組成參數(shù)的依賴性，實(shí)現(xiàn)了自組裝相圖的快速計(jì)算^[90]. 林嘉平等通過(guò)組成和作用空間的網(wǎng)格細(xì)化，結(jié)合主動(dòng)學(xué)習(xí)對(duì)SCFT計(jì)算相區(qū)邊界的快速定位，提升了自組裝相區(qū)的識(shí)別精度^[91]. Shen等則借助機(jī)器學(xué)習(xí)與相場(chǎng)模型計(jì)算的結(jié)合，對(duì)聚偏氟依稀PVDF復(fù)合物的介電、導(dǎo)電和楊氏模量進(jìn)行了預(yù)測(cè)^[92]，豐富了對(duì)CPSPPr中微觀結(jié)構(gòu)和相界面的認(rèn)識(shí)，提升了具有特定微結(jié)構(gòu)高分子新材料的設(shè)計(jì)能力.

4.3 機(jī)械熱性質(zhì)

由于高分子材料一般隨溫度升高經(jīng)歷玻璃化轉(zhuǎn)變溫度(T_g)和熔點(diǎn)(T_m)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體，其機(jī)械性質(zhì)發(fā)生明顯改變. 因此，無(wú)論是高分子均聚物、共聚物、共混體系還是復(fù)合材料，其機(jī)械和熱性質(zhì)是密不可分的. 在熱性質(zhì)方面，常被看作高分子本征性質(zhì)的T_g，T_m以及結(jié)晶、玻璃化轉(zhuǎn)變熱焓等與高分子的化學(xué)、立構(gòu)和拓?fù)浣Y(jié)構(gòu)密切相關(guān)，也是機(jī)器學(xué)習(xí)長(zhǎng)期關(guān)注的預(yù)測(cè)目標(biāo). 在機(jī)械性質(zhì)方面，主要包括楊氏模量、拉伸模量、損耗角(tanδ)等源于高分子材料形變中的應(yīng)力-應(yīng)變關(guān)系既是理論計(jì)算方法，即本構(gòu)模型關(guān)注的重點(diǎn)，也因其非線性、非單調(diào)性等特點(diǎn)成為機(jī)器學(xué)習(xí)挑戰(zhàn)的難題.

對(duì)高分子的T_g和T_m的機(jī)器學(xué)習(xí)預(yù)測(cè)已經(jīng)有較長(zhǎng)的研究歷史. 早期的流行方法是通過(guò)van Kervelen提出的基于基團(tuán)加和性方法來(lái)預(yù)測(cè)^[37]，該方法的預(yù)測(cè)值只能提供定性參考. 之后Bicerano^[39]引入了一系列物理描述符，包括原子或鍵連接指數(shù)，原子間相互作用等構(gòu)建了高分子T_g相關(guān)因素和關(guān)聯(lián)關(guān)系的物理模型. 近年來(lái)，Liu和Cao^[93]從DFT計(jì)算獲得的4個(gè)物理量(極化率、軌道能、熱能和熵)作為特征，進(jìn)而利用機(jī)器學(xué)習(xí)算法構(gòu)建了T_g的較為準(zhǔn)確預(yù)測(cè)模型. Joyce等^[94]提出了一種基于單體SMILES本征性質(zhì)通過(guò)層級(jí)神經(jīng)網(wǎng)絡(luò)算法來(lái)預(yù)測(cè)T_g，Ramprasad等利用主動(dòng)學(xué)習(xí)結(jié)合GPR^[95]對(duì)已知聚合物的T_g進(jìn)行了準(zhǔn)確預(yù)測(cè). 毫不夸張地說(shuō)，從早期的自由體積概念解釋T_g^[96]，到現(xiàn)在利用多因素的機(jī)器學(xué)習(xí)定量預(yù)測(cè)，玻璃化轉(zhuǎn)變溫度T_g的預(yù)測(cè)已然成為高分子材料建立大數(shù)據(jù)研究方法的“試金石”.

通過(guò)拉伸曲線和動(dòng)態(tài)力學(xué)曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長(zhǎng)率和能量耗散等重要力學(xué)性質(zhì)參數(shù)，由于這些量與材料多尺度多因素相關(guān)，可用機(jī)器學(xué)習(xí)來(lái)建立定量的組成與性質(zhì)聯(lián)系. Jin等^[97]利用機(jī)器學(xué)習(xí)優(yōu)化環(huán)氧樹(shù)脂的組成，針對(duì)楊氏模量、拉伸強(qiáng)度、斷裂伸長(zhǎng)率和T_g 4個(gè)性質(zhì)同時(shí)優(yōu)化得到高性能樹(shù)脂. 在復(fù)合材料方面，Kopal等^[98]使用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)了炭黑含量對(duì)橡膠應(yīng)力-應(yīng)變曲線的影響規(guī)律，Le等^[99,100]應(yīng)用高斯過(guò)程回歸預(yù)測(cè)拉伸強(qiáng)度，應(yīng)用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了復(fù)合材料楊氏模量對(duì)碳納米管量的依賴關(guān)系. 對(duì)于DMTA曲線，Kopal等^[101]采用神經(jīng)網(wǎng)絡(luò)算法對(duì)熱塑性聚氨酯建立了指導(dǎo)性定量模型，Jordan等^[102]使用神經(jīng)網(wǎng)絡(luò)模型定量描述了聚丙烯的溫度依賴性和應(yīng)變速率的依賴性. 這些研究雖然實(shí)現(xiàn)了給定機(jī)械熱性質(zhì)的準(zhǔn)確預(yù)測(cè)，但“黑盒子”神經(jīng)網(wǎng)絡(luò)模型的低可解釋性，無(wú)法給出目標(biāo)性質(zhì)的可實(shí)施調(diào)控方案而一直飽受詬病.

一種變通的路線是將機(jī)器學(xué)習(xí)與計(jì)算模擬或本構(gòu)方程結(jié)合起來(lái). 例如：錢(qián)虎軍等^[103]利用SVM結(jié)合MD模擬研究了高分子材料在T_g附近的形變過(guò)程，揭示了應(yīng)變局域化(strain localization)對(duì)斷裂失效的重要貢獻(xiàn). Menon等^[104]利用層次機(jī)器學(xué)習(xí)結(jié)合Monte Carlo模擬鏈構(gòu)象及統(tǒng)計(jì)力學(xué)性質(zhì)，對(duì)聚氨酯彈性體的斷裂強(qiáng)度，斷裂應(yīng)變和tanδ進(jìn)行了準(zhǔn)確預(yù)測(cè). Zhang等^[105]利用隨機(jī)森林(RF)與MD模擬結(jié)合，構(gòu)建了聚脲化學(xué)結(jié)構(gòu)與有限元分析FEA的定量關(guān)聯(lián)，從而為拓展聚酯類軟-硬嵌段共聚物材料的力學(xué)性質(zhì)提供參考. Ghaderi等^[106]將三維應(yīng)力-應(yīng)變張量映射約化到一維并建立了可靠代理模型，相較于傳統(tǒng)本構(gòu)模型在計(jì)算速度和精度體現(xiàn)出顯著優(yōu)勢(shì). Chung等^[107]通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)本構(gòu)模型普適性地描述了聚苯乙烯(PS)在不同加載條件下(包括單向、雙軸和三軸的拉伸，壓縮和剪切)的應(yīng)力-應(yīng)變關(guān)系. 張立群等借助大數(shù)據(jù)分析了85種本構(gòu)模型對(duì)無(wú)填充橡膠和高填充橡膠拉伸曲線的準(zhǔn)確度^[108]. 我們?cè)趯?duì)聚氨酯彈性體力學(xué)性能大數(shù)據(jù)研究中，對(duì)本構(gòu)模型的描述曲線的定量特征、相互等價(jià)性及其對(duì)聚氨酯彈性體大量拉伸曲線的定量解釋度進(jìn)行了嚴(yán)格論證^[109,110]，同時(shí)也對(duì)ABS樹(shù)脂的模量、強(qiáng)度和斷裂伸長(zhǎng)率的可加和性進(jìn)行了驗(yàn)證，發(fā)現(xiàn)斷裂伸長(zhǎng)率在不同組合下部分不滿足加和性^[111]. 雖然經(jīng)歷長(zhǎng)期的研究和眾多努力，由于機(jī)械熱性質(zhì)的耦合與多尺度結(jié)構(gòu)變化密切相關(guān)，無(wú)先驗(yàn)?zāi)Ｐ椭苯宇A(yù)測(cè)高分子材料的機(jī)械熱性質(zhì)仍然極具挑戰(zhàn).

4.4 光電聲磁性質(zhì)

由于光電聲磁性質(zhì)往往是通過(guò)幾個(gè)納米尺度以內(nèi)官能團(tuán)的相互作用體現(xiàn)，即使是包含聚集熒光猝滅(ACQ)、聚集誘導(dǎo)發(fā)光(AIE)等前沿究熱點(diǎn)，近程相互作用保障了其性質(zhì)的信號(hào)或代理量可以利用化學(xué)信息學(xué)方法較為準(zhǔn)確地計(jì)算和預(yù)測(cè). 這類性質(zhì)預(yù)測(cè)的核心是將機(jī)器學(xué)習(xí)與高通量第一性原理計(jì)算相結(jié)合，據(jù)此來(lái)設(shè)計(jì)具有特定光電聲磁性質(zhì)的高分子材料已有不少報(bào)道. 部分代表性工作包括Lu等^[112]立足于第一性原理數(shù)據(jù)庫(kù)，構(gòu)建了共軛聚電解質(zhì)的HOMO/LUMO及其帶隙(E_g)的準(zhǔn)確預(yù)測(cè)模型. Ramprasad等^[113]在高分子基因組項(xiàng)目(polymer genome)的支持下，對(duì)聚合物及其復(fù)合材料的介電性質(zhì)、絕緣性質(zhì)、超級(jí)電容和靜電儲(chǔ)能等性質(zhì)進(jìn)行了準(zhǔn)確預(yù)測(cè)，并推進(jìn)了新材料的生產(chǎn)應(yīng)用. 南策文等^[114]開(kāi)發(fā)了反向傳播神經(jīng)網(wǎng)絡(luò)增強(qiáng)的相場(chǎng)模型來(lái)模擬聚合物納米復(fù)合材料的介電響應(yīng)、電荷傳輸和擊穿過(guò)程，對(duì)電容等儲(chǔ)能材料性能進(jìn)行可靠的虛擬評(píng)估，減少材料研發(fā)中的試錯(cuò). 一系列的聚合物特性包含帶隙、介電常數(shù)、原子化能和溶解度參數(shù)、濁點(diǎn)等，也可使用機(jī)器學(xué)習(xí)實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè). 例如：高分子折射率QSPR的多元線性模型揭示了sp²雜化碳原子的重要貢獻(xiàn)^[115]，該思路啟發(fā)了高導(dǎo)熱新型聚合物的設(shè)計(jì)^[116].

在高分子光伏材料方面，Saeki等^[117]基于RF預(yù)測(cè)模型，對(duì)聚合物和非富勒烯小分子受體有機(jī)光伏性質(zhì)預(yù)測(cè)達(dá)到85%置信度，進(jìn)而對(duì)二十余萬(wàn)個(gè)虛擬共軛聚合物進(jìn)行了高通量篩選，篩選出候選的苯并二噻吩和噻唑并噻唑的系列共軛聚合物，進(jìn)而得到實(shí)驗(yàn)驗(yàn)證. Min等^[118]基于565個(gè)供體/非富勒烯受體(D/A)組合，發(fā)現(xiàn)隨機(jī)森林模型在LR、MLR、BRT、RF、ANN 5種常用機(jī)器學(xué)習(xí)算法表現(xiàn)最好，為共軛聚合物光伏性能預(yù)測(cè)算法和指導(dǎo)有機(jī)光伏材料設(shè)計(jì)制備提供了可靠參考. Ohuchi等^[119]應(yīng)用自組織映射的無(wú)監(jiān)督機(jī)器學(xué)習(xí)結(jié)合分子描述符成功建立了分子化學(xué)結(jié)構(gòu)與有機(jī)光伏材料的功率轉(zhuǎn)換效率(PCE)的代理模型. Sun等^[120]引入圖論、字符串、描述符和指紋來(lái)表示高分子的化學(xué)結(jié)構(gòu)，發(fā)現(xiàn)長(zhǎng)度超過(guò)1000位的特征可以應(yīng)用多種機(jī)器學(xué)習(xí)算法對(duì)PCE實(shí)現(xiàn)高準(zhǔn)確度穩(wěn)定預(yù)測(cè). 在與模擬仿真的結(jié)合中，Pablo等^[121]通過(guò)將監(jiān)督式機(jī)器學(xué)習(xí)算法聚焦光電效率的哈密頓量，通過(guò)聚合物的構(gòu)象集合對(duì)非晶和多分散共軛材料中電子結(jié)構(gòu)的計(jì)算提供了可靠預(yù)測(cè)，其計(jì)算效率和準(zhǔn)確性明顯優(yōu)于已報(bào)道方法，為拓展柔性非共軛聚合物光伏材料的高通量設(shè)計(jì)提供了成功范例.

4.5 分離性質(zhì)預(yù)測(cè)

高分子材料在物質(zhì)分離領(lǐng)域具有廣泛而重要的應(yīng)用. 物質(zhì)分離主要有相變(如蒸餾、升華、沉淀、結(jié)晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過(guò)濾、離心等)、離子交換和膜分離等方法. 在此聚焦聚合物分離膜方面，按應(yīng)用場(chǎng)景可分為氣體、水處理、離子膜、能源膜和有機(jī)分離膜等，按分離物質(zhì)尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等，膜的組成、微結(jié)構(gòu)和表面是性能調(diào)控的核心因素. 而分離膜的性能指標(biāo)包含驅(qū)動(dòng)力種類和能耗、通量、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素，分離物質(zhì)需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應(yīng)性等，聚合物膜的組成、制備工藝和使用條件都會(huì)對(duì)膜性能產(chǎn)生重要影響. 因此，利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨(dú)特的優(yōu)勢(shì). 我們通過(guò)對(duì)聚合物質(zhì)子交換膜(PEM)的CPSPPr的開(kāi)展了一系列大數(shù)據(jù)研究，包括溫度、水含量、復(fù)合材料對(duì)全氟磺酸(PFSA)膜^[122~126]，以及碳?xì)浠撬崮さ慕Y(jié)構(gòu)、性質(zhì)以及膜電極性能的極化曲線^[127,128]，為設(shè)計(jì)和制備質(zhì)子交換膜燃料電池(PEMFC)的核心膜材料提供了可靠參考和虛擬實(shí)驗(yàn)設(shè)計(jì)工具. 與此同時(shí)，對(duì)包括聚砜(PSF)、聚醚砜(PES)和聚偏氟乙烯(PVDF)基材的超濾、微濾和納濾膜的性能進(jìn)行了可靠預(yù)測(cè)和等級(jí)分類，并開(kāi)發(fā)了相應(yīng)的軟件包PolySML(發(fā)布在polysml.github.io)來(lái)實(shí)現(xiàn)計(jì)算機(jī)輔助材料設(shè)計(jì)^[129]. 基于這些研究，提出了L_sig值方法的特征信息量、信息冗余和預(yù)測(cè)模型可靠性的一致性判據(jù)，該方法對(duì)于各類高分子材料的大數(shù)據(jù)研究具有通用性.

在全世界可持續(xù)發(fā)展，我國(guó)的“碳達(dá)峰，碳中和”等的政策趨勢(shì)引導(dǎo)下，氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長(zhǎng). 模型氣體分離對(duì)包含CH₄/CO₂，CO₂/N₂，O₂/N₂等也過(guò)渡到較難的分離如多組分混合氣體、C1~C4混合氣和烯烴烷烴混合氣等，經(jīng)典的材料體系分子篩、多酸和MOF等仍占主流，高分子材料則聚焦在聚酰亞胺、芳綸、聚硅烷等對(duì)氣體具有不同滲透系數(shù)的致密膜材料. 利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿?zé)狳c(diǎn)，Kumar等^[130]基于聚合物單體的拓?fù)浣Y(jié)構(gòu)，利用基于路徑的特征法訓(xùn)練了高斯過(guò)程回歸算法，高通量篩選了萬(wàn)余種均聚物的氣體分離行為，并合成了兩種最具潛力的聚合物，發(fā)現(xiàn)它們超越了CO₂/CH₄分離性能的Robeson上限. Lively等^[131]利用分子指紋將聚合物結(jié)構(gòu)表征作為機(jī)器學(xué)習(xí)算法的輸入，建立了高精度的聚合物膜透氣性預(yù)測(cè)模型，該模型對(duì)不同官能團(tuán)的聚合物基材的膜氣體分離性質(zhì)進(jìn)行了可靠預(yù)測(cè).

在能源膜領(lǐng)域，伴隨著鋰離子電池快速增長(zhǎng)的巨大市場(chǎng)，聚合物鋰離子隔膜的研究也大量地豐富起來(lái). Oyaizu等^[132]構(gòu)建了迄今最大的鋰導(dǎo)電固體聚合物電解質(zhì)數(shù)據(jù)庫(kù)(含約10⁴個(gè)樣本)，利用遷移學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)這些電解質(zhì)的電導(dǎo)率，平均絕對(duì)誤差小于1 S/cm. Ganesan等^[133]將粗?；肿觿?dòng)力學(xué)模擬和貝葉斯優(yōu)化結(jié)合同時(shí)預(yù)測(cè)了離子電導(dǎo)率和粘度兩個(gè)目標(biāo)，給出了鋰離子電池中離子傳輸和機(jī)械性質(zhì)的權(quán)衡關(guān)系. Grossman 等^[134]利用類似的粗粒化分子動(dòng)力學(xué)模擬與機(jī)器學(xué)習(xí)結(jié)合，在物理描述符的高維空間剖析了鋰電導(dǎo)率與材料本征性質(zhì)的關(guān)系，為改進(jìn)電解質(zhì)配方提供了參考. Seshadri等^[135]則為鋰離子電池的電解質(zhì)創(chuàng)建了圖形化的交互式數(shù)據(jù)平臺(tái)，支持材料篩選和性質(zhì)設(shè)計(jì)，為計(jì)算輔助設(shè)計(jì)提供了虛擬實(shí)驗(yàn)平臺(tái).

聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報(bào)道，值得一提的還有Razmjou等^[136]利用神經(jīng)網(wǎng)絡(luò)和貝葉斯正則化算法對(duì)超濾納米復(fù)合膜的性能預(yù)測(cè)，He等^[137]利用深度學(xué)習(xí)對(duì)陰離子交換膜的OH^-電導(dǎo)率預(yù)測(cè)等. 而MOF方面繼續(xù)取得顯著進(jìn)展，Snurr等^[138]利用機(jī)器學(xué)習(xí)和分子指紋設(shè)計(jì)了新的MOF材料，使手性小分子的分離效率提升到85%. 契合2021年諾貝爾化學(xué)獎(jiǎng)對(duì)手性反應(yīng)的支持，手性物質(zhì)分離迅速成為當(dāng)前的研究熱點(diǎn)，但相應(yīng)的高分子分離膜設(shè)計(jì)和制備充滿挑戰(zhàn)，大數(shù)據(jù)研究正助力該難題的解決.

5 難題與挑戰(zhàn)

如前所述，建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心，在數(shù)學(xué)本質(zhì)上是譜學(xué)數(shù)據(jù)的預(yù)測(cè). 目前基于量化計(jì)算對(duì)小分子的多尺度譜學(xué)數(shù)據(jù)已能較為準(zhǔn)確的計(jì)算和預(yù)測(cè)，對(duì)于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結(jié)構(gòu)和生物活性利用生物信息學(xué)的一體化建模(information-driven integrative modeling)已經(jīng)能夠提供可與人類專家媲美的準(zhǔn)確預(yù)測(cè). 蛋白與核酸結(jié)構(gòu)定量化的成功與PDB的長(zhǎng)期建設(shè)密不可分，但對(duì)于高分子，由于其二面角旋轉(zhuǎn)位壘與熱漲落能量1 k_BT相當(dāng)，并缺少蛋白和核酸分子中的密集氫鍵約束，高分子材料的結(jié)構(gòu)數(shù)據(jù)不能夠用原子坐標(biāo)的辦法直接描述，需要更復(fù)雜的構(gòu)象集合來(lái)表示，但目前還缺少公認(rèn)可靠高效的概念和框架. 在實(shí)際的高分子材料體系，往往還包括一定量的復(fù)合成分、添加劑或助劑，這些物質(zhì)分布廣泛，小分子可用的比如SMILES定量描述系統(tǒng)失效，而高分子自帶的手性、支化、成環(huán)、長(zhǎng)程作用的芳環(huán)堆砌、靜電作用等對(duì)構(gòu)象、聚集和性質(zhì)的影響規(guī)律往往還依賴計(jì)算模擬近似分析，缺少可遷移利用的基礎(chǔ)定量數(shù)據(jù). 總的來(lái)說(shuō)，對(duì)于具有典型的多分散、局域精度高和大尺度準(zhǔn)確、存在非線性、非單調(diào)性累積協(xié)同效應(yīng)的高分子材料體系，從近程作用化學(xué)異構(gòu)和拓?fù)浣Y(jié)構(gòu)的化學(xué)信息學(xué)定量描述到跨尺度關(guān)聯(lián)，大數(shù)據(jù)研究仍面臨權(quán)衡. 這些問(wèn)題在傳統(tǒng)研究中長(zhǎng)期存在，常見(jiàn)表述為臨界現(xiàn)象、相變和相轉(zhuǎn)變、標(biāo)度行為、多級(jí)弛豫等概念模型. 理論模型中會(huì)采用了多種近似，如假定結(jié)構(gòu)分布在平均場(chǎng)背景中、或假定高分子鏈長(zhǎng)或拓?fù)浣Y(jié)構(gòu)滿足高斯分布、或假定物質(zhì)聚集可用隨機(jī)相近似(random phase approximation，RPA)，或假定結(jié)構(gòu)和性質(zhì)關(guān)系在多層次具有自相似性(self similarity)，或在臨界點(diǎn)附近如圖1所示拖尾分布存在標(biāo)度關(guān)系指數(shù)分布等. 在實(shí)際應(yīng)用的材料中，這些假設(shè)可能失效但某些模型在一定條件下可能仍舊適用，而理論模型的不可靠性需要嚴(yán)格評(píng)估. 因此，當(dāng)前高分子材料大數(shù)據(jù)研究的首要難題和挑戰(zhàn)是系統(tǒng)客觀地評(píng)估已有的理論模型、經(jīng)驗(yàn)公式的可靠性，以及模型定量描述的準(zhǔn)確度和適用性邊界.

其次，隨著研究論文報(bào)告數(shù)量快速增長(zhǎng)，高分子材料多方面的一手?jǐn)?shù)據(jù)已相當(dāng)豐富但某些關(guān)注性質(zhì)仍趨于在較窄的分布區(qū)間，在利用大數(shù)據(jù)構(gòu)建CPSPPr過(guò)程中極有可能出現(xiàn)多重簡(jiǎn)并，在機(jī)器學(xué)習(xí)的“黑盒子”算法中出現(xiàn)非唯一解. 在沒(méi)有高分子專家深入?yún)⑴c的情況下，有相當(dāng)一部分研究報(bào)道過(guò)分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalization error)，再加上機(jī)器學(xué)習(xí)黑盒子的特點(diǎn)，需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準(zhǔn)性、偏差-方差權(quán)衡等方面，合理控制預(yù)測(cè)性能和可解釋性. 然而近幾年報(bào)道的相當(dāng)一部分機(jī)器學(xué)習(xí)模型的解釋性非常差，甚至某些參量因素可能與目標(biāo)預(yù)測(cè)量形成與常規(guī)共識(shí)相悖的關(guān)系，這些預(yù)測(cè)模型可能對(duì)后續(xù)研究產(chǎn)生誤導(dǎo). 這類現(xiàn)象正是高分子材料局域弱效應(yīng)，長(zhǎng)程作用累積強(qiáng)響應(yīng)的典型特征寫(xiě)照. 另外，在高分子材料大數(shù)據(jù)研究的更多場(chǎng)景，由于研究或應(yīng)用的關(guān)注點(diǎn)不同，每種高分子材料各方面的性質(zhì)屬性往往存在缺失. 目前通用的一些數(shù)據(jù)缺失值處理方法，如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性，特別是當(dāng)材料體系在相轉(zhuǎn)變臨界點(diǎn)附近等. 因此，大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一. 目前已有一些科學(xué)家注意到這類問(wèn)題，如基于博弈理論的Shapley值法^[139]，或者在有限數(shù)據(jù)集中的SHAP技術(shù)等^[45]在材料領(lǐng)域已得到初步應(yīng)用.

歸功于量化計(jì)算和化學(xué)信息學(xué)的進(jìn)展，目前針對(duì)小分子、金屬材料和無(wú)機(jī)非金屬材料的“逆設(shè)計(jì)”已能實(shí)現(xiàn)高通量計(jì)算和高通量篩選. 但對(duì)于高分子材料，由于其多分散、多尺度響應(yīng)的特點(diǎn)，高效可靠的計(jì)算方法仍未實(shí)現(xiàn). 筆者看來(lái)，高分子材料要實(shí)現(xiàn)“逆設(shè)計(jì)”，首先需要建立一系列可靠的基準(zhǔn)數(shù)據(jù)集(benchmark dataset)，這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結(jié)構(gòu)和性質(zhì)表征方法，對(duì)CPSPPr中各要素有準(zhǔn)確描述，且對(duì)某類聚焦性質(zhì)、聚合物種類、加工方法等具有完備性和代表性. 這些數(shù)據(jù)集的建設(shè)一方面需要支持科研人員對(duì)商品或?qū)嶒?yàn)樣品開(kāi)展批量的測(cè)試表征獲得一致性數(shù)據(jù)，另一方面需要支持理論計(jì)算人員將已有的大量分散數(shù)據(jù)匯集起來(lái)，建立不同源數(shù)據(jù)之間的關(guān)聯(lián)和定量轉(zhuǎn)換關(guān)系. 特別是要改變工業(yè)和工程材料數(shù)據(jù)與實(shí)驗(yàn)室測(cè)試數(shù)據(jù)脫節(jié)，通用報(bào)告標(biāo)準(zhǔn)缺乏，相互不能參考，數(shù)據(jù)陷入不同標(biāo)準(zhǔn)中離散不可用的現(xiàn)狀. 即使是同領(lǐng)域的學(xué)術(shù)論文中，由于缺乏對(duì)數(shù)據(jù)、特征和實(shí)驗(yàn)細(xì)節(jié)的充分表述，對(duì)后續(xù)研究和重復(fù)性驗(yàn)證造成障礙. 如在高分子材料制備、加工過(guò)程數(shù)據(jù)的收集和預(yù)測(cè)，類似不飽和聚酯溶液黏度^[140]，材料成形過(guò)程多尺度結(jié)構(gòu)和特征^[141]等方面僅有少量報(bào)道. 更普遍地，工業(yè)的拉彎沖測(cè)試眾多標(biāo)準(zhǔn)不一，與實(shí)驗(yàn)室測(cè)試無(wú)法點(diǎn)對(duì)點(diǎn)轉(zhuǎn)換，合成加工工藝缺乏通用制式流程，實(shí)驗(yàn)室個(gè)性化，工業(yè)穩(wěn)定性不能一統(tǒng)江湖，也是學(xué)術(shù)界和工業(yè)界數(shù)據(jù)斷層的重要原因. 在高分子材料從實(shí)驗(yàn)室走向生產(chǎn)線的過(guò)程中，還涉及批量生產(chǎn)中的良品率、穩(wěn)定性、樣品/產(chǎn)品性質(zhì)對(duì)調(diào)控參數(shù)依賴的一致性等重要的調(diào)控?cái)?shù)據(jù). 其中針對(duì)大宗材料的特定應(yīng)用(如聚丙烯樹(shù)脂可用于拉絲成纖、吹膜、發(fā)泡、注塑、壓模等制備服裝、醫(yī)療器械、包裝、汽車、家電、自行車、管道、容器等)、或者特定合成加工成形工藝、或者特定應(yīng)用的多種高分子材料(如前述聚合物分離膜)等，常常需要針對(duì)CPSPPr的大數(shù)據(jù)要素中建立圍繞某個(gè)保守特性的“小數(shù)據(jù)集”，這對(duì)于理論、計(jì)算模擬仿真以及大數(shù)據(jù)模型的評(píng)估都至關(guān)重要. 這些小數(shù)據(jù)集一般都有專家標(biāo)記，是基準(zhǔn)數(shù)據(jù)集的主要形成路線. 經(jīng)典的橡膠彈性體力學(xué)性能本構(gòu)方程發(fā)展的Treloar數(shù)據(jù)集^[142]，Bates的兩相自組裝相圖^[143]等都是高分子領(lǐng)域極其重要的基準(zhǔn)數(shù)據(jù)集，但類似被廣泛認(rèn)可的基準(zhǔn)數(shù)據(jù)集卻極其有限. 通過(guò)基準(zhǔn)數(shù)據(jù)集，可以明確物理特征的分布范圍、相關(guān)因素和關(guān)聯(lián)關(guān)系，進(jìn)而挖掘出從分子層面到材料成形的有效調(diào)控手段，從而去實(shí)現(xiàn)個(gè)性化、智能化時(shí)代對(duì)高分子材料的精準(zhǔn)“逆設(shè)計(jì)”.

在生產(chǎn)方面、無(wú)論是原材料合成、母料制備還是器件生產(chǎn)裝配的上中下游企業(yè)，如何將大量生產(chǎn)數(shù)據(jù)利用大數(shù)據(jù)先進(jìn)算法和系統(tǒng)分析，推動(dòng)生產(chǎn)力革新. 目前的狀況是企業(yè)的生產(chǎn)自動(dòng)化、物料和能量管理流通、測(cè)試和質(zhì)檢等部門(mén)數(shù)據(jù)分散且歸屬于不同的軟件管理系統(tǒng)，這些數(shù)據(jù)存在不同編碼并防止批量導(dǎo)出等限制，前期需要企業(yè)投入相當(dāng)大的人力物力實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一流通. 由于大數(shù)據(jù)技術(shù)的人才培養(yǎng)群體還未成規(guī)模，大多數(shù)企業(yè)缺乏相關(guān)專業(yè)人才能夠高效地利用這些生產(chǎn)數(shù)據(jù)，受權(quán)限和保密要求，生產(chǎn)數(shù)據(jù)與企業(yè)外的合作還需對(duì)數(shù)據(jù)進(jìn)一步脫密. 因此，面向生產(chǎn)的大數(shù)據(jù)研究和開(kāi)發(fā)應(yīng)用首先要突破數(shù)據(jù)源的壁壘，此外在兼顧連續(xù)性生產(chǎn)的前提下，應(yīng)謹(jǐn)慎引入聚焦組成配方設(shè)計(jì)、工藝優(yōu)化、檢測(cè)質(zhì)檢一體化的相關(guān)預(yù)測(cè)模型的部署和更新. 在高分子材料領(lǐng)域，筆者認(rèn)為當(dāng)前大數(shù)據(jù)的模式、技術(shù)的成熟度還無(wú)法全面支撐智能制造工業(yè)4.0的實(shí)現(xiàn)，但與現(xiàn)代生產(chǎn)制造企業(yè)的ERP，MES，CRM和BTO等管理和生產(chǎn)系統(tǒng)結(jié)合開(kāi)發(fā)數(shù)據(jù)價(jià)值，在逐步提升制造模式和生產(chǎn)力水平的變革中一定會(huì)帶來(lái)正面的收益.

6 結(jié)語(yǔ)與展望

高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段，可以預(yù)見(jiàn)在未來(lái)幾年中，相關(guān)的研究報(bào)道和生產(chǎn)應(yīng)用實(shí)踐將急劇增加. 得益于生物信息學(xué)較為成熟的多學(xué)科交叉深入合作和數(shù)據(jù)共享模式，化學(xué)信息學(xué)對(duì)物質(zhì)屬性的覆蓋度和準(zhǔn)確率的提升，以及應(yīng)對(duì)復(fù)雜體系和模糊語(yǔ)義的機(jī)器學(xué)習(xí)算法發(fā)展，材料信息學(xué)在金屬、無(wú)機(jī)非金屬和有機(jī)小分子材料研究中取得了廣泛的成功，也切實(shí)推動(dòng)了高分子材料的大數(shù)據(jù)研究. 由于高分子材料描述模糊和歧義命名等長(zhǎng)期歷史積累問(wèn)題，以及高分子的多分散、多尺度、非線性協(xié)同效應(yīng)顯著、長(zhǎng)程弱關(guān)聯(lián)強(qiáng)響應(yīng)等特點(diǎn)，對(duì)高分子材料的準(zhǔn)確定量數(shù)據(jù)和高通量計(jì)算難以實(shí)現(xiàn)，是造成高分子材料大數(shù)據(jù)研究進(jìn)展滯后的主要因素. 在數(shù)據(jù)的標(biāo)準(zhǔn)化和可共享流通方面，生產(chǎn)應(yīng)用數(shù)據(jù)與實(shí)驗(yàn)室研究數(shù)據(jù)嚴(yán)重脫節(jié)、工業(yè)化和原料供應(yīng)數(shù)據(jù)不透明造成大量重復(fù)表征測(cè)試，基于不同關(guān)注點(diǎn)對(duì)高分子的基礎(chǔ)表征數(shù)據(jù)和性質(zhì)測(cè)試方法等關(guān)鍵信息缺失，使高分子材料可用的數(shù)據(jù)庫(kù)遠(yuǎn)未達(dá)到諸如CSD，Reaxys，PDB，UniProt等規(guī)模水平，但專一聚焦的高分子材料數(shù)據(jù)庫(kù)已有許多在路上. 高分子材料大數(shù)據(jù)研究基礎(chǔ)的數(shù)據(jù)源建設(shè)發(fā)展方向，很可能類似當(dāng)前計(jì)算模擬領(lǐng)域的通用力場(chǎng)和專用力場(chǎng)修正的發(fā)展模式，即通用高分子多譜學(xué)數(shù)據(jù)與功能高分子特殊結(jié)構(gòu)性質(zhì)數(shù)據(jù)的整合. 出版社(如ACS，Wiley，Elsevier, Springer，Cambridge，CRC等)、政府機(jī)構(gòu)(如NIST, NIMS等)以及跨國(guó)公司等已廣泛布局?jǐn)?shù)據(jù)的匯集和價(jià)值開(kāi)發(fā)，數(shù)據(jù)已成為重要資源. 數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展，在頂層設(shè)計(jì)和支持下對(duì)具有多種應(yīng)用場(chǎng)景的高分子材料具有高覆蓋度、精細(xì)分辨，支持高通量快速分析，提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享. 同時(shí)在面向特定應(yīng)用和研究興趣，前沿領(lǐng)域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉，在高分子新材料研發(fā)或經(jīng)典問(wèn)題的研究中產(chǎn)生突破進(jìn)展.

另一方面，大數(shù)據(jù)研究的核心方法進(jìn)展是機(jī)器學(xué)習(xí)，傳統(tǒng)的理論和計(jì)算模擬方法進(jìn)展目前僅限于力場(chǎng)的發(fā)展，對(duì)于較大尺度的模擬仿真手段如何與大數(shù)據(jù)方法深度融合，極有可能是高分子經(jīng)典的多尺度難題取得突破的關(guān)鍵. 在高分子材料大數(shù)據(jù)研究的核心組成-工藝-結(jié)構(gòu)-性質(zhì)-性能關(guān)系中，應(yīng)鼓勵(lì)研究人員共享新材料多方面的表征數(shù)據(jù)、行業(yè)專家牽頭整理專業(yè)材料或應(yīng)用領(lǐng)域標(biāo)準(zhǔn)、系統(tǒng)開(kāi)展不同標(biāo)準(zhǔn)下數(shù)據(jù)的轉(zhuǎn)換，建設(shè)一定規(guī)模的基準(zhǔn)數(shù)據(jù)集. 對(duì)于單獨(dú)小數(shù)據(jù)規(guī)模或窄分布的大數(shù)據(jù)模型要謹(jǐn)慎對(duì)待，客觀評(píng)價(jià)，避免為預(yù)測(cè)而預(yù)測(cè)，或“蹭熱度”的拼湊研究，可能會(huì)誤導(dǎo)后續(xù)研究. 同時(shí)也要著力培養(yǎng)交叉學(xué)科人才，從數(shù)據(jù)挖掘特別是高分子專業(yè)語(yǔ)言的可計(jì)算處理、機(jī)器學(xué)習(xí)算法、專業(yè)數(shù)據(jù)分析與可視化、模型評(píng)價(jià)和理論可解釋性解析等多方面合作，共同推進(jìn)高分子材料大數(shù)據(jù)研究的快速發(fā)展，從而提升材料和產(chǎn)品設(shè)計(jì)、生產(chǎn)制造的智能化水平.

關(guān)鍵字：優(yōu)秀論文

上一篇：民族地區(qū)高校少數(shù)民族音樂(lè)教學(xué)改革實(shí)踐
下一篇：“三全育人”視角下新時(shí)代高校思想政治教育工作探析

高分子材料大數(shù)據(jù)研究：共性基礎(chǔ)、進(jìn)展及挑戰(zhàn)