高分子材料大數(shù)據(jù)研究:共性基礎、進展及挑戰(zhàn)
高分子材料成就了我們生活的方方面面,在提升人類生活的便易性,健康舒適,助力人類探索未知世界的同時,也成為全球人類可持續(xù)發(fā)展和環(huán)境保護的主要挑戰(zhàn)之一. 高分子材料的機械熱、光電聲磁、分離、降解和加工性質是設計、生產和應用的聚焦內容,其柔性可設計的特征,有力地支撐著社會的多樣化發(fā)展,對密切相關的組成、加工、結構及其性質關系的認識也在不斷完善中. 在對高分子材料個性化、智能化生產和應用的驅動下,傳統(tǒng)經驗理論提供的定性指導模型漸不能滿足,而對支撐給定性質實現(xiàn)材料逆設計的定量決策模型產生大量需求. 特別是人們對于給定目標性質實現(xiàn)對材料組成工藝精準定位“逆設計”的渴求,迫切需要對高分子材料多因素及其聯(lián)系的定量化研究,即大數(shù)據(jù)研究,取得進展. 基于我們4年前對材料基因組學研究的梳理[
1 材料大數(shù)據(jù)研究的共性基礎
眾所周知,人類探索未知世界存在4種認知范式,即以實驗試錯法為主的第一范式,以理論推理演繹為主的第二范式,以基于模型的計算模擬仿真為主的第三范式,和以數(shù)據(jù)驅動創(chuàng)新為主的第四范式. 這4種范式都可以產生基礎可用的數(shù)據(jù),在數(shù)據(jù)基礎上建立聯(lián)系形成可流通的信息,從信息流中梳理出一定條件下存在的模式形成知識,進一步凝練出法則(principle)從而獲得智慧,即科學認知的DIKW (Data,Information,Knowledge,Wisdom)框架. 在該框架中,人類生活生產和研究長期匯集的基礎科學數(shù)據(jù)逐步成為一種資源并可以較為廣泛地公開共享,機器學習、人工智能、深度學習和大數(shù)據(jù)(注:這4個專業(yè)名詞的內涵具有高度重疊的共同知識,但有不同的側重,相互間聯(lián)系仍在變化中)為代表的新興理念和技術手段,正快速地發(fā)展并重塑著生產力和生活模式. 統(tǒng)計力學和貝葉斯統(tǒng)計學與多個學科交叉,先后形成了生物信息學、化學信息學和材料信息學3個前沿學科. 目前生物信息學發(fā)展的典型代表是AlphaFold2[
高分子材料的大數(shù)據(jù)研究是材料信息學的前沿核心內容,而材料信息學的研究存在如
Fig. 1 The common frame for the composition-process-structure-property- performance relationship (CPSPPr) and their key subterms (a). The general pattern for an attribute with distribution A, evolutes to a significantly different state with distribution D, through tailed distributions B and C (b).
在工藝方面,主要包含對配方組分的反應、分散和融合3類操作. 反應是化學鍵的變化,涉及物質本征屬性改變,包括物質的合成、修飾改性、化學交聯(lián)、降解等,常見的因素包括手性、異構、鍵生成斷裂平衡、活性、選擇性以及與反應關聯(lián)的小分子產物,反應過程伴隨的物質和能量擴散和傳遞的調節(jié)控制等. 分散是通過對體系助劑或能量輸入,提升物相接觸交換界面,使材料快速達到熱力學平衡狀態(tài)(一般是熵增過程),或者使物質分布達到具有特定分布結構的穩(wěn)態(tài)狀態(tài). 融合主要是破壞或黏合熱力學不相容表界面使體系成為整體,如表面活性劑、膠黏劑或者“鎖-鑰原理”實現(xiàn)結構錨定(藥物篩選的原則之一)等. 這些工藝涉及較多人為經驗性因素,易造成精細層面的可重復性低,對復雜、精密、長期或在極端條件服役的材料體系,在生產和應用之前一般會引入宏觀尺度的計算機輔助設計/制造(CAD/CAM). 在實際CAD建模計算模擬仿真中,常常需要引入材料中組分的體相宏觀性質,如密度、模量、泊松比以及可以描述物質相態(tài)的本構方程等[
性質分為組分、材料和器件性質,組分性質一般接近其本征性質,但在材料的多組分作用下,其性質可能發(fā)生大幅變化. 在高分子材料體系里,無論是從單體到聚合物,還是聚合物鏈的交聯(lián)、共混等,材料性質都很難用組分性質直接或者加權平均近似[
不同于小分子、金屬、無機非金屬材料,利用大數(shù)據(jù)研究實現(xiàn)從性質到分子結構的“逆設計”已有不少成功報道[
2 高分子材料結構定量數(shù)據(jù)其中,C,P,S,M,D分別代表組成、工藝、結構、表征生產應用條件和分布函數(shù),x則代表組成工藝中的某一可控變量,{ }代表集合.分布函數(shù)D = {ρi} 可以是熱力學平衡分布(高斯分布、玻爾茲曼分布等),也可以是偏倚分布(對數(shù)正態(tài)分布、帕累托分布、雙指數(shù)分布、泊松分布等),或者是描述材料內部組成基元在正、倒空間(傅里葉變換)的分布. 性質Z可表述為在具有一定結構S和測試應用條件M下可由材料的組成C和加工成型工藝P改變,或者表述為材料在特定條件M下結構及其變化對外場響應而表達出性質Z. 結構S則可以表述為參考態(tài)的穩(wěn)定分布D與該分布在演化條件中擾動量
一般地,材料結構的定義為組成基元的時空間分布,組成基元可以是電子、原子、離子、基團、分子片段、分子、聚集體、相區(qū)和器件單元,分布可以表達為笛卡爾坐標、極坐標、內坐標或傅里葉倒空間的基元豐度,或者場模型中的概率密度. 基元的屬性和分布可以隨時間發(fā)生變化,存在內部的熱漲落或對外部的刺激響應,從而通過表征手段獲得信號或表達出材料的不同性質. 結構是一系列探測手段與材料作用的譜學信號,而性質也是材料對外部的刺激響應結果. 因此,材料的定量結構活性/性質關系(QSAR/QSPR)在本質上是不同譜學信號的相互關聯(lián),當某些表征信號可以比較完備地描述性質時,該表征手段常被作為性質的代理量(surrogate). 如利用某種試劑盒的UV特征吸收表達物質的生物活性,用楊氏模量刻畫材料的彈性,特定條件下的熔融指數(shù)衡量高分子材料的加工性,以及溶脹率表征材料的體積穩(wěn)定性等. 因為結構可由組成和工藝共同決定,并通過物理、化學的知識闡明機理,因而結構性質關系常用結構特征建立性質的代理模型或代理量,從而用于理解、設計和調節(jié)控制材料的宏觀性質.
從理論和計算模擬仿真角度來看,高分子材料的結構僅包括化學結構和聚集結構兩方面. 化學結構用于區(qū)分組成物質的屬性,其定量化是化學信息學研究的核心內容. 主要包含化學語言的定量描述,包括編碼與解碼,比較成熟的有SMILES (simplified molecular-input line-entry system)和InChI (international chemical identifier) 2套系統(tǒng). 化學結構的圖論和圖特征表達這類有長久歷史的方法也存在一定程度應用和發(fā)展[
另一方面是精確力場的發(fā)展,受高通量藥物和精準催化劑設計的驅動,經典的通用力場如CHARMM[
該計算難題同樣也存在高分子材料多尺度結構的實驗表征中,特別是聚集結構的定量解析實現(xiàn)還需要長時間的努力. 化學結構、晶體結構或單分散結構通過X光衍射、NMR、冷凍電鏡、小角散射等可以較準確解析,而在計算方面,除共聚或共混兩相組裝相圖有較系統(tǒng)的定量數(shù)據(jù)外,實際材料至多有半定量數(shù)據(jù). 常見的材料結構實驗表征和計算方法的共性認識如
Fig. 2 The general frame to acquire the structure information for polymer materials at different temporal and spatial scales, the detectors and interactions, popular experimental techniques and computational methods.
3 大數(shù)據(jù)研究的數(shù)據(jù)和算法進展
材料大數(shù)據(jù)研究的主要流程可參考綜述文獻[
Table 1 List of representative data resources for the big data study of polymer materials.
Sources | Name | Type |
---|---|---|
Book | Polymers: a property database[ | Experimental |
Handbook of polymers[ | Experimental | |
Properties of polymers[ | Experimental | |
Prediction of polymer properties[ | Experimental | |
Polymer synthesis: theory and practice[ | Experimental | |
Polymer handbook[ | Experimental | |
Phase equilibria and thermodynamic data of aqueous polymer solutions[ | Experimental | |
Online | PoLyInfo (polymer.nims.go.jp/en) | Experimental |
CROW: polymer properties database (polymerdatabase.com) | Experimental | |
Polymers: a property database (poly.chemnetbase.com) | Experimental | |
CAMPUS plastics (campusplastics.com) | Experimental | |
Landolt-B?rnstein (materials.springer.com) | Experimental | |
Polymer property predictor and database (NIST) (pppdb.uchicago.edu) | Mixed | |
Khazana database (khazana.gatech.edu) | Simulation | |
Identify database (www.ringgold.com/identify) | Experimental |
在機器學習的算法方面,如
Fig. 3 List of representative machine learning and deep learning algorithms.
在強化學習算法方面,其原理類似于給定模型的計算模擬仿真,通過打分和懲罰函數(shù)在迭代反饋中優(yōu)化,建立代理模型. 典型的強化學習算法有Q-learning方法(如深度Q-網(wǎng)絡[
特別值得一提的是近幾年深度學習對整個機器學習算法、人工智能和大數(shù)據(jù)從基礎研究到生產應用都帶來了極大的沖擊. 人工智能自動編程,機器學習數(shù)據(jù)自動生成等的急速發(fā)展與深度學習算法的高速發(fā)展密切相關,在廣泛應用的機器學習編程語言Python,R,Matlab的基礎上,新產生了一些建模框架,如Pytorch,TensorFlow,MxNet等. 一些新的數(shù)據(jù)和工具包也形成了一定的流行度,如Hyperopt[
4 高分子材料大數(shù)據(jù)研究的代表性進展
4.1 進展分類
高分子材料大數(shù)據(jù)研究是材料基因組學或材料信息學中極具挑戰(zhàn)的重要課題,當前階段材料基因組學強調高通量計算、高通量表征和高通量制備及數(shù)據(jù)共享,但高通量對于高分子材料實現(xiàn)起來存在諸多困難,源于高分子材料多分散和多尺度關聯(lián)等特性. 另一方面,以核酸、蛋白、多糖、多酚和小分子為主要研究對象的生物信息學最先發(fā)展成型,這類體系的組成單元收斂可枚舉,多分散性效應不明顯. 近年來仍在高速發(fā)展的化學信息學,聚焦化學語言數(shù)值化、微觀結構多角度精確計量等極大地促進了材料信息學的發(fā)展,特別是在小尺寸強關聯(lián)體系用化學信息學方法可直接指導材料的“逆設計”.
為了系統(tǒng)地介紹近幾年高分子材料大數(shù)據(jù)研究的代表性進展,在CPSPPr中,主要按材料應用性質分類,包含新型高分子合成與自組裝、機械熱性質、光電聲磁性質、分離性質等材料分類. 在大數(shù)據(jù)計算方法、數(shù)據(jù)集,以及計算預測與實驗驗證迭代的方法和思路的進展也將融合到這些具體材料分類中. 整體來說,得益于化學信息學對物質化學屬性和近程作用的精確刻畫,光電聲磁功能高分子材料的大數(shù)據(jù)研究已取得可媲美金屬合金、無機非金屬材料方面的成功應用,但其他性質的高分子材料大數(shù)據(jù)研究還缺乏能夠推動行業(yè)研究和生產模式發(fā)生改變的顯著成果. 在組成工藝決定結構、結構性質關系(QSPR/QSAR)以及性質性能3類主要關系中,結構性質關系研究較多,而結構多數(shù)限于化學結構,對高分子材料聚集結構的關聯(lián)關系研究報道非常少見. 高分子材料大數(shù)據(jù)研究的實際應用如配方工藝優(yōu)化、材料新性質發(fā)現(xiàn),以及材料組成工藝決定結構的基礎研究這些方面的報道也較少. 下面我們將圍繞材料性質分類對近幾年的代表性進展進行簡要回顧介紹.
4.2 高分子合成與自組裝
高分子合成的大數(shù)據(jù)研究主要集中在催化劑設計、聚合反應中的物料配比投料、小分子和熱量管理,產物的自動分離表征和實驗方案協(xié)同調整等方面. Cooper小組開發(fā)出一種合成機器人,能夠使用機器學習算法對實驗迭代改進,實現(xiàn)目標光催化劑的精準合成[
在高分子的自組裝相圖預測方面,F(xiàn)redrickson等將SCFT解析中的Hamiltonian函數(shù)引入神經網(wǎng)絡的打分函數(shù),極大地促進了函數(shù)解析的收斂速度,通過深度學習建立了密度分布函數(shù)鞍點對高分子結構和組成參數(shù)的依賴性,實現(xiàn)了自組裝相圖的快速計算[
4.3 機械熱性質
由于高分子材料一般隨溫度升高經歷玻璃化轉變溫度(Tg)和熔點(Tm)區(qū)間可表現(xiàn)為玻璃態(tài)塑料、高彈態(tài)橡膠和黏流態(tài)熔體,其機械性質發(fā)生明顯改變. 因此,無論是高分子均聚物、共聚物、共混體系還是復合材料,其機械和熱性質是密不可分的. 在熱性質方面,常被看作高分子本征性質的Tg,Tm以及結晶、玻璃化轉變熱焓等與高分子的化學、立構和拓撲結構密切相關,也是機器學習長期關注的預測目標. 在機械性質方面,主要包括楊氏模量、拉伸模量、損耗角(tanδ)等源于高分子材料形變中的應力-應變關系既是理論計算方法,即本構模型關注的重點,也因其非線性、非單調性等特點成為機器學習挑戰(zhàn)的難題.
對高分子的Tg和Tm的機器學習預測已經有較長的研究歷史. 早期的流行方法是通過van Kervelen提出的基于基團加和性方法來預測[
通過拉伸曲線和動態(tài)力學曲線(DMTA)可以得到材料楊氏模量、屈服模量、韌度、斷裂伸長率和能量耗散等重要力學性質參數(shù),由于這些量與材料多尺度多因素相關,可用機器學習來建立定量的組成與性質聯(lián)系. Jin等[
一種變通的路線是將機器學習與計算模擬或本構方程結合起來. 例如:錢虎軍等[
4.4 光電聲磁性質
由于光電聲磁性質往往是通過幾個納米尺度以內官能團的相互作用體現(xiàn),即使是包含聚集熒光猝滅(ACQ)、聚集誘導發(fā)光(AIE)等前沿究熱點,近程相互作用保障了其性質的信號或代理量可以利用化學信息學方法較為準確地計算和預測. 這類性質預測的核心是將機器學習與高通量第一性原理計算相結合,據(jù)此來設計具有特定光電聲磁性質的高分子材料已有不少報道. 部分代表性工作包括Lu等[
在高分子光伏材料方面,Saeki等[
4.5 分離性質預測
高分子材料在物質分離領域具有廣泛而重要的應用. 物質分離主要有相變(如蒸餾、升華、沉淀、結晶等)、色譜(氣相色譜、液相色譜等)、分配吸附(萃取、層析)、尺寸或密度差(過濾、離心等)、離子交換和膜分離等方法. 在此聚焦聚合物分離膜方面,按應用場景可分為氣體、水處理、離子膜、能源膜和有機分離膜等,按分離物質尺寸可分為微濾、超濾、納濾、滲透膜、膜蒸餾、膜萃取等,膜的組成、微結構和表面是性能調控的核心因素. 而分離膜的性能指標包含驅動力種類和能耗、通量、選擇性、抗污能力、穩(wěn)定性、循環(huán)穩(wěn)定性等因素,分離物質需要考慮分配比、尺寸比、極性、靜電力、氫鍵、條件響應性等,聚合物膜的組成、制備工藝和使用條件都會對膜性能產生重要影響. 因此,利用大數(shù)據(jù)研究聚合物分離膜的CPSPPr具有獨特的優(yōu)勢. 我們通過對聚合物質子交換膜(PEM)的CPSPPr的開展了一系列大數(shù)據(jù)研究,包括溫度、水含量、復合材料對全氟磺酸(PFSA)膜[
在全世界可持續(xù)發(fā)展,我國的“碳達峰,碳中和”等的政策趨勢引導下,氣體分離膜材料的大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長. 模型氣體分離對包含CH4/CO2,CO2/N2,O2/N2等也過渡到較難的分離如多組分混合氣體、C1~C4混合氣和烯烴烷烴混合氣等,經典的材料體系分子篩、多酸和MOF等仍占主流,高分子材料則聚焦在聚酰亞胺、芳綸、聚硅烷等對氣體具有不同滲透系數(shù)的致密膜材料. 利用剛性聚合物或自具微孔聚合物(PIM)制備氣體分離膜成為前沿熱點,Kumar等[
在能源膜領域,伴隨著鋰離子電池快速增長的巨大市場,聚合物鋰離子隔膜的研究也大量地豐富起來. Oyaizu等[
聚合物分離膜的大數(shù)據(jù)研究在近幾年被密集報道,值得一提的還有Razmjou等[
5 難題與挑戰(zhàn)
如前所述,建立高分子材料的定量CPSPPr是大數(shù)據(jù)研究的核心,在數(shù)學本質上是譜學數(shù)據(jù)的預測. 目前基于量化計算對小分子的多尺度譜學數(shù)據(jù)已能較為準確的計算和預測,對于多分散系數(shù)趨近于1的體系如蛋白、核酸等其結構和生物活性利用生物信息學的一體化建模(information-driven integrative modeling)已經能夠提供可與人類專家媲美的準確預測. 蛋白與核酸結構定量化的成功與PDB的長期建設密不可分,但對于高分子,由于其二面角旋轉位壘與熱漲落能量1 kBT相當,并缺少蛋白和核酸分子中的密集氫鍵約束,高分子材料的結構數(shù)據(jù)不能夠用原子坐標的辦法直接描述,需要更復雜的構象集合來表示,但目前還缺少公認可靠高效的概念和框架. 在實際的高分子材料體系,往往還包括一定量的復合成分、添加劑或助劑,這些物質分布廣泛,小分子可用的比如SMILES定量描述系統(tǒng)失效,而高分子自帶的手性、支化、成環(huán)、長程作用的芳環(huán)堆砌、靜電作用等對構象、聚集和性質的影響規(guī)律往往還依賴計算模擬近似分析,缺少可遷移利用的基礎定量數(shù)據(jù). 總的來說,對于具有典型的多分散、局域精度高和大尺度準確、存在非線性、非單調性累積協(xié)同效應的高分子材料體系,從近程作用化學異構和拓撲結構的化學信息學定量描述到跨尺度關聯(lián),大數(shù)據(jù)研究仍面臨權衡. 這些問題在傳統(tǒng)研究中長期存在,常見表述為臨界現(xiàn)象、相變和相轉變、標度行為、多級弛豫等概念模型. 理論模型中會采用了多種近似,如假定結構分布在平均場背景中、或假定高分子鏈長或拓撲結構滿足高斯分布、或假定物質聚集可用隨機相近似(random phase approximation,RPA),或假定結構和性質關系在多層次具有自相似性(self similarity),或在臨界點附近如
其次,隨著研究論文報告數(shù)量快速增長,高分子材料多方面的一手數(shù)據(jù)已相當豐富但某些關注性質仍趨于在較窄的分布區(qū)間,在利用大數(shù)據(jù)構建CPSPPr過程中極有可能出現(xiàn)多重簡并,在機器學習的“黑盒子”算法中出現(xiàn)非唯一解. 在沒有高分子專家深入?yún)⑴c的情況下,有相當一部分研究報道過分追求定量模型的高可靠性或者在給定數(shù)據(jù)集中的低泛化誤差(generalization error),再加上機器學習黑盒子的特點,需要在精度與覆蓋度、完備性與“小數(shù)據(jù)”精準性、偏差-方差權衡等方面,合理控制預測性能和可解釋性. 然而近幾年報道的相當一部分機器學習模型的解釋性非常差,甚至某些參量因素可能與目標預測量形成與常規(guī)共識相悖的關系,這些預測模型可能對后續(xù)研究產生誤導. 這類現(xiàn)象正是高分子材料局域弱效應,長程作用累積強響應的典型特征寫照. 另外,在高分子材料大數(shù)據(jù)研究的更多場景,由于研究或應用的關注點不同,每種高分子材料各方面的性質屬性往往存在缺失. 目前通用的一些數(shù)據(jù)缺失值處理方法,如最可幾、均值法、近鄰插值等在高分子材料中極可能引入不確定性,特別是當材料體系在相轉變臨界點附近等. 因此,大數(shù)據(jù)定量決策模型的唯一性和可解釋性是普遍亟需解決的難題之一. 目前已有一些科學家注意到這類問題,如基于博弈理論的Shapley值法[
歸功于量化計算和化學信息學的進展,目前針對小分子、金屬材料和無機非金屬材料的“逆設計”已能實現(xiàn)高通量計算和高通量篩選. 但對于高分子材料,由于其多分散、多尺度響應的特點,高效可靠的計算方法仍未實現(xiàn). 筆者看來,高分子材料要實現(xiàn)“逆設計”,首先需要建立一系列可靠的基準數(shù)據(jù)集(benchmark dataset),這些數(shù)據(jù)集源于廣泛使用的、可靠的成分結構和性質表征方法,對CPSPPr中各要素有準確描述,且對某類聚焦性質、聚合物種類、加工方法等具有完備性和代表性. 這些數(shù)據(jù)集的建設一方面需要支持科研人員對商品或實驗樣品開展批量的測試表征獲得一致性數(shù)據(jù),另一方面需要支持理論計算人員將已有的大量分散數(shù)據(jù)匯集起來,建立不同源數(shù)據(jù)之間的關聯(lián)和定量轉換關系. 特別是要改變工業(yè)和工程材料數(shù)據(jù)與實驗室測試數(shù)據(jù)脫節(jié),通用報告標準缺乏,相互不能參考,數(shù)據(jù)陷入不同標準中離散不可用的現(xiàn)狀. 即使是同領域的學術論文中,由于缺乏對數(shù)據(jù)、特征和實驗細節(jié)的充分表述,對后續(xù)研究和重復性驗證造成障礙. 如在高分子材料制備、加工過程數(shù)據(jù)的收集和預測,類似不飽和聚酯溶液黏度[
在生產方面、無論是原材料合成、母料制備還是器件生產裝配的上中下游企業(yè),如何將大量生產數(shù)據(jù)利用大數(shù)據(jù)先進算法和系統(tǒng)分析,推動生產力革新. 目前的狀況是企業(yè)的生產自動化、物料和能量管理流通、測試和質檢等部門數(shù)據(jù)分散且歸屬于不同的軟件管理系統(tǒng),這些數(shù)據(jù)存在不同編碼并防止批量導出等限制,前期需要企業(yè)投入相當大的人力物力實現(xiàn)數(shù)據(jù)的統(tǒng)一流通. 由于大數(shù)據(jù)技術的人才培養(yǎng)群體還未成規(guī)模,大多數(shù)企業(yè)缺乏相關專業(yè)人才能夠高效地利用這些生產數(shù)據(jù),受權限和保密要求,生產數(shù)據(jù)與企業(yè)外的合作還需對數(shù)據(jù)進一步脫密. 因此,面向生產的大數(shù)據(jù)研究和開發(fā)應用首先要突破數(shù)據(jù)源的壁壘,此外在兼顧連續(xù)性生產的前提下,應謹慎引入聚焦組成配方設計、工藝優(yōu)化、檢測質檢一體化的相關預測模型的部署和更新. 在高分子材料領域,筆者認為當前大數(shù)據(jù)的模式、技術的成熟度還無法全面支撐智能制造工業(yè)4.0的實現(xiàn),但與現(xiàn)代生產制造企業(yè)的ERP,MES,CRM和BTO等管理和生產系統(tǒng)結合開發(fā)數(shù)據(jù)價值,在逐步提升制造模式和生產力水平的變革中一定會帶來正面的收益.
6 結語與展望
高分子材料大數(shù)據(jù)研究還處于積累和爆發(fā)階段,可以預見在未來幾年中,相關的研究報道和生產應用實踐將急劇增加. 得益于生物信息學較為成熟的多學科交叉深入合作和數(shù)據(jù)共享模式,化學信息學對物質屬性的覆蓋度和準確率的提升,以及應對復雜體系和模糊語義的機器學習算法發(fā)展,材料信息學在金屬、無機非金屬和有機小分子材料研究中取得了廣泛的成功,也切實推動了高分子材料的大數(shù)據(jù)研究. 由于高分子材料描述模糊和歧義命名等長期歷史積累問題,以及高分子的多分散、多尺度、非線性協(xié)同效應顯著、長程弱關聯(lián)強響應等特點,對高分子材料的準確定量數(shù)據(jù)和高通量計算難以實現(xiàn),是造成高分子材料大數(shù)據(jù)研究進展滯后的主要因素. 在數(shù)據(jù)的標準化和可共享流通方面,生產應用數(shù)據(jù)與實驗室研究數(shù)據(jù)嚴重脫節(jié)、工業(yè)化和原料供應數(shù)據(jù)不透明造成大量重復表征測試,基于不同關注點對高分子的基礎表征數(shù)據(jù)和性質測試方法等關鍵信息缺失,使高分子材料可用的數(shù)據(jù)庫遠未達到諸如CSD,Reaxys,PDB,UniProt等規(guī)模水平,但專一聚焦的高分子材料數(shù)據(jù)庫已有許多在路上. 高分子材料大數(shù)據(jù)研究基礎的數(shù)據(jù)源建設發(fā)展方向,很可能類似當前計算模擬領域的通用力場和專用力場修正的發(fā)展模式,即通用高分子多譜學數(shù)據(jù)與功能高分子特殊結構性質數(shù)據(jù)的整合. 出版社(如ACS,Wiley,Elsevier, Springer,Cambridge,CRC等)、政府機構(如NIST, NIMS等)以及跨國公司等已廣泛布局數(shù)據(jù)的匯集和價值開發(fā),數(shù)據(jù)已成為重要資源. 數(shù)據(jù)的增加主要將朝著類似地理地圖大數(shù)據(jù)的方向發(fā)展,在頂層設計和支持下對具有多種應用場景的高分子材料具有高覆蓋度、精細分辨,支持高通量快速分析,提供多尺度多角度全方位數(shù)據(jù)支持或數(shù)據(jù)共享. 同時在面向特定應用和研究興趣,前沿領域的專業(yè)數(shù)據(jù)積累將更快地與新興大數(shù)據(jù)方法交叉,在高分子新材料研發(fā)或經典問題的研究中產生突破進展.
另一方面,大數(shù)據(jù)研究的核心方法進展是機器學習,傳統(tǒng)的理論和計算模擬方法進展目前僅限于力場的發(fā)展,對于較大尺度的模擬仿真手段如何與大數(shù)據(jù)方法深度融合,極有可能是高分子經典的多尺度難題取得突破的關鍵. 在高分子材料大數(shù)據(jù)研究的核心組成-工藝-結構-性質-性能關系中,應鼓勵研究人員共享新材料多方面的表征數(shù)據(jù)、行業(yè)專家牽頭整理專業(yè)材料或應用領域標準、系統(tǒng)開展不同標準下數(shù)據(jù)的轉換,建設一定規(guī)模的基準數(shù)據(jù)集. 對于單獨小數(shù)據(jù)規(guī)?;蛘植嫉拇髷?shù)據(jù)模型要謹慎對待,客觀評價,避免為預測而預測,或“蹭熱度”的拼湊研究,可能會誤導后續(xù)研究. 同時也要著力培養(yǎng)交叉學科人才,從數(shù)據(jù)挖掘特別是高分子專業(yè)語言的可計算處理、機器學習算法、專業(yè)數(shù)據(jù)分析與可視化、模型評價和理論可解釋性解析等多方面合作,共同推進高分子材料大數(shù)據(jù)研究的快速發(fā)展,從而提升材料和產品設計、生產制造的智能化水平.
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- 重磅!CSSCI來源期刊(2023-2024版)最新期刊目錄看點分析!全網(wǎng)首發(fā)!
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據(jù)?還有哪些機構認可黨報?
- 《農業(yè)經濟》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!