一種基于知識(shí)元共現(xiàn)的ESI研究前沿知識(shí)演進(jìn)分析方法
1 引言
科學(xué)的結(jié)構(gòu)是不斷變化和蔓延生長(zhǎng)的,正基于此,每一輪的科學(xué)革命和突破才能成為推動(dòng)科技創(chuàng)新的基礎(chǔ)。如何離析當(dāng)前世界科技格局、監(jiān)測(cè)重大科技發(fā)展趨勢(shì)、掌握科學(xué)研究動(dòng)態(tài)進(jìn)展、挖掘科學(xué)結(jié)構(gòu)變遷規(guī)律,是科技情報(bào)工作者和科技政策制定者所關(guān)注的重要議題。傳統(tǒng)上,人們習(xí)慣用分類(lèi)、主題詞描述科學(xué)研究的秩序,但這種方式是與科學(xué)內(nèi)在結(jié)構(gòu)相違背的,要想識(shí)別科學(xué)研究結(jié)構(gòu),無(wú)疑需要對(duì)海量的科學(xué)論文進(jìn)行分析,勾勒科學(xué)論文地形圖,以保證科學(xué)主題隨時(shí)間變化時(shí)內(nèi)在含義的相對(duì)穩(wěn)定性[1-2]?!把芯壳把亍钡淖置嬉馑际侵缸吭娇茖W(xué)家在某些領(lǐng)域最前沿所進(jìn)行的領(lǐng)先研究,而計(jì)量學(xué)領(lǐng)域的“科學(xué)研究前沿”指利用科學(xué)論文網(wǎng)編織的某學(xué)科領(lǐng)域“地形結(jié)構(gòu)圖”,人們可以利用“地形圖”探尋科學(xué)結(jié)構(gòu)的本質(zhì)、揭示學(xué)科領(lǐng)域的智力與社會(huì)認(rèn)知、跟蹤科學(xué)研究發(fā)展、評(píng)估不同學(xué)科交叉影響程度等[3]。
計(jì)量學(xué)領(lǐng)域當(dāng)前對(duì)科學(xué)研究前沿的研究主要集中在識(shí)別方法上,并由不同方法的識(shí)別結(jié)果衍生了對(duì)研究前沿不同角度的認(rèn)知。例如,引文分析中的共被引分析[4]、文獻(xiàn)耦合分析[5],基于主題詞的詞頻分析[6]、共詞分析[7]、非相關(guān)知識(shí)發(fā)現(xiàn)[8]、概率主題模型[9],近年來(lái)還出現(xiàn)了離群數(shù)據(jù)挖掘[10]、語(yǔ)義計(jì)算[11]、論文下載使用數(shù)據(jù)分析[12]、科學(xué)文獻(xiàn)多源數(shù)據(jù)集成[13]、論文專(zhuān)利結(jié)合[14]等多種研究前沿探測(cè)方法。諸多方法中,SCI創(chuàng)始人E.Garfield將共被引聚類(lèi)的核心文獻(xiàn)和引用這些核心論文的最新施引文獻(xiàn)一起定義為研究前沿[15],在此基礎(chǔ)上,美國(guó)科技信息研究所(Institute for Scientific Information,ISI)自2001年起推出了基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù)ESI(Essential Science Indicators),成為世界上衡量科研水平與績(jī)效、跟蹤科學(xué)發(fā)展趨勢(shì)的全球性分析評(píng)價(jià)工具,而ESI的“研究前沿”(Research Fronts)數(shù)據(jù)也成為計(jì)量學(xué)領(lǐng)域研究前沿權(quán)威定義、應(yīng)用與實(shí)踐的代表。例如,基于ESI的研究前沿?cái)?shù)據(jù),中國(guó)科學(xué)院與科睿唯安(Clarivate Analytics,原湯森路透知識(shí)產(chǎn)權(quán)與科技事業(yè)部)發(fā)布了“研究前沿系列報(bào)告”,在國(guó)內(nèi)外引起了強(qiáng)烈反響:世界權(quán)威物理學(xué)雜志Physics World專(zhuān)門(mén)予以評(píng)述[16],原國(guó)家副主席李源潮在中國(guó)科協(xié)工作會(huì)議上也曾引用報(bào)告的研究結(jié)果[17]。
ESI研究前沿不是靜態(tài)固化的,而是不斷演變和動(dòng)態(tài)發(fā)展的,如何深入挖掘研究前沿的內(nèi)在演進(jìn)規(guī)律理應(yīng)成為科技情報(bào)領(lǐng)域的重要選題。遺憾的是,目前國(guó)內(nèi)除了利用ESI研究前沿?cái)?shù)據(jù)對(duì)某學(xué)科領(lǐng)域熱點(diǎn)前沿或科研表現(xiàn)進(jìn)行整體梳理外[18-19],鮮有將研究前沿?cái)?shù)據(jù)深入到學(xué)科領(lǐng)域知識(shí)本身進(jìn)行分析研究的報(bào)道;而且,現(xiàn)有對(duì)某領(lǐng)域研究前沿的演進(jìn)分析也往往依靠人工判讀[20],缺乏數(shù)據(jù)層面的客觀支撐?;谏鲜霰尘?,本文首先對(duì)相關(guān)研究進(jìn)行梳理;然后在筆者前期展開(kāi)的基于知識(shí)元科學(xué)計(jì)量的基本理論和初步實(shí)證基礎(chǔ)上[21-22],提出一種基于知識(shí)元共現(xiàn)的計(jì)量分析方法,從學(xué)科領(lǐng)域知識(shí)流動(dòng)擴(kuò)散的微觀視角揭示研究前沿演化機(jī)理;并以《2016研究前沿》化學(xué)與材料科學(xué)領(lǐng)域“高效鈣鈦礦型太陽(yáng)能電池”熱點(diǎn)前沿為例,驗(yàn)證該方法對(duì)研究前沿知識(shí)演進(jìn)分析的情報(bào)有效性,以期為科技情報(bào)工作者開(kāi)展科學(xué)前沿研究提供思路,也為相關(guān)領(lǐng)域發(fā)展態(tài)勢(shì)研判提供一定情報(bào)基礎(chǔ)。
2 相關(guān)研究
2.1 學(xué)科主題演化
學(xué)科主題演化一直是科學(xué)計(jì)量領(lǐng)域的熱點(diǎn)方向。近年來(lái),Song等[23]開(kāi)發(fā)了基于馬爾可夫隨機(jī)場(chǎng)的主題聚類(lèi)等新型技術(shù),研究了DBLP索引中2000到2011年33個(gè)生物信息學(xué)會(huì)議主題的動(dòng)態(tài)演化情況。Jensen等[24]通過(guò)由文獻(xiàn)、作者、發(fā)表地等異質(zhì)文獻(xiàn)網(wǎng)絡(luò)識(shí)別學(xué)科主題的最大影響因素,并利用異構(gòu)網(wǎng)絡(luò)元路徑(meta-path)構(gòu)建的主題演化樹(shù)(topic evolution tree)繪制了可視化科學(xué)主題演進(jìn)圖譜。Tong等[25]基于創(chuàng)新算法構(gòu)建單篇論文分類(lèi)系統(tǒng)(publication-level classification system),利用直接引用、合著、共現(xiàn)等文獻(xiàn)計(jì)量方法,研究了與諾貝爾獎(jiǎng)相關(guān)的化學(xué)學(xué)科主題國(guó)際合作的演變規(guī)律。
國(guó)內(nèi)對(duì)于學(xué)科主題演化研究也是持有關(guān)注。隗玲等[26]從文獻(xiàn)標(biāo)題中抽取主題詞,使用Blondel分區(qū)算法和節(jié)點(diǎn)重合度指標(biāo)對(duì)情報(bào)學(xué)學(xué)科的研究主題進(jìn)行主題交叉研究和演化分析。劉自強(qiáng)等[27]基于LDA模型識(shí)別的研究主題,進(jìn)行了主題熱度、主題狀態(tài)、主題路徑多個(gè)維度的學(xué)科主題演化分析和實(shí)證。陶易等[28]通過(guò)對(duì)數(shù)似然值確定的顯著變化高頻關(guān)鍵詞測(cè)度知識(shí)結(jié)構(gòu)的演化,并利用因子分析、社會(huì)網(wǎng)絡(luò)分析、定性分析揭示學(xué)科知識(shí)結(jié)構(gòu)的演化過(guò)程和原因。
2.2 共詞分析
共詞分析作為一種在不同學(xué)科領(lǐng)域之間傳遞與表達(dá)知識(shí)的內(nèi)容分析方法,是探索領(lǐng)域科學(xué)結(jié)構(gòu)的有效計(jì)量工具[29]。Yang等[30]在共詞分析方法基礎(chǔ)上,結(jié)合聚類(lèi)樹(shù)、戰(zhàn)略坐標(biāo)圖和社會(huì)網(wǎng)絡(luò)分析等可視化手段,研究醫(yī)學(xué)信息學(xué)領(lǐng)域的內(nèi)部主題結(jié)構(gòu)。Burmaoglu等[31]基于對(duì)作者關(guān)鍵詞的共詞分析,利用戰(zhàn)略圖和演化知識(shí)圖譜研究互聯(lián)健康(connected health)領(lǐng)域的內(nèi)部主題結(jié)構(gòu)及其演變規(guī)律。此外,共詞分析方法及其可視化還曾被廣泛應(yīng)用于生物信息學(xué)[32]、人類(lèi)基因組學(xué)[33]、納米技術(shù)科學(xué)[34]能諸多專(zhuān)業(yè)學(xué)科領(lǐng)域。
與國(guó)外相比,國(guó)內(nèi)對(duì)于共詞分析的研究主要集中在方法改進(jìn)和圖情領(lǐng)域自身應(yīng)用。例如,邵作運(yùn)等[35]提出一種利用懲罰性矩陣分解(Penalized Matrix Decomposition,PMD)實(shí)現(xiàn)共詞分析的新方法,并以學(xué)科服務(wù)為例驗(yàn)證該方法的聚類(lèi)可視化效果。周麗英等[36]提出了利用引文耦合關(guān)系增強(qiáng)共詞分析效果的方法,發(fā)現(xiàn)此種改進(jìn)方法能更有效突出關(guān)鍵詞間相關(guān)關(guān)系。趙賓等[37]基于共詞分析和聚類(lèi)分析、多維尺度分析、社會(huì)網(wǎng)絡(luò)分析等可視化手段,對(duì)國(guó)內(nèi)信息生態(tài)領(lǐng)域的研究主題分布進(jìn)行了計(jì)量剖析。
綜上所述,國(guó)內(nèi)外專(zhuān)家學(xué)者從不同方法角度和不同應(yīng)用場(chǎng)景推進(jìn)了學(xué)科主題演化和共詞分析研究,具有各自不同的創(chuàng)新特點(diǎn)。但是,學(xué)科主題演化和共詞分析的基本對(duì)象均為主題詞或關(guān)鍵詞,雖然一些學(xué)者提出了一定的創(chuàng)新算法,但利用LDA、PMD等抽取的主題詞和關(guān)鍵詞,仍然隸屬于文獻(xiàn)表層的知識(shí)特征,并不能代表文獻(xiàn)內(nèi)部的具體創(chuàng)新知識(shí)點(diǎn)。將關(guān)鍵詞或主題詞看作知識(shí)單元進(jìn)行研究,對(duì)于科學(xué)文獻(xiàn)潛在內(nèi)容的關(guān)聯(lián)發(fā)現(xiàn)、特定學(xué)科領(lǐng)域知識(shí)地圖的構(gòu)建、捕捉學(xué)科領(lǐng)域思想等方面存在局限[38]。其次,現(xiàn)有研究普遍將主題詞和關(guān)鍵詞同等看待,并沒(méi)有語(yǔ)義功能信息的標(biāo)注,無(wú)法反映主題詞或關(guān)鍵短語(yǔ)在科技文獻(xiàn)中的語(yǔ)義角色。例如,科技文獻(xiàn)內(nèi)不同詞或詞組可能代表著研究材料、研究方法、研究技術(shù)等,如何對(duì)文本中此類(lèi)特定語(yǔ)義角色詞組進(jìn)行挖掘和計(jì)量分析具有重要意義。另外,通過(guò)上述梳理也可以看出,國(guó)外的學(xué)科主題演化和共詞分析研究,不但技術(shù)方法頗有創(chuàng)新,而且大多最終落腳于具體專(zhuān)業(yè)學(xué)科領(lǐng)域的實(shí)踐應(yīng)用。國(guó)內(nèi)相關(guān)研究雖然也有方法的改進(jìn),但將主題演化分析和共詞分析應(yīng)用到STEM學(xué)科領(lǐng)域的實(shí)證研究實(shí)屬不足,這也一定程度反映出國(guó)內(nèi)科技情報(bào)界在領(lǐng)域知識(shí)分析和學(xué)科情報(bào)研究上著力的匱乏。
針對(duì)上述問(wèn)題,本文基于自然語(yǔ)言處理、語(yǔ)義標(biāo)注和文本挖掘技術(shù),提出一種利用知識(shí)元共現(xiàn)關(guān)系進(jìn)行研究前沿演化分析的計(jì)量方法。由于知識(shí)元是表征特定科學(xué)內(nèi)涵的學(xué)科專(zhuān)業(yè)元素或基本要素[22],因此,首先截取科技文獻(xiàn)中代表關(guān)鍵創(chuàng)新點(diǎn)的文本片段,然后抽取其中表征科學(xué)研究對(duì)象的知識(shí)元組分,最后利用知識(shí)元的共現(xiàn)網(wǎng)絡(luò)特征進(jìn)行研究前沿的知識(shí)演進(jìn)分析,為面向文獻(xiàn)內(nèi)部創(chuàng)新點(diǎn)、基于專(zhuān)業(yè)語(yǔ)義知識(shí)的學(xué)科戰(zhàn)略情報(bào)研究提供思路。
3 基礎(chǔ)理論闡述
3.1 ESI研究前沿的形成機(jī)理
某一科學(xué)領(lǐng)域最前沿的研究,往往呈現(xiàn)出科學(xué)家們頻繁密切交流的特點(diǎn)。這種交流可能是正式的(如論文、專(zhuān)著等),也可能是非正式的(如論壇、會(huì)議、電郵等),但其中最能從宏觀視角俯瞰該領(lǐng)域?qū)W科發(fā)展知識(shí)布局的便是科學(xué)家成果之間的相互引用。不同的引用模式可以表現(xiàn)出不同的知識(shí)鏈接關(guān)系,也可以反映科學(xué)家在其他知識(shí)基礎(chǔ)上建立自身工作的細(xì)粒度知識(shí)選擇過(guò)程。因此,透過(guò)代表科學(xué)家核心工作文獻(xiàn)的不同引用模式,就可以勾勒某研究領(lǐng)域特定時(shí)段狀態(tài)的科學(xué)結(jié)構(gòu)全景圖。
在基本科學(xué)指標(biāo)數(shù)據(jù)庫(kù)ESI(Essential Science Indicators)中完成上述過(guò)程便稱(chēng)為研究前沿分析(research front analysis)[39]。分析過(guò)程利用共被引分析方法,通過(guò)識(shí)別6年內(nèi)多學(xué)科中引用率最高的文獻(xiàn),對(duì)各學(xué)科內(nèi)文獻(xiàn)的共被引頻次用Cosine加以標(biāo)準(zhǔn)化,以降低學(xué)科之間的差異性。標(biāo)準(zhǔn)化公式如公式(1)所示,其中共被引頻次標(biāo)準(zhǔn)化(normalized co-citation)指數(shù)為,文獻(xiàn)A和文獻(xiàn)B的共被引頻次(integer co-citation frequency of A and B)為,文獻(xiàn)A、B的被引頻次(citation frequency)分別為和:
將共被引頻次標(biāo)準(zhǔn)化之后,設(shè)置一定閾值來(lái)確定研究前沿需要處理的共被引文獻(xiàn)集,并利用單鏈路聚類(lèi)法(single-link clustering)將那些關(guān)系緊密的文獻(xiàn)聚類(lèi),得到核心文獻(xiàn)簇。最終,研究前沿具有數(shù)字屬性的識(shí)別結(jié)果便能夠幫助確定該學(xué)科前沿的重要性及其發(fā)展階段(如表1所示):在每個(gè)前沿中,核心論文數(shù)及其總被引頻次共同表征該研究前沿的規(guī)模大?。缓诵恼撐募恼w被引頻次反映該研究前沿的研究熱度高低;核心論文平均出版年表現(xiàn)該研究前沿的發(fā)展速度和變遷方向;由核心論文內(nèi)經(jīng)常出現(xiàn)的關(guān)鍵詞或標(biāo)題術(shù)語(yǔ)所構(gòu)成的研究前沿名稱(chēng),則代表了該研究前沿的主題內(nèi)容和專(zhuān)題焦點(diǎn)。
3.2 知識(shí)元計(jì)量在研究前沿演化分析中的效用
研究前沿的構(gòu)成不會(huì)包涵一個(gè)學(xué)科的所有領(lǐng)域或全部文獻(xiàn),但是,ESI研究前沿可以幫助科學(xué)家確定某學(xué)科正在開(kāi)展重要工作的研究方向以及科學(xué)共同體正在關(guān)注的重要領(lǐng)域。而研究前沿核心論文簇的施引文獻(xiàn)集,恰好成為一條探索這些重要工作或重要領(lǐng)域不斷發(fā)展與變遷方向的途徑。因?yàn)檠芯壳把氐暮诵恼撐碾m是固定的,但核心論文所對(duì)應(yīng)的施引文獻(xiàn)卻是不斷變化的,如果將核心論文簇看作研究前沿的知識(shí)基礎(chǔ),那么隨時(shí)間不斷重構(gòu)的施引文獻(xiàn)集則呈現(xiàn)了研究前沿知識(shí)的流動(dòng)、擴(kuò)散和演化路徑。再者,共被引分析的缺點(diǎn)是具有明顯的時(shí)滯性,而將核心論文及其不斷更迭的施引文獻(xiàn)數(shù)據(jù)相融合,并在引文分析基礎(chǔ)上集成基于知識(shí)元的共現(xiàn)分析,共被引分析與共詞分析的有機(jī)結(jié)合,不僅能在數(shù)據(jù)源上彌補(bǔ)遲滯缺陷,也能在方法上最大程度保證研究前沿演進(jìn)分析結(jié)果的可靠性。
如前文所述,現(xiàn)有學(xué)科主題演化的研究對(duì)象大都是關(guān)鍵詞或主題詞,雖也能得出一定結(jié)果,但也只是文獻(xiàn)表層知識(shí)特征的反映,并不能準(zhǔn)確表征文獻(xiàn)內(nèi)部的語(yǔ)義專(zhuān)業(yè)知識(shí)。例如,某篇研究鈣鈦礦太陽(yáng)能電池的科技文獻(xiàn),其關(guān)鍵詞或主題詞大都包括“鈣鈦礦”這樣的專(zhuān)業(yè)詞組,但往往不會(huì)包含構(gòu)成該太陽(yáng)能電池材料的具體化學(xué)組分,如組成其電子傳輸層的、光敏層的等基本專(zhuān)業(yè)知識(shí)實(shí)體元素。其實(shí),只有對(duì)這些代表學(xué)科領(lǐng)域創(chuàng)新的基本知識(shí)元素進(jìn)行分析,才可能真正找到解決關(guān)鍵問(wèn)題、推動(dòng)領(lǐng)域發(fā)展的創(chuàng)新點(diǎn)和突破口?;谥R(shí)元的計(jì)量分析則能提供一條解決這一問(wèn)題的思路。筆者前期研究中已經(jīng)定義,知識(shí)元具有特定的科學(xué)內(nèi)涵,是某專(zhuān)業(yè)學(xué)科領(lǐng)域科學(xué)研究對(duì)象、方法、過(guò)程、活動(dòng)及結(jié)果等科學(xué)全生命周期的專(zhuān)業(yè)元素或基本要素[22]。對(duì)研究前沿施引文獻(xiàn)集不同時(shí)間段的知識(shí)元組分進(jìn)行計(jì)量分析,能通過(guò)文獻(xiàn)內(nèi)所含知識(shí)元的鏈接和重組,實(shí)現(xiàn)真正的知識(shí)發(fā)現(xiàn)與增值,描繪前沿內(nèi)部學(xué)科知識(shí)的演化軌跡,厘清前沿的知識(shí)流動(dòng)特征和發(fā)展變遷規(guī)律。研究前沿形成機(jī)理和知識(shí)元計(jì)量分析在研究前沿演化中應(yīng)用的理論框架圖如圖1所示。
圖1 ESI研究前沿形成機(jī)理與知識(shí)元分析在其演化研究中應(yīng)用的理論框架圖
4 研究方法
為深入到文獻(xiàn)內(nèi)蘊(yùn)含的專(zhuān)業(yè)知識(shí)本身,微觀定量剖析ESI研究前沿的動(dòng)態(tài)變遷規(guī)律,本文提出一種基于知識(shí)元共現(xiàn)的研究前沿知識(shí)演進(jìn)分析方法(具體流程如圖2所示):以“研究前沿”核心論文的施引文獻(xiàn)全文本數(shù)據(jù)作為研究對(duì)象,首先,利用JAVA自編程序截取每篇文獻(xiàn)的“實(shí)驗(yàn)/研究方法/研究材料”(包括Experimental section/Methods/Materials格式等)部分;然后,利用命名實(shí)體識(shí)別等自然語(yǔ)言處理技術(shù)抽取研究對(duì)象知識(shí)元(研究材料的化學(xué)要素);最后,利用Gephi等軟件進(jìn)行不同時(shí)間窗下知識(shí)元的共現(xiàn)網(wǎng)絡(luò)分析與可視化,探測(cè)研究前沿的知識(shí)演進(jìn)路徑。
圖2 基于知識(shí)元共現(xiàn)的ESI研究前沿知識(shí)演進(jìn)分析方法流程圖
第一步:研究數(shù)據(jù)獲取。在Web of Science(WoS)中檢索研究前沿核心論文的施引文獻(xiàn)題錄,并下載所有施引文獻(xiàn)的PDF全文。將施引文獻(xiàn)PDF文檔轉(zhuǎn)換為txt純文本格式,并利用JAVA自編程序截取每篇文獻(xiàn)的實(shí)驗(yàn)/研究方法部分。
第二步:數(shù)據(jù)處理與命名實(shí)體識(shí)別。對(duì)截取的文本數(shù)據(jù)進(jìn)行去除標(biāo)點(diǎn)、去除停用詞、詞性標(biāo)注、分詞、構(gòu)建詞袋等處理,利用命名實(shí)體識(shí)別技術(shù)抽取代表每篇文獻(xiàn)關(guān)鍵創(chuàng)新知識(shí)點(diǎn)的知識(shí)元實(shí)體(研究材料的基本化學(xué)要素)。
第三步:知識(shí)元共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析。將每篇文獻(xiàn)實(shí)驗(yàn)部分知識(shí)元共現(xiàn)配對(duì),并將知識(shí)元共現(xiàn)數(shù)據(jù)導(dǎo)入Gephi等軟件進(jìn)行網(wǎng)絡(luò)分析和可視化分析。
第四步:研究前沿知識(shí)演進(jìn)與發(fā)現(xiàn)。利用具有不同“中心”含義的3種中心性網(wǎng)絡(luò)測(cè)量指標(biāo):點(diǎn)度中心性(degree centrality)、接近中心性(closeness centrality)和中介中心性(betweenness centrality),統(tǒng)計(jì)測(cè)度不同時(shí)間切片下知識(shí)元共現(xiàn)網(wǎng)絡(luò)的網(wǎng)絡(luò)特征,以網(wǎng)絡(luò)中高中心性知識(shí)元作為代表,挖掘研究前沿的知識(shí)演進(jìn)路徑;計(jì)算整體網(wǎng)中知識(shí)元的共現(xiàn)模塊度,識(shí)別頻繁共現(xiàn)的知識(shí)元社區(qū),進(jìn)行研究前沿的知識(shí)社區(qū)發(fā)現(xiàn)探測(cè)。
4.1 OSCAR4知識(shí)元實(shí)體識(shí)別
OSCAR(The Open-Source Chemistry Analysis Routines)是由英國(guó)劍橋大學(xué)化學(xué)系分子科學(xué)信息學(xué)中心自2002年開(kāi)發(fā)的自然語(yǔ)言處理開(kāi)源工具包,用于化學(xué)文獻(xiàn)數(shù)據(jù)的命名實(shí)體識(shí)別[40]。OSCAR4是OSCAR工具的第4代JAVA庫(kù)版本,集成了正則表達(dá)式識(shí)別器(Regex Recogniser)、模式識(shí)別器(Pattern Recogniser)和最大熵馬爾可夫識(shí)別器(Maximum Entropy Markov Model Recogniser),其API工作流程如圖3所示。由于面向科技文獻(xiàn)的化學(xué)實(shí)體文本挖掘并不像生物信息學(xué)那樣普及便利,因此OSCAR自開(kāi)發(fā)之日起就備受關(guān)注,已經(jīng)成為歐洲專(zhuān)利局(European Patent Office,EPO)、歐洲生物信息研究所(European Bioinformatics Institute,EBI)、英國(guó)國(guó)家文本挖掘中心(National Centre for Text Mining,NaCTeM)等機(jī)構(gòu)和醫(yī)藥公司的重要研發(fā)工具。
圖3 OSCAR4命名實(shí)體識(shí)別工作流程圖
在ESI研究前沿的十大學(xué)科領(lǐng)域中,大多數(shù)領(lǐng)域的研究對(duì)象實(shí)質(zhì)均為化學(xué)要素知識(shí)實(shí)體。如農(nóng)業(yè)植物學(xué)領(lǐng)域中植物生理機(jī)制的鉀離子吸收、生態(tài)環(huán)境領(lǐng)域的溴系阻燃劑研究、地球科學(xué)領(lǐng)域的土壤碳循環(huán)、臨床醫(yī)學(xué)領(lǐng)域的抗病毒藥物研發(fā)、生物科學(xué)領(lǐng)域的新型病毒特征鑒定、化學(xué)材料科學(xué)領(lǐng)域的鈉離子電池、物理學(xué)領(lǐng)域的黑磷特性、工程學(xué)領(lǐng)域的納米零價(jià)鐵廢水處理等,可以說(shuō),化學(xué)知識(shí)實(shí)體作為這些研究的知識(shí)元,代表了每項(xiàng)領(lǐng)域主題的基本研究對(duì)象和核心創(chuàng)新元素。以太陽(yáng)能電池為例,歷經(jīng)非晶硅、染料敏化、有機(jī)太陽(yáng)能電池等薄膜電池的發(fā)展,鈣鈦礦太陽(yáng)能電池成為第三代太陽(yáng)能電池最熱門(mén)的方向,而這些太陽(yáng)能電池核心材料(半導(dǎo)體薄膜等)的基本結(jié)構(gòu)成分均為a-Si、、ZnO、MgPc、CuPc、等化學(xué)實(shí)體知識(shí)元。
另外,科學(xué)文獻(xiàn)語(yǔ)法結(jié)構(gòu)對(duì)詞語(yǔ)語(yǔ)義特征的影響,也是保證計(jì)量對(duì)象抽取能否真正表征科學(xué)文獻(xiàn)關(guān)鍵創(chuàng)新知識(shí)點(diǎn)的決定因素。其實(shí),Suppe[41]早在20世紀(jì)便發(fā)文指出,科學(xué)文獻(xiàn)中的“方法和數(shù)據(jù)解釋(Methods/Data)”部分對(duì)于評(píng)價(jià)科學(xué)新發(fā)現(xiàn)是否可以納入一門(mén)學(xué)科領(lǐng)域的共同知識(shí)基礎(chǔ)(knowledge base)至關(guān)重要。Teufel[42]在其學(xué)位論文中也發(fā)現(xiàn),不同學(xué)科寫(xiě)作風(fēng)格多樣化影響著不同學(xué)科的文獻(xiàn)結(jié)構(gòu)組成,進(jìn)一步影響著領(lǐng)域知識(shí)信息的抽取語(yǔ)法位置構(gòu)建,而幾乎所有傳統(tǒng)科技領(lǐng)域文獻(xiàn)都含有標(biāo)準(zhǔn)的引言、方法、結(jié)果和討論部分。武漢大學(xué)陸偉教授團(tuán)隊(duì)近年來(lái)也發(fā)表了一系列文章,探究學(xué)術(shù)文本的結(jié)構(gòu)功能,基于語(yǔ)言學(xué)、機(jī)器學(xué)習(xí)、文本挖掘和自然語(yǔ)言處理等技術(shù)方法,識(shí)別章節(jié)內(nèi)容和功能框架,并將其應(yīng)用于學(xué)術(shù)搜索和關(guān)鍵詞自動(dòng)抽取,已取得系列成果[43-45]??梢?jiàn),科學(xué)文獻(xiàn)不同章節(jié)語(yǔ)法內(nèi)容所體現(xiàn)的語(yǔ)義功能,反映了學(xué)術(shù)文本不同結(jié)構(gòu)的目的性和功能性,用于計(jì)量分析的知識(shí)元抽取,理應(yīng)將不同位置結(jié)構(gòu)文本內(nèi)容所蘊(yùn)含的語(yǔ)義差異性作為首要考量因素。
事實(shí)上,科技領(lǐng)域文獻(xiàn)常在其“實(shí)驗(yàn)/研究方法/研究材料”部分對(duì)材料制備的前期實(shí)驗(yàn)進(jìn)行描述,該部分往往包含基本的化學(xué)組成和反應(yīng)機(jī)理,代表著材料合成和性能改良的關(guān)鍵創(chuàng)新知識(shí)點(diǎn)。例如,一篇文獻(xiàn)所截取實(shí)驗(yàn)部分文本的原始段落中,有如下的實(shí)驗(yàn)描述[46]:
該段語(yǔ)料在經(jīng)過(guò)OSCAR4知識(shí)元實(shí)體識(shí)別,進(jìn)行數(shù)據(jù)清洗、預(yù)處理、詞性標(biāo)注器過(guò)濾后,最終將得到帶有CM化合物實(shí)體標(biāo)簽的知識(shí)元詞串(即為上文中加黑加粗的詞項(xiàng)),結(jié)果表示如下:
可見(jiàn),經(jīng)過(guò)數(shù)據(jù)處理后待實(shí)驗(yàn)的文本語(yǔ)料,是未曾改變科學(xué)家原始實(shí)驗(yàn)順序的知識(shí)元詞串,其上下文并非傳統(tǒng)意義上的字詞鏈接,而是具有表征太陽(yáng)能電池器件材料制備前期、某種特定化學(xué)反應(yīng)和關(guān)聯(lián)屬性的有序知識(shí)元排列。進(jìn)而可以判定,如果化學(xué)實(shí)體要素在科學(xué)文獻(xiàn)實(shí)驗(yàn)部分(包括Experimental section/Methods等格式)共現(xiàn),則代表該化學(xué)知識(shí)元對(duì)之間存在現(xiàn)實(shí)相互反應(yīng)關(guān)系(如的相互作用反應(yīng));而如果該知識(shí)元對(duì)在實(shí)驗(yàn)部分頻繁共現(xiàn),則表征此類(lèi)化學(xué)要素實(shí)體對(duì)作為基本知識(shí)元組分,可能在一定時(shí)段內(nèi)對(duì)促進(jìn)該領(lǐng)域的知識(shí)發(fā)現(xiàn)(新材料發(fā)現(xiàn))和創(chuàng)新(新材料性能改良)具有重要意義(如該實(shí)驗(yàn)文本中化學(xué)知識(shí)元的頻繁共現(xiàn),說(shuō)明此時(shí)期以材料作為吸光層和材料作為電子傳輸層的鈣鈦礦太陽(yáng)能電池創(chuàng)新制備研發(fā))。因此,本文利用OSCAR4語(yǔ)義標(biāo)注技術(shù)從全文實(shí)驗(yàn)部分抽取化學(xué)實(shí)體知識(shí)元,借助知識(shí)元對(duì)的共現(xiàn)計(jì)量分析,從微觀專(zhuān)業(yè)知識(shí)視角挖掘推動(dòng)領(lǐng)域發(fā)展的突破口和創(chuàng)新點(diǎn)。
4.2 知識(shí)元共現(xiàn)網(wǎng)絡(luò)特征分析
網(wǎng)絡(luò)分析主要包括3個(gè)層面:宏觀層面統(tǒng)計(jì)(全局圖度量),包括k-核、最短距離、度分布等;中觀層面結(jié)構(gòu)(群簇聚類(lèi)特征),包括聚類(lèi)系數(shù)、層次聚類(lèi)、模塊聚類(lèi)等;微觀層面指標(biāo)(單個(gè)節(jié)點(diǎn)屬性),包括不同的中心性測(cè)度。本文主要應(yīng)用中心性分析和Fast unfolding社區(qū)發(fā)現(xiàn)算法對(duì)知識(shí)元共現(xiàn)網(wǎng)絡(luò)進(jìn)行分析。
4.2.1 中心性分析
(1)度數(shù)中心性(degree centrality):某知識(shí)元的度數(shù)中心性即該知識(shí)元與其他知識(shí)元的鏈接數(shù)量,如公式(2)所示,即知識(shí)元i的度數(shù)中心性,如果某知識(shí)元具有較高度數(shù),表示其居于化學(xué)反應(yīng)網(wǎng)絡(luò)的中心位置,具有權(quán)力:
(2)中間中心性(betweenness centrality):如果一個(gè)知識(shí)元處于許多其他知識(shí)元對(duì)的捷徑(geodesic,最短路徑)上,說(shuō)明該知識(shí)元在資源控制上具有較高中間中心性,在連接不同子群化學(xué)反應(yīng)時(shí)起到橋梁作用,其表述為公式(3),其中是知識(shí)元j和k之間的捷徑距離(geodesic distance):
(3)接近中心性(closeness centrality):某知識(shí)元的接近中心性聚焦其知識(shí)傳遞能力,是其對(duì)整個(gè)網(wǎng)絡(luò)其他知識(shí)元化學(xué)作用影響能力測(cè)度的延伸,表述為公式(4),其中是網(wǎng)絡(luò)中兩個(gè)知識(shí)元的距離:
4.2.2 Fast unfolding社區(qū)探測(cè)
自模塊度(modularity)的概念在2004年被提出之后,進(jìn)一步推進(jìn)了用于社區(qū)探測(cè)評(píng)價(jià)的模塊度算法的發(fā)展,Blondel等[47]便于2008年提出了啟發(fā)式模塊度優(yōu)化的Fast unfolding社區(qū)識(shí)別算法,不僅大大降低模塊度運(yùn)算時(shí)間,還能處理更為復(fù)雜、更大數(shù)據(jù)量的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)。本文利用fast unfolding算法進(jìn)行知識(shí)元共現(xiàn)網(wǎng)絡(luò)的社區(qū)探測(cè),算法原理為以下兩步的迭代運(yùn)行:
(1)模塊度優(yōu)化。將網(wǎng)絡(luò)中的全部N個(gè)知識(shí)元分配為N個(gè)社區(qū),計(jì)算每個(gè)知識(shí)元與鄰近知識(shí)元進(jìn)行社區(qū)組合前后的模塊度變化值ΔQ,如果結(jié)果為正,重復(fù)此過(guò)程,按順序?qū)ζ渌R(shí)元進(jìn)行社區(qū)組合,直到局部模塊度達(dá)到最大化時(shí)停止。將知識(shí)元i組合到社區(qū)C時(shí)的模塊度增量值ΔQ的計(jì)算公式如(5)所示,是C中所有鏈接權(quán)重總和,是關(guān)聯(lián)至C中所有知識(shí)元鏈接的權(quán)重之和,是關(guān)聯(lián)至知識(shí)元i鏈接的權(quán)重之和,是從知識(shí)元i到社區(qū)C中所有知識(shí)元鏈接的權(quán)重之和,m是整體網(wǎng)中所有鏈接的權(quán)重之和:
(2)新網(wǎng)絡(luò)組建。利用上一進(jìn)程探測(cè)得到的知識(shí)元社區(qū)組建新的復(fù)雜網(wǎng)絡(luò),新構(gòu)建網(wǎng)絡(luò)中知識(shí)元間的鏈接權(quán)重由對(duì)應(yīng)原兩個(gè)社區(qū)內(nèi)的知識(shí)元鏈接權(quán)重之和所決定,而同一社區(qū)內(nèi)的知識(shí)元鏈接在新網(wǎng)絡(luò)中組成閉環(huán)社區(qū)結(jié)構(gòu)。
5 實(shí)證研究
本文以《2016研究前沿》中“化學(xué)與材料科學(xué)領(lǐng)域”的“高效鈣鈦礦型太陽(yáng)能電池”熱點(diǎn)前沿為例,對(duì)基于知識(shí)元共現(xiàn)的ESI研究前沿知識(shí)演進(jìn)分析方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,詳細(xì)流程及結(jié)果如下。
5.1 研究數(shù)據(jù)獲取
在Web of Science中檢索該熱點(diǎn)前沿30篇核心論文(附表)的施引文獻(xiàn),檢索時(shí)間為2017年7月25日,共得到施引文獻(xiàn)題錄7022條(各年間施引文獻(xiàn)篇數(shù)分布及其增長(zhǎng)趨勢(shì)預(yù)測(cè)曲線如圖4所示);在相應(yīng)數(shù)據(jù)庫(kù)中下載7022篇文獻(xiàn)的全文PDF數(shù)據(jù),共獲得PDF全文4860篇;將PDF全文轉(zhuǎn)換為T(mén)ext純文本格式,并利用JAVA自編程序截取每篇文獻(xiàn)的“實(shí)驗(yàn)/研究方法/研究材料”(包括Experimental section/Methods/Materials等格式)部分文本,獲取實(shí)驗(yàn)文獻(xiàn)數(shù)據(jù)2677篇。4860篇PDF全文最終僅利用機(jī)器自動(dòng)截取得到2677篇文本語(yǔ)料數(shù)據(jù)的原因有兩個(gè):一個(gè)原因是一些期刊文獻(xiàn)可能不包含符合傳統(tǒng)標(biāo)準(zhǔn)規(guī)則結(jié)構(gòu)的“Introduction、Experimental section/Methods、Results and discussion”格式,如Journal of the American Chemical Society、ACS Nano、Journal of Materials Chemistry A等;另一個(gè)原因是一些科技文獻(xiàn)并不是原創(chuàng)的科學(xué)研究實(shí)驗(yàn)性質(zhì)論文,只是“Letter”或“Communication”等通訊文摘。
每個(gè)時(shí)間段不同類(lèi)型施引文獻(xiàn)數(shù)據(jù)如表2所示。
圖4 各年間原始施引文獻(xiàn)數(shù)據(jù)分布及增長(zhǎng)趨勢(shì)預(yù)測(cè)曲線
5.2 數(shù)據(jù)處理與命名實(shí)體識(shí)別
首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行OSCAR4命名實(shí)體識(shí)別;然后進(jìn)行去除標(biāo)點(diǎn)、去除停用詞、詞頻過(guò)濾等數(shù)據(jù)預(yù)處理,過(guò)濾掉不需要的字符;最后通過(guò)分詞構(gòu)建詞袋模型(Bag of Words,BoW),利用PoS詞性標(biāo)注(Part-of-Speech tagging)過(guò)濾器過(guò)濾掉BoW詞包中不包含OSCAR實(shí)體標(biāo)簽的字符。處理后所得數(shù)據(jù)即為包含OSCAR化合物(Chemical Compound,CM)、本體術(shù)語(yǔ)(Ontology Term,ONT)、反應(yīng)名稱(chēng)(Reaction Name,RN)、化學(xué)形容詞(Chemical Adjective,CJ)、酶類(lèi)(Enzymes,ASE)等各類(lèi)化學(xué)要素的命名實(shí)體。由于本實(shí)驗(yàn)所需為CM化學(xué)實(shí)體知識(shí)元,因此還要利用Notepad++對(duì)識(shí)別出的OSCAR標(biāo)注實(shí)體過(guò)濾去噪去重,僅保留標(biāo)簽為CM的化學(xué)知識(shí)元實(shí)體。最后,將每篇文獻(xiàn)的CM知識(shí)元兩兩共現(xiàn)配對(duì),設(shè)置一定閾值導(dǎo)入Gephi中進(jìn)行共現(xiàn)網(wǎng)絡(luò)分析。數(shù)據(jù)詳細(xì)處理流程如圖5所示。
5.3 研究前沿知識(shí)演進(jìn)分析
根據(jù)共現(xiàn)數(shù)據(jù)的多次預(yù)處理實(shí)驗(yàn),最終選擇共現(xiàn)頻次大于或等于5作為閾值篩選符合標(biāo)準(zhǔn)的知識(shí)元共現(xiàn)對(duì),導(dǎo)入Gephi軟件生成共現(xiàn)網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)中心性和模塊度特征,分別對(duì)2010—2014年、2015年、2016年、2017年四個(gè)時(shí)間窗口的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行共現(xiàn)分析,從微觀專(zhuān)業(yè)知識(shí)擴(kuò)散流動(dòng)視角挖掘前沿的知識(shí)演進(jìn)軌跡。
如何低成本高效利用太陽(yáng)能一直是世界性科學(xué)研究焦點(diǎn),在經(jīng)歷了第一代單晶硅和多晶硅太陽(yáng)能電池、第二代非晶硅和多晶硅薄膜太陽(yáng)能電池技術(shù)的發(fā)展,鈣鈦礦太陽(yáng)能電池自2009年被首次報(bào)道、2013年被Science列為世界十大年度科學(xué)突破開(kāi)始(這與圖4文獻(xiàn)年代數(shù)量分布特征相符,也一定程度證明文獻(xiàn)指數(shù)模擬預(yù)測(cè)曲線的合理性),已經(jīng)被視為最具應(yīng)用潛力的第三代高效太陽(yáng)能電池,短短8年間,能量轉(zhuǎn)換效率已經(jīng)由3.8%迅猛增加到2017年的22.1%[48]。
5.3.1 2010—2014年研究前沿知識(shí)演進(jìn)特征
2010—2014年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布如圖6所示(圖6~圖9中,知識(shí)元節(jié)點(diǎn)越大,代表度數(shù)中心性越大;節(jié)點(diǎn)間連線越粗、顏色越深,代表知識(shí)元共現(xiàn)頻率權(quán)重越大),知識(shí)元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值(表3~表6中,為比較不同網(wǎng)絡(luò)中心性特征,將中間中心性和接近中心性數(shù)值歸一化處理)與知識(shí)元共現(xiàn)頻次如表3所示。
圖5 數(shù)據(jù)處理流程圖
圖6 2010-2014年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布圖
圖7 2015年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布圖
圖8 2016年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布圖
圖9 2017年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布圖
2010-2014年作為萌芽期,研究主要集中在鈣鈦礦太陽(yáng)能電池基本構(gòu)造、染料敏化與量子點(diǎn)電池技術(shù)改進(jìn)等方面(知識(shí)元社區(qū)C1、C5)。鈣鈦礦太陽(yáng)能電池一般由導(dǎo)電玻璃基底(FTO/ITO)、電子傳輸層(通常為)、鈣鈦礦光吸收層(多為、空穴傳輸層(HTM)和金屬背電極等組成,因此、、FTO、HTM、ITO等知識(shí)元中心性數(shù)值較高。鈣鈦礦太陽(yáng)能電池是由染料敏化電池、量子點(diǎn)電池等改進(jìn)發(fā)展而來(lái),因而其對(duì)應(yīng)的DSSC、DSC、QDs(CdSe)等知識(shí)元中心性較高,且QDs、DSSC與共現(xiàn)頻次也較高。
具體來(lái)看,此時(shí)期主要涉及對(duì)光吸收層(C2社區(qū))、空穴傳輸層(C3社區(qū))、電子傳輸薄膜材料(C6社區(qū))等基本構(gòu)造的初步探究。自2009年作為吸光層用于染料敏化電池改進(jìn),因其獨(dú)特的晶體結(jié)構(gòu)和理化特性,一直是報(bào)道最為突出的鈣鈦礦太陽(yáng)能電池高效光吸收劑;鈣鈦礦結(jié)構(gòu)通式為,光電性質(zhì)可以通過(guò)改變A、B、X離子來(lái)調(diào)節(jié),例如將金屬陽(yáng)離子B換為Pb、Sn[49]等元素,或采用等吸光材料。2012年,Spiro-OMeTAD被發(fā)現(xiàn)可以代替液體電解質(zhì),作為空穴傳輸材料(HTM)提高電池穩(wěn)定性[50]。鈣鈦礦作為新一代有機(jī)薄膜太陽(yáng)能電池(OPV),電子傳輸材料除由傳統(tǒng)Si發(fā)展而來(lái)的外,還可采用[51]、ZnO等其他金屬氧化物替代。此外,知識(shí)元社區(qū)C4則反映了此時(shí)期實(shí)驗(yàn)制備化學(xué)試劑構(gòu)成,主要包括KBr、等。
5.3.2 2015年研究前沿知識(shí)演進(jìn)特征
2015年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布如圖7所示,知識(shí)元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識(shí)元共現(xiàn)頻次如表4所示。
相比于2010—2014年知識(shí)元社區(qū)的集中分布,可以看出2015年開(kāi)始知識(shí)元社區(qū)呈現(xiàn)相對(duì)分散的布局,此時(shí)進(jìn)入鈣鈦礦太陽(yáng)能領(lǐng)域前沿的初步發(fā)展時(shí)期。多孔介觀和平面異質(zhì)太陽(yáng)能電池成為研究熱點(diǎn)(知識(shí)元社區(qū)C1、C3、C4、C5),基于/ZnO電子傳輸層,其多采用有機(jī)—無(wú)機(jī)混合結(jié)晶材料(有機(jī)金屬三鹵化物如,通常簡(jiǎn)寫(xiě)為,X=I,Br等)作為光吸收材料,該材料導(dǎo)帶底(CBM)和價(jià)帶頂(VBM)附近能帶結(jié)構(gòu)位置在合適的水平,禁帶寬度為1.55eV(對(duì)應(yīng)吸收截止波長(zhǎng)800 nm),與太陽(yáng)光譜匹配,具有良好的光吸收性能[52]??茖W(xué)家還發(fā)現(xiàn)鈣鈦礦薄膜形態(tài)的有效控制與電池性能提高密切相關(guān),而基于的薄膜制備技術(shù)成為報(bào)道焦點(diǎn)[53]。中心性特征分析結(jié)果也表明上述相關(guān)知識(shí)元中心性數(shù)值較高,且在知識(shí)元高頻率共現(xiàn)對(duì)中出現(xiàn)。
值得注意的是,石墨烯(graphene)及其衍生物因其獨(dú)特材料結(jié)構(gòu)和光電性質(zhì),被發(fā)現(xiàn)作為兩側(cè)透明電極、電子傳輸層、界面修飾層、空穴傳輸層可提高鈣鈦礦太陽(yáng)能電池轉(zhuǎn)換效率和穩(wěn)定性(知識(shí)元社區(qū)C2),引起關(guān)注(不僅中心性數(shù)值較高,且在Top 20知識(shí)元高頻共現(xiàn)對(duì)中出現(xiàn)9次)。例如,石墨烯納米帶(GNRs)復(fù)合TiO2等作電子傳輸材料,石墨烯替代氧化銦錫(ITO)、氧化氟錫(FTO)等電極提高透光率[54],石墨烯量子點(diǎn)(QDs)促進(jìn)電子提取效率[55],氧化石墨烯(GO)阻滯電荷復(fù)合等。另外,C2社區(qū)還涉及Au、Cu等金屬電極材料探究。
5.3.3 2016年研究前沿知識(shí)演進(jìn)特征
2016年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布如圖8所示,知識(shí)元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識(shí)元共現(xiàn)頻次如表5所示。
通過(guò)圖8可以看出,2016年間各知識(shí)元社區(qū)分布呈現(xiàn)更加分散和交叉的態(tài)勢(shì),此時(shí)進(jìn)入鈣鈦礦太陽(yáng)能領(lǐng)域前沿的快速發(fā)展時(shí)期。圍繞鈣鈦礦太陽(yáng)能電池的核心鈣鈦礦組件(知識(shí)元社區(qū)C1、C6)、空穴傳輸與電子傳輸材料(C2、C4、C5)、透明電極和金屬電極(C3)、多孔絕緣支撐材料(C7)等知識(shí)社區(qū)不僅中心地位知識(shí)元更加清晰穩(wěn)固,知識(shí)元組分也在傳統(tǒng)材料認(rèn)知結(jié)構(gòu)基礎(chǔ)上持續(xù)創(chuàng)新,出現(xiàn)了許多新興的知識(shí)元組成構(gòu)造。
具體說(shuō)來(lái),以()和為核心構(gòu)造的鈣鈦礦太陽(yáng)能電池仍牢牢占據(jù)研究中心地位,其相關(guān)組分知識(shí)元中心性及共現(xiàn)頻次也均較高,但一些科學(xué)家也開(kāi)始對(duì)缺乏關(guān)注的鈣鈦礦材料進(jìn)行研究,發(fā)現(xiàn)其帶隙大、可以用來(lái)吸收高能光子的優(yōu)勢(shì)值得開(kāi)發(fā)[56];在前一時(shí)期將中金屬陽(yáng)離子B替換為Ni、Co等進(jìn)行研究基礎(chǔ)上,科學(xué)家在此時(shí)期開(kāi)始將A替換為無(wú)機(jī)物Cs等進(jìn)行無(wú)機(jī)鉛鹵鈣鈦礦材料的探索[57]。電子和空穴傳輸層作為進(jìn)行電子—空穴對(duì)分離、吸收、阻隔的關(guān)鍵部件仍是研究熱點(diǎn),例如,CdTe、CdSe等無(wú)機(jī)半導(dǎo)體化合物量子點(diǎn)復(fù)合的電子傳輸材料引發(fā)關(guān)注,基于富勒烯衍生物PCBM)和ZnO的鈣鈦礦電池被證明具有更高電路性能[58];含硫聚合物(P3HT等)等新興空穴傳輸材料展示了不俗的空穴傳輸能力。與此同時(shí),以為多孔絕緣材料支架的介觀超結(jié)構(gòu)鈣鈦礦電池也逐漸進(jìn)入視野[59]。
5.3.4 2017年研究前沿知識(shí)演進(jìn)特征
2017年知識(shí)元共現(xiàn)網(wǎng)絡(luò)社區(qū)探測(cè)結(jié)果分布如圖9所示,知識(shí)元共現(xiàn)網(wǎng)絡(luò)中心性特征數(shù)值與知識(shí)元共現(xiàn)頻次如表6所示。
通過(guò)圖9可以看出,相比于2016年,2017年知識(shí)元社區(qū)又開(kāi)始呈現(xiàn)相對(duì)緊湊和集中的結(jié)構(gòu)布局,中心結(jié)構(gòu)穩(wěn)固,邊緣結(jié)構(gòu)變遷方向清晰,開(kāi)始進(jìn)入鈣鈦礦太陽(yáng)能領(lǐng)域前沿的穩(wěn)定發(fā)展時(shí)期。代表鹵化物(halide)鈣鈦礦太陽(yáng)能電池的C1和C2仍然是處于中心地位的知識(shí)元社區(qū),與其相關(guān)的等知識(shí)元中心性具有較高數(shù)值、高頻共現(xiàn)對(duì)也占據(jù)較大份額。
雖然有機(jī)鉛鹵化物鈣鈦礦太陽(yáng)能電池研究仍為火熱,但其材料及高效電池器件的穩(wěn)定性、吸光材料物理結(jié)構(gòu)機(jī)理與性能等問(wèn)題也逐漸引起科學(xué)家重視,逐步興起以窄帶隙甲脒基(FA)和無(wú)機(jī)等為代表的新型吸光材料(知識(shí)元社區(qū)C3、C4),以改善電池器件的穩(wěn)定性,提高電池效率。MA-和FA-基鈣鈦礦的熱重分析結(jié)果表明,(簡(jiǎn)寫(xiě)為)的熱穩(wěn)定性比都要好,使其成為擁有最高能量轉(zhuǎn)換效率的鈣鈦礦核心材料[48];等全無(wú)機(jī)鹵化鉛銫量子點(diǎn)吸光層和發(fā)光材料,由于導(dǎo)帶與價(jià)帶之間缺少成鍵-反鍵相互作用,具有顯著載流子遷移率和擴(kuò)散長(zhǎng)度,能保持其優(yōu)良性質(zhì)不受缺陷影響而引起重視[60]。
另外,有毒重金屬Pb的環(huán)境污染問(wèn)題和電子—空穴傳輸材料的成本問(wèn)題等也成為聚焦熱點(diǎn)(知識(shí)元社區(qū)C5、C6)。許多研究開(kāi)始致力于無(wú)鉛鈣鈦礦,如用Sn等IVA同族元素替換有毒的Pb,等Sn基鈣鈦礦太陽(yáng)能電池具有較Pb基更高的電荷遷移率和更小的帶隙寬度;在此基礎(chǔ)上,以Cs、Rb等取代甲胺MA的型等無(wú)機(jī)非鉛鈣鈦礦電池也被證明具有較好光電性能[61]。目前廣為采用的Spiro-OMeTAD空穴傳輸材料成本過(guò)高,傳輸速率有限,P3HT(聚3-己基噻吩)等有機(jī)空穴傳輸材料有望推進(jìn)鈣鈦礦太陽(yáng)能電池的大規(guī)模應(yīng)用[62]。
5.4 結(jié)果比較與驗(yàn)證
5.4.1 結(jié)果比較分析
利用VOSviewer對(duì)研究前沿核心論文的7022篇施引文獻(xiàn)題錄數(shù)據(jù)進(jìn)行基于關(guān)鍵詞和術(shù)語(yǔ)主題詞的共現(xiàn)分析,并與上節(jié)中基于知識(shí)元的共現(xiàn)分析結(jié)果進(jìn)行比較,檢驗(yàn)知識(shí)元共現(xiàn)方法在研究前沿知識(shí)演進(jìn)分析中的有效性和先進(jìn)性。
基于7022篇文獻(xiàn)作者關(guān)鍵詞(Author keywords)與WoS關(guān)鍵詞(KeyWords Plus)的關(guān)鍵詞共現(xiàn)結(jié)果年代分布如圖10所示(以共現(xiàn)頻次大于等于5為閾值)。
對(duì)7022篇施引文獻(xiàn)的標(biāo)題和摘要進(jìn)行術(shù)語(yǔ)主題詞抽取,由于術(shù)語(yǔ)主題詞數(shù)據(jù)量較大,以共現(xiàn)頻次大于等于10作為閾值,并利用相關(guān)性算法篩選相關(guān)性得分居于前60%的主題術(shù)語(yǔ)作為計(jì)量對(duì)象,其共現(xiàn)結(jié)果年代分布如圖11所示。
結(jié)合圖10和圖11的計(jì)量結(jié)果,可以看出,通過(guò)傳統(tǒng)關(guān)鍵詞和主題詞的共現(xiàn)分析結(jié)果,雖然也能發(fā)現(xiàn)一些研究前沿的演進(jìn)特點(diǎn)和發(fā)展方向。例如,從2014年到2016年研究范圍逐漸擴(kuò)大,研究領(lǐng)域逐步延伸和深入;經(jīng)歷了由染料敏化太陽(yáng)能電池(dye sensitized solar cell)、量子點(diǎn)敏化太陽(yáng)能電池(qdssc)到以為基本組分的碘化鉛鈣鈦礦(lead iodide perovskites)和金屬鹵化物鈣鈦礦(halide perovskite)太陽(yáng)能電池的發(fā)展脈絡(luò)歷程;電子傳輸層(ETL,electron transport layer)、雜化鈣鈦礦(hybrid perovskites)、全無(wú)機(jī)鈣鈦礦量子點(diǎn)()、混合鹵化物鈣鈦礦薄膜(mixed halide perovskite film)等是近年來(lái)的研究熱點(diǎn)。但是,圖10與圖11的計(jì)量對(duì)象雖是領(lǐng)域術(shù)語(yǔ),但處于網(wǎng)絡(luò)中心地位的大都是performance、efficiency、lengths、solar-cells、review、challenge、perspective、additive等無(wú)實(shí)際專(zhuān)業(yè)意義的詞或詞語(yǔ),無(wú)法全面代表反映文獻(xiàn)中的關(guān)鍵創(chuàng)新知識(shí)點(diǎn)和專(zhuān)業(yè)領(lǐng)域語(yǔ)義元素,基于此類(lèi)關(guān)鍵詞和術(shù)語(yǔ)主題詞的分析結(jié)果不能較好地精確、完整揭示鈣鈦礦太陽(yáng)能電池研究前沿微觀層面的知識(shí)流動(dòng)和演進(jìn)變遷特征。相較而言,基于知識(shí)元的計(jì)量分析方法則能深入到文獻(xiàn)內(nèi)部,挖掘代表該領(lǐng)域創(chuàng)新知識(shí)組分的核心專(zhuān)業(yè)要素,利用共現(xiàn)關(guān)聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)專(zhuān)業(yè)知識(shí)元的鏈接和重組,呈現(xiàn)該前沿的微觀知識(shí)結(jié)構(gòu)構(gòu)造及其演變發(fā)展規(guī)律。
圖10 施引文獻(xiàn)Author Keywords和KeyWords Plus的關(guān)鍵詞共現(xiàn)結(jié)果分布
圖11 施引文獻(xiàn)術(shù)語(yǔ)主題詞共現(xiàn)結(jié)果年代分布圖
5.4.2 結(jié)果驗(yàn)證分析
本文是基于《2016研究前沿》數(shù)據(jù)進(jìn)行前沿演進(jìn)分析的,該前沿在2017年推進(jìn)到什么地步、發(fā)展到何種程度,對(duì)于檢驗(yàn)本文分析方法的可靠性和結(jié)果的有效性具有重要參考意義。中國(guó)科學(xué)院和科睿唯安(Clarivate Analytics)于2017年11月2日全球發(fā)布的《2017研究前沿》[63]中“化學(xué)與材料科學(xué)”領(lǐng)域關(guān)于鈣鈦礦太陽(yáng)能電池的最新前沿分布(表7),恰好可以成為驗(yàn)證本文分析結(jié)果準(zhǔn)確性的標(biāo)尺和證據(jù)。
通過(guò)表7可以發(fā)現(xiàn),《2017研究前沿》與“鈣鈦礦太陽(yáng)能電池”相關(guān)的共有4個(gè)研究前沿,包括1個(gè)熱點(diǎn)前沿和3個(gè)新興前沿。熱點(diǎn)前沿主要研究“新型有機(jī)空穴傳輸材料”,第5.3節(jié)的2016年和2017年知識(shí)演進(jìn)特征中有關(guān)“P3HT有機(jī)空穴材料”的識(shí)別結(jié)果即涉及此類(lèi)研究;新興前沿聚焦“和非鉛鈣鈦礦太陽(yáng)能電池”,第5.3節(jié)的2017年知識(shí)演進(jìn)特征中關(guān)于“無(wú)機(jī)鹵化鉛銫量子點(diǎn)材料”和“等環(huán)境友好型鈣鈦礦太陽(yáng)能電池”的分析結(jié)果則很好地印證了該新興前沿的知識(shí)分布結(jié)果。
另外,由中國(guó)可再生能源學(xué)會(huì)(原中國(guó)太陽(yáng)能學(xué)會(huì))和中國(guó)科學(xué)院物理研究所自2014年開(kāi)始連年舉辦的“新型太陽(yáng)能電池學(xué)術(shù)研討會(huì)”,作為我國(guó)太陽(yáng)能電池領(lǐng)域的權(quán)威學(xué)術(shù)會(huì)議,旨在“深入探討新型太陽(yáng)能電池研究領(lǐng)域尤其是鈣鈦礦太陽(yáng)能電池研究所面臨的機(jī)遇、挑戰(zhàn)及未來(lái)發(fā)展方向”[64]。至2017年5月成功舉辦的4屆學(xué)術(shù)會(huì)議恰好對(duì)應(yīng)本文的4個(gè)年段,筆者通過(guò)調(diào)研該會(huì)議每年的會(huì)議報(bào)告和會(huì)議論文,通過(guò)與各年間本文的識(shí)別結(jié)果比較,也發(fā)現(xiàn)基于知識(shí)元共現(xiàn)的研究前沿演進(jìn)分析方法,能很好地識(shí)別各時(shí)間節(jié)點(diǎn)所對(duì)應(yīng)的代表性知識(shí)創(chuàng)新要素,對(duì)于從微觀專(zhuān)業(yè)知識(shí)視角離析前沿的知識(shí)演進(jìn)和發(fā)展脈絡(luò)具有良好效用。
還需要說(shuō)明的是,為實(shí)際驗(yàn)證基于知識(shí)元計(jì)量的研究前沿演進(jìn)分析結(jié)果與現(xiàn)實(shí)中專(zhuān)業(yè)學(xué)科領(lǐng)域演變發(fā)展的吻合程度和準(zhǔn)確性,特邀請(qǐng)領(lǐng)域?qū)<覍?duì)本文的識(shí)別分析結(jié)果進(jìn)行了審閱、校對(duì)和把關(guān),得到了領(lǐng)域?qū)<业恼J(rèn)可和好評(píng)。既證實(shí)了知識(shí)元共現(xiàn)的計(jì)量分析方法在研究前沿演進(jìn)分析應(yīng)用中的可靠性和實(shí)用性,也能再一次驗(yàn)證知識(shí)元科學(xué)計(jì)量方法相比基于傳統(tǒng)關(guān)鍵詞主題詞計(jì)量分析的優(yōu)越性。
6 總結(jié)與展望
科技戰(zhàn)略情報(bào)的基本任務(wù)是:監(jiān)測(cè)分析科技發(fā)展動(dòng)態(tài)和動(dòng)向,為把握科技發(fā)展大勢(shì)、研判科技發(fā)展方向、識(shí)別科技創(chuàng)新突破口和生長(zhǎng)點(diǎn),提供事實(shí)數(shù)據(jù)及其關(guān)聯(lián)證據(jù)。ESI研究前沿作為對(duì)全球科技發(fā)展布局和競(jìng)爭(zhēng)結(jié)構(gòu)的揭示,可以為前瞻謀劃和布局前沿發(fā)展方向提供重要的情報(bào)參考,而基于知識(shí)元共現(xiàn)的研究前沿演進(jìn)分析,則能從微觀視角對(duì)科技文獻(xiàn)內(nèi)部的關(guān)鍵創(chuàng)新知識(shí)元素進(jìn)行鏈接和重組,從由內(nèi)到外的科學(xué)結(jié)構(gòu)視角揭示科技發(fā)展的脈絡(luò)、規(guī)律和方向,對(duì)于識(shí)別科技創(chuàng)新突破點(diǎn)、把握未來(lái)科技方向也能起到一定效用。
本文在前期研究基礎(chǔ)上,提出了一種基于知識(shí)元共現(xiàn)的ESI研究前沿知識(shí)演進(jìn)分析方法,并基于2016年研究前沿?cái)?shù)據(jù)驗(yàn)證了該方法的可行性。該方法主要借助文本挖掘、語(yǔ)義標(biāo)注和自然語(yǔ)言處理技術(shù),首先截取前沿核心論文所對(duì)應(yīng)施引文獻(xiàn)全文的“實(shí)驗(yàn)/研究方法/研究材料”部分文本數(shù)據(jù),然后利用OSCAR4命名實(shí)體識(shí)別技術(shù)挖掘代表每篇文獻(xiàn)關(guān)鍵創(chuàng)新知識(shí)的化學(xué)實(shí)體知識(shí)元,最后對(duì)不同時(shí)間標(biāo)簽下的知識(shí)元共現(xiàn)網(wǎng)絡(luò)進(jìn)行中心性和模塊度特征分析,進(jìn)而從微觀知識(shí)流動(dòng)和科學(xué)知識(shí)結(jié)構(gòu)變遷的視角呈現(xiàn)研究前沿的知識(shí)演進(jìn)規(guī)律。通過(guò)與傳統(tǒng)基于關(guān)鍵詞和術(shù)語(yǔ)主題詞共現(xiàn)分析結(jié)果的比較,檢驗(yàn)該方法的先進(jìn)性;利用《2017研究前沿》報(bào)告結(jié)果和權(quán)威會(huì)議論文等驗(yàn)證該方法的有效性和實(shí)用性。
我國(guó)著名情報(bào)學(xué)家馬費(fèi)成教授早在20世紀(jì)就提出:知識(shí)信息表達(dá)組織由物理層次文獻(xiàn)單元向認(rèn)知層次知識(shí)單元轉(zhuǎn)換、知識(shí)信息計(jì)量從語(yǔ)法層次向語(yǔ)義和語(yǔ)用層次發(fā)展是情報(bào)學(xué)的基本任務(wù)和目標(biāo)[65]。兩個(gè)“轉(zhuǎn)化”問(wèn)題至今仍未很好解決,而作為解決此問(wèn)題所嘗試的一種思路,本文也存在一些局限:全文本數(shù)據(jù)獲取仍是進(jìn)行文本挖掘的最大障礙,雖然全文挖掘相比摘要題名挖掘能得到更優(yōu)、更全面的研究結(jié)果,但醫(yī)學(xué)PubMed以外其他領(lǐng)域出版商對(duì)全文數(shù)據(jù)的供給仍存在諸多限制,全文數(shù)據(jù)復(fù)用更是難題[66];出版商提供的全文數(shù)據(jù)多為PDF文檔,將其轉(zhuǎn)換為機(jī)器易讀的文本格式不但耗時(shí)費(fèi)力,化學(xué)式等領(lǐng)域?qū)嶓w轉(zhuǎn)換前后的準(zhǔn)確率和匹配問(wèn)題對(duì)數(shù)據(jù)分析結(jié)果影響較大;計(jì)算機(jī)對(duì)專(zhuān)業(yè)知識(shí)語(yǔ)義尚無(wú)法做到精確理解,區(qū)分化合物和領(lǐng)域本體等命名實(shí)體的技術(shù)識(shí)別結(jié)果可能存在偏差;對(duì)專(zhuān)業(yè)知識(shí)元共現(xiàn)重組關(guān)系的解讀需要領(lǐng)域知識(shí)的積累,個(gè)人的專(zhuān)業(yè)知識(shí)儲(chǔ)備局限可能對(duì)一些邊緣的、隱性的關(guān)聯(lián)關(guān)系發(fā)掘具有一定影響。
因此,在未來(lái)研究中,除繼續(xù)補(bǔ)充更全備的全文數(shù)據(jù)、探究提高知識(shí)元實(shí)體識(shí)別準(zhǔn)確率的技術(shù)方法外,還將借助新型計(jì)量指標(biāo)的設(shè)計(jì),創(chuàng)新科學(xué)計(jì)量方法和理論,重點(diǎn)通過(guò)解決以下問(wèn)題來(lái)深化研究前沿的知識(shí)演進(jìn)研究:如何辨別研究前沿演進(jìn)中的原創(chuàng)與跟隨式創(chuàng)新,找出代表某時(shí)間段關(guān)鍵創(chuàng)新的核心知識(shí)元網(wǎng)絡(luò);如何識(shí)別上述知識(shí)元網(wǎng)絡(luò)中的代表性知識(shí)元組分,通過(guò)定量計(jì)算此類(lèi)知識(shí)元在不同網(wǎng)絡(luò)中的時(shí)序遷移規(guī)律,厘析研究前沿的節(jié)律式發(fā)展進(jìn)程。
欄目分類(lèi)
- 1短視頻走紅的原因及影響——以“抖音”為例
- 2短視頻發(fā)展現(xiàn)狀、存在的問(wèn)題及意見(jiàn)
- 3以“李子柒”為例研究社會(huì)化創(chuàng)意下的內(nèi)容營(yíng)銷(xiāo)策略
- 4企業(yè)市場(chǎng)營(yíng)銷(xiāo)中存在的問(wèn)題及對(duì)策
- 5論樹(shù)洞傳播的匿名效應(yīng)
- 6全媒體時(shí)代,如何做好新聞選題策劃?
- 7總體國(guó)家安全觀對(duì)當(dāng)代大學(xué)生的要求
- 8 “抖音”APP優(yōu)劣勢(shì)分析與短視頻產(chǎn)業(yè)的發(fā)展思考
- 9《論語(yǔ)》中孔子的“孝”思想
- 10網(wǎng)易云音樂(lè)內(nèi)容營(yíng)銷(xiāo)的手段分析
- 新時(shí)代高校文化安全教育的實(shí)踐理路研究
- 護(hù)理專(zhuān)業(yè)課程思政中倫理教育與人文關(guān)懷的融合路徑探索
- 紅色文化資源融入高校思政教育路徑探析
- 文學(xué)現(xiàn)場(chǎng)融入文學(xué)史教學(xué)的策略研究
- 數(shù)字化賦能皖北古建筑文化高質(zhì)量傳承
- 論藝術(shù)美學(xué)的重要性
- 從精神中的真實(shí)論具象繪畫(huà)存在的價(jià)值 ——以“父·母”為例
- 中華優(yōu)秀傳統(tǒng)文化融入高校美育教學(xué)路徑研究
- 區(qū)域特色產(chǎn)業(yè)品牌驅(qū)動(dòng)鄉(xiāng)村振興的五維設(shè)計(jì)路徑研究
- 埃貢·席勒與羅爾純繪畫(huà)作品表現(xiàn)語(yǔ)言比較研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱(chēng)超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱(chēng)話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!