認(rèn)知情報(bào)學(xué):大數(shù)據(jù)背景下情報(bào)分析的新機(jī)遇
情報(bào)分析是大數(shù)據(jù)時(shí)代情報(bào)研究中非常重要的一環(huán)。圖書(shū)館正在從信息時(shí)代向數(shù)據(jù)時(shí)代進(jìn)行過(guò)渡,并伴隨著資源的全面數(shù)字化、富媒體化以及開(kāi)放共享政策的不斷完善,爆炸式增長(zhǎng)的數(shù)據(jù)資源為傳統(tǒng)的情報(bào)分析提出了極其嚴(yán)峻的挑戰(zhàn),新的情報(bào)分析手段亟待解決,從數(shù)據(jù)時(shí)代到計(jì)算時(shí)代的轉(zhuǎn)變已經(jīng)悄然提上議程[1]。21世紀(jì)情報(bào)學(xué)的發(fā)展,離不開(kāi)多學(xué)科的交叉融合,唯有在理論與實(shí)踐不斷的碰撞中,才能為情報(bào)學(xué)提供創(chuàng)新型的發(fā)展思路與更為廣闊的發(fā)展前景。國(guó)外提出的“認(rèn)知情報(bào)學(xué)”,正是對(duì)于情報(bào)學(xué)在當(dāng)代與其他學(xué)科進(jìn)行創(chuàng)新性融合實(shí)踐的解決方案。
1 認(rèn)知科學(xué)提出背景
1.1 背景學(xué)科介紹
1.1.1 認(rèn)知、認(rèn)知科學(xué)、認(rèn)知計(jì)算 認(rèn)知是一種心理活動(dòng),或是一種獲取知識(shí),理解思想、經(jīng)驗(yàn)與感覺(jué)的過(guò)程[2]。認(rèn)知包含像是知識(shí)、注意、記憶、判斷、評(píng)價(jià)、推理、計(jì)算、解決問(wèn)題、決策制定以及理解和語(yǔ)言的生產(chǎn)等一系列過(guò)程。在認(rèn)知過(guò)程中,利用已經(jīng)存在的知識(shí)來(lái)推理出新的知識(shí)[3]。
認(rèn)知科學(xué)(Cognitive Science)是一門交叉學(xué)科的科學(xué)研究,其主要以現(xiàn)代科學(xué)的手段來(lái)研究心智及其處理過(guò)程,即探索人類的智力如何產(chǎn)生以及人腦信息的處理過(guò)程。在認(rèn)知科學(xué)領(lǐng)域,認(rèn)知科學(xué)家們關(guān)注語(yǔ)言、感知、記憶、注意力、推理和情感,并為了研究上述內(nèi)容將一些諸如語(yǔ)言學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)、人工智能、哲學(xué)、神經(jīng)科學(xué)、人類學(xué)等學(xué)科的知識(shí)運(yùn)用其中[4]。
到目前為止,在學(xué)術(shù)界與工業(yè)界還沒(méi)有對(duì)于認(rèn)知計(jì)算(Cognitive Computing)廣泛認(rèn)同與接受的定義[5-7]。認(rèn)識(shí)計(jì)算最早追溯到模擬人腦的計(jì)算機(jī)系統(tǒng)的人工智能,20世紀(jì)90年代后,研究人員開(kāi)始用認(rèn)知計(jì)算一詞來(lái)表明可以教計(jì)算機(jī)像人腦一樣去進(jìn)行思考而不僅僅是開(kāi)發(fā)一種人工系統(tǒng)[8]。通常對(duì)于認(rèn)知計(jì)算的理解是指計(jì)算機(jī)通過(guò)使用硬件或者軟件來(lái)模仿人大腦的功能,來(lái)輔助進(jìn)行決策制定[9]。
一般來(lái)說(shuō),認(rèn)知計(jì)算描述了基于人工智能的科學(xué)學(xué)科和信號(hào)處理的技術(shù)平臺(tái)。這些平臺(tái)包括一系列諸如機(jī)器學(xué)習(xí)、推理、自然語(yǔ)言處理、語(yǔ)音識(shí)別和圖像識(shí)別、人機(jī)交互等多種技術(shù)。一個(gè)認(rèn)知計(jì)算系統(tǒng)通常會(huì)包含以下幾個(gè)特征:適應(yīng)性[10]、互動(dòng)性、輔助功能、上下文理解能力[11]。
1.1.2 情報(bào)學(xué)、情報(bào)分析 情報(bào)學(xué)(Informatics)最初創(chuàng)建于1956年,是由德國(guó)的計(jì)算機(jī)學(xué)家K.Steinbuch提出,情報(bào)學(xué)一詞由“information”與“automatic”組成,描述了信息自動(dòng)交互的過(guò)程。一般認(rèn)為,情報(bào)研究包括情報(bào)收集、情報(bào)分析、情報(bào)處理與情報(bào)傳播這四個(gè)階段,其中,情報(bào)分析是情報(bào)研究過(guò)程中的非常重要的階段。
情報(bào)分析亦稱信息分析,是根據(jù)社會(huì)用戶的特定需求,以現(xiàn)代信息技術(shù)和軟科學(xué)研究方法為主要手段,以社會(huì)信息的采集、選擇、評(píng)價(jià)、分析和綜合等系列化加工為基本過(guò)程,形成新的、可增值的情報(bào)產(chǎn)品,為不同層次科學(xué)進(jìn)行決策服務(wù)的社會(huì)化智能活動(dòng)[12]。
情報(bào)分析是一個(gè)涵蓋領(lǐng)域非常廣的交叉學(xué)科,它涉及眾多領(lǐng)域,例如,計(jì)算機(jī)科學(xué)、信息系統(tǒng)、信息技術(shù)與統(tǒng)計(jì)學(xué)等。近年來(lái),隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,更多使用數(shù)字化的方式來(lái)處理信息,情報(bào)分析的研究也逐漸偏向信息技術(shù)方向。隨著人工智能的發(fā)展,一些諸如情感計(jì)算、社會(huì)計(jì)算、認(rèn)知計(jì)算等領(lǐng)域,也正在與情報(bào)分析進(jìn)行交叉融合。本文重點(diǎn)分析認(rèn)知計(jì)算與情報(bào)分析在新時(shí)代碰撞出的火花——認(rèn)知情報(bào)學(xué)(Cognitive Informatics,CI)。
1.2 大數(shù)據(jù)與學(xué)科融合背景下認(rèn)知情報(bào)學(xué)的提出
大數(shù)據(jù)時(shí)代,海量、高速、多樣的數(shù)據(jù)為情報(bào)學(xué)提出了更為嚴(yán)峻的考驗(yàn)。如何從海量數(shù)據(jù)中獲取有效的信息,如何處理類型更加多樣的富媒體化數(shù)據(jù),如何對(duì)組織更加復(fù)雜的信息進(jìn)行分析,如何有效地從龐雜的數(shù)據(jù)中抽取出知識(shí),都是情報(bào)分析的難點(diǎn)。而認(rèn)知計(jì)算的四大特性——輔助、理解、決策、發(fā)現(xiàn),不僅為大數(shù)據(jù)提供了新的解決方案,同時(shí)也為情報(bào)分析帶來(lái)了新的可能。
認(rèn)知計(jì)算一般包含的技術(shù)與應(yīng)用與人工智能密切相關(guān),而人工智能正是認(rèn)知計(jì)算的基礎(chǔ),例如,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、推理、自然語(yǔ)言處理、圖像處理、語(yǔ)音處理、人機(jī)交互、特征提取、知識(shí)抽取、知識(shí)挖掘、數(shù)據(jù)可視化等。早在20世紀(jì)末,這些應(yīng)用已經(jīng)擴(kuò)展到了情報(bào)學(xué)中輔助情報(bào)分析工作。
實(shí)際上在情報(bào)科學(xué)的許多研究領(lǐng)域都在借鑒認(rèn)知計(jì)算的技術(shù),或者說(shuō)是人工智能的一些技術(shù)來(lái)為之服務(wù)。如基于語(yǔ)義的信息組織、知識(shí)抽取、知識(shí)挖掘、知識(shí)發(fā)現(xiàn)和智能情報(bào)檢索等,均希望能夠從人的認(rèn)知角度去組織與管理信息,或從信息資源中挖掘出具有認(rèn)知價(jià)值的知識(shí)等[8]。許多情報(bào)分析研究也在不斷地吸取認(rèn)知計(jì)算領(lǐng)域的研究成果,例如,在情報(bào)學(xué)中的引文數(shù)據(jù)分析借鑒了認(rèn)知計(jì)算中的關(guān)聯(lián)數(shù)據(jù)分析來(lái)為之服務(wù),在數(shù)字圖書(shū)館的個(gè)性化服務(wù)中也借鑒了認(rèn)知計(jì)算的自適應(yīng)頁(yè)面展示的思想來(lái)為不同類型的用戶展示出不同的頁(yè)面內(nèi)容,認(rèn)知計(jì)算中的專家系統(tǒng)也被應(yīng)用到了情報(bào)服務(wù)中來(lái)輔助用戶進(jìn)行更好的決策。
認(rèn)知計(jì)算雖然早被應(yīng)用到了情報(bào)分析過(guò)程中去,但其作為一個(gè)獨(dú)立的概念出現(xiàn),標(biāo)志一個(gè)新領(lǐng)域的誕生卻是在21世紀(jì)初。2002年,美國(guó)的IEEE召開(kāi)了第一屆認(rèn)知情報(bào)學(xué)國(guó)際年會(huì),正式提出“認(rèn)知情報(bào)學(xué)”這一概念與研究領(lǐng)域[13]。
認(rèn)知情報(bào)學(xué)是對(duì)計(jì)算機(jī)科學(xué)、情報(bào)學(xué)、認(rèn)知科學(xué)和智能科學(xué)的跨學(xué)科研究,其研究大腦和自然智能的內(nèi)部信息處理機(jī)制和過(guò)程,以及在認(rèn)知計(jì)算中的工程應(yīng)用[14]。認(rèn)知情報(bào)學(xué)作為一個(gè)多學(xué)科交叉的研究領(lǐng)域,主要解決一些由許多研究領(lǐng)域共享的問(wèn)題,例如,計(jì)算智能、現(xiàn)代情報(bào)學(xué)、計(jì)算機(jī)科學(xué)、人工智能、認(rèn)知科學(xué)、認(rèn)知計(jì)算等研究領(lǐng)域。
2 認(rèn)知情報(bào)學(xué)相關(guān)研究
在國(guó)外,認(rèn)知情報(bào)學(xué)已經(jīng)逐漸受到包括政府、研究機(jī)構(gòu)、研究人員等的日益重視,成為認(rèn)知科學(xué)的一個(gè)重要研究領(lǐng)域與研究熱點(diǎn)。但目前在國(guó)內(nèi),還并未形成像在國(guó)外一樣穩(wěn)定且有力的研究力量,還處于初步發(fā)展階段,并且還未直接提出如國(guó)外一般明確的認(rèn)知情報(bào)學(xué)的概念,并未將其作為獨(dú)立的領(lǐng)域進(jìn)行專門研究,只是在若干研究中,提出了與認(rèn)知計(jì)算融合的概念。故此處只展開(kāi)國(guó)外對(duì)認(rèn)知情報(bào)學(xué)研究的論述,國(guó)內(nèi)的研究暫且不表。此外,還總結(jié)了國(guó)外研究中對(duì)于認(rèn)知情報(bào)學(xué)的理論框架。
2.1 國(guó)外認(rèn)知情報(bào)學(xué)研究歷史
從早年開(kāi)始,各國(guó)政府就對(duì)認(rèn)知計(jì)算表現(xiàn)出濃厚的熱情與支持。2002年,美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)和美國(guó)商務(wù)部(DOC)共同資助的“聚合四大技術(shù),提高人類性能”計(jì)劃中,認(rèn)知科學(xué)便名列其中,被視為是21世紀(jì)四大前沿技術(shù),處于最優(yōu)先發(fā)展的地位。同時(shí),早期歐盟資助的聚合技術(shù)及其對(duì)社會(huì)科學(xué)與人文科學(xué)的影響(CONTECS)項(xiàng)目也強(qiáng)調(diào)了認(rèn)知科學(xué)的重要性[8]。
國(guó)外早在21世紀(jì)初就將認(rèn)知計(jì)算與情報(bào)學(xué)進(jìn)行了成功的交叉融合。IEEE認(rèn)知情報(bào)學(xué)國(guó)際學(xué)術(shù)會(huì)議(ICCI)從2002年的第一屆認(rèn)知情報(bào)學(xué)會(huì)議開(kāi)始,迄今已經(jīng)舉辦16屆,促進(jìn)了認(rèn)知情報(bào)學(xué)涉及的相關(guān)領(lǐng)域及其技術(shù)的發(fā)展。
從ICCI會(huì)議名稱的變化,我們能清楚地了解到認(rèn)知情報(bào)學(xué)領(lǐng)域的變化,2002—2010年,會(huì)議名稱一直是認(rèn)知情報(bào)學(xué)國(guó)際會(huì)議(ICCI),從2011年至今,會(huì)議正式更名為認(rèn)知情報(bào)學(xué)和認(rèn)知計(jì)算國(guó)際學(xué)術(shù)會(huì)議(ICCI*CC),認(rèn)知計(jì)算已經(jīng)作為其中的重點(diǎn)被單獨(dú)列出作為會(huì)議的名稱。
其中,2016年ICCI*CC的會(huì)議主題為“Cognitive Computation,Learning,and Big Data Systems”,正式提出了將認(rèn)知計(jì)算應(yīng)用到大數(shù)據(jù)系統(tǒng)中去,解決大數(shù)據(jù)系統(tǒng)在處理數(shù)據(jù)時(shí)面臨的諸如生產(chǎn)速度極快、規(guī)則與邏輯難以識(shí)別等問(wèn)題,重點(diǎn)探討了諸如語(yǔ)義化處理、自動(dòng)推理、大數(shù)據(jù)的認(rèn)知基礎(chǔ)等問(wèn)題。
2.2 認(rèn)知情報(bào)學(xué)理論框架研究
目前國(guó)外關(guān)于認(rèn)知情報(bào)學(xué)的理論框架包含以下4個(gè)領(lǐng)域的內(nèi)容:自然智能、抽象智能、符號(hào)數(shù)學(xué)與認(rèn)知計(jì)算[14]。認(rèn)知情報(bào)學(xué)通過(guò)模擬基礎(chǔ)的智能形式,抽象出來(lái)并進(jìn)行數(shù)學(xué)建模,最后進(jìn)行認(rèn)知計(jì)算。整個(gè)框架從物理世界到抽象世界、從認(rèn)知到計(jì)算,層層遞進(jìn),模擬了人類知識(shí)發(fā)現(xiàn)、知識(shí)推理的過(guò)程。
1)自然智能基礎(chǔ)理論主要研究了在認(rèn)知情報(bào)學(xué)中涉及的人類本身就存在的智能,主要包含以下經(jīng)典理論:信息物質(zhì)能量IME模型、大腦的分層參考LRMB模型、實(shí)體屬性關(guān)系OAR模型、自然智能NI模型。
2)抽象智能是將自然智能的概念更加抽象化,從底層研究神經(jīng)、認(rèn)知、功能與邏輯。抽象智能通過(guò)建立通用的數(shù)學(xué)模型來(lái)表征如何將信息轉(zhuǎn)化為行動(dòng)與知識(shí)。抽象智能解釋了不同形式智能的基礎(chǔ)的運(yùn)行處理機(jī)制,研究了學(xué)習(xí)、思考、推理等過(guò)程。經(jīng)典的抽象智能模型有通用抽象智能模型(Generic Abstract Intelligence Mode,GAIM)[15]等。
3)符號(hào)數(shù)學(xué)是利用數(shù)學(xué)來(lái)對(duì)現(xiàn)實(shí)世界中抽象出來(lái)的一些實(shí)體、關(guān)系、感知信息、邏輯概念、知識(shí)等進(jìn)行建模,用數(shù)字化的形式將物理世界表征為抽象世界,為下一步進(jìn)行認(rèn)知計(jì)算提供計(jì)算基礎(chǔ)。
4)認(rèn)知計(jì)算模擬了大腦處理信息的過(guò)程,對(duì)用符號(hào)數(shù)學(xué)建立好的數(shù)學(xué)模型進(jìn)行處理。認(rèn)知計(jì)算一般包含如下技術(shù):推理、自然語(yǔ)言處理、語(yǔ)音識(shí)別和圖像識(shí)別、人機(jī)交互等多種技術(shù)。
整個(gè)流程如圖1所示。
圖1 認(rèn)知情報(bào)學(xué)理論基礎(chǔ)
3 認(rèn)知情報(bào)學(xué)對(duì)情報(bào)學(xué)的支撐
下面分別從理論、技術(shù)兩個(gè)角度來(lái)探討認(rèn)知情報(bào)學(xué)對(duì)情報(bào)分析的支撐。認(rèn)知計(jì)算是認(rèn)知情報(bào)學(xué)的核心基礎(chǔ),故在探討時(shí),會(huì)涉及利用認(rèn)知計(jì)算的一些理論與技術(shù),來(lái)表征認(rèn)知情報(bào)學(xué)的一些特征。
3.1 情報(bào)理論支撐
許多情報(bào)學(xué)家從認(rèn)知科學(xué)的角度對(duì)情報(bào)科學(xué)的相關(guān)理論進(jìn)行過(guò)研究和探索,并形成了一些基于認(rèn)知科學(xué)的情報(bào)科學(xué)理論[8]。在描述認(rèn)知情報(bào)學(xué)理論支撐時(shí),從認(rèn)知計(jì)算的三個(gè)能力領(lǐng)域發(fā)現(xiàn)、決策與交流[16]來(lái)機(jī)行分析。
1)發(fā)現(xiàn)。發(fā)現(xiàn)是認(rèn)知能力的體現(xiàn)。認(rèn)知計(jì)算的發(fā)現(xiàn)的能力與情報(bào)學(xué)范式中的“認(rèn)知觀范式”聯(lián)系緊密。認(rèn)知觀范式的主要觀點(diǎn)是情報(bào)的接受與傳遞需要與用戶的知識(shí)結(jié)構(gòu)發(fā)生作用,并以知識(shí)結(jié)構(gòu)的改變和完善為目的,基本上描述了認(rèn)知過(guò)程中的知識(shí)發(fā)現(xiàn)過(guò)程。在情報(bào)學(xué)諸多流派中,認(rèn)知科學(xué)與情報(bào)學(xué)的屬性結(jié)構(gòu)學(xué)派的聯(lián)系尤為密切。
屬性結(jié)構(gòu)學(xué)派的情報(bào)學(xué)家布魯克斯認(rèn)為情報(bào)學(xué)的基本任務(wù)是探索和組織客觀知識(shí),并提出了著名的布魯克斯方程式K(S)+ΔI→K(s+Δs),闡明了情報(bào)與知識(shí)之間的關(guān)系,并將情報(bào)定義為“是使人原有的知識(shí)結(jié)構(gòu)發(fā)生變化的那一小部分知識(shí)”[17]。在認(rèn)知過(guò)程中,強(qiáng)調(diào)利用已經(jīng)存在的知識(shí)來(lái)推理出新的知識(shí),正是描述的知識(shí)發(fā)現(xiàn)過(guò)程,與認(rèn)知情報(bào)學(xué)中涉及的認(rèn)知科學(xué)部分不謀而合。另外,該學(xué)派的另一位著名的情報(bào)學(xué)家貝爾金使情報(bào)學(xué)和認(rèn)知科學(xué)的關(guān)系不斷得到繼續(xù)深化和體系化。他從認(rèn)知觀的角度提出了情報(bào)的概念,提出知識(shí)非常態(tài)狀態(tài)(ASK),即用戶之所以有情報(bào)需求,是認(rèn)識(shí)到自己存在知識(shí)的非常態(tài)以至于無(wú)法解決某種問(wèn)題,也無(wú)法正確描述需要什么來(lái)解決非常態(tài),因此情報(bào)檢索的目的就在于描述、理解和解決知識(shí)的非常態(tài)[17]。知識(shí)非常態(tài)狀態(tài)本質(zhì)也是一種尋求知識(shí)發(fā)現(xiàn)的過(guò)程。
2)決策。認(rèn)知計(jì)算的決策能力是基于事實(shí)的,并且可以隨著新知識(shí)的獲取而不斷更新迭代,并做出無(wú)偏見(jiàn)的決策。認(rèn)知計(jì)算的決策能力,與情報(bào)學(xué)的競(jìng)爭(zhēng)情報(bào)服務(wù)范式密切相關(guān)。競(jìng)爭(zhēng)情報(bào)服務(wù)主要指的是人們通過(guò)合乎規(guī)范的方式進(jìn)行信息收集、信息分析和信息服務(wù)。其主要提供的服務(wù)包含咨詢服務(wù)、決策信息服務(wù)、情報(bào)分析服務(wù)等。
競(jìng)爭(zhēng)服務(wù)范式的服務(wù)對(duì)象是決策咨詢、商業(yè)決策、戰(zhàn)略決策等情報(bào)需求,這與認(rèn)知計(jì)算的能力領(lǐng)域中“決策”相對(duì)應(yīng)。目前,認(rèn)知計(jì)算系統(tǒng)更多地扮演一種顧問(wèn)角色,向真人用戶提供一組選項(xiàng),而最終決策由真人用戶給出。認(rèn)知計(jì)算的“決策”能力可以為競(jìng)爭(zhēng)情報(bào)服務(wù)提供決策支持。
3)交流。認(rèn)知計(jì)算的交流能力是指,認(rèn)知計(jì)算可以通過(guò)學(xué)習(xí)海量的、復(fù)雜多樣的數(shù)據(jù)來(lái)發(fā)現(xiàn)其中的規(guī)則,并實(shí)時(shí)地為人們提供這些信息,其可以通過(guò)專家級(jí)的援助與理解能力,從根本上改變?nèi)撕拖到y(tǒng)交互的方式[16]。通過(guò)深入的領(lǐng)域洞察并及時(shí)、自然、有輔助作用地呈現(xiàn)信息給用戶。
認(rèn)知計(jì)算的交流能力與情報(bào)學(xué)的學(xué)術(shù)信息服務(wù)范式聯(lián)系緊密。學(xué)術(shù)信息服務(wù)范式主要指通過(guò)學(xué)術(shù)信息服務(wù)、圖書(shū)館信息服務(wù)、學(xué)科信息服務(wù)來(lái)輔助科學(xué)交流。在該范式下,涉及的領(lǐng)域諸如數(shù)字圖書(shū)館自動(dòng)化與服務(wù)、知識(shí)化服務(wù)等,認(rèn)知計(jì)算都能為之提供良好的人機(jī)交互支撐。
3.2 情報(bào)技術(shù)支撐
認(rèn)知計(jì)算三個(gè)能力的實(shí)現(xiàn),離不開(kāi)5個(gè)要素:學(xué)習(xí)、個(gè)性化交互、可擴(kuò)展性、多種數(shù)據(jù)類型處理以及無(wú)處不在的服務(wù)[16]。這5個(gè)要素與情報(bào)學(xué)的技術(shù)緊密相關(guān),是情報(bào)學(xué)的支撐技術(shù)。
談及情報(bào)學(xué)利用到的技術(shù),首先會(huì)先涉及情報(bào)學(xué)所涵蓋的服務(wù)。一般情報(bào)服務(wù)主要涵蓋如下幾個(gè)方面:自動(dòng)收集不同信息源的信息、對(duì)收集到的信息進(jìn)行深入分析與挖掘、情報(bào)檢索、將有價(jià)值的信息向用戶進(jìn)行個(gè)性化情報(bào)服務(wù)等。這些服務(wù)通常會(huì)涉及自然語(yǔ)言處理、實(shí)體識(shí)別、語(yǔ)義檢索、個(gè)性化推薦、數(shù)據(jù)挖掘、社會(huì)網(wǎng)絡(luò)分析、數(shù)據(jù)庫(kù)、模式識(shí)別等技術(shù)。
認(rèn)知計(jì)算學(xué)習(xí)要素的實(shí)現(xiàn),主要會(huì)涉及情報(bào)領(lǐng)域自動(dòng)收集的不同信息源的信息,同時(shí)還涉及知識(shí)發(fā)現(xiàn)等相關(guān)技術(shù);個(gè)性化交互要素的實(shí)現(xiàn),與情報(bào)學(xué)中為不同用戶進(jìn)行個(gè)性化推薦技術(shù)緊密相關(guān);可擴(kuò)展性要素的實(shí)現(xiàn),同時(shí)也為大數(shù)據(jù)環(huán)境下信息海量增長(zhǎng)為情報(bào)學(xué)的知識(shí)發(fā)現(xiàn)帶來(lái)種種困難提供了新的可能的解決方案;多種數(shù)據(jù)類型的處理,也與情報(bào)領(lǐng)域積極擴(kuò)展自然語(yǔ)言處理之外的、更加復(fù)雜的數(shù)據(jù)的嘗試相聯(lián)系,未來(lái)可以為情報(bào)學(xué)在相關(guān)類型數(shù)據(jù)處理上進(jìn)行技術(shù)支撐,例如,情報(bào)領(lǐng)域現(xiàn)在對(duì)圖像處理也展開(kāi)了積極的探索,傳統(tǒng)文本中不能分析的電路圖等進(jìn)行有效分析與利用,已經(jīng)比較成功的嘗試可以抽取其中的電路元件進(jìn)行分析,構(gòu)建電路設(shè)計(jì)元知識(shí)表示[18];無(wú)處不在的服務(wù),與信息服務(wù)中的數(shù)字圖書(shū)館、科技情報(bào)服務(wù)中隨時(shí)隨地遠(yuǎn)程實(shí)驗(yàn)追蹤與控制[19]等技術(shù)服務(wù)相輔相成。
4 認(rèn)知情報(bào)學(xué)為情報(bào)分析帶來(lái)新機(jī)遇
大數(shù)據(jù)時(shí)代的到來(lái),席卷了所有的行業(yè),情報(bào)領(lǐng)域自然也不能例外。變革賦予情報(bào)領(lǐng)域的卻不僅僅是陣痛,還有陣痛之后更為明晰的洞見(jiàn)與思考,以及對(duì)于情報(bào)分析未來(lái)走向更為明確的設(shè)計(jì)。
大數(shù)據(jù)為情報(bào)分析帶來(lái)了許多非常有價(jià)值的內(nèi)容,比如,數(shù)據(jù)變得越來(lái)越容易獲取與透明化程度越來(lái)越高、能夠更好地通過(guò)大量的瀏覽記錄來(lái)發(fā)現(xiàn)用戶需求、更好地為用戶提供個(gè)性化服務(wù)、更好地輔助用戶進(jìn)行決策、能夠催生出許多新的服務(wù)模式與產(chǎn)品、可以進(jìn)行實(shí)時(shí)數(shù)據(jù)分析、促進(jìn)數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)與創(chuàng)新[20-21]。但是,與此同時(shí),大數(shù)據(jù)的“4V”特征同時(shí)也為情報(bào)分析帶來(lái)了一些挑戰(zhàn)。
4.1 大數(shù)據(jù)時(shí)代情報(bào)分析面臨的挑戰(zhàn)
情報(bào)分析在大數(shù)據(jù)時(shí)代進(jìn)入了飛速發(fā)展期,科技出版物每年的增長(zhǎng)率大概在9%左右,每9年左右科技產(chǎn)出大概就會(huì)翻倍[22]。大數(shù)據(jù)的研究?jī)r(jià)值可以媲美“石油”,但如何進(jìn)行挖掘與開(kāi)采其價(jià)值,一直都是難點(diǎn)。
海量數(shù)據(jù)將會(huì)為情報(bào)分析提供前所未有的有價(jià)值的信息,但與此同時(shí),如何對(duì)龐雜的數(shù)據(jù)進(jìn)行分析,發(fā)掘看似“雜亂無(wú)章”的數(shù)據(jù)之間的關(guān)聯(lián),也是難點(diǎn)之一,當(dāng)前情報(bào)分析中僅有極小的一部分?jǐn)?shù)據(jù)被整合、分析、利用并且發(fā)掘出其中內(nèi)涵與價(jià)值,大部分?jǐn)?shù)據(jù)仍是尚未開(kāi)發(fā)利用的。
大數(shù)據(jù)同時(shí)還具有“高速”的特征,即其生產(chǎn)速度極快,而傳統(tǒng)的情報(bào)分析很大程度上是不能做到完全自動(dòng)分析的,必須要有人工的參與才能進(jìn)行,如何將情報(bào)分析過(guò)程實(shí)現(xiàn)完全自動(dòng)化,也是大數(shù)據(jù)對(duì)于情報(bào)分析提出的嚴(yán)峻挑戰(zhàn)。
大數(shù)據(jù)的“多樣性”表征除了以前在情報(bào)分析的利用較多的結(jié)構(gòu)化數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)也在其中占有相當(dāng)大的比例。事實(shí)上,近年生產(chǎn)出來(lái)的數(shù)據(jù)大部分都是非結(jié)構(gòu)化的數(shù)據(jù),例如文本、音頻、視頻等富媒體數(shù)據(jù),是未來(lái)情報(bào)分析中非常重要且不可忽視的部分,將其他的富媒體化數(shù)據(jù)納入情報(bào)分析的范疇,將會(huì)極大地豐富情報(bào)分析的內(nèi)容與提高情報(bào)分析質(zhì)量,但與此同時(shí),這些非結(jié)構(gòu)化的數(shù)據(jù)對(duì)情報(bào)分析工作提出了極大的挑戰(zhàn)。
最后就是數(shù)據(jù)的質(zhì)量問(wèn)題,當(dāng)前幾乎所有領(lǐng)域中的數(shù)據(jù)都充斥著大量的沖突數(shù)據(jù)與噪聲數(shù)據(jù),會(huì)很大程度上干擾專業(yè)人員做出正確的情報(bào)分析。傳統(tǒng)的情報(bào)分析在收集完數(shù)據(jù)之后,需要人工判斷信息的真實(shí)與否,而大數(shù)據(jù)時(shí)代,如此海量的數(shù)據(jù)已經(jīng)不是人力可及,必須借助計(jì)算機(jī)進(jìn)行自動(dòng)判斷與分析才能滿足時(shí)代對(duì)于情報(bào)分析的要求。
4.2 認(rèn)知情報(bào)學(xué)為情報(bào)分析帶來(lái)新機(jī)遇、新應(yīng)用場(chǎng)景
數(shù)據(jù)時(shí)代猶如海浪一般席卷而來(lái),從數(shù)據(jù)到信息、到知識(shí)、到智慧、到解決方案的整個(gè)過(guò)程的活動(dòng)[1]需要計(jì)算能力的不斷推動(dòng)。認(rèn)知情報(bào)學(xué)為知識(shí)發(fā)現(xiàn)與決策方案的制定提供了極具前景的解決方案,加速?gòu)臄?shù)據(jù)到知識(shí)再到行動(dòng)的轉(zhuǎn)化過(guò)程,推動(dòng)數(shù)據(jù)時(shí)代邁向計(jì)算時(shí)代。
4.2.1 大數(shù)據(jù)情報(bào)分析的解決方案 大數(shù)據(jù)蘊(yùn)含著巨大有價(jià)值的信息的同時(shí),其數(shù)據(jù)量之大、數(shù)據(jù)類型之廣、生產(chǎn)速度之快、數(shù)據(jù)質(zhì)量之痛,都為從業(yè)人員提出了不少難題,只有層層盤(pán)剝、深入大數(shù)據(jù)背后的礦藏,才會(huì)提取出其中最有價(jià)值的資源。
對(duì)于目前情報(bào)分析僅僅分析利用了一部分?jǐn)?shù)據(jù)而很大一部分的數(shù)據(jù)被閑置并沒(méi)有被開(kāi)發(fā)利用、發(fā)掘其內(nèi)涵價(jià)值的問(wèn)題,認(rèn)知計(jì)算為其提供了一個(gè)新的解決方案,認(rèn)知計(jì)算是主要設(shè)計(jì)來(lái)整合與分析大的數(shù)據(jù)集的[23],為情報(bào)分析中的海量數(shù)據(jù)提供了解決思路。對(duì)于大數(shù)據(jù)產(chǎn)生速度極快的、傳統(tǒng)的人工參與的情報(bào)分析已經(jīng)不足以滿足大量數(shù)據(jù)的分析需求,認(rèn)知計(jì)算通過(guò)創(chuàng)建特定的應(yīng)用場(chǎng)景,通過(guò)不斷的人機(jī)互動(dòng)以及與環(huán)境之間的互動(dòng),通過(guò)學(xué)習(xí)、推理和分析做出恰當(dāng)決策來(lái)模擬人類的思維處理過(guò)程,可以快速對(duì)短時(shí)間內(nèi)生產(chǎn)出來(lái)的大規(guī)模數(shù)據(jù)進(jìn)行處理分析,并且可以無(wú)偏倚地對(duì)之進(jìn)行評(píng)價(jià)。例如,在生命科學(xué)領(lǐng)域,由于生產(chǎn)速度極快,每年文獻(xiàn)約提高9%,每9年文獻(xiàn)即可翻一番[23],在該領(lǐng)域可以依托認(rèn)知計(jì)算的分析、推理能力,對(duì)科技文獻(xiàn)中的例如藥物、疾病等實(shí)體,利用已有的知識(shí),通過(guò)文章的描述自動(dòng)推理出新的藥物、疾病的關(guān)系,提高新藥的問(wèn)世效率以及疾病的攻關(guān)速度。
針對(duì)各類富媒體化數(shù)據(jù)情報(bào)分析難以滿足的問(wèn)題,認(rèn)知計(jì)算可以理解科技論文等非結(jié)構(gòu)化數(shù)據(jù),并且將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)結(jié)合處理[23],為數(shù)字圖書(shū)館向各種數(shù)據(jù)類型拓展業(yè)務(wù),例如音頻、視頻、圖像等數(shù)據(jù)的處理,提供了新的可能。其可以支撐數(shù)字圖書(shū)館向真正的多媒體化的圖書(shū)館進(jìn)行轉(zhuǎn)型,未來(lái)的圖書(shū)館在其支撐下,可以包含更加豐富多樣化的資源,諸如名師講課視頻、音頻等,并對(duì)視頻、音頻等自動(dòng)分析處理,可以直接對(duì)其中的內(nèi)容進(jìn)行跨數(shù)據(jù)類型的檢索。比方說(shuō),可以根據(jù)通過(guò)文字直接檢索出視頻中與之相關(guān)的一小段內(nèi)容或者與文字描述相關(guān)的圖片。
4.2.2 重新定義知識(shí)發(fā)現(xiàn) 在情報(bào)分析方面,傳統(tǒng)的基于數(shù)據(jù)計(jì)算的數(shù)據(jù)挖掘技術(shù)正向基于內(nèi)容的知識(shí)發(fā)現(xiàn)技術(shù)發(fā)展[8]。但在基于內(nèi)容的知識(shí)發(fā)現(xiàn)實(shí)現(xiàn)過(guò)程中,捕捉非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含的深層含義一直是一大難點(diǎn)。以科技領(lǐng)域?yàn)槔?,自然語(yǔ)言處理會(huì)面臨的困難重重,例如,不同行業(yè)、不同學(xué)科、不同語(yǔ)言、不同的術(shù)語(yǔ)表示方式,等等,一直是自然語(yǔ)言處理的難點(diǎn)??梢越柚J(rèn)知計(jì)算在某個(gè)特定領(lǐng)域訓(xùn)練,學(xué)習(xí)相應(yīng)的語(yǔ)言、術(shù)語(yǔ)、該領(lǐng)域中的思維模式以及通過(guò)與專家的交互來(lái)輔助理解該領(lǐng)域的知識(shí)。例如,IBM在醫(yī)療領(lǐng)域,通過(guò)認(rèn)知計(jì)算向醫(yī)生提供專家級(jí)的輔助能力,幫助醫(yī)生精準(zhǔn)、迅速地識(shí)別癌癥,給癌癥病人盡可能多的治療時(shí)間,延長(zhǎng)病人生命。
認(rèn)知計(jì)算在實(shí)現(xiàn)自動(dòng)知識(shí)發(fā)現(xiàn)的過(guò)程中,含有細(xì)粒度實(shí)體的知識(shí)圖譜的創(chuàng)建是實(shí)現(xiàn)特定領(lǐng)域知識(shí)發(fā)現(xiàn)非常重要的一環(huán)。現(xiàn)在各個(gè)領(lǐng)域都有成功的領(lǐng)域知識(shí)圖譜的創(chuàng)建,例如生物領(lǐng)域Smartfigures知識(shí)圖譜[24]、地理領(lǐng)域的CrowdGeoKG知識(shí)圖譜[25]、醫(yī)學(xué)領(lǐng)域的KnowLife知識(shí)圖譜[26]。除此之外,還有各大數(shù)據(jù)出版社,如Springer、Elsevier等,推出內(nèi)容更加豐富的知識(shí)圖譜,這些知識(shí)圖譜中包含了更細(xì)粒度的實(shí)體,如期刊論文、論文附屬數(shù)據(jù)、數(shù)據(jù)集、圖書(shū)、參考文獻(xiàn)、專利、臨床實(shí)驗(yàn)、機(jī)構(gòu)、會(huì)議、作者、主題領(lǐng)域、資助項(xiàng)目、下載閱讀數(shù)量以及對(duì)應(yīng)的軟件工具等[1]內(nèi)容。
抽取出離散的知識(shí)要素后,可以在其上進(jìn)行關(guān)系抽取,實(shí)現(xiàn)自動(dòng)的知識(shí)發(fā)現(xiàn)。例如,從文獻(xiàn)中抽取蛋白質(zhì)的相互作用[27],抽取藥物與其不良反應(yīng)[28],抽取公司之間的合作、競(jìng)爭(zhēng)關(guān)系[29]等。在其上建立應(yīng)用,可以輔助用戶的日常工作,如加速新藥的問(wèn)世、識(shí)別潛在的合作競(jìng)爭(zhēng)關(guān)系來(lái)確立本公司的經(jīng)營(yíng)管理方案等。
除了對(duì)于論文中細(xì)粒度實(shí)體間關(guān)系的知識(shí)自動(dòng)發(fā)現(xiàn),還可以對(duì)整個(gè)篇章知識(shí)結(jié)構(gòu)進(jìn)行知識(shí)發(fā)現(xiàn),幫助用戶迅速發(fā)現(xiàn)文章的脈絡(luò),包括研究目的、方法、手段、工具、結(jié)論等[30],高效地利用科技文獻(xiàn),加快知識(shí)獲取過(guò)程。
4.2.3 新型的人機(jī)交互環(huán)境 在人機(jī)交互方面,認(rèn)知計(jì)算可以輔助情報(bào)分析在為用戶進(jìn)行服務(wù)時(shí)提供非常好的解決方案,通過(guò)專家級(jí)的援助與理解能力,直接將解決方案嵌入到用戶的搜索、瀏覽等行為中去,與用戶進(jìn)行深度交互,為用戶提供更加高效的、舒適的專家服務(wù)來(lái)輔助用戶做出更好的決策。目前已有人機(jī)推理網(wǎng)絡(luò)(HuMaINs)[31]的探索,通過(guò)機(jī)器無(wú)偏倚的認(rèn)知能力來(lái)輔助人類去規(guī)避非理智的決策。人機(jī)推理網(wǎng)絡(luò)可以應(yīng)用于網(wǎng)絡(luò)教育,通過(guò)個(gè)性化的定制方案,為不同的用戶提供根據(jù)用戶水平自動(dòng)調(diào)整教學(xué)難度以及教學(xué)目標(biāo)的教學(xué)內(nèi)容;還可以應(yīng)用于醫(yī)學(xué)健康領(lǐng)域,將醫(yī)生納入循環(huán)中,共同為患者的治療方案做出決策;此外,在科學(xué)發(fā)現(xiàn)中,可以利用人機(jī)推理系統(tǒng),突破以往的需要人為設(shè)定好數(shù)據(jù)以及技術(shù)的限制,將人與機(jī)器同時(shí)納入解決問(wèn)題的循環(huán)中去,在交互中共同去探尋復(fù)雜問(wèn)題的解決方案。
除此之外,問(wèn)答式服務(wù)、無(wú)人化服務(wù)方式也日益提上日程,成為新的服務(wù)模式。認(rèn)知計(jì)算良好的推理與學(xué)習(xí)能力為深度理解人們的問(wèn)題以及提供更為“?!薄熬钡拇鸢柑峁┝丝赡苄?。在未來(lái),應(yīng)用于圖書(shū)館的自動(dòng)問(wèn)答機(jī)器人將會(huì)代替人工成為主流,更好的分析理解能力與龐大的知識(shí)庫(kù)會(huì)使圖書(shū)館自動(dòng)問(wèn)答機(jī)器人在服務(wù)質(zhì)量上不遜于人工服務(wù),并且還可以結(jié)合射頻識(shí)別技術(shù)、物聯(lián)網(wǎng)、無(wú)人機(jī)駕駛等技術(shù),實(shí)現(xiàn)精準(zhǔn)地定位服務(wù)以及自動(dòng)書(shū)架取書(shū)等服務(wù)。
5 結(jié)束語(yǔ)
認(rèn)知計(jì)算通過(guò)模擬人類的思維來(lái)進(jìn)行感知、推理與應(yīng)激反應(yīng),已經(jīng)逐漸被各領(lǐng)域所關(guān)注并且嘗試使用。認(rèn)知計(jì)算有著處理各種類型的數(shù)據(jù)、理解數(shù)據(jù)、評(píng)估數(shù)據(jù)并且可以從數(shù)據(jù)中學(xué)習(xí)出潛在的、未知的、新穎的洞見(jiàn)[23]的能力,可以加速科研工作者的科研過(guò)程,在情報(bào)分析領(lǐng)域有著自己獨(dú)特的優(yōu)勢(shì),可以完善傳統(tǒng)情報(bào)分析技術(shù)在大數(shù)據(jù)時(shí)代的不足。但目前國(guó)內(nèi)對(duì)于認(rèn)知情報(bào)學(xué)的研究剛剛起步,還不成熟,并未提出明確的概念,將認(rèn)知計(jì)算與情報(bào)分析交叉融合進(jìn)行實(shí)踐的探索還并不成熟。認(rèn)知計(jì)算會(huì)大大加快將信息轉(zhuǎn)化為知識(shí)與行動(dòng)的過(guò)程,為情報(bào)分析面臨的當(dāng)前信息環(huán)境迅猛的變革提供新的解決方案,為整個(gè)行業(yè)的服務(wù)業(yè)態(tài)探索提供新的思路。
欄目分類
- 1短視頻走紅的原因及影響——以“抖音”為例
- 2短視頻發(fā)展現(xiàn)狀、存在的問(wèn)題及意見(jiàn)
- 3以“李子柒”為例研究社會(huì)化創(chuàng)意下的內(nèi)容營(yíng)銷策略
- 4企業(yè)市場(chǎng)營(yíng)銷中存在的問(wèn)題及對(duì)策
- 5論樹(shù)洞傳播的匿名效應(yīng)
- 6全媒體時(shí)代,如何做好新聞選題策劃?
- 7總體國(guó)家安全觀對(duì)當(dāng)代大學(xué)生的要求
- 8 “抖音”APP優(yōu)劣勢(shì)分析與短視頻產(chǎn)業(yè)的發(fā)展思考
- 9《論語(yǔ)》中孔子的“孝”思想
- 10網(wǎng)易云音樂(lè)內(nèi)容營(yíng)銷的手段分析
- 新時(shí)代高校文化安全教育的實(shí)踐理路研究
- 護(hù)理專業(yè)課程思政中倫理教育與人文關(guān)懷的融合路徑探索
- 紅色文化資源融入高校思政教育路徑探析
- 文學(xué)現(xiàn)場(chǎng)融入文學(xué)史教學(xué)的策略研究
- 數(shù)字化賦能皖北古建筑文化高質(zhì)量傳承
- 論藝術(shù)美學(xué)的重要性
- 從精神中的真實(shí)論具象繪畫(huà)存在的價(jià)值 ——以“父·母”為例
- 中華優(yōu)秀傳統(tǒng)文化融入高校美育教學(xué)路徑研究
- 區(qū)域特色產(chǎn)業(yè)品牌驅(qū)動(dòng)鄉(xiāng)村振興的五維設(shè)計(jì)路徑研究
- 埃貢·席勒與羅爾純繪畫(huà)作品表現(xiàn)語(yǔ)言比較研究
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國(guó)內(nèi)核心期刊分級(jí)情況概覽及說(shuō)明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學(xué)者
- 我用了一個(gè)很復(fù)雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問(wèn)題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經(jīng)拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應(yīng)該熟知的10個(gè)知識(shí)點(diǎn)。
- 注意,最新期刊論文格式標(biāo)準(zhǔn)已發(fā)布,論文寫(xiě)作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學(xué)術(shù)論文編寫(xiě)規(guī)則
- 盤(pán)點(diǎn)那些評(píng)職稱超管用的資源,1,3和5已經(jīng)“絕種”了
- 職稱話題| 為什么黨校更認(rèn)可省市級(jí)黨報(bào)?是否有什么說(shuō)據(jù)?還有哪些機(jī)構(gòu)認(rèn)可黨報(bào)?
- 《農(nóng)業(yè)經(jīng)濟(jì)》論文投稿解析,難度指數(shù)四顆星,附好發(fā)選題!