新世紀兒童醫(yī)院 新世紀信息計量學研究進展評述
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]在簡要回顧信息計量學產生與發(fā)展歷史的基礎上,分別從理論、方法/工具和應用實踐3個方面對新世紀以來該領域取得的重要研究進展進行概括和評述,最后還對當前存在的問題與挑戰(zhàn)給予簡要分析。
[關鍵詞]信息計量學 網絡計量學 文獻計量學
[分類號]G350
1 引言
“信息計量學(Informetrie)”這一學科名稱首次由德國學者O.Nacke在1979年提出,與之對應的英文術語“Informetrics”則最早見于1980年美國科學基金會公布的年度研究項目的標題中,并隨后得到了國際文獻聯(lián)合會的認可。1984年,B.C.Brookes撰文提出要大力發(fā)展信息計量學,并就信息計量學的一些基本理論問題進行了較詳細的論述。1987年,在第一屆“文獻計量學與信息檢索理論”國際研討會上,布魯克斯又提議將術語“Informetrics”補充到第二屆會議的名稱中去,得到了與會學者的普遍贊同,自此每兩年舉辦一屆的國際學術會議及其出版的會議論文集都在名稱中使用了“信息計量學”。1995年起,會議名稱被正式確定為“科學計量學與信息計量學國際會議”,由“國際科學計量學和信息計量學學會”(ISSI)負責主辦。1997年,T.C.Almind和P.Ingwersen首次提出用“Webometrics”一詞來描述將傳統(tǒng)文獻與信息計量學方法應用于WWW信息計量研究,使信息計量學的研究活動拓展到了網絡空間。2007年1月,由L.Egg―he擔任主編的《Journal of Informetrics》創(chuàng)刊,為新世紀更趨繁榮的學術研究提供了獨立和更加專業(yè)化的國際學術交流平臺。
從1979年學科名詞的提出,到1987年成為國際學術會議的主題、奠定自身的學科地位,再到1997年“Webometrics”的出現(xiàn),信息計量學終于從早期對文獻計量學和科學計量學的依賴、繼承與交流中獲得了長足的進步,并在21世紀的網絡化環(huán)境中開辟出更為廣闊的學科發(fā)展空間。本文試圖對新世紀以來信息計量學的研究活動進行較為全面的概括和評述,但限于篇幅,重點討論的內容主要包括信息計量學在理論、方法和應用方面取得的重要研究進展,以及當前所面臨的問題與挑戰(zhàn)。
2 理論研究進展
2.1網絡信息計量學研究的全面推進
自1997年“Webometrics”被提出后,基于Web的網絡信息計量問題即廣受關注。根據作者對中國期刊網全文數據庫(2000―2008年)的文獻調查,在以“信息計量學”為標題關鍵詞的檢索結果中,超過90%的中文文獻都是關于網絡信息計量的內容。而在2007年4月對Web of Science數據庫進行的國外文獻調研中發(fā)現(xiàn),網絡信息計量主題的核心文獻數量呈現(xiàn)逐年激增趨勢,其中高品質的學術文獻約占18.5%,被同行引用的次數普遍超過了30次?梢哉f,網絡信息計量領域的確立及各項研究活動的全面推進,已成為新世紀以來信息計量學理論研究取得的一個最令人矚目的重要成就。
目前,大量的網絡信息計量研究活動又以“網絡鏈接分析”為中心議題。由于網絡鏈接與傳統(tǒng)學術期刊文獻之間的引用關系具有某種天然的相似性,研究人員不僅將文獻計量學的引文分析思想廣泛移植、應用到了網絡信息計量研究中,而且賦予了相應的研究工作和成果以極其鮮明的引文分析“烙印”。這種“烙印”從以下網絡計量指標的設計和使用上即可得到充分的印證,例如“Sitation”、“Web Impact Factor”、“Webcoupling”、“Co-citation”、“Co-link”、“Co-authorship”、“Self-linking”、“Self-linked”等。另外,在具體的研究成果方面,例如網絡鏈接分析與引文分析的異同、網絡鏈接的目的與類型、網絡影響因子的定義與應用、核心網站測定等,也都表現(xiàn)出了與傳統(tǒng)引文分析的緊密映射關系。
除借用引文分析法外,近年來網絡鏈接分析開始采用另一種重要研究方法――來自社會學的社會網絡分析(SNA),并在具體應用中取得了一定進展。
隨著研究活動的深入,Web環(huán)境下更多更具挑戰(zhàn)性的信息計量問題正在不斷被提出,并賦予信息計量學新的研究使命。例如,(具商業(yè)價值的)網絡流量分析及其軟件工具的研制;各種網絡用戶行為(例如瀏覽、查詢、下載、標注、訂閱等)的跟蹤、計量與分析;虛擬社區(qū)(包括成員角色、社區(qū)結構、主題/話題及其態(tài)度/傾向性等)的發(fā)展、監(jiān)測和演變趨勢分析;網絡空間的知識結構及相關站點群落的識別等。面對這些問題與挑戰(zhàn),信息計量學的研究內容將更具交叉性和豐富性。
2.2“信息基本循環(huán)圖式”的構建及對信息計量學理論基礎的探討
1967年,布魯克斯曾將情報學的研究任務抽象為如下的基本知識方程:K[S]+△I=K[S+△S]。2005年,國內學者王宏鑫基于該知識方程,提出“信息基本循環(huán)圖式”的構建:
圖式中各元素含義分別是:W表示人們認識和改造的對象;K’[S]表示社會/他人的主觀/客觀的知識結構;K[S]表示個人/團體的知識結構;△I表示個人/團體從社會實踐活動中得到的信息;而K[S+△S]則表示吸收△I后形成的新的知識結構;“+”表示作用與聯(lián)系。
這一“信息基本循環(huán)圖式”的提出,不僅具有較為完善的哲學基礎和情報學理論基礎,而且為研究人員對信息計量學邏輯起點的認知與理解以及規(guī)范、定義、預測信息計量學的研究內容、研究方法、發(fā)展方向、學科增長點等提供了較為有效的觀察視角。此外,該信息基本循環(huán)圖式對于形成信息計量學更加多元化的研究范式也很具啟發(fā)性。例如,可據此分別從傳播學、認知科學、經濟學、決策學等不同視角展開相應的研究工作。
3 研究方法/工具的集成與創(chuàng)新
在長期的發(fā)展過程中,信息計量學逐漸建立了三大核心研究方法:指標計量法、引文分析法和數學模型法。其中,指標計量法簡單實用,通過統(tǒng)計某一項或多項指標的數量(累積)值,經數學處理后即可得出不同指標值的關系或指標值的頻率、時間等分布規(guī)律;引文分析法形成于20世紀50年代,它通過對科學文獻之間存在的引用與被引用現(xiàn)象的分析來揭示文獻集合的數量特征和內在規(guī)律,是信息計量學獨有的高效研究方法;而數學模型法則是現(xiàn)代科學的核心方法,并成為研究各種復雜系統(tǒng)和社會問題的關鍵性方法。在信息計量學中,對“布-齊-洛分布”問題已基于數學模型法取得了一系列重要研究成果,包括:西蒙的斜分布函數組(1955年);普賴斯的累積優(yōu)勢分布(1976年);布魯克斯的混合泊松模型(1977年);西切爾的通用逆高斯-泊松分布模型(1982年);巴瑞爾的貝塔-負二項分布(1988年);布克斯坦的經驗負冪分布(1990年) 等。它們對于完善信息計量學的理論基礎,有效解釋、預測文獻流、信息流的變化及相關現(xiàn)象均具有重要的理論意義。
進入新世紀以來,信息計量學在研究方法和研究工具方面不斷取得新的進展,以下主要從4個方面進行說明。
3.1對傳統(tǒng)研究方法的綜合與集成
不可否認,每一種研究方法都有自身的優(yōu)缺點。以引文分析法為例,由于文獻引用具有一定的滯后性,通過文獻之間的共引關系來研究、分析學科發(fā)展的前沿與熱點問題時,結果很可能會有所遺漏;而隨著作者合著現(xiàn)象的日益普及,只針對第一作者進行作者共引分析,研究結論的失真程度也將會日益嚴重。因此,在近期所進行的文獻引文分析研究中,研究人員已越來越多地考慮將多種不同的引文分析方法加以綜合利用,例如把共引分析和文獻耦合分析、共詞聚類、詞頻統(tǒng)計等方法結合起來;或者同時運用第一作者共引分析和全作者共引分析等。
由于不同方法之間的較強互補性以及不同方法形成結果的可比較性,多種方法的綜合運用和集成可以得到更準確可靠的研究結果。調查發(fā)現(xiàn),國內外近年來進行的引文分析研究中,基于不同引文分析指標、集成多種不同引文分析方法的文獻占據了大多數,引文分析已進入了一個具有更大規(guī)模和復雜性的研究階段。
3.2社會網絡分析方法的引進
社會網絡分析(SNA)是20世紀70年代以來在社會學、心理學、人類學、數學、通信科學等領域逐步發(fā)展起來的一個新的研究分支。作為一種新的方法論和研究范式,SNA主要使用社群圖、矩陣等形式化表達工具和所定義的中心性、權力指數、聚類簇/派系、網絡結構、社會角色等基本概念(或指標),從整體網絡分析、自我中心網絡分析等不同方向開展研究工作。
目前,信息計量學研究對SNA方法的引進和應用,主要表現(xiàn)在對Web環(huán)境下較大范圍內的網站超鏈接的分析與計算上,并與基于傳統(tǒng)引文分析法建立起來的網絡鏈接分析研究模式形成一種對照和互補。概括起來,基于SNA方法開展的主要研究活動有:基于網站之問的超鏈接分析,識別社會系統(tǒng)之間的各種聯(lián)系;基于政府組織、非政府組織和私人公司之間網站的超鏈接網絡分析,發(fā)現(xiàn)組織間聯(lián)合的意向;對某一特殊專題不同類型網站之間的超鏈接追溯,用以理解問題解決過程、辨別社會熱點問題等;基于網站主頁內容、鏈接結構和E-mail成員列表等,預測社會成員之間的聯(lián)系等。
SNA方法通常涉及大范圍內社群網絡結構的分析問題,指標計算和數據處理比較復雜,不過相應的軟件工具開發(fā)已取得了很多成果。以下是幾個較為重要的社會網絡分析軟件:Pajek、Ucinet、NEGOPY、Sociometryplus、Socio Metrica Suite。它們可在SPSS、SAS等統(tǒng)計分析軟件功能之外提供更多的專項分析功能。例如,Ucinet軟件能夠讀取多種不同形式的數據,可處理32767個網絡節(jié)點,同時還能計算各種SNA測度指標值,并能進行凝聚子群和核心一邊緣結構分析等。
3.3可視化工具的廣泛應用
在早期的信息計量學研究工作中,研究人員為了把經過繁雜數據處理后得到的計量分析結果,進行直觀和形象的展示比較重視各種可視化方法(或手段)的運用。MDS散點圖、基于等級聚類的樹狀圖、雷達圖、切諾夫臉(Chernoff-face)等,都是一些比較常見的可視化展示方法。1997年,T.Braun等人就利用一個4維的切諾夫臉,把多維空間的科學計量指標數據(活動指數、吸引指數、平均期望引文率、相對引文率等)用一個由計算機繪制的卡通臉的面部特征表示出來,成功地完成了對1990―1994年間世界科學發(fā)展狀況的分析和說明。
各種可視化方法(或工具)充分利用了人類對可視模式快速識別的自然能力,可將人類對信息閱讀、判別和理解等認知負擔轉變?yōu)楹唵、直觀的視覺感知,對于科學研究工作的重要性日益凸顯。特別是近年來由于問題研究規(guī)模和復雜性的日益增長,在對研究結論和成果進行展示、說明時,普遍存在著對各種可視化工具的迫切需求。
當前,各種功能豐富的可視化工具在信息計量學研究中已得到廣泛使用,并漸成趨勢。如Pathfinder、CiteSpace Ⅱ、HistCiteTM、VxInsight等以及Pajek和Uci―net的使用都是比較流行的。
3.4網絡引文分析工具的研制
根據國內學者以Web of Science(WOS)和Google Scholar作為引文分析工具進行的實證研究和結果對照,未來的引文分析研究再單純依賴傳統(tǒng)的WOS等工具,將越來越難以獲得全面、真實的引文數據,并會導致引文分析結果產生日益嚴重的偏差。為此,各種新型的網絡化引文索引工具的編制逐漸被提上了議事日程,以適應e-Science時代引文分析的研究需求。
1998年,第一個網絡引文索引CiteSeer開始研制,并于1999年正式投入使用。作為一個主要面向計算機和信息科學領域學術資源的網絡引文索引與檢索工具,CiteSeer主要基于自動引文索引(ACI)技術編制而成。2004年,Google Scholar也在學術搜索服務中成功引入引文分析方法,并提供功能完善的引文鏈接服務。同年,全球最大規(guī)模的文摘和引文數據庫服務系統(tǒng)Elservier’s Scopus正式推出,它涵蓋了由4000余家出版商出版發(fā)行的科技、醫(yī)學和社會科學方面的15100多種期刊資源,并基于文獻計量學原理開發(fā)、整合了豐富的學術計量評價功能,可廣泛服務于科研人員、圖書館員、編輯和審稿人、學術機構管理者等。
伴隨著CiteSeer、Scopus等新型引文分析工具的出現(xiàn),2004年以來,比較它們和傳統(tǒng)WOS工具之間異同的各類研究活動十分踴躍,而目前多數的研究結論是:它們要完全取代WOS或者作為一種權威性的引文分析工具來使用,都面臨著一定的困難或障礙,例如:收錄范圍的不明確;覆蓋的學術資源領域受限;回溯年代較短;各學科開放獲取運動發(fā)展的不平衡;ACI技術與網絡搜索技術的缺陷等。
4 主要應用實踐及進展
信息計量學的傳統(tǒng)應用領域主要涉及文獻管理、學科發(fā)展分析與評價、科研管理等,而近年來取得的應用進展則大量集中于網絡環(huán)境,以下選取幾個較有影響的網絡應用予以說明。
4.1網絡流量分析
隨著網絡發(fā)展及其對社會生活的全面滲透,商業(yè)網站為擴大自身影響力,吸引更多網絡廣告客戶和電子商務客戶,都非常注意對自身網站訪問流量進行計量和宣傳。早期,網站通常采用自行統(tǒng)計、發(fā)布網絡流量分析報告的方式,但由于日志文件數據比較容易篡改,廣告客戶常常對網站提供的流量數據心存疑慮。另外,各網站在流量分析過程中所采用的標準、計量指 標和工具等的不同,也使得各網站的流量統(tǒng)計結果之間缺乏可比性。為此,制定網絡流量分析的行業(yè)標準和報告規(guī)范,并由此提供第三方流量認證服務,成為隨后網絡流量分析的發(fā)展主流。
目前,市場上專門提供對網站流量和日志數據計量分析的相關軟件以及流量認證服務的提供商越來越多,如WebTrends Log Analyzer、FlashStats、AcessWatch、OneStatPro和BPA International、Nielsen//NetRatings等。商業(yè)化軟件和第三方流量認證服務的推出有效促進并形成了信息計量學的一個網絡化新興應用領域。
4.2核心網站評測
對“核心”問題的研究始終得到信息計量學的高度關注,例如早期對學術期刊、文獻作者、詞頻等分布的集中與離散現(xiàn)象的研究以及由此建立起來的一系列經典定律。進入21世紀以來,對“核心”問題的研究仍在繼續(xù),其中尤以核心網站評測最具代表性。
核心網站評測主要由核心期刊評選活動引發(fā)而來。除了全面分析和比較核心期刊與核心網站評選方法的異同外,如何建立合理的核心網站評選程序進而形成關于核心網站評選的理論與方法體系更為重要。2005年,國內學者袁毅經過系統(tǒng)、深入的研究,提出了“發(fā)現(xiàn)、過濾、評價、擴展和更新”的核心網站評選基本流程,并對該流程進行了實證研究和分析,初步驗證了其合理性和有效性。
4.3 網絡標簽分布的計量分析
網絡自由分類法出現(xiàn)于2004年,而大量使用則在2005年以后;谧杂煞诸惙ㄔ硖峁¦eb2.0服務的眾多新興網站中用戶標簽的使用及數量、頻率等分布狀況逐漸成為網絡信息計量研究的一個熱點領域。
目前,網絡標簽計量分析研究主要以Del.icio.us、Flickr、Connotea、CiteUlike、Bibsonomy等網站作為實例,從中抽取一定時間范圍內的標簽樣本數據,利用統(tǒng)計描述、聚類、共詞分析等方法進行計量分析,試圖揭示、說明自由分類法及其網絡協(xié)作標注系統(tǒng)的運行機制、用戶標注行為規(guī)律及行為模式以及互聯(lián)網環(huán)境下新興的長尾分布現(xiàn)象等。已實施的網絡標簽計量分析研究主要有:①標簽、用戶、資源三者之間的關聯(lián)分析;②各種標簽的頻率和比例分布分析(包括高頻標簽與低頻標簽、規(guī)范詞與非規(guī)范詞、拼寫變化等);③標簽共現(xiàn)分析;④標簽詞語集合的規(guī)模及增長變化;⑤基于標簽的用戶標注行為和用戶相似性分析等。
5 面臨的問題與挑戰(zhàn)
5.1基本概念缺乏清晰定義,研究內容龐雜,學科邊界模糊
信息計量學的基本計量分析對象應是“信息”,但由于“信息”概念的難以定義,時至今日,實際研究工作中大都是以各種各樣的信息“替身”為計量對象的。另外,信息(尤其是數字信息)所具備的一些特性,例如無窮性、載體依附性、易復制易傳播性、脆弱性等,也為計量分析帶來更多的困難。
“信息基本循環(huán)圖式”對信息計量學理論基礎的建立雖然有所貢獻,但也存在著明顯的缺陷,例如對信息計量與知識計量的關系、各組成要素之間具體的聯(lián)系與作用方式(即“+”)等都缺乏明確的定義和說明。此外,基于基本循環(huán)圖式而形成的眾多不同的研究范式,也會導致信息計量學研究內容的日益龐雜,并使學科邊界相對模糊。如果多元研究范式長期并存不能形成主流(或核心)的研究體系,則有可能使學科研究主題進一步出現(xiàn)被模糊或被淡化的危險。
5.2研究方法有待繼續(xù)創(chuàng)新,專用研究工具比較缺乏
雖然目前信息計量學在研究方法、工具和指標設計等方面已取得不少進展,研究視野得到拓展,但對傳統(tǒng)方法的依賴依然較為嚴重,尤其是在新興的網絡鏈接分析方面,引文分析的“烙印”十分明顯,而針對網絡特性所進行的創(chuàng)新和改進遠遠不如繼承的成分更多。繼承之上如何超越正成為信息計量學急需解決的一個方法論難題。
研究工具方面,不論是網絡抽樣、原始數據下載還是網絡鏈接解析與統(tǒng)計,都還缺乏較為有效的專用工具,很多情況下只能依靠搜索引擎來獲取樣本數據,由此造成研究中存在種種偏差。
5.3應用研究活躍,但影響力和應用效果都比較局限
與信息計量學研究中存在的理論基礎薄弱、方法/工具創(chuàng)新不足形成鮮明對照的是當前各種應用研究活動十分活躍。不過,大部分的應用活動不僅研究方法簡單,而且應用效果不確定,難以形成較強的示范效應或者對理論基礎和研究方法的完善形成有益的促進。而影響力較大的少數研究活動則仍較多局限于教育、科研等學術性領域,這與網絡對當今社會的全方位影響、滲透相比,研究思路還顯得過于狹窄。
6 結語
新世紀以來,信息計量學獲得了較為快速的發(fā)展和進步;谄拗坪妥髡邆人的選擇取舍,本文對信息計量學經典定律、引文分析、h指數等方面的研究進展基本沒有涉及。為此,最后推薦數篇優(yōu)秀的綜述性論文[29―31]作為本文的補充,它們分別對1990年-1999年、2000年-2006年間的信息計量學和網絡信息計量學研究給予了頗具價值性的概括和分析。
相關熱詞搜索:計量學 新世紀 研究進展 新世紀信息計量學研究進展評述 歷史計量學研究進展評述 知識網絡研究進展及評述
熱點文章閱讀