【從檢索技術(shù)的實(shí)現(xiàn)方式看三大全文數(shù)據(jù)庫(kù)的發(fā)展】 三大檢索數(shù)據(jù)庫(kù)
發(fā)布時(shí)間:2020-03-07 來(lái)源: 散文精選 點(diǎn)擊:
[摘要] 通過三個(gè)有針對(duì)性的檢索實(shí)例對(duì)清華同方、萬(wàn)方數(shù)據(jù)、重慶維普三大全文數(shù)據(jù)庫(kù)檢索技術(shù)實(shí)現(xiàn)的特點(diǎn)進(jìn)行分析,從其目前提供的功能和招聘信息分析它們?cè)诟?jìng)爭(zhēng)中所處的位置,指出全文數(shù)據(jù)庫(kù)的三大核心競(jìng)爭(zhēng)力是:歷史數(shù)據(jù)回溯、當(dāng)前數(shù)據(jù)質(zhì)量和未來(lái)增值服務(wù)。進(jìn)而對(duì)未來(lái)的增值服務(wù)進(jìn)行分析與預(yù)測(cè),包括計(jì)量分析自動(dòng)生成系統(tǒng)、句子級(jí)文獻(xiàn)自動(dòng)審稿系統(tǒng)、參考文獻(xiàn)自動(dòng)標(biāo)注系統(tǒng)、觀點(diǎn)型搜索,并指出這些系統(tǒng)的實(shí)現(xiàn)將使文獻(xiàn)服務(wù)真正走向知識(shí)服務(wù)。
[關(guān)鍵詞] 全文檢索 全文數(shù)據(jù)庫(kù) 檢索技術(shù) 全文數(shù)據(jù)庫(kù)商 清華同方 萬(wàn)方數(shù)據(jù) 重慶維普 核心競(jìng)爭(zhēng)力
[分類號(hào)] G35 TP391
1、引言
中國(guó)期刊全文數(shù)據(jù)庫(kù)(簡(jiǎn)稱清華同方)、數(shù)字化期刊全文數(shù)據(jù)庫(kù)(簡(jiǎn)稱萬(wàn)方數(shù)據(jù))、中文科技期刊數(shù)據(jù)庫(kù)(簡(jiǎn)稱重慶維普)是國(guó)內(nèi)公認(rèn)的三大期刊全文數(shù)據(jù)庫(kù)。三大數(shù)據(jù)庫(kù)之間既有許多相似之處,又各具特色:從檢索形式上看,三大全文數(shù)據(jù)庫(kù)都支持初級(jí)檢索、高級(jí)檢索、專業(yè)檢索,都支持復(fù)雜的邏輯表達(dá)式的提問,都支持跨庫(kù)檢索,支持鏈接導(dǎo)航。但它們也有許多不同之處,如清華同方支持真正的全文檢索,而其他兩家目前還不能做到這一點(diǎn)。
目前,討論全文數(shù)據(jù)庫(kù)使用技巧及存在問題的文章非常多,但對(duì)全文數(shù)據(jù)庫(kù)檢索技術(shù)的實(shí)現(xiàn)以及未來(lái)的發(fā)展趨勢(shì)的探討還很少。本文作者既進(jìn)行過常規(guī)的手工操作,也寫過進(jìn)行自動(dòng)下載的下載程序。通過對(duì)數(shù)據(jù)庫(kù)的不斷測(cè)試,特別是通過某些特殊的、有針對(duì)性的系列檢索,判斷出系統(tǒng)所使用的一些基本的檢索技術(shù)。進(jìn)而在對(duì)這些技術(shù)探討的基礎(chǔ)上,分析并預(yù)測(cè)這二三大全文數(shù)據(jù)庫(kù)商的競(jìng)爭(zhēng)優(yōu)勢(shì)及未來(lái)的發(fā)展方向。
2、通過針對(duì)性的檢索實(shí)例分析檢索技術(shù)的實(shí)現(xiàn)
目前,信息檢索大都致力于對(duì)主題檢索的支持,卻忽略了利用特征與結(jié)構(gòu)的檢索。向量分詞檢索在索引空間、檢索效率等方面優(yōu)于字符匹配型,但柃素質(zhì)量并不總是高于字符匹配。例如,想查找某一期刊連載的文章。這種檢索需求不是主題相關(guān)的,而是從特征入手。通常,連載的文章標(biāo)題后有(上)、(下)或(一)、(二)或(I)、(Ⅱ)、(Ⅲ)等字樣。筆者于2006年12月19日分別對(duì)清華同方、重慶維普、萬(wàn)方數(shù)據(jù)的期刊全文數(shù)據(jù)庫(kù)在標(biāo)題檢索里精確匹配“(上)”,檢索結(jié)果分別為301 137,269 222和6l條。查看結(jié)果后發(fā)現(xiàn),清華同方和重慶維普都濾掉了括號(hào),不支持括號(hào)作為檢索條件,而只有萬(wàn)方實(shí)現(xiàn)了用戶的檢索目的。這就說明前兩者是基于關(guān)鍵詞的索引,而萬(wàn)方數(shù)據(jù)并沒有使用關(guān)鍵詞索引,而是使用單字符索引。
在另一個(gè)機(jī)構(gòu)檢索實(shí)例中,對(duì)重慶維普,以“機(jī)構(gòu)=北大*核心期刊*年=1989-2006”進(jìn)行檢索,得到23 839條檢索結(jié)果,結(jié)果中主要包括西北大學(xué)、東北大學(xué)、河北大學(xué)、湖北大學(xué)等,說明重慶維普的機(jī)構(gòu)檢索是字符匹配。而從清華同方的數(shù)據(jù)庫(kù)中限定1989―2006年期間的核心期刊,選擇模糊匹配得到了33027條結(jié)果,而精確匹配則只有7條。在通過精確匹配所得到的7條檢索結(jié)果中,作者單位都是直接寫的“北大”,事實(shí)上這是一種不規(guī)范的寫法。也就是說,如果這幾名作者使用規(guī)范的機(jī)構(gòu)名稱的話,使用清華同方精確匹配的檢索結(jié)果將為0條。而在萬(wàn)方期刊論文庫(kù)以“1989―2006期刊機(jī)構(gòu)=北大”作為檢索條件,得到43073條檢索結(jié)果,說明它也是使用字符匹配。也就是說沒有一個(gè)數(shù)據(jù)庫(kù)使用同義詞,能夠讓用戶輸入“北大”,也能把“北京大學(xué)”檢索出來(lái)。萬(wàn)方數(shù)據(jù)與重慶維普的機(jī)構(gòu)檢索都沒有采用分詞,直接使用的單字符索引或like檢索,如果采用分詞的話,就不會(huì)出現(xiàn)這種情況。清華同方的模糊匹配結(jié)果很多,精確匹配結(jié)果卻很少,說明模糊匹配采用的是全字符索引或like檢索,而精確匹配卻是分詞后的索引。
在第三個(gè)檢索實(shí)例中,在中國(guó)期刊全文數(shù)據(jù)庫(kù)(清華同方)進(jìn)行檢索,檢索范圍是1980-2007年的全部數(shù)據(jù),檢索條件為在篇名中精確檢索“圖書”,得到21630條檢索結(jié)果,而把檢索詞換成“圖書館”后,檢索結(jié)果卻變成了95636條!皥D書館”包含“圖書”字樣,按常規(guī)思維,“圖書館”的檢索結(jié)果應(yīng)該比“圖書”的檢索結(jié)果要少,可事實(shí)上檢索詞變長(zhǎng)了,檢索結(jié)果卻多了。這說明該數(shù)據(jù)庫(kù)的篇名檢索采取的不是全字符切分,檢索時(shí)采取的不是單字索引,而是向量切分,可能是正向最大向量切分。如果進(jìn)一步把檢索詞拉長(zhǎng),變成“數(shù)字圖書館”,檢索結(jié)果又變成了4885條,也就是說檢索詞變長(zhǎng)了,檢索結(jié)果卻又變少了。“圖書館”肯定包含“圖書”,“數(shù)字圖書館”肯定包含“圖書館”,同樣的現(xiàn)象,卻有不同的結(jié)果。為了進(jìn)一步驗(yàn)證,把檢索詞換成“數(shù)據(jù)”,檢索結(jié)果變成75792條,而改成“元數(shù)據(jù)”,檢索結(jié)果又變成了958條,檢索詞長(zhǎng)了,檢索結(jié)果卻變少了,由此斷定該數(shù)據(jù)庫(kù)采取的不是正向最大向量切分,而是逆向最小向量切分或逆向最大向量切分。因?yàn)槿绻扇〉氖钦蜃钚∠蛄康脑,“圖書館”的檢索結(jié)果就不會(huì)比“圖書”的檢索結(jié)果多。事實(shí)上,根據(jù)漢語(yǔ)中心語(yǔ)靠后的特點(diǎn),逆向切分比正向切分的準(zhǔn)確率要高得多。而萬(wàn)方數(shù)據(jù)與重慶維普都是遵循詞條變長(zhǎng)、結(jié)果一定會(huì)少的原則,因此可以斷定是全字符索引。實(shí)驗(yàn)過程與數(shù)據(jù)如表1所示。
為了進(jìn)一步驗(yàn)證索引的方式,采用二次檢索來(lái)比較結(jié)果的變化。用清華同方數(shù)據(jù)庫(kù)標(biāo)題檢索“數(shù)據(jù)”得到75792條檢索結(jié)果,從結(jié)果中再進(jìn)行標(biāo)題檢索“元數(shù)據(jù)”與“元”分別得到958條與1207條,說明對(duì)元數(shù)據(jù)這個(gè)詞做了三個(gè)索引:元、數(shù)據(jù)、元數(shù)據(jù)。用“圖書館員”進(jìn)行標(biāo)題檢索得到3234條檢索結(jié)果,在結(jié)果中再檢索“圖書”,只有9條,這9條記錄的標(biāo)題中既含“圖書館員”,又含“圖書”(獨(dú)立于圖書館員),在結(jié)果中檢索“館員”,只有21條,情況與圖書一樣。而在3234條結(jié)果中分別檢索“圖書館”與“員”,其結(jié)果都是3234條,說明系統(tǒng)把“圖書館員”切分成“圖書館/員,"’而不是“圖書/館員/”;而在圖書館的95634條結(jié)果中二次檢索“圖書”,得到1425條,說明沒有把“圖書館”切分成“圖書/館/”。為了進(jìn)一步的驗(yàn)證,采用更長(zhǎng)的詞條進(jìn)行測(cè)試,表2的結(jié)果說明“網(wǎng)絡(luò)信息計(jì)量學(xué)”被切分成了“網(wǎng)絡(luò),信息,計(jì)量學(xué)/”。如果采用最大向量切分,則不能切分出“網(wǎng)絡(luò)/信息/”,如果采用正向最小向量應(yīng)該能切出“計(jì)量”。計(jì)量學(xué)與圖書館一樣,卻與元數(shù)據(jù)不一樣,把“元數(shù)據(jù)”切成“元/數(shù)據(jù)/”,卻不把“圖書館”切成“圖書/館/”,說明肯定是逆向向量切分,而且是二次嵌套切分。此外,檢查結(jié)果還證明系統(tǒng)沒有使用MMC(基于上下文的最大向量匹配)進(jìn)行切分。
3、從文獻(xiàn)服務(wù)走向知識(shí)服務(wù)
從文獻(xiàn)服務(wù)走向知識(shí)服務(wù)的理念已經(jīng)得到了廣泛認(rèn)可,但實(shí)現(xiàn)什么樣的知識(shí)服務(wù)、如何實(shí)現(xiàn)真正的知識(shí)服務(wù)才是未來(lái)圖書情報(bào)機(jī)構(gòu)獲取核心競(jìng)爭(zhēng)力的關(guān)鍵。中國(guó)學(xué)術(shù)期刊網(wǎng)(WWW.省略)改名為中國(guó)知網(wǎng),由提供學(xué)術(shù)文獻(xiàn)服務(wù)向提 供知識(shí)服務(wù)進(jìn)軍,以引文鏈接、學(xué)術(shù)定義、學(xué)術(shù)趨勢(shì)等新功能為起點(diǎn),以回答學(xué)術(shù)問題、打破以篇為單位的知識(shí)組織方式,提供知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的鏈接為目標(biāo),旨在實(shí)現(xiàn)真正的以知識(shí)點(diǎn)為處理單元的知識(shí)服務(wù),也就是從物理層次的文獻(xiàn)單元向認(rèn)知識(shí)層次的知識(shí)單元轉(zhuǎn)換“。除了學(xué)術(shù)定義外,它還會(huì)抽取歷史發(fā)展、分類、特點(diǎn)、方法、關(guān)鍵技術(shù)、國(guó)內(nèi)研究進(jìn)展、國(guó)外研究進(jìn)展、應(yīng)用前景、實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果等諸多內(nèi)容,即按照寫作的結(jié)構(gòu)把文章所有內(nèi)容進(jìn)行模塊化抽取;萬(wàn)方數(shù)據(jù)于2006年推出了知識(shí)鏈接門戶,通過作者、分類號(hào)、關(guān)鍵詞字段等提供文獻(xiàn)之間的鏈接;重慶維普也推出了知識(shí)頻道。
數(shù)據(jù)庫(kù)商紛紛使用知識(shí)概念為知識(shí)服務(wù)造勢(shì),雖然可以從服務(wù)觀念和目標(biāo)定位上進(jìn)行強(qiáng)化,但要實(shí)現(xiàn)真正的知識(shí)服務(wù)還有很長(zhǎng)的路要走。實(shí)現(xiàn)這一轉(zhuǎn)變的根本是人才,所以通過三大數(shù)據(jù)庫(kù)商對(duì)人才特別是研發(fā)工程師的需求也能看出他們的研發(fā)重點(diǎn)和相應(yīng)進(jìn)展:①通過招聘信息可以發(fā)現(xiàn)他們的研究計(jì)劃。例如,清華同方的招聘信息中進(jìn)一步強(qiáng)化需要CNKI文獻(xiàn)搜索產(chǎn)品、知識(shí)元搜索產(chǎn)品和各種垂直搜索產(chǎn)品的數(shù)據(jù)采集加工、整合更新和系統(tǒng)開發(fā)人才,重點(diǎn)解決文本挖掘、中文信息處理、知識(shí)系統(tǒng)等;萬(wàn)方數(shù)據(jù)招聘研發(fā)工程師的要求是跟蹤信息技術(shù)發(fā)展,在信息檢索、文本挖掘等相關(guān)研發(fā)領(lǐng)域開展研發(fā)工作;而重慶維普的網(wǎng)站上沒有發(fā)布招聘研發(fā)工程師的信息。②從公司招聘研發(fā)工程師的描述中可以看出研發(fā)深度的不同。在不涉及商業(yè)秘密的情況下,研究專業(yè)方向越具體,研究?jī)?nèi)容越深入,公司的研發(fā)力量就越強(qiáng),推出的產(chǎn)品價(jià)值也就越高。因此,從招聘信息可以推斷出,目前清華同方的技術(shù)研發(fā)似乎強(qiáng)于萬(wàn)方數(shù)據(jù),而萬(wàn)方數(shù)據(jù)又強(qiáng)于重慶維普。事實(shí)上,通過他們所推出的增值服務(wù),也就是新功能也可以驗(yàn)證這一關(guān)系。例如清華同方的知識(shí)鏈接(引文分析)的推出早干萬(wàn)方數(shù)據(jù)的知識(shí)鏈接。近期清華同方又推出了學(xué)術(shù)定義、圖表搜索、搜索趨勢(shì)等,這些服務(wù)已經(jīng)開始對(duì)文本特別是正文內(nèi)容進(jìn)行分析,并充分利用了信息抽取技術(shù)。計(jì)量分析自動(dòng)化已經(jīng)實(shí)現(xiàn)了數(shù)值的統(tǒng)計(jì)計(jì)算,盡管還沒有實(shí)現(xiàn)計(jì)量分析報(bào)告的自動(dòng)生成,但以目前的勢(shì)頭來(lái)看,相信在不久的將來(lái),也會(huì)實(shí)現(xiàn)的。③從清華同方招聘研發(fā)工程師的任務(wù)和要求來(lái)看,已不再關(guān)注傳統(tǒng)的信息檢索技術(shù),而是要解決文本挖掘、信息抽取等問題,以實(shí)現(xiàn)自動(dòng)分類與聚類、自動(dòng)摘要以及問答系統(tǒng)等目標(biāo)。
4、全文數(shù)據(jù)庫(kù)的三大核心競(jìng)爭(zhēng)力
期刊全文數(shù)據(jù)庫(kù)的競(jìng)爭(zhēng)主要體現(xiàn)在三個(gè)方面:歷史數(shù)據(jù)的回溯;當(dāng)前的數(shù)據(jù)質(zhì)量;未來(lái)的增值服務(wù),即數(shù)據(jù)的深加工程度。
對(duì)于歷史數(shù)據(jù)的回溯建庫(kù)問題,目前中國(guó)知網(wǎng)走在前列,很多期刊已經(jīng)回溯至創(chuàng)刊號(hào)。歷史數(shù)據(jù)除了掃描全文外,重點(diǎn)是關(guān)鍵詞的提取與摘要的自動(dòng)生成以及自動(dòng)分類(或歸類),因?yàn)樵?0世紀(jì)90年代前,很多期刊的文章都沒有關(guān)鍵詞,更不用說摘要了。
當(dāng)前的數(shù)據(jù)質(zhì)量主要反映在數(shù)字化程度的比例。就是從編輯部那兒得到多少篇純電子版文章,而不是利用紙版進(jìn)行掃描。因?yàn)橹挥杏眉冸娮影妫庞锌赡芴峁┱嬲娜臋z索,如果不能對(duì)正文字段進(jìn)行檢索,那檢索只能稱之為假全文檢索,因?yàn)闆]有比正文字段更能反映文章內(nèi)容的了。如果沒有電子版的數(shù)據(jù),增值服務(wù)也就無(wú)從談起。
這些增值服務(wù)除了提供更好的檢索服務(wù)外(如中英文摘要語(yǔ)料對(duì)齊后的雙語(yǔ)檢索),還包括(但不僅限于)以下的應(yīng)用:
提供文獻(xiàn)計(jì)量自動(dòng)分析的查詢,如清華同方已推出的“中國(guó)學(xué)術(shù)期刊文獻(xiàn)評(píng)價(jià)統(tǒng)計(jì)分析系統(tǒng)”。
提供學(xué)術(shù)調(diào)研報(bào)告的自動(dòng)生成,在文獻(xiàn)計(jì)量自動(dòng)分析的基礎(chǔ)上,對(duì)國(guó)內(nèi)外某領(lǐng)域進(jìn)展情況進(jìn)行評(píng)述。學(xué)術(shù)調(diào)研評(píng)價(jià)可以指導(dǎo)論文的選題和前期調(diào)研,特別有利于論文選題、項(xiàng)目評(píng)審等工作。
可以從句子級(jí)提供文獻(xiàn)自動(dòng)審稿輔助功能以及參考文獻(xiàn)自動(dòng)標(biāo)注功能。
提供更小粒度的檢索,支持句子檢索、真正的圖片檢索(首先是流程圖、系統(tǒng)結(jié)構(gòu)圖、數(shù)據(jù)表等的檢索,以后會(huì)支持圖像檢索,從顏色、紋理、形狀等各個(gè)要素進(jìn)行分析),大量使用信息抽取技術(shù),提供列表式搜索。
支持學(xué)術(shù)問答,支持觀點(diǎn)型搜索、流派型搜索,能夠提供學(xué)者譜系圖,利用學(xué)位論文的致謝提供導(dǎo)師自動(dòng)評(píng)價(jià)系統(tǒng)。
提供知識(shí)點(diǎn)與知識(shí)點(diǎn)之間的鏈接,實(shí)現(xiàn)真正的知識(shí)服務(wù)。正如由過去買本整刊進(jìn)行閱讀到現(xiàn)在的只看某篇文章,將來(lái)可能實(shí)現(xiàn)只看某篇文章的某一部分。
5、增值服務(wù)是核心競(jìng)爭(zhēng)力的核心
文獻(xiàn)計(jì)量自動(dòng)分析系統(tǒng),可以統(tǒng)計(jì)分析任意一個(gè)學(xué)科、專業(yè)或方向的核心作者,主要研究機(jī)構(gòu),地域分布,關(guān)鍵詞、標(biāo)題、文摘及分類號(hào)的關(guān)系,提供研究熱點(diǎn)及趨勢(shì)等統(tǒng)計(jì)分析,以TopN、統(tǒng)計(jì)圖表等形式提供給用戶,并用文獻(xiàn)計(jì)量的定律來(lái)進(jìn)行驗(yàn)證。而現(xiàn)在的計(jì)量分析方面文章大都是由人來(lái)寫的,而且主要分布在圖書情報(bào)領(lǐng)域。其實(shí)自然科學(xué)領(lǐng)域也非常需要他們本學(xué)科的文獻(xiàn)計(jì)量統(tǒng)計(jì)分析,如果能有這樣的一個(gè)自動(dòng)統(tǒng)計(jì)分析系統(tǒng),會(huì)為科研人員節(jié)省很多時(shí)間和精力,為研究工作提供很大方便(關(guān)于計(jì)量分析的技術(shù)實(shí)現(xiàn)請(qǐng)參閱文獻(xiàn)[5―6])。
當(dāng)前,信息爆炸與信息泛濫的問題日益突出,解決的根本方法是使大量創(chuàng)新性很低的文章沒有發(fā)表的可能。為此,編輯部會(huì)使用“學(xué)術(shù)抄襲與科學(xué)引用自動(dòng)判定系統(tǒng)”輔助審稿,從而在源頭上利用技術(shù)手段解決學(xué)術(shù)抄襲的腐敗問題,而這種系統(tǒng)可以由全文數(shù)據(jù)庫(kù)商聯(lián)合提供。這類句子級(jí)分析匹配系統(tǒng)既可以對(duì)學(xué)術(shù)抄襲與科學(xué)引用進(jìn)行自動(dòng)判定,同時(shí)也可以幫助作者進(jìn)行參考文獻(xiàn)的自動(dòng)標(biāo)注。句子匹配分析系統(tǒng)的難點(diǎn)主要表現(xiàn)在:異構(gòu)數(shù)據(jù)的獲。粴v史數(shù)據(jù)的回溯建庫(kù);跨語(yǔ)言之間的判定。
現(xiàn)在的數(shù)據(jù)庫(kù)商以篇為單位提供數(shù)據(jù),未來(lái)的數(shù)據(jù)庫(kù)商不僅能提供句子級(jí)的搜索與分析,還能提供以知識(shí)點(diǎn)為單位的搜索與分析。將來(lái)的系統(tǒng)還將會(huì)提供學(xué)習(xí)型搜索和觀點(diǎn)型搜索:①學(xué)習(xí)型搜索相當(dāng)于文獻(xiàn)自動(dòng)綜述,對(duì)于現(xiàn)在的檢索而言,如果用戶不打開檢索結(jié)果進(jìn)行全文閱讀就很難判斷哪些文章是需要的,哪些文章是不需要的,而看過的文章又有許多重復(fù)的內(nèi)容。如果能夠讓計(jì)算機(jī)進(jìn)行濾重與知識(shí)重組來(lái)完成這一工作,那將是一件非常有意義的事情。未來(lái)的搜索將可以實(shí)現(xiàn)知識(shí)的重組,把上千篇文獻(xiàn)組織成一篇,相當(dāng)于以百科全書的形式進(jìn)行組織,用戶只需要看“書”中感興趣的部分就可以了。②觀點(diǎn)型搜索是指根據(jù)某觀點(diǎn)進(jìn)行搜索,以自然語(yǔ)言形式輸入查詢,搜索含有某個(gè)觀點(diǎn)的文章,或者關(guān)于某個(gè)知識(shí)點(diǎn)的所有觀點(diǎn)。未來(lái)的檢索結(jié)果將不再是一篇一篇的文章,而是一個(gè)列表。列表列出每種觀點(diǎn)以及每一種觀點(diǎn)的支持人數(shù)。當(dāng)我們想詳細(xì)了解某一種觀點(diǎn)時(shí),就點(diǎn)擊相應(yīng)記錄,系統(tǒng)會(huì)顯示關(guān)于這種觀點(diǎn)有哪些論述方式,是如何來(lái)論述的,也就是真正的知識(shí)鏈。這是解決信息泛濫與知識(shí)貧乏的關(guān)鍵途徑。
6、結(jié)論
清華同方率先實(shí)現(xiàn)了真正的全文搜索,并推出了參考文獻(xiàn)與引用文獻(xiàn)相關(guān)的文獻(xiàn)鏈接,今年又推出了一系列的學(xué)術(shù)服務(wù),這也是CNKI的價(jià)格較高同時(shí)市場(chǎng)占有率也很高的原因之一。因此,數(shù)字化程度與數(shù)據(jù)深加工程度將是數(shù)據(jù)商的核心競(jìng)爭(zhēng)力的反映。同行數(shù)據(jù)庫(kù)商之間的競(jìng)爭(zhēng)除數(shù)據(jù)質(zhì)量外還有:在范圍上體現(xiàn)為對(duì)歷史數(shù)據(jù)的回溯程度――對(duì)歷史數(shù)據(jù)回溯得越多,數(shù)據(jù)就越有競(jìng)爭(zhēng)力;在深度上將反映在對(duì)數(shù)據(jù)的深加工程度上,對(duì)數(shù)據(jù)加工的越深越細(xì),將會(huì)越有競(jìng)爭(zhēng)力。
未來(lái)針對(duì)全文數(shù)據(jù)庫(kù)的應(yīng)用系統(tǒng)可能會(huì)很多,新功能的名字也可能有很多不同,但整體上會(huì)朝著以下幾個(gè)方向發(fā)展:分析粒度越來(lái)越小(句子分析是重點(diǎn)和核心),分析數(shù)量越來(lái)越大(大規(guī)模異構(gòu)數(shù)據(jù)綜合分析),分析范圍越來(lái)越廣(正文內(nèi)容分析成為重點(diǎn)),分析程度越來(lái)越深(不再以詞為重點(diǎn),會(huì)支持結(jié)構(gòu)檢索、語(yǔ)用檢索等)。
自動(dòng)問答、信息抽取、列表式搜索、觀點(diǎn)型搜索等都是一些新的趨勢(shì),但是搜索技術(shù)要取得突破性進(jìn)展,知識(shí)獲取無(wú)疑是關(guān)鍵。三大全文數(shù)據(jù)庫(kù)商擁有如此豐富而權(quán)威的資源,在這些文獻(xiàn)中蘊(yùn)含著大量的專家知識(shí),如果能把這些知識(shí)都抽取出來(lái),就可以進(jìn)行學(xué)術(shù)的自動(dòng)問答了。未來(lái)的IT用戶所強(qiáng)調(diào)的不是擁有技術(shù),而是擁有可以用的知識(shí)。發(fā)揮計(jì)算機(jī)的速度優(yōu)勢(shì)主要依靠算法,發(fā)揮計(jì)算機(jī)的存儲(chǔ)優(yōu)勢(shì)主要依靠知識(shí)庫(kù)。建好人用知識(shí)庫(kù)可以解決很多問題,如果這樣的知識(shí)庫(kù)(如CYC)同時(shí)還能為計(jì)算機(jī)所用,那么許多問題便會(huì)迎刃而解。擁有這樣的知識(shí)庫(kù)必將引領(lǐng)未來(lái)的IT,必將印證“得資源者得天下”的道理。
參考文獻(xiàn):
[1]李保利,陳玉忠,俞士汶.信息抽取研究綜述.計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5,66.
[2]李芳,盛煥燁,姚天?.信息檢索與信息抽取技術(shù)的研究.計(jì)算機(jī)應(yīng)用研究,2002,22(2):16-18.
[3]賀勝.信息抽取技術(shù)內(nèi)涵及應(yīng)用.南京師范大學(xué)文學(xué)院學(xué)報(bào),2004(2):184-188.
[4]Baeza-Yates R, Ribeiro-Neto B.現(xiàn)代信息檢索(英文版).北京:機(jī)械工業(yè)出版社,2006:24-34.
[5]李珍,田學(xué)東.PDF文件信息的抽取與分析.計(jì)算機(jī)應(yīng)用,2003,23(12):145-147.
[6]宋艷娟,張文德.基于XML的PDF文檔信息抽取系統(tǒng)的研究.現(xiàn)代圖書情報(bào)技術(shù),2005(9):10-13.
[7]崔繼馨,張鵬,楊文柱.基于DOM的Web信息抽取.河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2005,28(3):90-93.
[8]孫斌.信息提取技術(shù)概述(上).術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2002(3):28-32.
[9]Leonid peshkin and avi pfeffer bayesian information extraction network.[2007-05-27]. http://dli.iiit.ac.in/ijcai/IJCAI-2003/PDF/063.pdf.
[10]袁毓林.用動(dòng)詞的論元結(jié)構(gòu)跟事件模板相匹配――一種由動(dòng)詞驅(qū)動(dòng)的信息抽取方法.中文信息學(xué)報(bào),2005,19(5):37-43.
[11]袁毓林.用邏輯和篇章知識(shí)來(lái)約束模板匹配――邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)知識(shí)在信息抽取中的運(yùn)用.中文信息學(xué)報(bào),2005,19(4):39-45.
[12]孟憲福,狄惠.基于Agent和XML的web頁(yè)面信息抽取研究與設(shè)計(jì).計(jì)算機(jī)工程與設(shè)計(jì),2004,25(8):1411-1414.
[13]王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取.計(jì)算機(jī)工程與應(yīng)用,2005,41(21):192-194.
[14]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取.系統(tǒng)仿真學(xué)報(bào),2004,16(3):507-510.
[15]張樹瑜,朱仲英.基于MT決策樹的Web信息抽取研究.計(jì)算機(jī) 工程與應(yīng)用,2004,40(13):69-71.
[16]陸科進(jìn),李新穎.基于Ontology 的文本信息抽取.計(jì)算機(jī)應(yīng)用研究,2003(7):46-48.
[17]張成洪,王向安,古曉洪.利用Ontology和規(guī)則表達(dá)式的Web信息抽取.計(jì)算機(jī)工程,2004,30(5):58-60.
相關(guān)熱詞搜索:三大 檢索 方式 從檢索技術(shù)的實(shí)現(xiàn)方式看三大全文數(shù)據(jù)庫(kù)的發(fā)展 數(shù)據(jù)庫(kù)高級(jí)檢索技術(shù) 中文網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的檢索
熱點(diǎn)文章閱讀