[用于引書識(shí)別的引書引用模式研究] 用于行文中直接引用的部分
發(fā)布時(shí)間:2020-03-07 來(lái)源: 日記大全 點(diǎn)擊:
[摘要]現(xiàn)代信息技術(shù)飛速發(fā)展,為古籍引書計(jì)算機(jī)識(shí)別提供了可能性。本研究的目的是研究古籍引書的引用模式,進(jìn)而探討模式識(shí)別方法在引書識(shí)別中的應(yīng)用。具體方法是以明、清及民國(guó)時(shí)期廣東地方志中有關(guān)物產(chǎn)門目資料(《廣東方志物產(chǎn)》)為語(yǔ)料,抽取所有引書的引用模式(引書名稱及其表達(dá)方式),分別對(duì)引書名稱模式和引用表達(dá)方式進(jìn)行研究。
[關(guān)鍵詞]引書模式 引書識(shí)別 引用表達(dá)模式 模式識(shí)別
[分類號(hào)]G254.361 H08
1 古籍引書研究概況
引書的形成,經(jīng)歷了一個(gè)從修辭手法到著述體例,再到文獻(xiàn)體式(著述體例形式,如著述、編述、鈔纂)的過(guò)程。先秦儒家以“五經(jīng)”為代表的典籍引用了大量的民間諺謠、流行俗語(yǔ)、先賢言論、前代典故,作為修辭手法;漢代,為給儒家經(jīng)典作箋注,需要引經(jīng)據(jù)典、廣征博引,在箋注的過(guò)程中,引書逐漸形成為一種重要的著述體例;曹魏時(shí)以分類撰抄為特色的類書《皇覽》把引書發(fā)展成中國(guó)古代典籍的一種獨(dú)特的文獻(xiàn)體式。
有關(guān)古籍中引書的挖掘整理研究,當(dāng)始于漢代劉向的《戰(zhàn)國(guó)策書錄》、《管子書錄》等考訂戰(zhàn)國(guó)典籍引書的文獻(xiàn)。此后歷代繼有研究,至清為盛。但這些有關(guān)引書的研究,主要集中于某一典籍引書的考訂,甚少有引書識(shí)別方法研究,這種引書研究的學(xué)術(shù)傾向一直延續(xù)至今。而其間也偶有引用方法研究,如明末清初顧炎武的《論引書》一文,曾談及引用方法和引用規(guī)范問(wèn)題;清朝后期的陳澧撰《引書法示端溪書院諸生》,以專文形式論述引用方法和規(guī)范。
近年出版的引書研究的學(xué)術(shù)論著主要分考訂引書、從引書角度研究典籍或引書的學(xué)術(shù)價(jià)值、引書索引的編制三種類型。①考訂引書,又如伍野春在《裴松之引書辨析》一文中,提出了裴注三國(guó)志引書識(shí)別的標(biāo)準(zhǔn),并以此標(biāo)準(zhǔn)來(lái)識(shí)別、類分其中的引書,如程金造在《史記索隱引書考實(shí)》一書中,列出了《史記索隱》中的引書,并為之撰作提要。②從引書的角度研究典籍或引書的學(xué)術(shù)價(jià)值,如熊桂芬在《從引書看的文獻(xiàn)學(xué)價(jià)值》一文中,從引書的角度探討了典籍《廣韻》的文獻(xiàn)學(xué)價(jià)值,又如李伯勛。在《裴注所引書的史傳文學(xué)價(jià)值》一文中,探討了引書的史傳文學(xué)價(jià)值。③引書索引的編制,是從目錄學(xué)角度研究引書,貢獻(xiàn)最大的當(dāng)數(shù)1930年成立于北京的哈佛燕京學(xué)社引得編纂處編制64種引得中有14種涉及中國(guó)典籍的引書引得成果。
20世紀(jì)80年代以來(lái),計(jì)算機(jī)迅速普及,使得現(xiàn)代信息技術(shù)環(huán)境下利用計(jì)算機(jī)識(shí)別、挖掘古籍中的引書成為可能。通過(guò)計(jì)算機(jī)挖掘引書,可以為引書識(shí)別提供一種新技術(shù)、新方法和新思路,并可以快速、齊全、準(zhǔn)確地識(shí)別引書,從而提高引書索引的編制速度。但是如何把計(jì)算機(jī)技術(shù)和古籍整理知識(shí)結(jié)合起來(lái),多、快、準(zhǔn)地挖掘引書,成為十分重要的難題。筆者試圖以古籍整理為研究對(duì)象,從語(yǔ)言學(xué)角度出發(fā),研究古籍引書的引用模式(引書名稱及其表達(dá)方式),為計(jì)算機(jī)挖掘引書拓展思路和方法。本文將以《廣東方志物產(chǎn)》中的引書為對(duì)象,探討引書的引用模式。
2 引書名稱引用模式
在古籍中,不同作者引用文獻(xiàn)時(shí),往往依據(jù)行文、個(gè)人學(xué)養(yǎng)和習(xí)慣,采用不同的引書名稱,有的用書名全稱,有的用簡(jiǎn)稱和異稱,有的只用作者姓名,還有的則是作者姓名和書名全部引用。在《廣東方志物產(chǎn)》(1949年以前的379部廣東地方志有關(guān)物產(chǎn)門目資料)中,引書名稱的引用大致分為三種情況:文獻(xiàn)名稱、作者名稱、作者名稱+文獻(xiàn)名稱。
2.1引用文獻(xiàn)名稱
文獻(xiàn)名稱有全稱、簡(jiǎn)稱和異名三種情況。全稱也nU全名,是文獻(xiàn)的正式名稱;異名是不同于全稱的另外名稱;簡(jiǎn)稱是對(duì)正式名稱的縮簡(jiǎn)稱呼,從字面上看也不同于正式名稱,實(shí)際上是異稱的一種,因此,筆者把異名和簡(jiǎn)稱統(tǒng)稱為異稱。①引用全稱,這種現(xiàn)象在《廣東方志物產(chǎn)》中十分普遍,如《清?乾隆27年潮州府志》之“綽菜”條:“綽菜/南方草木狀綽菜夏生于池沼問(wèn)葉類茨菰根如藕條食之令人思睡故又呼瞑菜”,引用的就是全稱。在整個(gè)《廣東方志物產(chǎn)》中,引用“南方草木狀”全稱的就有533次,其他引書引用全稱亦為通行。②引用異稱,這種情況亦如全稱一樣普遍,如《民國(guó)13年陽(yáng)江縣志》之“戴勝”條:“戴勝/色灰綠大如脊鴿顱有髻高六七分南海謂其雄者丁髻郎雌者丁髻娘陽(yáng)江謂之丁髻顱或謂之冠髻南越筆記”,這里的《南越筆記》是《粵東筆記》的異名;再如《清?光緒16年高州府志》之“淖樹(shù)”條:“淖樹(shù)/干葉俱似椿其葉煮汁漬果呼淖汁出高涼郡詳草木狀未知今何樹(shù)”,引用的就是《南方草木狀》的簡(jiǎn)稱――《草木狀》。不同的志書,有的引用正式名稱,有的引用異名,但在同一部志書中不會(huì)出現(xiàn)既引用正式名稱又引用異名的現(xiàn)象,而既引用全稱又引用簡(jiǎn)稱則很普遍。
2.2引用作者名稱
引用作者名稱也很普遍,如《清?光緒18年吳川縣志》之“赤小豆”條:“赤小豆/此豆以緊小而赤黯色人藥稍大而鮮紅淡紅者并不治病李時(shí)珍日小而色赤心之谷也其性下行通小腸入陰分治有形之病參群芳譜采訪冊(cè)”,這里引用的“李時(shí)珍”實(shí)際上指的是《本草綱目》。只是引用作者姓名的,多為名人名篇,使人一看作者姓名就知道引用的是哪篇文獻(xiàn)或哪部典籍。若一個(gè)名人只有一種名著的,判別起來(lái)不困難,但是多數(shù)名人不止一種名著,這種情況的識(shí)別則是十分不易,除需要深厚、淵博的學(xué)識(shí)外,常常還需把引用的內(nèi)容與該作者的著作一一核對(duì),才能確定引自哪篇文獻(xiàn)!稄V東方志物產(chǎn)》中引用的“蘇東坡”、“郭璞”作者姓名,識(shí)別起來(lái)非得逐一核對(duì)原典不可,因?yàn)樗麄兊拿渑c引用次數(shù)也多。當(dāng)然,也有引用作者別名和字號(hào)的情況,如蘇東坡的全部名稱為:姓蘇,名軾,字子瞻,又字和仲,號(hào)東坡先生,還有稱蘇公、坡公的情況,蘇東坡只是其號(hào)。象蘇東坡這種名號(hào)齊全的作者,筆者必須清楚其全部名稱,才能準(zhǔn)確、全面地識(shí)別其引用情況。
2.3引用作者姓名+文獻(xiàn)名稱
這種情況不是十分普遍,有兩種情況:①作者姓名+文獻(xiàn)正式名稱,如《清?道光2年廣東通志》之“吉利草”引用的是《嵇含南方草木狀》,是書名全稱;②作者姓名+文獻(xiàn)異稱,如《民國(guó)19年龍山鄉(xiāng)志》之“茉莉花”條引用的是《嵇含草木狀》,是書名簡(jiǎn)稱。
以上三種引書名稱引用模式,是《廣東方志物產(chǎn)》中普遍存在的現(xiàn)象。利用計(jì)算機(jī)識(shí)別時(shí),須建立三種對(duì)應(yīng)的引書名稱數(shù)據(jù)庫(kù),設(shè)計(jì)合理的算法,逐一匹配文獻(xiàn),方能較準(zhǔn)確全面地識(shí)別出引書,否則會(huì)出現(xiàn)重復(fù)識(shí)別或遺漏的窘?jīng)r。
計(jì)算機(jī)不是萬(wàn)能的,在目前技術(shù)條件下,必須與人的專業(yè)知識(shí)結(jié)合起來(lái),才能挖掘古籍中的引書。
3 引用的表達(dá)方式
3.1概況
筆者在整理《廣東方志物產(chǎn)》資料時(shí),發(fā)現(xiàn)這樣一個(gè)的語(yǔ)言學(xué)現(xiàn)象:古人在引用文獻(xiàn)時(shí),為使句子語(yǔ)法完整、語(yǔ)義協(xié)調(diào),通常在所引用的文獻(xiàn)后面加上“云”、“日”等言說(shuō)謂語(yǔ)動(dòng)詞,如“本草綱目云”、“五山志林 日”,等等,稱之為引用表達(dá)模式詞,或引用方式規(guī)則。此類謂語(yǔ)動(dòng)詞之前、后或中間,就是引書名稱(文獻(xiàn)名稱、作者名稱、文獻(xiàn)名稱+作者名稱之一)。
《廣東方志物產(chǎn)》共有31670次引用,筆者從此龐大的數(shù)據(jù)中,逐一剔除引書名稱和作者名稱,最終獲得60種引書表達(dá)模式,為計(jì)算機(jī)處理需要,依模式詞(規(guī)則)位置分為前標(biāo)志型、后標(biāo)志型和封閉型三種,如表1所示:
表1是從《廣東方志物產(chǎn)》中提煉出來(lái)的所有引書表達(dá)模式,封閉型模式類型最多,前標(biāo)型最少。但是使用次數(shù)最多的是后標(biāo)型,遠(yuǎn)遠(yuǎn)高于其他兩個(gè)類型。這說(shuō)明《廣東方志物產(chǎn)》的引書多使用封閉型引書表達(dá)模式,可能是中國(guó)古代漢語(yǔ)的本身特點(diǎn)要求所致。
3.2舉例分析
3.2.1前標(biāo)志型
前標(biāo)志型的模式詞置于引書之前。①“按……”、“案……”意義相同,都是“案語(yǔ)”之義,是編輯、注釋或引用原文的人所附加的對(duì)原文有所評(píng)論、說(shuō)明或考證的話。如《民國(guó)9年赤溪縣志》之“菠棱”條:菠棱/按劉禹錫嘉話出西域頗棱國(guó)訛為菠棱云俗呼波菜;再如《民國(guó)32年豐順縣志》之“海棠”條:海棠……案李德;居浄不久U呓詮暮M鈦(lái)如海棠之類是也……。這是從不同的引書中考證物產(chǎn)。②“本…”、“出…”、“據(jù)…”、“根據(jù)…”、“載…”,是依據(jù)、出處、來(lái)源的意思!氨尽笔恰霸闯觥敝x,“據(jù)…”是“根據(jù)…”的縮寫,“載…”的意義是“該段引文記載在某某引書”,其實(shí)質(zhì)也是指明出處。如《清?咸豐7年瓊山縣志》之“刀魚”條:刀魚/爾雅謂之觸刀郭注云今之觜魚也狀如長(zhǎng)薄尖刀故名刀俗改作紉非本正字通;《清?道光23年英德縣志》之“胡蔓草”條:胡蔓草/即斷腸草一名大茶葉所在皆有俗與人哄及私怨輒茹此草希圖誣以人命詐取財(cái)物死而不悔救法急取卵中未生雞兒細(xì)研和以清油灌之即蘇出嶺南衛(wèi)生方;《民國(guó)21年開(kāi)平縣志》之“金瓜”條:金瓜/據(jù)香山志金瓜圓其長(zhǎng)者名香瓜又名枕頭瓜;《清?康熙55年羅浮山志會(huì)編》之“菖蒲”條,注明的是“載藝文志”。這些都是說(shuō)明該段引文的來(lái)源引書。③“參…”、“見(jiàn)…”、“詳…”,都是“參見(jiàn)”、“參考”之義,是參合他書擬就,其意是:欲知詳情,請(qǐng)參考某某引書。如《民國(guó)13年陽(yáng)江縣志》之“菘”條:菘/俗呼白菜另一種日黃芽白本北地產(chǎn)始種于肇慶今各處俱有之然亦不及北方之甜美參阮通志采訪冊(cè)。余不舉例。但有一點(diǎn)須辨明:這里的“參見(jiàn)”意義與索引學(xué)不同,索引學(xué)是指引讀者從一個(gè)標(biāo)目指向另一個(gè)標(biāo)目,標(biāo)目之間是平行關(guān)系,而這里的來(lái)源文獻(xiàn)與引書則有屬種關(guān)系。
3.2.2后標(biāo)志型后標(biāo)志型的模式詞置于引書之后,分兩種情況:①言說(shuō)動(dòng)詞式,如…稱、…稱為、…稱之為、…為、…謂、…言、…以為、…曰、…云、…載、…有云、…作、…名、…名日、…命曰,這種形式可直接看作“某某引書說(shuō)”。其中的“…云”、“…曰”數(shù)量較多,是古人的行文和語(yǔ)言習(xí)慣所致,就如同我們今天多用“說(shuō)”而少用“道”一樣。這種言說(shuō)動(dòng)詞模式數(shù)量較多,以下略舉二例說(shuō)明,《清?雍正9年廣東通志》之“蟹”條:蟹/一名蟾廣雅云雄日娘蟻雌日博帶抱樸子稱無(wú)腸公子廣志云鋪小蟹大如貨錢又蟹奴如榆莢在璨吉腹中生死不相離山海經(jīng)載千里蟹洞冥記有云貢百足蟹長(zhǎng)九尺四螯者今恩州又出石蟹北戶錄,這段文字使用了“…云”、“…稱”、“…載”、“…有云”四種模式;再如該志書的“石相思子”條:石相思子/……按一名長(zhǎng)生螺周密謂置之醋中則活即此,使用了“…謂”模式。②所+言說(shuō)動(dòng)詞式,這里的“所”是語(yǔ)氣助詞,無(wú)義,只有與言說(shuō)動(dòng)詞連用才能表達(dá)具體意思。如《清?雍正9年揭陽(yáng)縣志》之“蜀葵”條:蜀葵/郭璞日蜀葵花似木槿爾雅所謂蔭戎葵也花可食。
后標(biāo)志型實(shí)質(zhì)上是語(yǔ)助詞(如“所”)與不同的言說(shuō)動(dòng)詞組合而成。如果去掉語(yǔ)助詞,也能表達(dá)原意,但意義不完整,也不符合原有語(yǔ)境,況且這“所”字結(jié)構(gòu)本來(lái)有就有其本身的意義,是固定的表達(dá)結(jié)構(gòu),不能分離。筆者原樣輯錄,不加省略的原因是保持原貌,探索引書表達(dá)模式的語(yǔ)法和構(gòu)詞結(jié)構(gòu);同時(shí),用于計(jì)算機(jī)識(shí)別引書,會(huì)減少噪音。
3.2.3封閉型
封閉型基本是由“按(案)”、“即”、“據(jù)”、“如”、“依”加后標(biāo)志型模式組合而成,雖可由后標(biāo)志型替換,但表達(dá)意義、語(yǔ)氣不完整,在具體的語(yǔ)言環(huán)境中所表達(dá)的意義與后標(biāo)志型也有區(qū)別。也如《清?雍正9年揭陽(yáng)縣志》,其“車前草”條:車前草/即詩(shī)所謂苤莒爾雅日苤苜馬舄馬舄車前也其性利水。這里的“即…所謂”表達(dá)的是承前語(yǔ)氣,若去掉“即”字,雖能表達(dá)原意,但不能表達(dá)原來(lái)的語(yǔ)氣,行文有點(diǎn)別扭,失掉了原有撰述風(fēng)格。
前標(biāo)志型、后標(biāo)型和封閉型,是《廣東方志物產(chǎn)》中能夠輯錄的模式,總共才使用7604次,比起引用總次數(shù)31670來(lái),差之甚遠(yuǎn),而更多的引書是沒(méi)有任何引用模式的。所以,更多的引書識(shí)別則需要深厚的歷史文獻(xiàn)學(xué)知識(shí)和學(xué)術(shù)涵養(yǎng)。當(dāng)然,那些沒(méi)有表達(dá)模式的引書,還可通過(guò)引書的名稱特征提取引書名稱模式。
總之,通過(guò)表達(dá)模式就能夠識(shí)別引書,前標(biāo)志型引書的識(shí)別是輯錄出模式詞前的不同數(shù)量的文字,后標(biāo)志型是輯錄出模式詞后的數(shù)量不等的文字,再加以人工判別即可。至于封閉型,模式詞之間的文字就是引書,幾乎無(wú)需人工判別。
僅靠模式識(shí)別方法并不能識(shí)別出《廣東方志物產(chǎn)》中的全部引書,但如果把引用模式與前文條析出的引書名稱相結(jié)合,建立書名庫(kù)和模式庫(kù),無(wú)論識(shí)全率或識(shí)準(zhǔn)率,都會(huì)大大提高,具體的作法是:①用書名匹配文本;②用模式匹配文本;③用書名+模式匹配文本。若計(jì)算機(jī)采用這種方法,引書殆盡矣。
古籍中的計(jì)算機(jī)引書識(shí)別是個(gè)復(fù)雜的問(wèn)題,目前國(guó)內(nèi)外的研究甚少,本項(xiàng)研究只是嘗試和探索,本章總結(jié)出的引書名稱特征和引用特征,只來(lái)源于《廣東方志物產(chǎn)》,對(duì)于更為復(fù)雜的整個(gè)《方志物產(chǎn)》來(lái)說(shuō),是個(gè)特例,而對(duì)于整個(gè)古籍更是滄海一粟。但是,本文探索出的書名庫(kù)和引用模式,可以應(yīng)用于整個(gè)《方志物產(chǎn)》,甚至在整個(gè)古籍上嘗試。本項(xiàng)研究的目的就是以《廣東方志物產(chǎn)》為實(shí)例,探索浩繁的《方志物產(chǎn)》引書識(shí)別方法,進(jìn)而推廣到整個(gè)古籍的引書識(shí)別。
4 試驗(yàn)設(shè)計(jì)與測(cè)試結(jié)果
4.1試驗(yàn)設(shè)計(jì)
為了測(cè)試模式識(shí)別引書的效果,筆者構(gòu)建了引書挖掘系統(tǒng)(另文發(fā)表于《圖書館雜志》2008年第8期),步驟如下:①建立方志全文本數(shù)據(jù)庫(kù);②建立引書模式庫(kù),模式來(lái)源于方志及其他古籍;③模式匹配,運(yùn)用模式在全文數(shù)據(jù)庫(kù)中進(jìn)行匹配,抽取候選引書詞串;④對(duì)抽取結(jié)果進(jìn)行過(guò)濾處理以及運(yùn)用N-gram進(jìn)行分詞和詞頻統(tǒng)計(jì),適當(dāng)去除低分詞,并合處理結(jié)果,最終得出引書集;⑤為防止遺漏,再運(yùn)用這個(gè)引書集對(duì)全文庫(kù)進(jìn)行掃描,最后得出全部引書。
系統(tǒng)環(huán)境是windows 2000操作系統(tǒng),開(kāi)發(fā)工具選用Borland Developer Studio 2006,具體采用其Delphi for the Microsoft,NET Framework模塊作為開(kāi)發(fā)環(huán)境,數(shù)據(jù)庫(kù)選用的是SQL Server。
4.2測(cè)試結(jié)果
經(jīng)過(guò)以上處理,系統(tǒng)識(shí)別出引書1081條(不含重復(fù))。測(cè)試時(shí),借鑒信息檢索中的測(cè)試標(biāo)準(zhǔn),采用對(duì)應(yīng)的識(shí)準(zhǔn)率、識(shí)全率等指標(biāo)來(lái)進(jìn)行測(cè)評(píng)。具體公式如下:
識(shí)準(zhǔn)率=(計(jì)算機(jī)識(shí)別出的真引書總數(shù)/計(jì)算機(jī)識(shí)別出的引書總數(shù))*100% (1)
識(shí)全率=(計(jì)算機(jī)識(shí)別出的真引書總數(shù)/人工真引書總數(shù))*100% (2)
筆者隨機(jī)抽取了12篇方志物產(chǎn)文檔,請(qǐng)專家審讀,通過(guò)人工識(shí)別,得到引書。同時(shí)應(yīng)用本系統(tǒng)設(shè)計(jì)的方法在全部文檔中進(jìn)行引書識(shí)別,并將自動(dòng)識(shí)別出的引書復(fù)原至上述抽取的12篇文檔,得到該12篇測(cè)試文檔的自動(dòng)引書識(shí)別結(jié)果。將兩者進(jìn)行比對(duì),根據(jù)上述指標(biāo)統(tǒng)計(jì)出的測(cè)試結(jié)果如表2所示:
根據(jù)表2的數(shù)據(jù)計(jì)算出識(shí)全率為84.95%,識(shí)準(zhǔn)率為72.88%。經(jīng)過(guò)對(duì)引書識(shí)別結(jié)果的分析,影響識(shí)別效果的因素主要有:①原始文獻(xiàn)在數(shù)字化過(guò)程中人為的錯(cuò)誤,包括生僻字、特殊符號(hào)、空格等,導(dǎo)致誤識(shí)并影響正常的引書頻次;②模式本身并未涵蓋所有可能的引書,導(dǎo)致漏識(shí);③n-gram本身的誤差。雖然識(shí)準(zhǔn)率并不是十分理想,但識(shí)全率較高。作為一個(gè)輔助系統(tǒng),已經(jīng)可以基本滿足半自動(dòng)化引書處理的要求。
5 結(jié)語(yǔ)
古籍中的引書識(shí)別,自計(jì)算機(jī)應(yīng)用以來(lái)是人工識(shí)別,以學(xué)人的淵博的知識(shí)為基礎(chǔ),通過(guò)人工閱讀文獻(xiàn)識(shí)別出引書。即使如計(jì)算機(jī)普及的今天,應(yīng)用計(jì)算機(jī)識(shí)別引書的研究也是寥寥。本文以《廣東方志物產(chǎn)》為語(yǔ)料,輯錄并詳細(xì)研究其引書的引用模式,作為采用模式識(shí)別方法識(shí)別引書的依據(jù)。文章最后建立一個(gè)實(shí)驗(yàn)系統(tǒng)對(duì)模式識(shí)別效果進(jìn)行測(cè)試,達(dá)到了預(yù)期效果。這說(shuō)明這種方法是可行的,是引書識(shí)別的一條捷徑。下一步工作是提高識(shí)全率和識(shí)準(zhǔn)率,并推廣到其他古籍文獻(xiàn)。
相關(guān)熱詞搜索:識(shí)別 引用 用于 用于引書識(shí)別的引書引用模式研究 模式識(shí)別+書免費(fèi)下載 免費(fèi)書軟件下載
熱點(diǎn)文章閱讀