www.日本精品,久久中文视频,中文字幕第一页在线播放,香蕉视频免费网站,老湿机一区午夜精品免费福利,91久久综合精品国产丝袜长腿,欧美日韩视频精品一区二区

職業(yè)規(guī)劃范文500字 [句子情感分析及其關(guān)鍵問題]

發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:

  [摘要]情感分析關(guān)注具有情感傾向的評價性信息,具有廣泛的應(yīng)用。情感分析按照粒度的不同分為三種:詞匯情感分析、句子情感分析和文檔情感分析。文中對句子情感分析及其關(guān)鍵問題進行介紹,首先簡要描述句子情感分析的任務(wù),然后介紹句子情感分析中主客觀句分類方法及兩種主觀句情感分類方法――基于情感詞的方法和機器學習方法,最后對情感分析中的三個關(guān)鍵問題――詞匯上下文極性判定、評價主題識別、意見持有者識別進行總結(jié)。
  [關(guān)鍵詞]句子情感分析 詞匯上下文極性 評價主題 意見持有者
  [分類號]TP391
  
  1、引 言
  
  隨著網(wǎng)絡(luò)的發(fā)展與普及,由普通用戶發(fā)表的包含個人情感傾向的評價性信息越來越多。評價性信息包含四個部分:評價主題、意見持有者、評價和情感傾向,情感分析通過分析和挖掘評價性信息,識別其情感傾向。情感分析根據(jù)粒度的不同分為三種:詞匯情感分析、句子情感分析和文檔情感分析,三者相比較,句子情感分析能夠得到評價主題及各個方面特征的情感關(guān)系,具有更廣泛的應(yīng)用范圍。
  本文將句子情感分析作為研究重點,首先簡要描述句子情感分析的主要任務(wù),然后介紹了主客觀句分類方法以及兩種主觀句情感分類方法――基于情感詞的方法和機器學習方法,最后對句子情感分析中的關(guān)鍵問題進行總結(jié)。
  
  2、句子情感分析的任務(wù)
  
  句子情感分析的任務(wù)是按照句子所表達的情感傾向?qū)ζ溥M行識別,包含以下兩個子任務(wù):①主觀句識別,提取文本中包含的主觀句;②主觀句的情感分類,識別主觀句的情感傾向,通常是褒/貶二元分類。
  2.1 主觀句識別
  主觀句識別是對文本進行分析,過濾掉其中的客觀句,得到更能反映文本情感傾向的主觀句集合。根據(jù)詞性的不同,Hu Minqing和IAu BingTM將形容詞作為主客觀句的分界線,當句子中同時包含形容詞和評價主題時,即認為該句為主觀句。句子之間的關(guān)系同樣可以作為判定標準,Pang和Lee采用最小圖割的方法獲取文檔中的句子與已知主觀句的關(guān)系;Yu將事實性文檔看作客觀句集合,評價性文檔看作主觀句集合,通過判斷句子與這兩種文檔之間的相互關(guān)系識別句子的主客觀性。從句子中篩選出具有情感傾向的情感詞和短語作為特征,選擇不同的分類算法如貝葉斯、K鄰近等,采用機器學習的方法進行主客觀分類,同樣取得不錯的效果;谝(guī)則的方法可以從文檔中提取精度高、觀點清晰的主觀句,但需要人工編寫語言規(guī)則且覆蓋面較窄。
  從以上研究可以看出,識別文檔中的主觀句關(guān)鍵是提取句子中包含的情感詞或者直接判斷,或者結(jié)合其它信息作為特征項送入標準分類器中判斷。句子的主客觀分類能夠有效提高文本情感分析的準確度,在以上方法中,客觀句的識別一般在80%左右,而主觀句的識別比較低,只有60%左右。
  2.2 主觀句的情感分類
  主觀句的情感分類是對主觀句所表達的情感傾向進行褒貶識別,主要包括兩種分類方法:基于情感詞的方法和機器學習方法。
  2.2.1 基于情感詞的方法基本思路是通過判定句子中包含情感詞的語義傾向,加上句法結(jié)構(gòu)等信息,間接得到句子的情感傾向。其流程如圖1所示:
  通過情感詞判斷句子情感傾向時,yuTM、Kim和Hovy:J、Hu Minqing和Liu Bing首先構(gòu)建一個情感詞集,并為集合中的每個情感詞標記正/負整數(shù)值作為情感值。
  在得到情感詞集后,Hu Minqing和Liu Bing通過統(tǒng)計句子中褒義詞和貶義詞的數(shù)量判斷句子的情感傾向;Yu將句子中所有情感詞的情感平均值作為句子的情感值;Kim和Hovy則將否定詞納入到句子情感傾向的判定之中,采用乘積方法來判斷句子的極性,該方法能夠處理否定、雙重否定對句子情感傾向的反向影響。
  采用基于情感詞的方法判定句子情感傾向時,能否得到情感傾向準確、包含全面的情感詞集是關(guān)鍵,同時也要考慮一些特殊的句法結(jié)構(gòu)對結(jié)果的影響,如否定句、比較句等。
  2.2.2 機器學習方法:機器學習方法的基本思想是根據(jù)已知訓練樣本求取對系統(tǒng)輸入輸出之間依賴關(guān)系的估計,使它能夠?qū)ξ粗敵鲎鞒霰M可能準確的預(yù)測。使用機器學習方法進行情感分類時,分類算法的選擇和特征項的選取是最重要的兩個方面。運用機器學習方法進行情感分類的過程(見圖2)。
  PangBo最早將機器學習方法應(yīng)用于情感分類領(lǐng)域,他分別利用樸素貝葉斯、最大熵、SVM算法對電影評論進行分類,當以unigram作為特征項時,SVM表現(xiàn)最好,準確率為82.9%,最大熵和樸素貝葉斯的效果相當。
  與PangBo不同,DavaLg在對幾種產(chǎn)品的評論進行情感分類時,采用bigrarn作為特征項訓練分類器的效果最好,這表明分類器效果的好壞與所選取的特征項息息相關(guān)。
  在特征項的選擇上,崔彩霞和王素格提出一個特征項選擇函數(shù),用來替代傳統(tǒng)的文檔頻率和互信息選擇方法。除此之外,王素格等還研究了停用詞對中文文本情感分類的影響,它構(gòu)造了五種停用詞表作為特征項選擇的依據(jù),實驗表明停用詞表的選擇對文本情感分類的影響很大。
  在采用機器學習方法分類時,同時選取形容詞、副詞、名詞作為特征項比選取單一詞性的效果要好,對否定詞進行處理能明顯提高分類的準確性。
  在上述機器學習方法中,選取的特征項是相互獨立的,然而句子中詞匯之間的語義關(guān)系對判斷文本的情感傾向也很重要。Matsumoto等從句子提取出頻繁子序列和頻繁子樹,與unigram、bigram共同作為特征項,采用SVM方法分類時準確率達到了92%以上。Whitelaw將評價組作為文本情感傾向識別的最小單位,同樣采用SVM方法分類,準確率在78%左右,當其它特征項增大文本的覆蓋范圍時,準確率上升到90%以上。
  
  3、句子情感分類的關(guān)鍵問題
  
  在許多應(yīng)用中,不但需要對句子的主客觀性和整體情感傾向進行識別,還需要深入句子內(nèi)部分析評價主題和各個特征的情感傾向以及與意見持有者的從屬關(guān)系。本文從實際應(yīng)用的角度出發(fā)總結(jié)出句子情感分析的三個關(guān)鍵問題,下面分別介紹。
  3.1 詞匯上下文極性的判定
  詞匯含有兩種極性,原極性和上下文極性。原極性指詞匯本身的極性;上下文極性指詞匯在文本中的極性。在上下文中,由于受到周圍詞匯影響,詞匯的情感強度可能發(fā)生變化,甚至與原極性相反。正確識別詞匯的上下文極性能夠有效提高情感分類的準確率。
  婁德成等和徐琳宏等研究了否定詞和強度詞對詞匯極性的影響。前者構(gòu)建否定詞字典和強度詞字典,對文本進行詞性標注后,根據(jù)詞性找到詞匯間的依存關(guān)系,計算詞匯的上下文傾向。后者采用否定規(guī)則匹配文檔中的否定旬,同時處理強度詞附近具有明顯語義傾向的詞匯,得到經(jīng)過否定處理和強度處理的特征項,分類效果比處理前提高了5%左右。
  Wilson等首先判斷句子中短語的主客觀性,從 主觀性短語中選取詞匯特征和極性特征,對短語的上下文極性采用機器學習方法判斷。同樣可以采用人工編寫規(guī)則的方法來判斷詞匯的上下文極性,該方法可以達到非常高的準確率,然而查全率很低,并且只能對部分情感表達進行判斷。
  詞匯上下文極性的識別是句子情感分析的關(guān)鍵,然而由于自然語言的差異以及句法結(jié)構(gòu)的復雜性,使得詞匯的上下文極性很難判斷;另外,人為因素如書寫不規(guī)范、人造詞語等也增加了這方面的困難。要準確地判斷詞匯上下文極性,還需要吸收一些語言學方面的研究成果。
  3.2 評價主題的識別
  評價主題包括顯性評價主題和隱性評價主題,前者可以直接從句子中得到,而隱性評價主題只能根據(jù)句子中詞匯之間的關(guān)系來判斷。
  3.2.1 顯性評價主題的識別:Hu Minqing和LiuBingTM認為,雖然在一篇文檔中會涉及到對評價主題多個方面的評價,但他們所用的詞匯具有收斂關(guān)系,可以通過關(guān)聯(lián)挖掘方法從文本中得到經(jīng)常出現(xiàn)和較少出現(xiàn)的評價主題。
  婁德成等提出SBV算法及其補充算法,利用詞匯間的語義關(guān)系從漢語主觀旬中識別評價主題。由于漢語語義關(guān)系的復雜性和網(wǎng)絡(luò)中用戶評論結(jié)構(gòu)的不規(guī)范性,該方法在實驗中的準確率只有40%。
  天網(wǎng)知名度系統(tǒng)將名人作為評價主題,能夠從網(wǎng)絡(luò)中自動抽取名人的姓名以及相應(yīng)的評價,但它只能提供名人的總體評價,缺乏對某一方面的具體評價。
  蘇祺通過對主觀句進行詞性標注,將名詞和名詞短語作為候選主題,在對候選主題過濾后進行聚類。該方法不但能識別顯性評價主題,還可以得到具有內(nèi)在聯(lián)系的評價主題集合。
  3.2.2 隱性評價主題的識別:很多情況下旬子中并沒有將評價主題顯示出來,而是通過一些詞語表達。例如“這輛車很靈活”,就隱性地對汽車的操控性進行評價。隱性評價主題的識別依賴于上下文語義分析,目前只有少數(shù)的研究涉及。
  在隱性評價主題的識別上,可以將評價詞匯與評價主題映射,如圖3所示:
  它在PMI-IR的基礎(chǔ)上提出了用于計算評價性詞語與評價主題之間相互關(guān)系的FB-PMI-IR方法,可以根據(jù)值的大小確定評價性詞語與主題的關(guān)系。例如“漂亮”與“動力性”FB-PMI-IR值為-12.01,與“外觀”的值為-4.79,從而可以得到“漂亮”更有可能修飾“外觀”。
  評價主題的識別是句子情感分析應(yīng)用的重要方面。在領(lǐng)域中,評價主題及對應(yīng)的情感詞是一個有限集合,兩者之間存在著多對多的關(guān)系。在通過機器學習識別這些關(guān)系時,需要大量的評價文本做支撐,如何獲得高質(zhì)量的標注評價文本,是提高評價主題識別準確率的關(guān)鍵。
  3.3 意見持有者的識別
  意見持有者是對評價主題進行評價的主體,包括個人、機構(gòu)等實體,對意見持有者進行識別能夠得到某人對某事的具體態(tài)度。
  一般來說,可以通過命名實體識別將人或機構(gòu)名作為意見持有者,但該方法的語言覆蓋率較差且領(lǐng)域獨立性較弱。Kim和Hovy 、Xu和Wong將個人、機構(gòu)、國家和群體四種實體作為候選意見持有者,前者通過最大熵評測算法從中選取可能性最大的實體作為意見持有者;而后者通過在句子中找到意見算子進而確定意見持有者,同時考慮到修飾實體的詞匯及其附近實體對意見持有者識別的影響,如短語“美國總統(tǒng)布什”作為一個整體被看做意見持有者。
  Choi等把意見持有者的識別看做是一個信息抽取任務(wù),考慮到句子表達的情感強度,將基于規(guī)則的信息抽取和機器學習方法相結(jié)合來識別意見持有者。
  總體來說,相對于詞匯上下文極性的判定和評價主題的識別,句子中意見持有者識別的難度更高,這主要表現(xiàn)在:①一個句子中可能會包含多個評價,需要為每個評價確定對應(yīng)的意見持有者;②一個句子可能包含多個意見持有者,需要判斷它們之間的關(guān)系;③需要考慮句子之間評價與意見持有者的關(guān)系。
  
  4、結(jié) 語
  
  由于在商業(yè)方面巨大的應(yīng)用價值,情感分析受到許多研究機構(gòu)的重視。在技術(shù)上,產(chǎn)生了多種情感特征抽取方法和分類策略;在應(yīng)用上,基于情感分析的應(yīng)用系統(tǒng)層出不窮,如意見挖掘系統(tǒng)、輿情分析系統(tǒng)等。但是由于自然語言情感表達方式的多樣性,情感分析仍然面臨著許多困難,筆者認為,未來情感分析研究的熱點主要集中在:
  ?文本情感強度判斷。情感分析不僅得出好/壞、正面/負面這樣的二元分類,還應(yīng)該對句子的情感強度進行分析。例如可以通過加權(quán),為各個情感詞設(shè)置不同權(quán)重的方法對句子及其中包含的主觀性短語進行強度分析。
  ?更有效的特征抽取方法。通過改進現(xiàn)有的或設(shè)計新的特征抽取方法,從文本中提取出更能表達文本情感的主題、情感詞特征以及影響文本情感傾向的句法信息、特殊詞匯等,提高文本情感分類的效率。
  ?情感語料庫的建設(shè)。對非頻繁特征來說,數(shù)據(jù)稀疏一直是基于機器學習方法的瓶頸,作為情感分析的知識來源,需要建設(shè)大規(guī)模情感語料庫,在語料的采集、標注規(guī)范的制定及語料庫應(yīng)用等方面提供規(guī)則。
  ?中文特殊句法結(jié)構(gòu)處理。漢語表達方式的多樣性、句法結(jié)構(gòu)的復雜性使中文文本情感分析更加復雜,其中否定句、比較句是最常見的兩種類型,對中文句子的句法分析需要借助于語言學領(lǐng)域的研究成果。
  ?更廣泛的應(yīng)用。情感分析需要與其它領(lǐng)域相結(jié)合,形成更有價值的應(yīng)用。如可以將情感詞、主題等作為查詢條件的情感檢索;對產(chǎn)品評論進行情感分析后得到規(guī)范的情感摘要;識別不同網(wǎng)站相互轉(zhuǎn)載的重復信息、競爭對手發(fā)布的惡意信息等垃圾信息識別等。
  ?跨領(lǐng)域研究。在目前的情感分析中,情感詞本身所表示的情感極性與主題所屬的領(lǐng)域密切相關(guān),在大部分情況下,這種領(lǐng)域依賴是不同主題領(lǐng)域中常用詞匯變化的結(jié)果。當同一個情感詞與不同的主題、不同的特征相關(guān)聯(lián)時,可能表達了截然相反的情感極性,這就需要對情感分析的跨領(lǐng)域問題進行研究。

相關(guān)熱詞搜索:句子 關(guān)鍵 情感 句子情感分析及其關(guān)鍵問題 文本情感分析若干問題分析 文本情感分析

版權(quán)所有 蒲公英文摘 m.newchangjing.com