網(wǎng)絡(luò)輿情分析研究現(xiàn)狀匯總十篇

時(shí)間:2023-06-19 16:15:05

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇網(wǎng)絡(luò)輿情分析研究現(xiàn)狀范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀

篇(1)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)02-0050-04

0引言

目前,隨著網(wǎng)絡(luò)全球化的進(jìn)程加快以及移動(dòng)技術(shù)的推廣,微博已經(jīng)成為了網(wǎng)絡(luò)輿情的主要源頭和有效傳播路徑。由于微博具有的進(jìn)入門檻低、操作便捷、互動(dòng)性強(qiáng)等特點(diǎn),近兩年在全國得到了迅速的普及,獲得廣泛的應(yīng)用。但是不可忽視的隱患也隨之呈現(xiàn)。微博已經(jīng)成為了各種謠言和違法信息滋生、蔓延的主要平臺(tái),對(duì)社會(huì)也造成了無法預(yù)知的不良影響。因此,開展微博的輿情監(jiān)控和分析研究已是大勢(shì)所趨,勢(shì)在必行。

1研究現(xiàn)狀

目前,已有針對(duì)網(wǎng)絡(luò)輿情分析和挖掘的軟件產(chǎn)品,較典型的有 Autonomy 網(wǎng)絡(luò)輿情聚成系統(tǒng)、Goonie 互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)、TRS 互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng)、方正智思輿情預(yù)警輔助決策支持系統(tǒng)、中科點(diǎn)擊(北京)科技有限公司研發(fā)的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)等。這些系統(tǒng)均能對(duì)網(wǎng)絡(luò)輿情發(fā)揮一定的監(jiān)測(cè)、分析和預(yù)警的作用,為社會(huì)和諧穩(wěn)定提供了有效的技術(shù)和決策支持。雖然如此,但針對(duì)微博輿情監(jiān)測(cè)和分析的大部分系統(tǒng)卻沒有充分考慮到微博用戶基數(shù)大、覆蓋面廣、數(shù)據(jù)量巨大、更新速度快的特點(diǎn),而在這種情況下,采用普通的關(guān)系數(shù)據(jù)庫顯然無法滿足要求,因此,引入NoSQL技術(shù)存儲(chǔ)數(shù)據(jù)則是一個(gè)頗有前景的發(fā)展方向。

2微博輿情傳播特點(diǎn)

基于上述對(duì)微博使用方式的分析,決定了微博輿情的傳播將具有如下特點(diǎn):

(1)信息生成和傳播簡便。只要簡單操作,就可以第一時(shí)間關(guān)注微博新聞中的相關(guān)人物,或轉(zhuǎn)發(fā)傳統(tǒng)新聞和論壇中的內(nèi)容,而且由于移動(dòng)終端對(duì)微博的支持,微博就超越了時(shí)間與地域的限制,完全實(shí)現(xiàn)了微博的簡便簡易性。

(2)傳播信息快捷。僅以“7 .23”動(dòng)車事件為例,2011 年7 月23 日晚20 點(diǎn)38 分事故發(fā)生,4分鐘后網(wǎng)友發(fā)出了第一條微博,比傳統(tǒng)媒體提早了兩個(gè)多小時(shí)。

(3)病毒爆發(fā)式的信息傳播模式。消息一經(jīng)發(fā)出,用戶的所有關(guān)注者都能收到,而這一群體再亦如此繼續(xù)向外傳播,則微博信息就呈現(xiàn)了病毒爆發(fā)式擴(kuò)散傳播的態(tài)勢(shì)。

3基于noSQL的數(shù)據(jù)庫設(shè)計(jì)

NoSQL最初出現(xiàn)于2009年6月11日由Oskarsson在舊金山發(fā)起并組織的一個(gè)非正式會(huì)議上。NoSQL是當(dāng)下數(shù)據(jù)庫家族的外來者,雖然有些通用的特征,但卻沒有一個(gè)特征得到了明確定義。

根據(jù)輿情監(jiān)控系統(tǒng)的數(shù)據(jù)實(shí)際情況,在其系統(tǒng)的數(shù)據(jù)庫設(shè)計(jì)中引入NoSQL,當(dāng)寫入數(shù)據(jù)時(shí),可在MySQL、NoSQL中分別寫入一條數(shù)據(jù)的不同字段,而讀取數(shù)據(jù)時(shí),則從MySQL、NoSQL組合字段完成讀取。這一讀/寫過程如圖1所示。

在如圖1所示的組合結(jié)構(gòu)中,MySQL中存儲(chǔ)著需要查詢字段中的數(shù)字、時(shí)間等類型的小字段,其后按照查詢建立相應(yīng)的索引,而NoSQL中則存儲(chǔ)著包括大文本字段在內(nèi)的其他并不需要的字段。查詢過程可描述為,首先將數(shù)據(jù)主鍵從MySQL中查詢出來,再從NoSQL中直接取出對(duì)應(yīng)的數(shù)據(jù)。

文中設(shè)計(jì)的架構(gòu)模式使得MySQL和NoSQL能夠各自發(fā)揮所長,即由MySQL實(shí)現(xiàn)關(guān)系存儲(chǔ),而NoSQL則實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。這種設(shè)計(jì)的優(yōu)點(diǎn)如下:節(jié)省MySQL的IO開銷、提高M(jìn)ySQl Query Cache緩存命中率、改進(jìn)了MySQL主從同步效率、提升了MySQL數(shù)據(jù)備份和恢復(fù)的速度、具有更好的擴(kuò)展性。

還需一提的是,這種以MySQL為主、NoSQL為輔的架構(gòu)設(shè)計(jì)與MySQL的單體架構(gòu)相比,系統(tǒng)的多樣性能和可擴(kuò)展性均得到了有效提高。

4基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)旨在取代傳統(tǒng)的人工收集和監(jiān)控工作,實(shí)現(xiàn)深入、高效挖掘,并實(shí)時(shí)得到微博網(wǎng)絡(luò)中相對(duì)敏感的輿論信息,以警示管理人員及時(shí)采取相應(yīng)措施。

基于微博的Scool輿情監(jiān)測(cè)分析系統(tǒng)的實(shí)現(xiàn)過程是,每日需定時(shí)、周期地對(duì)新浪微博、騰訊微博、網(wǎng)易微博、搜狐微博進(jìn)行網(wǎng)頁抓取后,并對(duì)其內(nèi)容實(shí)行解析后存入數(shù)據(jù)庫,而后通過分詞索引以建立搜索引擎,實(shí)現(xiàn)數(shù)據(jù)索引,再通過用戶設(shè)定的關(guān)鍵詞庫對(duì)采集的數(shù)據(jù)進(jìn)行關(guān)鍵詞集過濾,由此獲得敏感輿情信息文本返回給用戶界面。系統(tǒng)還應(yīng)對(duì)收集的信息進(jìn)行自然語言處理,從而識(shí)別得到熱點(diǎn)話題和熱門事件。

4.1軟件體系結(jié)構(gòu)

系統(tǒng)分為后臺(tái)數(shù)據(jù)分析模塊和前臺(tái)數(shù)據(jù)展示模塊。后臺(tái)模塊負(fù)責(zé)實(shí)現(xiàn)數(shù)據(jù)抓取與分析,是系統(tǒng)的核心。前臺(tái)模塊負(fù)責(zé)完成微博、Web數(shù)據(jù)展示和基本維護(hù)操作。

4.1.1前臺(tái)結(jié)構(gòu)

前臺(tái)展示程序分為四大塊,分別是:輿情信息展示、輿情搜索、用戶監(jiān)控網(wǎng)址和關(guān)鍵詞設(shè)置、用戶登錄與管理。其中,輿情整體全面展示則按五類來進(jìn)行和表現(xiàn),分別是:最新輿情展示、按網(wǎng)站類型展示、按監(jiān)控網(wǎng)址展示、按話題事件展示和輿情統(tǒng)計(jì)。前臺(tái)模塊的結(jié)構(gòu)框架如圖2所示。

前臺(tái)展示程序主要基于JAVA開源SSH框架來進(jìn)行構(gòu)建而得以實(shí)現(xiàn),其設(shè)計(jì)結(jié)構(gòu)如圖3所示。

在本系統(tǒng)的架構(gòu)設(shè)計(jì)中,將在表示層上構(gòu)設(shè)的Struts框架,在業(yè)務(wù)邏輯層構(gòu)設(shè)的Spring框架以及在數(shù)據(jù)訪問層構(gòu)設(shè)

(1)表現(xiàn)層使用JSP來實(shí)現(xiàn)構(gòu)建,為客戶端提供對(duì)應(yīng)用程序的訪問;

(2)控制層接受客戶端的請(qǐng)求,并根據(jù)不同的請(qǐng)求調(diào)用相應(yīng)的事務(wù)邏輯,再將處理結(jié)果返回到相關(guān)的頁面;

(3)業(yè)務(wù)邏輯層用來提供相關(guān)的業(yè)務(wù)邏輯;

(4)數(shù)據(jù)訪問層提供對(duì)數(shù)據(jù)庫的各種操作。

系統(tǒng)設(shè)計(jì)中的三大框架有機(jī)配合、協(xié)調(diào)統(tǒng)一,其各自實(shí)現(xiàn)功能為:

在表現(xiàn)層中,由Struts框架負(fù)責(zé)處理JSP頁面的請(qǐng)求和轉(zhuǎn)發(fā)工作;在系統(tǒng)中用Hibernate來封裝數(shù)據(jù)庫的連接類,通過該框架所提供的注解方式實(shí)現(xiàn)了實(shí)體類與數(shù)據(jù)庫表結(jié)構(gòu)間的映射關(guān)系,并由該框架完成在數(shù)據(jù)訪問層與數(shù)據(jù)庫間的交互工作,再通過Hibernate框架的二級(jí)緩存EHCache提供對(duì)用戶關(guān)鍵詞和行業(yè)惡劣情感詞的高效緩存。此外,系統(tǒng)使用Spring框架作為系統(tǒng)運(yùn)行輕量級(jí)的容器,負(fù)責(zé)在業(yè)務(wù)邏輯層處理業(yè)務(wù)邏輯工作。通過在配置文件中設(shè)置對(duì)象的創(chuàng)建方式及對(duì)象之間的關(guān)系,即可由Spring框架的IoC的容器來創(chuàng)建對(duì)象,同時(shí)也維護(hù)對(duì)象之間的依賴關(guān)系。通過這三大框架的整合,有效降低了系統(tǒng)中各模塊之間的相關(guān)性,由此形成一個(gè)結(jié)構(gòu)科學(xué)、功能強(qiáng)大和層次清晰的框架體系。

4.1.2后臺(tái)結(jié)構(gòu)

由圖6可知道,后臺(tái)結(jié)構(gòu)可分為數(shù)據(jù)緩沖池隊(duì)列,線程池線程和數(shù)據(jù)庫三部分。其中,緩存隊(duì)列負(fù)責(zé)數(shù)據(jù)流的來源,關(guān)鍵處理流程則拆分至各個(gè)線程中獨(dú)立實(shí)現(xiàn);線程控制數(shù)據(jù)緩存池中數(shù)據(jù)流的走向,各線程本身的并發(fā)運(yùn)行均交由線程池實(shí)現(xiàn)統(tǒng)一管理。數(shù)據(jù)庫則采用上述的NoSQL與關(guān)系數(shù)據(jù)庫相結(jié)合的對(duì)應(yīng)技術(shù)來主導(dǎo)實(shí)現(xiàn)。

4.2系統(tǒng)實(shí)現(xiàn)

用戶注冊(cè)、登錄系統(tǒng)后,可以點(diǎn)擊頁面上的相應(yīng)標(biāo)簽來查看有關(guān)的輿情記錄。同時(shí),系統(tǒng)也會(huì)將每天最新的輿情記錄完整、清晰地呈現(xiàn)。用戶還可以點(diǎn)擊更多的輿情鏈接來查看當(dāng)日之前任何一天的輿情記錄。

可以點(diǎn)擊系統(tǒng)主頁上的輿情搜索標(biāo)簽來進(jìn)行包含指定關(guān)鍵詞的輿情記錄,搜索頁面如圖7所示。在輸入框中輸入關(guān)鍵詞,就可以看到相關(guān)的信息。

5.結(jié)束語

在Scool輿情監(jiān)測(cè)和分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)過程中,有關(guān)信息存儲(chǔ)方面,本文主要提出了NoSQL和MySQL相結(jié)合的方法。實(shí)驗(yàn)證明,采用這種信息存儲(chǔ)的方法可節(jié)省MySQL的IO開銷、提高M(jìn)ySQL數(shù)據(jù)備份和恢復(fù)的速度、且比以前更容易實(shí)現(xiàn)擴(kuò)展。對(duì)其后類似系統(tǒng)的設(shè)計(jì)提供了有益借鑒,并顯示了一定參考價(jià)值。由于時(shí)間及技術(shù)的限制,測(cè)試和抓取的數(shù)據(jù)還不夠連續(xù)和充分,下一步仍可繼續(xù)完善和推進(jìn)這一方面的工作。

參考文獻(xiàn):

[1]賈焰,劉江寧. 微博的輿情特點(diǎn)及其謠言治理[J]. 圖書情報(bào)知識(shí),2012(6):7-9.

[2]張玉峰,何超. 基于Web挖掘的網(wǎng)絡(luò)智能分析研究[J]. ITA,2011(4):64-68.

[3]汝艷紅. 微博信息傳播的特點(diǎn)及發(fā)展趨勢(shì)[J]. 青年記者,2012(8):27-30.

[4]鐘瑛,劉利芳. 微博傳播的輿論影響力[J]. 新聞與傳播研究,2013(2):8-12.

[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20

篇(2)

中圖分類號(hào):TP3911 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)02-0011-05

0引言

依存句法分析模型可用于精確地自動(dòng)構(gòu)建給定句子中詞匯之間的依存關(guān)系[1]。該類模型可大致分為基于有監(jiān)督學(xué)習(xí)和基于文法規(guī)則兩類模型?;谟斜O(jiān)督學(xué)習(xí)的依存句法分析模型是指使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,通過從大量標(biāo)注語料中學(xué)習(xí)參數(shù)而相應(yīng)構(gòu)建的依存句法分析模型。而基于文法規(guī)則的依存句法分析模型則指依據(jù)專家提煉或數(shù)據(jù)挖掘的文法規(guī)則而憑此構(gòu)建的依存句法分析模型。兩種模型各有優(yōu)缺點(diǎn),前者一般可以獲得較高的預(yù)測(cè)精度,但卻需要設(shè)計(jì)大量的標(biāo)注依存結(jié)構(gòu)的句子作為學(xué)習(xí)樣本訓(xùn)練模型;后者通常不需要設(shè)計(jì)大量訓(xùn)練樣本,但由于專家的知識(shí)受限,規(guī)則領(lǐng)域適應(yīng)性較差,導(dǎo)致該種模型預(yù)測(cè)精度并不高。藉此分析,基于有監(jiān)督學(xué)習(xí)的依存句法分析模型具有較高的預(yù)測(cè)精度,因此,本文將圍繞該類模型的研究現(xiàn)狀而展開綜述。具體內(nèi)容如下。

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型的構(gòu)建過程一般可分為兩步[2]:

(1)學(xué)習(xí)。給定一個(gè)標(biāo)注依存結(jié)構(gòu)的句子集合,人工構(gòu)建依存特征模板,再從集合中抽取依存特征。其后,設(shè)定模型參數(shù),并在有限步驟內(nèi)推導(dǎo)得出一個(gè)依存句法分析模型;

(2)評(píng)價(jià)。給定測(cè)試集合及評(píng)價(jià)方法,若該模型的預(yù)測(cè)結(jié)果滿足期望值,模型構(gòu)建完成,否則進(jìn)入步驟(1)。

有監(jiān)督學(xué)習(xí)的依存句法分析模型又可分為基于移近規(guī)約和基于圖兩類。其中,基于圖的依存句法分析模型在效率和精確度都有良好表現(xiàn),因而廣受關(guān)注?;趫D的依存句法分析模型的原理是借助最大生成樹算法,實(shí)現(xiàn)句子的依存句法分析。例如句子“漢族/nR 醫(yī)學(xué)/n 又/d 有/v 中醫(yī)/n 之/uJDE 稱/n”的依存句法分析結(jié)果如圖1所示。

在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時(shí),主要集中于兩個(gè)方面:資源建設(shè)和特征工程。針對(duì)其相關(guān)研究,本文給出了較為系統(tǒng)、詳盡的綜述。在資源建設(shè)研究方面,人們通過依存關(guān)系映射和主動(dòng)學(xué)習(xí)兩種方法緩解語料匱乏的困境。通過將源領(lǐng)域中標(biāo)注依存關(guān)系的映射到目標(biāo)領(lǐng)域?qū)崿F(xiàn)目標(biāo)領(lǐng)域的依存關(guān)系自動(dòng)化標(biāo)注,達(dá)到自動(dòng)化構(gòu)建目標(biāo)領(lǐng)域語料的目的,進(jìn)而在目標(biāo)領(lǐng)域借助自動(dòng)標(biāo)注的語料構(gòu)建依存句法分析模型;而借助主動(dòng)學(xué)習(xí)思想,一方面可選擇頗具價(jià)值的人工標(biāo)注對(duì)象進(jìn)行人工標(biāo)注,擴(kuò)充標(biāo)注集合,另一方面也可降低人工標(biāo)注的工作量。在特征工程研究方面,人們分析了不同特征對(duì)構(gòu)建依存句法分析模型的貢獻(xiàn),涉及的特征包括詞匯特征、句子特征,以及語言形態(tài)特征等,同時(shí)介紹了如何因解決特征稀疏而導(dǎo)致的模型性能下降的問題。此外,具體而深入地分析、評(píng)價(jià)了依存句法分析模型一體化的優(yōu)勢(shì)和不足。

本文的組織結(jié)構(gòu)如下:第二部分針對(duì)語料匱乏、特征選擇和獲取、以及模型一體化問題,詳細(xì)比較和分析了現(xiàn)有模型的研究現(xiàn)狀;第三部分從事件抽取、產(chǎn)品評(píng)論分析,以及輿情分析角度說明了現(xiàn)有模型最近的應(yīng)用情況;最后總結(jié)現(xiàn)有模型研究并對(duì)未來可能研究方向給予展望。

1基于有監(jiān)督學(xué)習(xí)的依存句法分析模型

1.1標(biāo)注語料匱乏

近年來,在標(biāo)注語料匱乏研究方面,人們借助依存關(guān)系映射和主動(dòng)學(xué)習(xí)方法改進(jìn)標(biāo)注語料不足的狀況。在依存關(guān)系映射研究方面,已有學(xué)者采用規(guī)則過濾[3]、適應(yīng)性標(biāo)注方法[4]、動(dòng)態(tài)規(guī)劃方法[5]解決源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異,但效果并不明顯。Jiang等[6]采用一種依存結(jié)構(gòu)映射策略,將源領(lǐng)域中豐富的依存關(guān)系映射到資源短缺的目標(biāo)領(lǐng)域中,實(shí)現(xiàn)目標(biāo)領(lǐng)域依存關(guān)系語言的自動(dòng)構(gòu)建。例如,將標(biāo)注依存關(guān)系的英語語料中的依存關(guān)系映射到中文語料中,實(shí)現(xiàn)中文語料的自動(dòng)標(biāo)注。實(shí)現(xiàn)依存映射時(shí),若采用詞對(duì)齊方法實(shí)現(xiàn)依存關(guān)系映射,映射過程中會(huì)產(chǎn)生詞對(duì)齊的錯(cuò)誤和不同語言之間因句法差異產(chǎn)生的錯(cuò)誤。與已有方法不同,作者采用的映射方法不是將整棵句子依存樹映射到目標(biāo)領(lǐng)域,而是映射詞匯依存關(guān)系。給定詞對(duì)齊雙語語料,源領(lǐng)域的句子標(biāo)注了依存句法結(jié)構(gòu),其中的依存關(guān)系是布爾型,表示是否存在依存關(guān)系。而后將源領(lǐng)域中詞對(duì)的依存關(guān)系映射為目標(biāo)領(lǐng)域的詞對(duì)。在目標(biāo)領(lǐng)域產(chǎn)生依存關(guān)系的實(shí)例過程中,最先獲得詞對(duì)齊的映射,采用映射矩陣而不是單個(gè)的詞對(duì)齊,這樣可以減少詞對(duì)齊的錯(cuò)誤。而且詞對(duì)齊的映射不是一一映射,因而能夠獲得多種映射組合。假設(shè)詞對(duì)(a, b),其中,詞a有n種映射射結(jié)果,詞b有m種映射結(jié)果,則詞對(duì)(a, b)就存在n×m種映射可能。然后,根據(jù)源端句法樹庫以及映射矩陣計(jì)算目標(biāo)領(lǐng)域存在依存關(guān)系的概率。最后,設(shè)定閾值T確定在目標(biāo)領(lǐng)域是否產(chǎn)生依存關(guān)系。大于閾值T,則存在依存關(guān)系,即為正例;若小于(1 - T),則不存在依存關(guān)系,即為反例。如此就獲得了大量目標(biāo)領(lǐng)域的依存關(guān)系樣例。通過在目標(biāo)領(lǐng)域產(chǎn)生的樣例上訓(xùn)練最大熵分類器實(shí)現(xiàn)目標(biāo)端的依存關(guān)系預(yù)測(cè)。該種映射方法降低了依存關(guān)系映射時(shí)產(chǎn)生錯(cuò)誤關(guān)系的概率,并且一定程度上借助英文標(biāo)注語料應(yīng)對(duì)中文依存分析語料匱乏的狀況。但該模型仍然無法避免兩種語言在句法差異上導(dǎo)致的錯(cuò)誤的關(guān)系映射。此外,也難以精確設(shè)定閾值來判定映射結(jié)果是否為依存關(guān)系。

其中,si表示n-best的句法分析結(jié)果中第i個(gè)預(yù)測(cè)結(jié)果分值,n表示利用DP預(yù)測(cè)得到的句法分析樹的數(shù)量。當(dāng)n-best的句法分析結(jié)果的分值互相之間越發(fā)接近時(shí),熵值也將越高。這時(shí),句法分析器預(yù)測(cè)結(jié)果“徘徊”在n-best之中,即根據(jù)句法分析器預(yù)測(cè)結(jié)果是很難選擇得到最好的句法分析樹的,因此,句子s需要人工標(biāo)注依存句法結(jié)構(gòu)。依據(jù)上述思想,可從未標(biāo)注集合中挑選k個(gè)不確定性最高的樣本進(jìn)行人工依存句法結(jié)構(gòu)標(biāo)注。

此后,將標(biāo)記結(jié)果加入到標(biāo)注集合中,重新訓(xùn)練句法分析器,獲得新的句法分析器。上述過程反復(fù)迭代,直到未標(biāo)注集合為空。通過這種方式擴(kuò)充標(biāo)注集合來解決語料匱乏問題。

另外,句子中只有部分依存關(guān)系不確定,通過標(biāo)注這些不確定的依存關(guān)系就可以完成句子的依存結(jié)構(gòu)標(biāo)注。借助依存關(guān)系熵來度量依存關(guān)系的不確定性,具體計(jì)算如式(3)所示。

由圖2可知,首先根據(jù)標(biāo)注集合訓(xùn)練得到依存句法分析器DP,借助DP構(gòu)建未標(biāo)注集合中句子依存句法分析樹,再根據(jù)句子不確定函數(shù)選擇k個(gè)不確定句子,同時(shí)根據(jù)依存關(guān)系不確定函數(shù)選擇k’個(gè)依存關(guān)系并人工標(biāo)注,由此將標(biāo)注結(jié)果加入標(biāo)注集合,重新訓(xùn)練構(gòu)建依存句法分析器,上述過程反復(fù)進(jìn)行,直到未標(biāo)注集合為空。

1.2特征提取與選擇

在特征提取與選擇研究方面,人們分別從不同特征對(duì)構(gòu)建依存句法分析模型的貢獻(xiàn)角度,以及特征稀疏對(duì)構(gòu)建模型產(chǎn)生的影響角度展開研究。其中的特征主要分為:句子級(jí)特征、詞類別特征、語言形態(tài)特征、以及高階特征等,下面對(duì)其相關(guān)工作分別作以綜合分析。

在句子級(jí)特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。將短句的邊界信息作為依存關(guān)系的限制特征來豐富特征集合,并提高依存關(guān)系預(yù)測(cè)精度。將ICON2009的數(shù)據(jù)集作為測(cè)試集,使用MSTParser[1]作為依存句法分析器,在無標(biāo)記和有標(biāo)記的評(píng)測(cè)中預(yù)測(cè)精度分別為87%和77%。在詞類別特征提取研究方面,Agirre等[9]嘗試從WordNet中獲得詞匯的基本語義類作為依存特征,同時(shí)采用詞義消歧算法減少詞義歧義帶來的噪聲,以此提升依存句法關(guān)系預(yù)測(cè)精度。Haffari等[10]在MSTParser依存句法分析器框架下提出將詞匯表示為句法和語義兩種表示方式,并采用線性加權(quán)方式將這兩種表示形式的特征信息相融合,由此將依存句法分析精度則從90.82%提升到92.13%。在利用語言形態(tài)特征研究方面, Marton等[11]探索了形態(tài)學(xué)特征對(duì)句法分析的貢獻(xiàn),并發(fā)現(xiàn)時(shí)態(tài)、單復(fù)數(shù)、詞綴均可提升阿拉伯語的依存句法分析精度。而在利用高階特征研究方面,Massimiliano Ciaramita等[12]使用依存語言模型和beam搜索構(gòu)建高階特征。采用大量基準(zhǔn)依存句法分析器自動(dòng)分析語句構(gòu)建依存句法語言模型,并借助依存語言模型構(gòu)建高階特征,再使用beam搜索在解碼階段將特征有效整合至依存句法分析模型中。模型中考慮了原始模型(MSTParser)中最大生成樹的分值,同時(shí)考慮依存語言模型的分值,具體計(jì)算如式(5)所示。

由式(5)可知,該模型在解碼階段不僅考慮了MSTParser預(yù)測(cè)結(jié)果,同時(shí)考慮了依存語言模型對(duì)依存句法分析的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果顯示中文句法分析達(dá)到了最高精度,而且在英語上也獲得了與已知最好系統(tǒng)的可比精度。在特征稀疏研究方面, Zhou[13]結(jié)合從網(wǎng)絡(luò)獲取的詞匯搭配偏好來提高依存句法分析精度。通過從網(wǎng)絡(luò)語料Google hits和Google V1構(gòu)建詞匯之間的搭配偏好。實(shí)驗(yàn)結(jié)果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在處理新領(lǐng)域數(shù)據(jù)時(shí),使用網(wǎng)絡(luò)獲取的詞匯搭配偏好可使模型具有更好的健壯性。另外,在網(wǎng)絡(luò)數(shù)據(jù)上抽取詞匯搭配偏好還可以避免數(shù)據(jù)稀疏問題,而且已在特征稀疏的生物醫(yī)療領(lǐng)域驗(yàn)證了吃方法的有效性。

1.3一體化模型

詞性標(biāo)注是依存句法分析中必不可少的一個(gè)基礎(chǔ)步驟。當(dāng)前的研究將依存句法分析和詞性標(biāo)注分開建模,這就可能導(dǎo)致底層的詞性標(biāo)注錯(cuò)誤向高層依存句法分析傳播,進(jìn)而降低依存句法分析精度。實(shí)驗(yàn)表明,由于詞性標(biāo)注的錯(cuò)誤,將造成句法分析精度大約下降6%。為了解決這個(gè)問題,李正華等[14]提出詞性標(biāo)注和依存句法分析的聯(lián)合模型。模型采用剪枝策略來減小候選詞性標(biāo)簽空間,大大提高了句法分析速度。其基本思想是同時(shí)最大化詞性標(biāo)注和依存句法分析性能。在這個(gè)模型中,詞性標(biāo)注和依存句法分析的特征權(quán)重做以同步調(diào)整,借助詞性和句法特征交互來確定優(yōu)化的聯(lián)合結(jié)果。在中文賓州樹庫上進(jìn)行測(cè)試實(shí)驗(yàn),其結(jié)果表明依存句法分析精度提高1.5%。而在此基礎(chǔ)上,Hatori等[15]提出第一個(gè)分詞、詞性標(biāo)注以及句法分析的一體化模型。通過結(jié)合分詞、詞性標(biāo)注和依存分析模型的特征構(gòu)建一體化模型,并提出基于字符的解碼方法。此外,Li, Zhongguo等[16]提出一體化中文依存句法分析模型,將未分詞的句子作為輸入,其輸出即為句法結(jié)構(gòu)。通過移除中間分詞步驟,一體化句法分析器不再需要單詞和短語的分割標(biāo)記,因特征提取錯(cuò)誤而導(dǎo)致的性能下降也將為之得到控制。但是一體化模型雖然提升了依存句法分析的精度,但卻同時(shí)增加了解碼復(fù)雜度。

1.4其他

此外,人們?cè)诟纳埔来娣治鲂剩约敖柚鷻C(jī)器翻譯技術(shù)提升依存句法分析精度方面也同樣開展了廣泛研究。在改善依存分析效率研究中,研究人員發(fā)現(xiàn)構(gòu)建依存樹的過程中會(huì)產(chǎn)生大量錯(cuò)誤的依存關(guān)系,過濾這些依存關(guān)系可以提高依存分析效率。Bergsma等[17]采用級(jí)聯(lián)式過濾模型過濾錯(cuò)誤的依存關(guān)系??刹捎萌N方法實(shí)現(xiàn)過濾:基于規(guī)則過濾、借助線性過濾器和二次型過濾器過濾錯(cuò)誤的依存關(guān)系。在基于規(guī)則過濾研究方面,訓(xùn)練支持向量機(jī)依存關(guān)系分類器,特征只包括頭或依存關(guān)系中的詞性,由此利用學(xué)習(xí)得到的特征權(quán)重過濾詞性或詞性對(duì)。例如,如果一個(gè)詞性標(biāo)記在非頭詞的分類器中的權(quán)重為正,則以這個(gè)節(jié)點(diǎn)作為頭的所有弧都將被過濾。這樣借助學(xué)習(xí)得到的權(quán)重構(gòu)建一組高精度的過濾規(guī)則,即真正實(shí)現(xiàn)了依存關(guān)系的過濾。在線性過濾器研究方面,首先構(gòu)建8個(gè)分類器作為過濾器,分別針對(duì)如下8種節(jié)點(diǎn)分類問題:

(1)節(jié)點(diǎn)是否為頭(例如節(jié)點(diǎn)是葉子節(jié)點(diǎn));

(2)節(jié)點(diǎn)的頭是否在左側(cè);

(3)節(jié)點(diǎn)的頭是否在右側(cè);

(4)節(jié)點(diǎn)的頭是否在左側(cè)5個(gè)節(jié)點(diǎn)距離之內(nèi);

(5)節(jié)點(diǎn)的頭是否在右側(cè)5個(gè)節(jié)點(diǎn)距離之內(nèi);

(6)節(jié)點(diǎn)頭是否在左側(cè)第一個(gè)節(jié)點(diǎn);

(7)節(jié)點(diǎn)的頭是否在右側(cè)第一個(gè)節(jié)點(diǎn);

(8)節(jié)點(diǎn)是否是根節(jié)點(diǎn)。

使用相同的特征模板,得到8種不同的特征權(quán)重,分別對(duì)應(yīng)8種不同的分類,并且每一種過濾器的輸入均是上一種過濾器輸出的結(jié)果。通過這種方式實(shí)現(xiàn)過濾,構(gòu)建二次型支持向量機(jī)分類器決定過濾哪些頭—依賴對(duì)。實(shí)驗(yàn)結(jié)果表明,基于規(guī)則過濾可以過濾占據(jù)25%的潛在依存關(guān)系。線性過濾器能夠過濾高達(dá)54.2%的潛在依存關(guān)系。而二次型過濾器則能夠過濾具體為22%的潛在依存關(guān)系。

在借助機(jī)器翻譯技術(shù)提升依存句法分析精度研究方面,Chen等[18]提出使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)提高雙語句法分析精度的方法。假設(shè)在源端存在模糊的依存關(guān)系判定,在目標(biāo)端可能就是清晰的依存關(guān)系判定,因而可根據(jù)目標(biāo)端來修正源端的依存關(guān)系預(yù)測(cè)結(jié)果。首先,使用統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)將源端的單語樹庫譯為目標(biāo)端的語言。然后,在目標(biāo)端采用目標(biāo)端依存句法分析器進(jìn)行句法分析,構(gòu)建依存句法分析樹。由此獲得雙語樹庫,即在源端是人工標(biāo)記的樹庫,在目標(biāo)端就是自動(dòng)生成的樹庫。盡管在目標(biāo)端的句子和生成樹并不完備,但是采用這些自動(dòng)生成的雙語樹庫,從中抽取出目標(biāo)端的依存限制來修正源端依存分析性能,實(shí)現(xiàn)雙語句法分析性能的改進(jìn)和提升。實(shí)驗(yàn)結(jié)果顯示該方法的表現(xiàn)則要顯著優(yōu)于基準(zhǔn)方法。更進(jìn)一步,當(dāng)使用一個(gè)更大規(guī)模的單語樹庫,句法分析的性能也得到了較大提高。

2相關(guān)應(yīng)用

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型能夠構(gòu)建句子的依存樹,而依存樹則表明了詞匯間的依存關(guān)系,并且在不同問題中表現(xiàn)了其有效性與實(shí)用性,例如關(guān)系獲取[19]、復(fù)述獲取[20]和機(jī)器翻譯[21]等。此外,近年來該類模型在解決事件抽取、產(chǎn)品評(píng)論挖掘、以及輿情分析問題方面也發(fā)揮了主體重要作用。

在事件抽取研究方面,人們發(fā)現(xiàn)事件之間存在聯(lián)系,例如一個(gè)犯罪事件會(huì)引起調(diào)查事件,并且還將最終引發(fā)逮捕事件。由此可知,事件之間多存在一定的依賴關(guān)系。但現(xiàn)有的事件抽取方法并未考慮事件間的依存關(guān)系,而是孤立抽取每一個(gè)事件。David McClosky等[22]借助依存句法分析器構(gòu)建事件的依賴關(guān)系。首先,將事件及其對(duì)應(yīng)的謂詞轉(zhuǎn)化為依存樹,樹中節(jié)點(diǎn)包括實(shí)體、事件錨和一個(gè)虛擬根節(jié)點(diǎn),各邊則表示三者間的依存關(guān)系,其中的事件錨識(shí)別常采用回歸模型運(yùn)行實(shí)現(xiàn),使用的特征包括字符級(jí)別。生成依存樹時(shí),可采用兩步排序方法:

(1)根據(jù)句法分析器得到n-best結(jié)果;

(2)采用最大熵模型實(shí)現(xiàn)第二次排序,由此將建立事件間的依存關(guān)系。

在產(chǎn)品評(píng)論分析研究方面,Zhang等[23]借助淺層依存句法分析來構(gòu)建產(chǎn)品屬性及其評(píng)價(jià)之間關(guān)系。其中包含三個(gè)步驟:

(1)根據(jù)淺層短語結(jié)構(gòu)分析和依存句法分析構(gòu)建淺層的依存樹??刹捎脺\層句法分析器Sundance實(shí)現(xiàn)組塊分析,并且采用Stanford句法分析器實(shí)現(xiàn)依存樹的構(gòu)建。其中,組塊作為依存樹中的節(jié)點(diǎn),邊表示組塊之間的依存關(guān)系;

(2)識(shí)別產(chǎn)品屬性和候選評(píng)價(jià)。首先,使用觀點(diǎn)詞典以過濾候選評(píng)價(jià),觀點(diǎn)詞典包含著8 221個(gè)觀點(diǎn)表達(dá)。其次,假設(shè)與候選評(píng)價(jià)越近似的組塊,自身是產(chǎn)品屬性的可能就越大,憑此識(shí)別產(chǎn)品屬性;

(3)構(gòu)建產(chǎn)品屬性和評(píng)價(jià)之間的關(guān)系??蓪㈥P(guān)系構(gòu)建視為一個(gè)分類任務(wù),而將所有的產(chǎn)品屬性和候選評(píng)價(jià)視為潛在關(guān)系??刹捎弥С窒蛄繖C(jī)分類器實(shí)現(xiàn)關(guān)系構(gòu)建,特征包括上下文和詞性。現(xiàn)已在手機(jī)和數(shù)碼相機(jī)領(lǐng)域驗(yàn)證了此方法的可行性和有效性。

在輿情分析研究方面,Wu等[24]提出基于圖的句級(jí)情感分析模型。引入了線性規(guī)劃結(jié)構(gòu)學(xué)習(xí)方法產(chǎn)生輸入句子的圖形表示。圖中節(jié)點(diǎn)包括評(píng)價(jià)目標(biāo)、觀點(diǎn)表達(dá)和觀點(diǎn)修飾。邊表示節(jié)點(diǎn)之間的關(guān)系,具體包括觀點(diǎn)表達(dá)和修飾之間的關(guān)系,以及觀點(diǎn)表達(dá)之間的關(guān)系,并且包含單個(gè)觀點(diǎn)之間的語義關(guān)系。通過圖,可以將之前被忽略的各種信息融合進(jìn)來。該模型的優(yōu)勢(shì)在于,借助觀點(diǎn)之間的關(guān)系,可更加精確地判定句子的整體情感極性。Nakagawa等[25]提出借助依存分析結(jié)果實(shí)現(xiàn)中文和日文主觀句情感分類。主觀句通常包括將情感極性反轉(zhuǎn)的詞匯。包含積極(或消極)的情感詞的句子不一定表達(dá)與情感詞相同的極性。因此在情感分析中需要考慮詞匯之間的修飾對(duì)詞匯情感極性的影響,但是采用詞袋的方法很難解決這個(gè)問題。若采用規(guī)則方法實(shí)現(xiàn)句子極性判斷,則不能從語料中學(xué)習(xí)情感信息,而且規(guī)則的適用性十分有限,同時(shí)需要大量的人力、物力構(gòu)建規(guī)則。嘗試借助依存句法分析解決這個(gè)問題。句子的情感標(biāo)注不應(yīng)該只標(biāo)注句子的整體情感極性,而應(yīng)該存在句子的局部情感極性標(biāo)注,并且利用這些局部標(biāo)注信息來實(shí)現(xiàn)情感分類。在該方法中,將句子轉(zhuǎn)化為依存樹結(jié)構(gòu),再將句子的依存樹中每一個(gè)依存子樹的情感極性表示為隱式變量,整句的情感極性則可由隱式變量之間的交互而共同決定。

3結(jié)束語

本文重點(diǎn)總結(jié)了在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時(shí)面對(duì)的語料匱乏和特征選擇兩個(gè)問題的相關(guān)研究。此外,分析和總結(jié)了依存句法分析模型一體化的優(yōu)缺點(diǎn)。最后,介紹了如何應(yīng)用現(xiàn)有模型解決事件抽取、產(chǎn)品評(píng)論挖掘、以及輿情分析問題。盡管現(xiàn)有模型在依存句法分析方面取得了一定成功,但也存在相應(yīng)不足。首先,現(xiàn)有模型需要大規(guī)模的標(biāo)注語料用于訓(xùn)練與評(píng)價(jià),這種需求并且隨著互聯(lián)網(wǎng)的發(fā)展日益增長,由此產(chǎn)生嚴(yán)重的標(biāo)注語料匱乏問題,僅靠上述方法無法從根本上獲得解決。其次,盡管基于有監(jiān)督學(xué)習(xí)的依存句法分析模型性能最佳,但該模型只能在有限的數(shù)據(jù)集合上完成一次模型參數(shù)學(xué)習(xí),在其后的使用過程中無法自動(dòng)調(diào)節(jié)模型參數(shù)來適應(yīng)領(lǐng)域和用戶個(gè)人興趣的變化。經(jīng)由本文研究,可得只有借助用戶反饋,構(gòu)建連續(xù)學(xué)習(xí)的依存句法分析模型才能解決上述問題。根據(jù)用戶反饋無間斷地調(diào)整模型參數(shù),以此適應(yīng)領(lǐng)域和用戶興趣的變化,同時(shí)用戶在使用該模型時(shí)也一并完成完了語料標(biāo)注工作,從而克服了標(biāo)注語料缺乏的困境。

參考文獻(xiàn):

[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.

[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.

[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.

[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.

[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.

[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.

[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.

[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.

[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.

[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.

[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.

[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.

[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.

[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.

[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.

[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.

[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.

[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.

[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.

[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.

[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.

篇(3)

中圖分類號(hào):TP3-05文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):16727800(2012)009000303

1文本情感研究的背景

所謂文本情感分析(Sentiment Analysis),就是對(duì)說話人的觀點(diǎn)、態(tài)度和情感傾向性進(jìn)行分析,即分析文本中表達(dá)的主觀性信息。根據(jù)立場(chǎng)、出發(fā)點(diǎn)、個(gè)人態(tài)度和喜好的不同,人們對(duì)各種對(duì)象和事件表達(dá)的信念、態(tài)度、意見和情感的傾向性不可避免地存在差異。在論壇、微博等反映人們觀點(diǎn)的網(wǎng)絡(luò)媒體上,尤其表現(xiàn)出了這種差異。

文本情感分析在實(shí)際生活中有著廣泛的應(yīng)用,可以應(yīng)用于產(chǎn)品推薦系統(tǒng)、有害信息過濾、社會(huì)輿情分析、產(chǎn)品在線跟蹤和質(zhì)量評(píng)價(jià)、影視評(píng)價(jià)、Blogger聲譽(yù)評(píng)價(jià)、新聞報(bào)道評(píng)述、事件分析、股票評(píng)論、圖書推薦、敵對(duì)信息檢測(cè)、企業(yè)情報(bào)系統(tǒng)等方面。

在已有研究中,文本情感分析也被稱作觀點(diǎn)鑒別(Opinion Classification)、流派分類(Genre classification)、情感的極性(Sentiment polarity)、語義傾向(semantic orientation)、觀點(diǎn)挖掘(opinion mining)、觀點(diǎn)抽?。╫pinion extractive)等,為了表述的一致性,本文中將其統(tǒng)一表述為情感分析。

文本情感分析通常包含4個(gè)子問題:①確定文本情感的類別有多少;②文本的主客觀區(qū)分,即區(qū)分出文本內(nèi)容是主觀評(píng)論還是客觀陳述;③文本的極性分類(Polarity Classification),又稱為正負(fù)面傾向性分類,即判別文本內(nèi)容是肯定贊賞的,還是否定批判的;④文本情感強(qiáng)度分類,即判定文本情感傾向性的強(qiáng)弱程度,如強(qiáng)烈貶義、一般貶義、客觀、一般褒揚(yáng)、強(qiáng)烈褒揚(yáng)5個(gè)類別,這一問題通常又被稱為等級(jí)推理(Rating Inference)。

2文本情感分析整體研究現(xiàn)狀

目前,公認(rèn)的關(guān)于文本情感分析的研究工作開始于Pang在2002年提出的基于文本的N元語法(Ngram)和詞類(POS)等特征,分別使用樸素貝葉斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量機(jī)(Support Vector Machine,SVM)將電影評(píng)論文本的傾向性分為正向和負(fù)向兩類。此外還有Turney在2002年提出的基于無監(jiān)督學(xué)習(xí)(Unsupervised Learning)對(duì)文本情感傾向性分類的研究。同時(shí)他們?cè)趯?shí)驗(yàn)中使用的電影評(píng)論數(shù)據(jù)集目前已成為廣泛使用的情感分析的測(cè)試集。

如今,國內(nèi)外都已經(jīng)掀起了文本情感的研究熱潮,很多研究團(tuán)體、科研院校、公司已經(jīng)對(duì)文本情感展開了研究。把這些相關(guān)的研究分為4個(gè)階段:①語料階段;②文本的預(yù)處理階段;③特征標(biāo)注與特征選擇階段;④情感分類階段。

2.1語料階段

目前絕大部分語料都來自博客、專業(yè)的評(píng)論站點(diǎn)、新聞?wù)军c(diǎn)、電子商務(wù)站點(diǎn)。而其中影評(píng)資料、產(chǎn)品的用戶評(píng)論、Web 2.0博客文章是研究者的首選。

康奈爾大學(xué)的電影評(píng)論數(shù)據(jù)集以及Theresa Wilson等建立的MPQA庫是目前研究者廣泛使用的兩類情感分析數(shù)據(jù)集。

2.2文本的預(yù)處理階段

文本情感分析的預(yù)處理包括:停用詞、詞綴修剪、N元詞、詞性標(biāo)準(zhǔn)、簡化替換(如書替換為NOUN、照相機(jī)替換產(chǎn)品名)等,但這些有意“美化”的處理都會(huì)降低情感分析的準(zhǔn)確率。

此外,主觀句識(shí)別也屬于文本情感分析的預(yù)處理階段。該研究的目標(biāo)是需要提取文本的真正表達(dá)情感的句子。Pang于2004年提出基于文本中的主觀句的選擇和Wilson等人于2005年開創(chuàng)了在短語層進(jìn)行主觀性分析的研究工作,提出基于文本中中性實(shí)例(Neutral Instances)的分析,他們根據(jù)28個(gè)混合特征訓(xùn)練了一個(gè)分類器,都是為了能夠盡量獲得文本中真正表達(dá)情感的句子。Abbasi于2008年提出通過信息增益(Information Gain,簡稱IG)的方法來選擇大量特征集中對(duì)于情感分析有益的特征。

2.3特征標(biāo)注與特征選擇階段

情感特征的標(biāo)注方法目前主要包括:

(1)監(jiān)督機(jī)器學(xué)習(xí)的方法,由已有的電子詞典或詞語知識(shí)庫擴(kuò)展生成的情感傾向詞典。情感詞就是指具有情感傾向的詞語以名詞、動(dòng)詞、形容詞和副詞為主,包括人名、機(jī)構(gòu)名、產(chǎn)品名、事件名等命名實(shí)體。其中,部分詞語的褒貶性(或稱為極性,通常分為褒義、貶義和中性)可以通過查字典獲得,其它的極性與情感傾向性的強(qiáng)烈程度都無法直接獲得。

使用情感詞作為特征的研究有:

朱嫣嵐等人提出了基于知網(wǎng)的兩種詞匯語義傾向計(jì)算方法,即基于語義相似度的方法和基于語義相關(guān)場(chǎng)的方法。

婁德成和姚天昉也是通過計(jì)算文本中詞匯與知網(wǎng)中已標(biāo)注褒貶性詞匯間的相似度,來獲取詞匯的語義傾向性。

目前,依靠語料或字典語料結(jié)合構(gòu)建意見詞典成為主流。由于目前用于情感分析的中文標(biāo)注語料較少,即當(dāng)目標(biāo)領(lǐng)域不存在標(biāo)注語料時(shí),Xiaojun Wan通過谷歌翻譯等機(jī)器翻譯服務(wù),利用英語標(biāo)注語料和中文未標(biāo)注語料彌補(bǔ)中文標(biāo)注語料不足的問題。此外,還有Danushka Bollegala等提出算法可以通過其它領(lǐng)域標(biāo)注語料和目標(biāo)領(lǐng)域的未標(biāo)注語料生成意見挖掘所需的情感敏感詞典。

(2)無監(jiān)督機(jī)器學(xué)習(xí)的方法。Turney在2002年基于點(diǎn)互信息(PMI)計(jì)算文本中抽取的關(guān)鍵詞和情感基準(zhǔn)詞(Excellent, Poor)的相似度來對(duì)文本的情感傾向性進(jìn)行判別(SOPMI算法)。實(shí)現(xiàn)方法簡單,此算法得到了很多研究者的推薦。

Yuan等人在Turney的研究工作的基礎(chǔ)上,對(duì)漢語極性詞的自動(dòng)獲取進(jìn)行了研究,發(fā)現(xiàn)采用一個(gè)字符的漢語情感詞比漢語情感詞的效果要好。

(3)情感特征的選擇方法。目前很多情感分析的研究基于機(jī)器學(xué)習(xí),那么特征選擇就是一個(gè)很重要的問題,N元語法等句法特征是使用最多的一類特征,Wilson等人于2009年提出混合單詞特征、否定詞特征、情感修飾特征、情感轉(zhuǎn)移特征等各類句法特征的情感分析,Abbasi等人于2008年提出混合句子的句法(N元語法、詞類、標(biāo)點(diǎn))和結(jié)構(gòu)特征(單詞的長度、詞類中單詞的個(gè)數(shù)、文本的結(jié)構(gòu)特征等)的情感分析。Melville等人于2009年提出結(jié)合情感詞的先驗(yàn)的基于詞典的情感傾向性和訓(xùn)練文本中后驗(yàn)的基于上下文的情感傾向性共同判斷文本的情感傾向性。

另外,傳統(tǒng)的文本特征選擇方法有監(jiān)督特征選擇方法CHI、IG、MI和無監(jiān)督特征選擇方法DF、TS、TC、En。這些方法應(yīng)用到這些情感特征選擇上的效果如何還有待實(shí)驗(yàn)驗(yàn)證。

2.4情感分類階段

(1)情感建模的方法?;诒O(jiān)督學(xué)習(xí)算法的情感分析仍然是主流,Zhang等人于2009年提出基于非負(fù)矩陣三分解(Nonnegative Matrix Trifactorization),Abbasi等人于2008年提出基于遺傳算法(Genetic Algorithm)的情感分析之外,使用最多的監(jiān)督學(xué)習(xí)算法是樸素貝葉斯、k最近鄰(KNearest Neighbor,KNN)、最大熵和支持向量機(jī)等。

此外還有基于規(guī)則和無監(jiān)督的建模方法。婁德成等人于2006年利用句法結(jié)構(gòu)和依存關(guān)系對(duì)中文句子語義進(jìn)行了情感分析,Zagibalov等人于2008年在SOPMI算法的基礎(chǔ)上通過對(duì)于中文文本特征的深入分析以及引入迭代機(jī)制在很大程度上提高了無監(jiān)督學(xué)習(xí)情感分析的準(zhǔn)確率。

(2)情感分析的其它研究點(diǎn)。除以上介紹的情感分析關(guān)注情感的分類以外,還有評(píng)論對(duì)象的識(shí)別、情感傾向性論述的持有者識(shí)別、抽取句子中評(píng)價(jià)詞語和目標(biāo)對(duì)象之間的關(guān)聯(lián)關(guān)系、評(píng)價(jià)傾向極性的強(qiáng)度等研究方向等等。

(3)目前已有系統(tǒng)。目前很多系統(tǒng)已經(jīng)問世,例如:日本富士通公司開發(fā)了從中、日、英三國語言的博客和論壇中提取對(duì)企業(yè)及其產(chǎn)品的評(píng)價(jià)信息的技術(shù),根據(jù)從萬維網(wǎng)上抓取的大量用戶的評(píng)論得到產(chǎn)品的整體信譽(yù)度。

上海交通大學(xué)開發(fā)了一個(gè)用于“漢語汽車論壇”的意見挖掘系統(tǒng)。目的是在電子公告板、門戶網(wǎng)站的各大論壇上挖掘并且概括顧客們對(duì)各種汽車品牌的不同性能指標(biāo)的評(píng)論和意見,并判斷這些意見的褒貶性和強(qiáng)度。然后,通過對(duì)文本處理的綜合統(tǒng)計(jì),給出可視化的結(jié)果。該系統(tǒng)仍需要在特征獲取、權(quán)重計(jì)算等方面進(jìn)行完善。

綜合以上研究現(xiàn)狀,對(duì)比國內(nèi)外的研究進(jìn)展,對(duì)于國內(nèi)來講,中文文本情感分析可以說剛剛起步,與國外的主要差距表現(xiàn)在:①在基礎(chǔ)資源建設(shè)方面,還沒有建立起一個(gè)公開、公用、權(quán)威、標(biāo)準(zhǔn)的詞典資源和具有一定規(guī)模的標(biāo)準(zhǔn)語料資源;②在研究方案方面,從詞語、短語、搭配、句子到文本,主要跟蹤借鑒國外研究思路與技術(shù)路線進(jìn)行嘗試。

3中文文本情感分析亟待解決的問題

相比傳統(tǒng)的文本分類,情感分類有先天的困難和挑戰(zhàn),主要表現(xiàn)在:①自然文本中表達(dá)方式的多樣化:比喻、附和、諷刺、正話反說等;②句式的復(fù)雜性:比較型的句子、各種不同的習(xí)慣用語、句式的不同搭配等;③訓(xùn)練數(shù)據(jù)的稀疏性和不均衡性。這些都造成了目前較為狹窄的應(yīng)用領(lǐng)域,不能同時(shí)獲得較高的準(zhǔn)確率和召回率。

中文文本情感分析研究方興未艾,仍然存在很多問題亟待解決,未來的研究將主要圍繞以下幾個(gè)方向展開:

(1)建立標(biāo)準(zhǔn)的中文文本情感詞庫及標(biāo)準(zhǔn)的文本情感測(cè)試語料庫。標(biāo)準(zhǔn)完善的數(shù)據(jù)庫是驗(yàn)證算法的有力工具。因此創(chuàng)建更大規(guī)模且更標(biāo)準(zhǔn)的中文文本情感數(shù)據(jù)庫是下一步工作的重中之重。

(2)選擇最優(yōu)文本情感特征集。文本情感特征是中文文本情感分析研究的第一步,在很大程度上影響最終的列表識(shí)別結(jié)果。一個(gè)詞存在多維度的情感,因此,單純依靠情感詞并不能準(zhǔn)確判定所有情況下的情感和意見。所以,對(duì)于情感特征集選擇技術(shù)需要我們進(jìn)一步的研究和完善。

(3)選擇合理有效的文本情感分類方法。情感特征的權(quán)重簡單累加并不意味著情感表達(dá)能力的累加,緊致有效的特征表達(dá)方法是跨越“語義鴻溝”的重要手段。人們往往通過各種手段多渠道地獲取各種各樣的情感特征,并通過不同分類器的融合表示它們。但這方法需要在更多的情感分析領(lǐng)域進(jìn)行實(shí)驗(yàn)驗(yàn)證,未來還需要開展融合多方面文本情感特征的工作。

(4)可靠性研究。文本情感中評(píng)論的真實(shí)性通過信用評(píng)價(jià)來衡量,不真實(shí)甚至是混淆視聽的評(píng)論稱為意見垃圾(Opinion Spam)或虛假評(píng)論,也將是未來研究的方向之一。

參考文獻(xiàn):

[1]LIU B. Web data mining: exploring hyperlinks, contents [M].Usage Data. Springer,2011.

[2]PANG B, LEE L, VAITHYANATHAN S. Thumbs sentiment classification using machine learning techniques[C]. EMNLP,2002.

[3]TURNEY P D. Thumbs up or thumbs down semantic orientation applied to unsupervised classification of reviews[C]. ACL,2002.

[4]PANG B, LEE L. A sentiment education: sentiment analysis using subjectivity summarization based on minimum cuts[C]. ACL,2004.

[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phraselevel sentiment analysis [C]. HLTEMNLP,2005.

[6]ABBASI A, CHEN H, SALEM A. Sentiment analysis in multiple languages: feature selection for opinion classification in Web forums[C].ACM Transaction on Information Systems,2008.

[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(1).

[8]婁德成,姚天昉.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006(11).

[9]XIAOJUN WAN. Bilingual cotraining for sentiment classification of Chinese product reviews[J]. Computational Linguistics,2011(3).

[10]CLIFTON, ANN AND SARKAR, ANOOP. Combining morphemebased machine translation with postprocessing morpheme prediction[C]. ACL HLT,2011.

[11]YUAN R W M, CHAN T Y W, LAI T B Y, KWONG O Y. Morphemebased derivation of bipolarsemantic rientation of chinese words[C]. COLING.2004.

[12]MELVILLE P, GRYC W, LARENCE R D. Sentiment analysis of blogs by combining lexical knowledge with text classification [C]. KDD,2009.

[13]ZHANG T L Y, SINDHWANI V. A nonnegative matrix trifactorization approach to sentiment classification with lexical Prior knowledge[C]. ACL,2009.

上一篇: 中小學(xué)德育的方法 下一篇: 小學(xué)音樂教資筆試
相關(guān)精選
相關(guān)期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
日本一点不卡高清 | 亚洲成a人片在线观看高清 亚洲国产精品视频中文字幕 | 中文字幕日韩欧美 | 亚洲视频在线看 | 日本中文字幕久久网站 | 在线播放中文有码国产 |