銀行輿情工作總結(jié)匯總十篇

時間:2022-05-26 06:17:50

序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇銀行輿情工作總結(jié)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

銀行輿情工作總結(jié)

篇(1)

2010年4月13日,住建部出臺的《關于進一步加強房地產(chǎn)市場監(jiān)管完善商品住房預售制度有關問題的通知》(建房〔2010〕53號)明確要求:各地要加快完善商品住房預售資金監(jiān)管制度。尚未建立監(jiān)管制度的地方,要加快制定本地區(qū)商品住房預售資金監(jiān)管辦法。商品住房預售資金要全部納入監(jiān)管賬戶,由監(jiān)管機構(gòu)負責監(jiān)管,確保預售資金用于商品住房項目工程建設;預售資金可按建設進度進行核撥,但必須留有足夠的資金保證建設工程竣工交付?!冻啥际猩唐贩款A售款監(jiān)管辦法(試行)》于同年9月30日印發(fā),同年11月1日,成都市正式實施商品房預售資金監(jiān)管。2015年10月9日,成都市城鄉(xiāng)房產(chǎn)管理局印發(fā)《成都市商品房預售款監(jiān)管辦法》,完成對原辦法的修訂。

成都市實施商品房預售資金監(jiān)管6年有余,但成都市在建商品房項目爛尾情況仍未得到完全杜絕,由商品房預售項目爛尾引發(fā)的也時有發(fā)生。在梳理成都市部分預售項目爛尾的成因時發(fā)現(xiàn),部分爛尾項目開發(fā)商存在挪用預售資金的情況。因此,進一步完善和加強商品房預售資金監(jiān)管尤為必要。

1.加大監(jiān)督檢查及懲處力度

監(jiān)督檢查是懸掛在開發(fā)企業(yè)頭頂上的達摩克利斯之劍,讓開發(fā)企業(yè)緊繃守法遵規(guī)之弦。除常態(tài)例行檢查之外,加強飛行檢查,即在被檢查單位不知曉的情況下進行的啟動慎重、行動快的檢查,以此及時掌握真實情況,讓監(jiān)管部門做到心中有數(shù)。此外,還可采取重點檢查手段。在當今信息傳播手段日益簡便快捷、制度日益完善的情況下,及時根據(jù)輿情及情況,重點檢查輿情反應大、突出的項目。

2.采取有效措施對違法行為予以嚴厲打擊

根據(jù)《成都市商品房預售款監(jiān)管辦法》,開發(fā)企業(yè)不按規(guī)定繳存、使用預售款以及利用其他賬戶替代預售款專用賬戶的,由市、縣房產(chǎn)行政主管部門責令限期改正;情節(jié)嚴重或逾期仍不改正的,按照《城市商品房預售管理辦法》的相關規(guī)定對違法行為予以行政處罰。監(jiān)管銀行未履行監(jiān)管協(xié)議約定職責,除承擔相應法律責任外,由主管部門予以公示不得再在本市從事商品房預售款監(jiān)管事宜,并將有關情況抄送銀行業(yè)主管部門。根據(jù)《城市商品房預售管理辦法》,開發(fā)企業(yè)不按規(guī)定使用商品房預售款項的,由房地產(chǎn)管理部門責令限期糾正,并可處以違法所得3倍以下但不超過3萬元的罰款。在當前高企的房價面前,法定的罰金金額對開發(fā)企業(yè)而言幾乎可忽略不計,換言之,罰款對于開發(fā)企業(yè)違法行為基本上毫無震懾力。監(jiān)管部門除責令開發(fā)企業(yè)限期改正等告誡類措施外,可采取暫停網(wǎng)簽、暫停受理新預售許可申請等行政管理措施。

《成都市商品房預售款監(jiān)管辦法》僅由房產(chǎn)管理部門單獨制定,銀行業(yè)管理部門未參與聯(lián)合發(fā)文,該辦法對監(jiān)管銀行的違規(guī)行為懲處規(guī)定不夠強硬,威懾力不足。在實際操作中,房管部門將銀行存在的預售款監(jiān)管違規(guī)行為書面函送銀行業(yè)主管部門后,違規(guī)銀行受到的懲處力度很小甚至零懲處。因此,在對監(jiān)管銀行進行督促、指導,促使銀行全面履行監(jiān)管職責的同時,房管部門可建立黑名單制度,采取暫?;蚪K止受理存在嚴重違反《成都市商品房預售款監(jiān)管辦法》規(guī)定行為的商業(yè)銀行與任何開發(fā)企業(yè)簽訂的包含《預售款監(jiān)管協(xié)議》在內(nèi)的預售方案審查申請。

3.要加強技術創(chuàng)新,進一步優(yōu)化監(jiān)管手段

進一步優(yōu)化和完善房管金融信息服務交互平臺并建立預售款監(jiān)管信息系統(tǒng),將取得商品房預售許可證的商品房實時交易備案情況與銀行監(jiān)管賬戶的實時入賬情況進行匹配計算,監(jiān)察入賬情況;將資金使用計劃、工程進度計劃納入信息系統(tǒng)以規(guī)范預售款撥付,并通過信息系統(tǒng)自動監(jiān)察各個預售項目預售款收支,同時通過設定資金足額量、資金撥付額與資金使用計劃及工程進度匹配度等風險控制指標建立預警機制,對超過風險控制線的預售款暫停撥付并啟動現(xiàn)場督察程序。通過技術創(chuàng)新,實現(xiàn)預售款監(jiān)管從入賬到撥付全流程、動態(tài)化、規(guī)范化的全面監(jiān)控。此外,可通過預售款監(jiān)管信息系統(tǒng)實現(xiàn)對全部預售項目預售款監(jiān)管進行大數(shù)據(jù)分析,通過監(jiān)管大數(shù)據(jù)對參與預售款監(jiān)管的各商業(yè)銀行監(jiān)管能力及服務水平進行考核,為建立監(jiān)管銀行優(yōu)勝劣汰的淘汰機制提供基礎條件。

4.加強合同備案審查,防止虛假交易、確保預售款納入監(jiān)管

《城市商品房預售管理辦法》規(guī)定:商品房預售,開發(fā)企業(yè)應當與承購人簽訂商品房預售合同。開發(fā)企業(yè)應當自簽約之日起30日內(nèi),向房地產(chǎn)管理部門和市、縣人民政府土地管理部門辦理商品房預售合同登記備案手續(xù)。長期以來,成都市對預售商品房合同備案的審查主要是采取開發(fā)商自主備案、房管部門嚴管備案變更及注銷的模式,事前及事中監(jiān)管較松,事后監(jiān)管較嚴。在這種模式下,開發(fā)企業(yè)通過備案系統(tǒng)進行虛假備案以達到變相融資(通過備案到債權(quán)人或擔保人名下作為融資擔保)、惡意逃避查封(由于只能查封在房管系統(tǒng)中開發(fā)企業(yè)名下未售房源,開發(fā)企業(yè)可自行將房源備案至相關主體名下造成房源全部售完的假象導致無房可封)、捂盤惜售(操作手法類似惡意逃避查封)等虛假交易的目的,由于這些虛假交易并未存在真實購房款,對這些虛假交易房源的預售款監(jiān)管也無從談起。此外,部分開發(fā)商在購房人支付首付款或全部購房款時,通過非監(jiān)管銀行POS機等渠道將這些資金打入其他賬戶,繞開預售資金監(jiān)管,為開發(fā)企業(yè)挪用現(xiàn)售資金提供了便利。

因此,為避免上述不良行為的發(fā)生并確保預售款監(jiān)管實現(xiàn)全面覆蓋,加強合同備案審查尤為必要。在購房資格審查通過后(如有該項審查),開發(fā)企業(yè)可通過房管系統(tǒng)的開發(fā)企業(yè)用戶端進行預售商品房合同擬定,但在完成備案前,開發(fā)企業(yè)應當將購房人的付款憑證及資金進入預售款監(jiān)管賬戶的證明資料提交房管部門進行購房真實性及預售款入~審查,待審查通過后,房管工作人員通過房管系統(tǒng)房管用戶端解除備案限制,開發(fā)企業(yè)方可完成合同備案。

二、進一步完善預售商品房質(zhì)量保證機制

在建工程爛尾往往是開發(fā)商實力較弱、資金鏈斷裂造成,相較而言小型開發(fā)企業(yè)開發(fā)項目發(fā)生爛尾或存在商品房質(zhì)量問題的風險要比大型開發(fā)企業(yè)要高。住建部出臺的《關于進一步加強房地產(chǎn)市場監(jiān)管完善商品住房預售制度有關問題的通知》(建房〔2010〕53號)明確要求:暫定資質(zhì)的房地產(chǎn)開發(fā)企業(yè)在申請商品住房預售許可時提交的預售方案,應當明確企業(yè)破產(chǎn)、解散等清算情況發(fā)生后的商品住房質(zhì)量責任承擔主體,由質(zhì)量責任承擔主體提供擔保函。質(zhì)量責任承擔主體必須具備獨立的法人資格和相應的賠償能力。由于該通知未明確規(guī)定質(zhì)量責任承擔主體賠償能力的審查標準,各地在實際執(zhí)行預售商品房質(zhì)量保證機制時僅對質(zhì)量責任承擔主體提供擔保函做形式審查,對于該主體是否具有賠償能力無法做出判斷,造成了該機制的實施基本上流于形式。因此,作為承擔實際監(jiān)管職責的房管部門可結(jié)合地方實際進一步完善預售商品房質(zhì)量保證機制。房屋質(zhì)量責任承擔主體應當具有較為雄厚資金實力及管理運營經(jīng)驗,可從工商注冊實繳資本金、近段時期(如近3年)賬戶資產(chǎn)情況、成立時間(如不低于5年)、主營范圍等維度考量。同時對房屋質(zhì)量責任承擔具有較大風險的主體類型進行排除,例如:暫定資質(zhì)的房地產(chǎn)開發(fā)企業(yè)不能作為其他房地產(chǎn)企業(yè)開發(fā)項目的房屋質(zhì)量責任承擔主體。

三、進一步完善信息公開機制

房地產(chǎn)市場存在明顯信息不對稱,開發(fā)企業(yè)具有項目信息主導優(yōu)勢,往往會對相關不利信息予以屏蔽或隱瞞,購房人獲得預售項目相關信息的來源及渠道較為缺乏。由于信息不對稱,購房人在信息不充分的情況下作出的購房決策可能存在盲目性。因此,在不涉及商業(yè)機密的前提下,盡可能展現(xiàn)作為交易商品的房屋相關信息,需要進一步完善信息公開機制。

1.信息渠道分散

房地產(chǎn)開發(fā)產(chǎn)業(yè)鏈條長,涉及的政府部門及公眾部門多,各部門獨自自身掌握的信息,導致房產(chǎn)相關信息渠道分散,購房人全面收集相關信息費時費力。例如:工商主管部門掌握開發(fā)企業(yè)經(jīng)營信息、建設主管部門掌握開發(fā)項目工程建設信息、房管部門掌握開發(fā)項目銷售信息、銀行主管部門掌握開發(fā)企業(yè)及其實際控制人的信用信息等,購房人若要全面調(diào)查了解到所有相關信息,需要到各個政府主管部門查詢、核實,費時費力的同時還不一定能得到全面信息。

2.信息不及時、不全面

一些主管部門存在對監(jiān)管中掌握的信息不及時、不全面的情況。一些信息僅在工作總結(jié)中草草帶過,對于購房人而言,獲得的信息越及時、越全面,越有助于其做購房決策。

3.信息聚合程度低

相關信息渠道分散及信息不及時、不全面導致了信息聚合程度低,極大增加了購房人整理、利用這些信息的難度。

為了進一步增加房地產(chǎn)市場信息透明度,應加強頂層設計,進一步完善信息公開機制。

篇(2)

關鍵詞:

潛在狄里克雷分配;主題模型;Kmeans++聚類;聚簇評價;熱點話題

0引言

作為Web 2.0技術迅猛發(fā)展的產(chǎn)物,網(wǎng)絡論壇使人們能更多地參與到日常話題的互動中,因此論壇成為了重要輿情的發(fā)源地與傳播地。及時地發(fā)現(xiàn)輿情有利于政府部門的治國理政,也為企業(yè)的發(fā)展決策、危機公關處理等提供了輿論向?qū)?,因此熱點話題挖掘成為了輿情監(jiān)測領域的一個重要研究方向。

對于熱點話題挖掘的問題,相關研究人員進行了大量的研究。丁偉莉等[1]對博客用向量空間模型建模后使用SinglePass算法進行聚類來發(fā)現(xiàn)其中的話題;邱立坤等[2]在對網(wǎng)絡論壇中文本數(shù)據(jù)用向量空間建模并聚類后利用點擊數(shù)與評論數(shù)對結(jié)果排序來發(fā)現(xiàn)熱點話題;王偉等[3]對用傳統(tǒng)向量空間模型表示的網(wǎng)頁信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚類算法進行兩次聚類來發(fā)現(xiàn)熱點輿情。以上研究中都用到了向量空間模型表示文本,它并沒有融入語義信息,這會使得語義不相關的信息出現(xiàn)在同一聚簇中,從而造成了主題信息的丟失,影響了聚類的效果。席耀一等[4]與劉嵩等[5]在對論壇話題追蹤時利用知網(wǎng)語義庫為詞匯加入了語義信息,并用它作為文檔表示模型來計算文檔的語義相似度[6],這種方法在很大程度上緩解了主題丟失的問題,但論壇信息的快速更新使得這種融入了監(jiān)督成分的方法仍然不能達到理想的效果,而且維護知網(wǎng)語義信息也是個難題。劉霄等[7]通過利用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)主題模型為Twitter數(shù)據(jù)建模來發(fā)現(xiàn)突發(fā)的熱點話題,PLSA成功地利用概率統(tǒng)計的方法來為文本建模,但它并沒有在文檔與主題的層面上給出一個合適的概率模型,PLSA中文檔的主題分布與主題中詞的分布是模型的參數(shù),它們會隨著文檔增多而增加,這樣它只能生成給定文檔集合上的模型,在新的文本加入時還要重新訓練,另外當訓練集有限的情況PLSA還可能會出現(xiàn)過度擬合的現(xiàn)象[8]。

本文熱點話題挖掘的研究對象是網(wǎng)絡論壇數(shù)據(jù)集,它不同于新聞網(wǎng)頁中經(jīng)過專業(yè)編輯處理過的文本,它有著自己的特點:1)口語化,帖子者來自不同的地方,也有不同的經(jīng)歷與背景,在表達同一觀點時措辭會有很大不同,經(jīng)常會有錯別字或網(wǎng)絡新詞匯產(chǎn)生,這就使得詞匯噪聲較多;2)篇幅差距較大,有些帖子的論述比較多,另一類只通過帖子的標題來傳達信息,這會造成詞匯矩陣稀疏的問題。

針對以上研究中的不足以及論壇文本數(shù)據(jù)的特點,本文采用潛在狄里克雷分配(Latent Dirichlet Allocation,LDA)主題模型對論壇文本數(shù)據(jù)建模,在對數(shù)據(jù)集進行聚類基礎上提出基于主題聚簇的評價方法對聚簇進行排名。該方法在考慮主題的關注度同時,還對聚簇內(nèi)部所含主題的突發(fā)性與主題純凈度加以考慮。通過對最有可能出現(xiàn)熱點話題的聚簇進行信息抽取后設計話題展示的方法來完成熱點話題挖掘任務。

1系統(tǒng)整體框架

對論壇文本集預處理后用LDA主題模型建模,將文本表示由高維詞匯空間映射到了低維主題空間,這樣就去除了詞匯噪聲的影響,之后用處理規(guī)模相似的訓練集進行聚類實驗,從對聚類的速度與效果兩方面考慮得出合適的主題噪聲閾值與聚類中心數(shù)目,然后用優(yōu)化聚類中心選擇的Kmeans++算法對主題空間中表示的文本集合進行聚類,之后通過主題聚簇用評價方法對出現(xiàn)熱點話題可能性賦予權(quán)重,最后從最有可能出現(xiàn)熱點話題的聚簇中用本文提出的描述方法提取出熱點話題信息作為展示。

2論壇熱點話題挖掘

2.1論壇文本建模

2.1.1LDA主題模型

LDA主題模型是一種三層貝葉斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以無監(jiān)督的學習方法從文本集合中發(fā)現(xiàn)其中隱含的語義信息。

根據(jù)LDA模型的描述,文本集合可以按以下算法生成。

2.1.2模型求解

LDA主題模型求解模型的過程就是在給定模型參數(shù)的條件下,最大化式(2)中描述的每個文檔的生成概率的問題:

p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2

LDA模型求解是困難的問題,很難有精確的解法。實踐中常用到的有兩種不精確的解法:一種是基于變分法的EM(EstimationMaximization)算法求解[8];另一種求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一種,其理論基礎是馬爾可夫鏈收斂定理,通過構(gòu)造符合馬爾可夫鏈細致平衡條件的狀態(tài)轉(zhuǎn)移矩陣,讓任意給定的初始分布通過轉(zhuǎn)移矩陣迭代轉(zhuǎn)移,使其收斂到目標分布。Gibbs Sampling算法采樣公式推導起來簡單而且實際應用中運行效果也十分理想。

Gibbs Sampling求解方法采用了與式(2)提到的方法所不同的思想,它不直接將φ與θ作為模型參數(shù)來估計,而是先計算后驗概率p(z|w),再對模型隱含變量進行估計。以下是Gibbs Sampling算法求解LDA模型變量的步驟。

2.1.3論壇文本建模

本文采用了JGibbsLda[10]LDA建模工具對預處理后的論壇文本數(shù)據(jù)進行建模分析。參考文獻[11]中LDA主題模型參數(shù)的經(jīng)驗值,取α=50/K, β=0.1,其中K為指定的潛在主題數(shù),Gibbs Sampling的次數(shù)N設為1000。

Gibbs Sampling算法結(jié)束時會產(chǎn)生兩個矩陣:

大小為M×K的文檔——主題分布矩陣,其中M為論壇文檔集數(shù)目;大小為K×Nw的主題——詞的概率分布矩陣,其中Nw為文檔集中詞匯表的大小。

2.1.4主題噪聲去除

通過對文檔集主題分布矩陣觀察發(fā)現(xiàn),每個主題分布中會出現(xiàn)一個或幾個突出的主要主題,其他次要的主題所占的比重可以忽略。為了突出主要主題的影響,采用了以下規(guī)則對主題噪聲進行去除:假設每個文檔的主題分布中概率值最大的為主要主題記作Tmain,它的概率記作P(Tmain),設定閾值δ,對于除主要主題外的其他任何主題Ti,如果P(Ti)

2.2主題空間Kmeans++聚類

傳統(tǒng)的Kmeans聚類算法中,聚類中心的選擇是個關鍵的步驟。大多數(shù)用到的隨機選擇的方法會導致每次聚類的結(jié)果有差別而不能很好地反映聚類的真實情況,所以對映射到低維主題空間的論壇數(shù)據(jù)采用優(yōu)化聚類中心選擇的Kmeans++算法[11]對論壇數(shù)據(jù)進行聚類。Kmeans++算法如下:

設D(x)為文檔x到已有的聚類中心中最近的距離;X為數(shù)據(jù)點集合;

步驟1從X中隨機選擇一個點作為第一個聚類中心c1;

步驟2以概率分布D(x)2/∑Xx=1D(x)2選擇數(shù)據(jù)點x∈X,并將它作為新的聚類中心ci,更新D(x);

步驟3重復步驟2直到找到K個聚類中心;

步驟4執(zhí)行標準的Kmeans聚類算法對數(shù)據(jù)進行聚類。

對于最優(yōu)聚類中心數(shù)的確定,可以在已知處理數(shù)據(jù)集規(guī)模條件下進行聚類實驗,從中心數(shù)的設定對聚類質(zhì)量與速度的影響選出最優(yōu)值。

2.3主題聚簇評價方法

為了發(fā)現(xiàn)熱點話題,本文提出了一種主題聚簇評價方法對出現(xiàn)熱點話題的可能性進行權(quán)重賦值。

假設聚類中心各個主題分量的概率分布矩陣表示如下:

其中:C為聚類中心數(shù);K為主題數(shù);p(k,c)表示主題k分配在聚類中心c的概率,k∈K,c∈C且對于任意c∈C,∑Kk=1p(k,c)=1。

盡管聚類算法已經(jīng)將主題描述不相關的帖子分開,但依然存在一些主題,它們在每個簇中的分布情況非常均衡,這樣的主題因為其普遍性而少了突發(fā)的特征,本文采用主題在各聚簇中的分布均衡情況來描述主題突發(fā)性。

定義1設C為聚類中心總個數(shù),p(k,c)為聚類中心c中主題k的概率分布值,那么主題k突發(fā)度PromDeg(k)定義如下:

PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7

當?shù)玫搅烁鱾€主題的突發(fā)度后,將各維度中主題的突發(fā)度與其所占的概率加權(quán)求和,很容易得到總的主題突發(fā)度,用它作為衡量聚簇主題突發(fā)性的標準。

定義2假設PromDeg(k)表示主題k的突發(fā)度,p(k,c)為聚簇c中第k維主題的概率值,其中k∈K,K為主題數(shù),那么聚簇c的主題突發(fā)度為:

PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8

在主題聚簇中,可以將聚簇表達的信息表示為在主題上一定概率的混合,純凈度高的聚簇可以更清楚地表達主題信息,而熱點話題聚簇會因為其主題的聚集趨勢明顯而使得純凈度高。信息熵是信息論中度量信息量的概念,系統(tǒng)的狀態(tài)分布越有序,信息熵越小。以聚簇的主題信息熵為依據(jù),定義衡量聚簇主題純凈度的標準。

定義3假設K為主題數(shù),p(k,c)為聚類中心c在第k維主題的概率,那么聚簇主題純凈度Purity(c)為:

其中γ為平滑值,防止主題信息熵為0。

為了衡量聚簇的熱度,融入人為參與因素,賦予聚簇不同的關注度權(quán)重,文本采用單位時間內(nèi)點擊數(shù)與回復數(shù)來對聚簇的關注度進行描述。

定義4假設T2為采集時間,T1為發(fā)貼時間,φ為調(diào)整回復數(shù)與點擊數(shù)的權(quán)重,repNum、clickNum分別是帖子的回復數(shù)與點擊數(shù),N為聚簇中包含的帖子總數(shù),那么聚簇c關注度AttenDeg(c)為:

AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10

將聚簇主題突發(fā)度、主題純凈度、關注度三個評價標準綜合進行考慮可以得到每個聚簇含有熱點話題可能性的歸一化的評價公式:

S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)

其中Cj代表了第j個聚類。

2.4熱點話題提取

對聚簇按出現(xiàn)熱點話題的可能性排序后,通過找出與聚類中心所描述的主題擬合程度最高的帖子,并抽取出最能描述熱點話題的標簽,來完成熱點話題挖掘的工作。

由于聚類中心反映了聚簇中的平均的主題分布情況,通過找出與聚類中心語義相似度最大且關注度最高的帖子作為包含熱點話題的帖子樣例。本文使用JensenShannon散度[12]來計算帖子主題分布與聚類中心之間的擬合程度。JensenShannon散度公式如下:

DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,請明確。

其中M(k)表示兩概率分布中同一維度上的概率均值,可用式(13)來表示:

M(k)=12(P(k)+C(k))(13)

其中:P為帖子在主題空間的概率表示,C為聚類中心在主題空間的概率表示,K為主題空間的維數(shù)。

最后找出聚簇中占比重最大的主題,統(tǒng)計出在此主題下出現(xiàn)頻率最高且出現(xiàn)概率最大的若干個詞匯作為熱點話題的標簽化描述。

3實驗與結(jié)果分析

3.1主題噪聲閾值與聚類中心數(shù)的確定

對主題空間中表示的文本進行聚類時,不同的主題噪聲閾值與不同的聚類中心數(shù)目選擇會對聚類的質(zhì)量與速度產(chǎn)生不同的影響,而目前并沒有合適的規(guī)則對兩個值進行選擇。通過對不同的主題噪聲閾值與聚類中心數(shù)進行訓練,選擇出最優(yōu)的聚類參數(shù)。

聚類效果的評價標準采用平均聚簇內(nèi)誤差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇內(nèi)部的樣本點越集中,聚類質(zhì)量越高,其形式如式(14)所示:

ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)

其中:xcn 為聚類c中的第n個樣本點,xc為聚類中心。

實驗中選擇了2763篇論壇帖子作為訓練集,聚類采用Kmeans++算法,主題噪聲參數(shù)范圍設為[0,1],聚類中心的數(shù)目選擇為[5,100]。圖3與圖4分別顯示了不同的主題噪聲與聚類中心選擇對聚類質(zhì)量與速度的影響。

實驗結(jié)果表明:聚類中心選擇不同值時,當主題噪聲閾值在區(qū)間[0,0.7)時,聚類結(jié)果的ASSE值會顯著降低,閾值在區(qū)間[0.7,1)時,ASSE值不會發(fā)生明顯變化,為了考慮次要主題對話題描述的意義,將主題噪聲閾值設置為0.75;圖4中的峰值顯示當主題噪聲閾值設置過大,聚類中心數(shù)目較少時聚類時間開銷較大且不穩(wěn)定,當閾值過小,聚類中心數(shù)目多時也會出現(xiàn)相同的狀況,考慮到聚類質(zhì)量相對較優(yōu)的情況下,參照圖中時間開銷較低的區(qū)域,將聚類中心數(shù)目選擇為50,這樣就可以在保證聚類質(zhì)量同時提高聚類算法效率。

3.2聚簇評價與熱點話題發(fā)現(xiàn)

本文采用的實驗數(shù)據(jù)來自用戶活躍的天涯論壇的經(jīng)濟論壇、股市論壇、理財前線、房產(chǎn)觀瀾這4個版塊,通過網(wǎng)絡爬蟲采集了從2013年7月1日到7月5日的帖子共11200篇。采用LDA主題模型對預處理后的數(shù)據(jù)進行建模,主題個數(shù)K取100,模型的參數(shù)選擇原則為2.1.3節(jié)中所述。主題噪聲閾值設為0.75,之后將數(shù)據(jù)用Kmeans++算法進行聚類,聚類中心數(shù)N設為50,最后對主題聚簇用評價方法對出現(xiàn)熱點話題的可能性進行權(quán)重計算。

為了詳細分析主題聚簇評價效果,在圖5中列出了2013年7月2日當天排名前4的聚簇各評價因子權(quán)重。從圖中分析得出:雖然有些主題聚簇的突發(fā)性與純凈度得分高,但關注度很低,可以判斷這是一類灌水貼,不能當作熱點話題;而熱點話題的特征是關注度高,而且突發(fā)度與主題純凈度得分也比較高。圖中標注的是排名最高的4個話題聚簇的主題詞依次是:大盤、板塊、期貨;貨幣、流動性、銀行;百姓、貨幣、物價;收益率、期限、風險。

4結(jié)語

本文基于LDA主題模型與Kmeans++聚類算法,提出了一種在論壇中挖掘熱點話題的方法。主要工作總結(jié)如下:

上一篇: 音樂課教案 下一篇: 機電一體化技術論文
相關精選
相關期刊
久久久噜噜噜久久中文,精品五月精品婷婷,久久精品国产自清天天线,久久国产一区视频
在线观看肉丝少妇被日字幕 | 久久精品亚洲人成影院 | 亚洲中文在线视频 | 五月婷综合网站在线观看 | 日本免费久综合在线观看 | 久久国内精品综合 |