輿情分析

大數據時代來臨,如何從眾多資料中抽取出有意義的訊息,分析市場、探勘輿情,對許多政府單位、企業而言是相當重要的應用。本系統利用本實驗室的中文剖析系統,解析了近千萬句的新聞語料,從每句的結構樹中找出字詞之間的關係,建立關鍵字與相關詞搭配的資料庫;並且利用 E-HowNet 情緒字眼分析描述該關鍵字相關句字的情感分佈。使用者可以針對某關鍵字,快速了解與其相關的事物。


系統實作

本系統的實作可分成以下四個階段:

  • 爬取新聞語料:利用爬蟲程式蒐集最近的新聞,本系統目前採用的是蘋果日報和中國時報的新聞。
  • 中文剖析系統:將蒐集到的新聞前處理後,使用中文剖析系統建立每個新聞語句的結構樹。
  • 建立關鍵字資料庫:從結構樹中抽取字詞之間的關係,依照字的詞性以及搭配詞的詞性建立關鍵字資料庫。
  • 建立情感分析資料庫:利用 E-HowNet 中的情緒相關字眼,分析每個語句中的情感分佈,建立情感資料庫。
  • 介面撰寫:串接上述資料庫,用 Node.js 作為後端,React.js 作為前端,開發友善的操作介面,讓使用者輸入關鍵字之後,能夠呈現視覺化的查詢結果。


研究成果

使用者進到網頁後,輸入想查詢的關鍵字,以及關鍵字的詞性(名詞、動詞、形容詞),再指定查詢的日期範圍。按下「查詢」後,系統就會從資料庫中取出與該關鍵字相關的搭配詞以及情感分佈。
關鍵字與搭配詞種類的部分,我們將複雜的詞性標記簡化,歸納出一般使用者會感興趣的詞性種類如下:

名詞關鍵字相關事件、主動動詞、被動動詞、描述詞
動詞關鍵字主詞、受詞、時間、地點
形容詞關鍵字描述對象

進一步點擊相關搭配詞,系統會在「相關詞來源」區塊,顯示該詞的來源語句和原始新聞文章連結。
目前資料庫中存有從2017年1月1日開始的蘋果日報、中國時報的網路新聞,每日更新。


線上資源

系統提供線上測試版,網址如下:http://learn.iis.sinica.edu.tw:9187/


參與人員

馬偉雲、吳岳涵、謝佑明