專有名詞辨識

專有名詞辨識,或名為實體辨識(Named Entity Recognition, NER),是資訊抽取(Information Extraction, IE)的基本任務之一。其目標為擷取文字資料中指向實體(entities)的文字區塊,例如:人名、地名、組織名,在生醫領域中也可能是藥品名、分子式等等。NER 讓機器能自動找尋文本中提到的我們感興趣的實體,例如公眾人物等,並加以分析,其產出亦作為人工智慧理解自然語言的重要資訊。


系統實作

本系統的實作可分成以下四個階段:

  • 訓練語料:以 OntoNotes 中文語料為訓練集,包含新聞、廣播、網誌、電話等等各種類型的語料。
  • 中文字詞向量:利用中研院平衡語料庫和中央社新聞訓練中文字詞的向量表達。
  • 語法與語義特徵:以 CKIP 中文斷詞系統和中文剖析系統擷取欲標記文字的語法與語義資訊。
  • 深度遞迴類神經網路模型:在語法結構上遞迴地傳遞相關資訊到文字中的各個義元,俾於預測實體位置與實體類別。


研究成果

完成中文實體辨識系統,包含 11 類一般領域專有名詞及 7 類數量詞的擷取。

例子:小明昨天在中研院附近買了五顆蘋果。

標記出專有名詞的位置及類別:小明PERSON昨天DATE中研院FAC附近買了CARDINAL顆蘋果。


線上資源

本系統提供線上測試版,詳情請參閱:http://deep.iis.sinica.edu.tw:9001/


論文發表


參與人員

馬偉雲、李朋軒、董若蘋、王昱翔、周儒杰