專有名詞辨識

專有名詞辨識

專有名詞辨識,或名為實體辨識(Named Entity Recognition, NER),是資訊抽取(Information Extraction, IE)的基本任務之一。其目標為擷取文字資料中指向實體(entities)的文字區塊,例如:人名、地名、組織名,在生醫領域中也可能是藥品名、分子式等等。NER 讓機器能自動找尋文本中提到的我們感興趣的實體,例如公眾人物等,並加以分析,其產出亦作為人工智慧理解自然語言的重要資訊。

系統實作

本系統的實作可分成以下四個階段:

  • 訓練語料:以 OntoNotes 中文語料為訓練集,包含新聞、廣播、網誌、電話等等各種類型的語料。
  • 中文字詞向量:利用中研院平衡語料庫和中央社新聞訓練中文字詞的向量表達。
  • 語法與語義特徵:以 CKIP 中文斷詞系統和中文剖析系統擷取欲標記文字的語法與語義資訊。
  • 深度遞迴類神經網路模型:在語法結構上遞迴地傳遞相關資訊到文字中的各個義元,俾於預測實體位置與實體類別。

研究成果

完成中文實體辨識系統,包含 11 類一般領域專有名詞及 7 類數量詞的擷取。

例子:小明昨天在中研院附近買了五顆蘋果。

標記出專有名詞的位置及類別:小明PERSON 昨天DATE中研院FAC 附近買了 CARDINAL 顆蘋果。

線上系統展示

CKIP CoreNLP

CKIP CoreNLP

多個 CKIP NLP 線上服務處理的系統整合:包括斷詞、剖析系統、實體辨識、指代消解。

Demo
CKIP Transformers

CKIP Transformers

使用 Transformers 開發的開源斷詞、詞性標注、實體辨識系統。

Demo
CKIP Tagger

CKIP Tagger

新的開源斷詞、詞性標注、實體辨識系統。

Demo

下載軟體與資源

論文發表

參與開發人員

馬偉雲、李朋軒、董若蘋、王昱翔、周儒杰、楊慕