專有名詞辨識
專有名詞辨識,或名為實體辨識(Named Entity Recognition, NER),是資訊抽取(Information Extraction, IE)的基本任務之一。其目標為擷取文字資料中指向實體(entities)的文字區塊,例如:人名、地名、組織名,在生醫領域中也可能是藥品名、分子式等等。NER 讓機器能自動找尋文本中提到的我們感興趣的實體,例如公眾人物等,並加以分析,其產出亦作為人工智慧理解自然語言的重要資訊。
系統實作
本系統的實作可分成以下四個階段:
- 訓練語料:以 OntoNotes 中文語料為訓練集,包含新聞、廣播、網誌、電話等等各種類型的語料。
- 中文字詞向量:利用中研院平衡語料庫和中央社新聞訓練中文字詞的向量表達。
- 語法與語義特徵:以 CKIP 中文斷詞系統和中文剖析系統擷取欲標記文字的語法與語義資訊。
- 深度遞迴類神經網路模型:在語法結構上遞迴地傳遞相關資訊到文字中的各個義元,俾於預測實體位置與實體類別。
研究成果
完成中文實體辨識系統,包含 11 類一般領域專有名詞及 7 類數量詞的擷取。
例子:小明昨天在中研院附近買了五顆蘋果。
標記出專有名詞的位置及類別:小明PERSON 昨天DATE 在 中研院FAC 附近買了 五CARDINAL 顆蘋果。
線上系統展示
下載軟體與資源
論文發表
- Peng-Hsuan Li, Tsu-Jui Fu, Wei-Yun Ma. “Why Attention? Analyze BiLSTM Deficiency and Its Remedies in the Case of NER”. AAAI, Feb 2020.
參與開發人員
馬偉雲、李朋軒、董若蘋、王昱翔、周儒杰、楊慕