中文斷詞
任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動分詞的工作成了語言處理不可或缺的技術。基本上自動分詞多利用詞典中收錄的詞和文本做比對,找出可能包含的詞,由於存在歧義的切分結果,因此多數的中文分詞程式多討論如何解決分詞歧義的問題,而較少討論如何處理詞典中未收錄的詞出現的問題(如何辨認新詞)。
根據統計,一般的文章中約有百分之三到百分之五的未知詞,因此一個演算法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響。由於並不存在任何一個詞典或方法可以盡列所有的中文詞,當處理不同領域的文件時,領域相關的特殊詞彙或專有名詞,常常造成分詞系統因為參考詞彙的不足而產生錯誤的切分。為了解決這個問題,最有效的方法是補充領域詞典加強詞彙的搜集。因此新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟。領域關鍵詞彙多出現在該領域的文件中而少出現在其它領域,因此抽取關鍵詞時多利用此特性。高頻的關鍵詞比較容易抽取,少數低頻的新詞不容事先搜集,必須線上辨識。構詞律、詞素、詞彙及詞彙共現訊息,為線上新詞辨識依據。
本系統提供了一個解決方案,可以線上即時分詞功能。為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統。此一系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問題。含有詞類標記,可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。
研究成果
本分詞系統參加第一屆由 ACL SIGHAN 舉辦之中文分詞比賽,並在繁體中文的分組比在中獲得第一名;同時也是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。本系統除了有線上展示版本外,亦有商業版本供業界使用,其已經授權與碩網科技、資策會與淩網科技。
線上系統展示
下載軟體與資源
論文發表
- Yu-Fang Tsai, Chen Keh-Jiann. “Reliable and Cost-Effective PoS-Tagging”. IJCLCLP, Vol. 9, No. 1, pp. 83–96, Feb 2004.
- Yu-Fang Tsai, Chen Keh-Jiann. “Context-rule Model for PoS Tagging”. PACLIC, Oct 2003.
- Yu-Fang Tsai, Chen Keh-Jiann. “Reliable and Cost-Effective PoS-Tagging”. ROCLING, Sep 2003.
- Wei-Yun Ma, Keh-Jiann Chen. “Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff”. SIGHAN, Jul 2003.
- Wei-Yun Ma, Keh-Jiann Chen. “A Bottom-Up Merging Algorithm for Chinese Unknown Word Extraction”. SIGHAN, Jul 2003.
- Keh-Jiann Chen, Wei-Yun Ma. “Unknown Word Extraction for Chinese Documents”. COLING, Aug 2002.
- Keh-Jiann Chen, Ming-Hong Bai. “Unknown Word Detection for Chinese by a Corpus-based Learning Method”. IJCLCLP, Vol. 3, No. 1, pp. 27–44, Feb 1998.
參考資源
參與開發人員
馬偉雲、劉興寰、蔡瑜方、戴嘉宏、白明弘、范嘉仁、謝佑明、李朋軒、楊慕