知識擷取

研究如何自動化擷取語言知識及一般常識，我們期望由計畫中發展的語言處理技術配合擷取的知識能自動的分析網際網路中的大量文本，從中抽取知識。知識建構是一件耗時費事的大工程，我們在過去二十多年發展了中文處理基礎建設為未來的自動化知識建構打下基礎。這些基礎建設包含標記語料庫、句結構樹資料庫、詞彙庫、中文語法、詞彙分析系統及句剖析器等。我們將利用完成的基礎知識與技術來自動抽取網路文件中隱含的訊息，擴充現有知識架構並建立領域知識庫及詞彙知識庫。我們將連結不同的知識庫形成一個完整的概念網以提高計算機推理及語言了解能力。