中文句結構樹

中文句結構樹

中文句結構樹資料庫從86年起由中央研究院詞庫小組(CKIP)從中央研究院現代漢語平衡語料庫(Sinica Corpus)中,抽取句子,以訊息為本格位語法(Information-based Case Grammar, ICG)的表達模式為基本架構,經由電腦自動剖析成結構樹,再加以人工修正、檢驗後的所得的成果。中文句結構樹資料庫研究,目前發展至3.0版,包含了6個檔案,61,087個中文樹圖,361,834個詞;此「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

中文句結構樹資料庫(Sinica Treebank)建構的主要目的是提供中文自然語言處理研究一個具有句結構標記的語料作為研究素材,我們可以從這個中文句結構樹資料庫中抽取語法知識,也藉由語法知識的抽取與瞭解使剖析系統功能更趨完善。

中文句子的語法結構表達採取中心語主導原則(Head-Driven Principle)。剖析中文句子時,詞組類型由中心語決定,並且參照中心語和其他成分所記載的語法和語意訊息,表達出句子中詞和詞之間的語法結構和語意角色關係。同時我們提出三項輔助原則:詞類小而美原則、由左至右聯併原則、扁平原則。中文句結構樹的表達原則與輔助原則細節、符號說明、語意角色、詞組結構等,請參見 “中文句結構樹資料庫 (Sinica Treebank) 的構建” (Chen et al. 1999)

研究成果

  • 提供中文句結構樹資料庫網頁搜尋介面。
  • 中文句結構樹資料庫2.1版資料轉移。
  • 線上系統展示

    中文樹圖資料庫

    中文樹圖資料庫

    中央研究院詞庫小組從中央研究院平衡語料庫(Sinica Corpus)中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。

    Demo

    下載軟體與資源

    論文發表

    參與開發人員

    林素朱