現代漢語平衡語料庫
中央研究院漢語平衡語料庫(簡稱 Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嘗試,第一步先以較小規模(但仍大於較早英語語料庫的一百萬詞規模),於1994年公開提供給國內外學術研究使用,以期在使用過程中得到回饋。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語料中一個代表性的樣本。
建構一個平衡帶詞類標記的語料庫,收集語料是第一個起步工作。接下來是語料整理的工作,包括語料清潔、為語料分類、加詞類標記等等〔陳克健 1994〕。因此構建一個中文的帶詞類標記的平衡語料庫需要考慮的中心問題為:
(一)平衡語料的分類與選取
如何為語料做分類,分類的標準以及各類的比例各類分配比例如下:
8% | 13% | 28% | 38% | 8% | 5% |
(二)中文的斷詞問題
本語料庫的分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。
(三)詞類標記集
詞類標記的原則以及每一個標記所代表的涵義。我們採用的是由詞庫小組八萬目辭典中的 178 個詞類〔詞庫小組 1993〕經簡化後所得的43個標記,另外加上3個特殊標記,共46個標記。
(四)中文詞類分析
包含詞類分析及相對應的詞彙結構,詳見技術報告93-05。
研究成果
線上系統展示
下載軟體與資源
論文發表
參與開發人員
林素朱、邱智銘