現代漢語平衡語料庫

中央研究院漢語平衡語料庫(簡稱 Sinica Corpus)是世界上第一個有完整詞類標記的漢語平衡語料庫。由於加詞類標記的漢語語料庫是史無前例的嘗試，第一步先以較小規模（但仍大於較早英語語料庫的一百萬詞規模），於1994年公開提供給國內外學術研究使用，以期在使用過程中得到回饋。本語料庫中每個文句都依詞斷開，並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上，是現代漢語無窮多的語料中一個代表性的樣本。

建構一個平衡帶詞類標記的語料庫，收集語料是第一個起步工作。接下來是語料整理的工作，包括語料清潔、為語料分類、加詞類標記等等〔陳克健　1994〕。因此構建一個中文的帶詞類標記的平衡語料庫需要考慮的中心問題為：

（一）平衡語料的分類與選取

如何為語料做分類，分類的標準以及各類的比例各類分配比例如下：


	8%	13%	28%	38%	8%	5%

（二）中文的斷詞問題

本語料庫的分詞原則依據中央標準局「資訊處理用中文分詞規範」處理。

（三）詞類標記集

詞類標記的原則以及每一個標記所代表的涵義。我們採用的是由詞庫小組八萬目辭典中的 178 個詞類〔詞庫小組　1993〕經簡化後所得的43個標記，另外加上3個特殊標記，共46個標記。

（四）中文詞類分析

包含詞類分析及相對應的詞彙結構，詳見技術報告93-05。

研究成果

搜集１,000萬詞之語料，將上述文獻依主題、出處、文類、年代、作者等加以標記。並將語料斷詞及標誌詞類。
提供一千萬目詞的平衡語料庫 4.0 版本，所蒐集的文章為 1981 年到 2007 年之間的文章，欲利用語料庫的研究單位或學者，可透過中華民國計算機語言學會申請此版本的平衡語料庫。
建構介面程式，方便使用者查詢語料庫中的詞彙。
- 五百萬目詞查詢介面。
- 一千萬語料查詢介面。（2013更新）

線上系統展示

平衡語料庫（五百萬目詞）

專門針對語言分析而設計的，每個文句都依詞斷開，並標示詞類。語料的蒐集也盡量做到平衡分配在不同的主題和語式上，是現代漢語無窮多的語句中一個代表性的樣本。

Demo

平衡語料庫（一千萬語料）

Demo

下載軟體與資源

論文發表

Chih-Ming Chiu, Ji-Chin Lo, Keh-Jiann Chen. “Compositional Semantics of Mandarin Affix Verbs”. ROCLING, Sep 2004.

Wei-Yun Ma, Yu-Ming Hsieh, Chang-Hua Yang, Keh-Jiann Chen. “Design of Management System for Chinese Corpus Construction”. ROCLING, Aug 2001.

黃居仁, 陳克健, 陳鳳儀, 魏文真, 張麗麗. “資訊用中文分詞規範設計理念及規範內容”. 語言文字應用學刊, Vol. 6, No. 1, pp. 92–100, 1997.

詞庫小組. “『搜』文解字：中文詞界研究與資訊用分詞標準”. No. 96-01, Jan 1996.

張麗麗, 黃居仁. “漢語數量詞後置”. NAACL, Jul 1995.

黃居仁. “科際整合與整合科技－談計算語言學與語料庫語言學之角色與發展”. 「語言學研究之現況與發展」研討會, Jul 1995.

陳克健. “素材語言學與文本處理”. 漢語語言學國際會議, Jul 1994.

詞庫小組. “中文詞類分析”. No. 93-05, May 1993.

Marie Meili Yeh, Chih-Chen Tang, Chu-Ren Huang, Keh-Jiann Chen. “A Preliminary Study on Nominalization in Mandarin Chinese — Argument-Taking Deverbal Nouns”. ROCLING, Sep 1992.

魏文真, 莫若萍. “「是」的語法表達模式”. 民國八十年國科會報告, 1991.

魏文真, 葉美利, 莫若萍. “「有」的語法表達模式”. 民國八十年國科會報告, 1991.

Wen-Jen Wei, Keh-Jiann Chen. “The Grammar Representation of Conjunctions — A Representation Based on ICG”. ROCLING, Aug 1991.

陳克健. “中文詞知識庫計劃與中文電子辭典”. 中日雙邊資訊研討會論文集, 1991.

參與開發人員

林素朱、邱智銘