工具簡介


☉ Tag tool for windows(2002年7月1日 更新)

詞 類 標 記 工 具 Windows 版。




☉ 分 詞 工 具

一、目 標
  

中 研 院 詞 庫 小 組 開 發 一 套 在 視 窗 環 境 下 的 工 具 , 能 夠 擷 取 出 文 本 中 的 新 詞 或 未 知 詞 , 並 猜 測 該 新 詞 的 詞 性 , 搭 配 一 個 收 集 新 詞 的 簡 單 機 制 , 以 文 字 檔 的 方 式 將 新 詞 擷 取 並 儲 存 。 同 時 也 提 供 使 用 者 文 本 分 詞 後 的 結 果 以 供 參 考 。 希 望 能 節 省 大 家 的 時 間 精 力 。
  
本 系 統 是 提 供 給 學 術 界 的 初 次 版 本 , 供 數 位 典 藏 之 用 , 故 還 有 許 多 改 進 空 間 , 日 後 若 有 新 版 本 , 其 相 關 訊 息 會 公 佈 在 網 站 上, 也 歡 迎 各 界 踴 躍 提 供 改 進 的 意 見 。

二 、 分 詞 標 準

分 詞 標 準 一 致 才 能 定 義 並 處 理 知 識 本 體 ( O n t o l o g y ) , 我 們 的 分 詞 系 統 採 用 國 家 標 準 C N S 1 4 3 6 6 ,該 標 準 由 1 9 9 1 年 中 華 民 國 計 算 語 言 學 會 ( R O C L I N G ) 制 訂 , 於 1 9 9 9 年 正 式 通 過 為 國 家 標 準 。 分 詞 程 式 與 詞 彙 庫 系 統 即 根 據 此 一 標 準 作 為 遵 循 的 基 準 , 並 使 用 現 有 詞 彙 約 十 三 萬 目 詞 作 為 核 心 詞 彙 。
三 、 系 統 概 觀
  
構 建 詞 彙 庫 的 流 程 如 下 : 在 人 工 檢 驗 介 面 當 中 載 入 文 本 , 將 文 本 的 相 關 訊 息 做 解 譯 的 動 作 之 後 , 將 文 本 及 其 相 關 訊 息 送 交 未 知 詞 擷 取 模 組 , 該 模 組 載 入 核 心 詞 典 以 及 使 用 者 所 指 定 的 詞 典 之 後 , 進 行 擷 取 未 知 詞 的 動 作 。 並 將 這 些 未 知 詞 的 候 選 者 送 至 未 知 詞 編 輯 器 , 提 供 使 用 者 做 人 工 的 確 認 或 增 刪 修 改 等 等 動 作 , 最 後 儲 存 這 些 新 詞 於 領 域 詞 典 當 中 , 完 成 新 詞 收 集 的 程 序 。 目 前 系 統 供 各 界 免 費 下 載 ( 請 下 載 後 解 壓 縮 安 裝 ,約 1 3 M B ) 。

  

※ 以 上 資 料 由 中 研 院 資 訊 所 馬 偉 雲 先 生 提 供




☉ 領 域 辭 典 工 具

中研院詞庫小組開發一套在視窗環境下的工具,能夠擷取出文本中的新詞或未知詞,並猜測該新詞的詞性,搭配一個收集新詞的簡單機制,以文字檔的方式將新詞擷取並儲存。同時也提供使用者文本分詞後的結果以供參考。



☉ 中 文 電 腦 缺 字 解 決 方 案 -- 漢 字 構 形 資 料 庫 (2007年8月版, 2007.08.14 更 新 )

詳 細 資 料 請 見 「 數 位 典 藏 國 家 型 科 技 計 畫 」 技 術 彙 編 : 第 四 部 分 數 位 典 藏 的 保 存 與 維 護 : 第 一 章 漢 字 組 字 規 則
http://www.ndap.org.tw/2_techreport/index.php?pid=22
2003年 8 月 版: 新 增 中 央 研 究 院 歷 史 語 言 所 金 文 工 作 室 缺 字 1979 個 。
2003 年 12 月 版 的 內 容 如 下 : 內 含 楷 體 字 形 57,820 個 、 小 篆 11,100 個 、 金 文 932 個 , 異 體 字 12,271 組 。
2004 年 12 月 14 日 修 正 漢 字 構 形 資 料 庫 2004 年 12 月 版 。
2004 年 12 月 版 的 內 容 如 下 : 內 含 楷 體 字 形 59,220 個 、 小 篆 11,100 個 、 金 文 3,459 個 , 甲 骨 文 177 個, 楚 系 文 字 372 個,異 體 字 12,681 組 。
2005 年 8 月 15 日 2.3 版 內 容 如 下 : 內 含 楷 書 字 形 60,082 個 、 小 篆 11,100 個 、 楚 系 簡 帛 文 字 2,627 個 , 金 文 3,459 個 、 甲 骨 文 177 個 、 異 體 字 12768 組 。
2006 2 月 版  2.32 版 內 容 收 錄 楷 書 字 形 61,466( 含 漢 簡 缺 字 1,290 ) 、 小 篆 11,100 個 、 金 文 3 ,781 ( 含 圖 形 文 字 322 ) 、 楚 系 簡 帛 文 字 2,627 個 , 甲 骨 文 177 個 , 楷 書 異 體 字 12,800 組 。
2006 年 5 月 版 , 62.8M , 收 錄 楷 書 字 形 61,722 個 ( 含 甲 骨 文 楷 定 缺字 519 個 ) 、 小 篆 11,100 個 、 金 文 3,781 個 ( 含 圖 形 文 字 322 個 ) 、 楚 系 簡 帛 文 字 2,627 個 , 甲 骨 文 1,012 個 , 楷 書異 體 字 12,806 組 。
2006 年 8 月 2.4 版 , 63.7 M , 收 錄 楷 書 字 形 62,242 個 ( 含 甲 骨 文 楷 定 缺 字 1,222 個 ) 、 小 篆 11,100 個 、 金 文 3,781 個 ( 含 圖 形 文 字 322 個 ) 、 楚 系 簡 帛 文 字 2,627 個 、 甲 骨 文 1,970 個 , 楷 書 異 體 字 12,809 組 。
2007 年 8 月 2.5 版 , 83.3 M , 收 錄 古 今 漢 字 112,533 個 ; 其 中 楷 書 字 形 62,366 個 , 小 篆 及 重 文 11,100 個 , 金 文 及 重 文 20,069 個 , 楚 系 簡 帛 文 字 及 重 文 16,801 個 , 甲 骨 文 及 重 文 2,197 個 。 另 收 《 漢 語 大 字 典 》異 體 字 表 12,208 組 。
中 文 電 腦 缺 字 解 決 方 案 針 對 漢字 構 形 資 料 庫 的 初 次 使 用 者 及 更 新 版 本 者 , 分 別 提 供 了 適 合 參 考 的 下 載 及 安 裝 說 明 。 請 點 選 下 方 連 結 下 載 。

        初次使用安裝說明        更新版本安裝說明

 




☉ 中 文 電 腦 缺 字 解 決 方 案 -- 漢 字 構 形 資 料 庫--處 理 網 頁 缺 字 的 Java Applet (2002年8月版, 2003.01.16更新)

採 用 構 字 式 的 單 位 若 要 讓 使 用 者 在 瀏 覽 網 頁 時 可 看 到 構 字 式 的 結 果 , 可 透 過 此 JAVA Applet , 網 頁 上 看 詳 細 資 料 請 見 「 數 位 典 藏 國 家 型 科 技 計 畫 」 技 術 彙 編 : 第 四 部 分 數 位 典 藏 的 保 存 與 維 護 : 第 一 章 漢 字 組 字 規 則 http://www.ndap.org.tw/TechReport/part4/010chapter.shtml


            聯繫方式:
語言座標 (lc@gate.sinica.edu.tw)
Institute of Linguistics, Academia Sinica
Nankang, Taipei, Taiwan 115
TEL:886-2-2786-3300 ext.300
FAX: 886-2-2785-6622
http://LingAnchor.sinica.edu.tw/