詞庫小組

Chinese Knowledge and Information Processing

中研院資訊所、語言所於民國七十五年成立一個跨所合作的中文計算語言研究小組，共同合作建構中文自然語言處理的資源與研究環境，為國內外中文自然語言處理及其相關研究提供基本的研究資料與知識架構。代表性研究成果包括中文詞知識庫、語料庫及中文處理技術等。網際網路產生大量資訊，但缺乏有效的自動化分析方法及技術足以快速處理。為了達到智慧型的資訊處理，知識為本的訊息處理成為目前研究的核心焦點，本計劃進行五個主要研究方向：深度學習、知識表達、自然語言理解、知識擷取、聊天機器人。

加入我們

詞庫小組誠徵專任研究助理，。

詞庫小組誠徵專任軟體工程師，。

最新消息

Jun 2024 我們的研究工作 ─ “Generating Attractive and Authentic Copywriting from Customer Reviews” 榮登 “NAACL 2024”。
Jun 2024 我們的研究工作 ─ “Plug-in Language Model: Controlling Text Generation with a Simple Regression Model” 榮登 “NAACL 2024 Findings”。
Mar 2024 我們的研究工作 ─ “Automatic Construction of a Chinese Review Dataset for Aspect Sentiment Triplet Extraction via Iterative Weak Supervision” 榮登 “LREC-Coling 2024”。
Nov 2022 我們的研究工作 ─ “HanTrans: An Empirical Study on Cross-Era Transferability of Chinese Pre-trained Language Model” 榮登 “ROCLING 2022”。
Jun 2022 我們的研究工作 ─ “Converting the Sinica Treebank of Mandarin Chinese to Universal Dependencies” 榮登 “LREC Workshop on LAW”。

研究領域

深度學習

深度學習是機器學習中一種基於對資料進行表征學習的方法。觀測值（例如一幅圖像）可以使用多種方式來表示，如每個像素強度值的向量，或者更抽象地表示成一系列邊、特定形狀……

知識表達

在知識表達研究方面，我們著眼於知識本體架構的基礎理論及細緻語意的表達模型的研究。藉由分析近義詞的細微差別，我們找出細緻語意的表達方式，同時也對知識表達模型及語意……

自然語言理解

我們注重以概念為中心的中文處理技術，所發展的技術將利用自動抽取得到的統計、語言語法及常識訊息作為基礎知識用於分析文件的概念結構並瞭解文件的意義，進而抽取新的知識……

知識擷取

研究如何自動化擷取語言知識及一般常識，我們期望由計畫中發展的語言處理技術配合擷取的知識能自動的分析網際網路中的大量文本，從中抽取知識。知識建構是一件耗時費事的大……

聊天機器人

聊天機器人（Chatter Bot）是經由對話或文字進行交談的電腦程式。能夠模擬人類對話，通過圖靈測試。聊天機器人可用於實用的目的，如客戶服務或資訊獲取。有些聊……