中文向量表達

中文向量表達

「詞向量(word vector)」是將詞彙轉換成包含語意訊息的向量表達的技術。透過類神經網路訓練,將詞彙從 one-hot encoding 的高維度向量表達,轉換成低維度的向量,以利運算的進行。在向量空間中,cosine similarity 越高的兩個向量,也代表它們的語意越相近。

系統實作

1. 中文詞向量: 我們訓練中文詞向量的語料來源為 Chinese Gigaword 的中央社語料以及 ASBC 中研院平衡語料,共建構出 517015 詞彙訊息。 目前提供兩個版本,建立方式與參數分別說明如下: w2v:word2vec (skip-gram), 300維, 其它參數為預設. (zip, 559MB) Glove:glove, 300維, 其它參數為預設. (zip, 544MB)
2. 中文詞向量評估資料集: 目前中文最大規模的詞向量評估資料集, 建構細節請參以下論文: Chi-Yen Chen, Wei-Yun Ma. “Word Embedding Evaluation Datasets and Wikipedia Title Embedding for Chinese”. LREC, May 2018.

下載軟體與資源

論文發表

參與開發人員

馬偉雲、王欣陽、薛祐婷、范植昇、楊慕、陳紀嫣