中文向量表達
「詞向量(word vector)」是將詞彙轉換成包含語意訊息的向量表達的技術。透過類神經網路訓練,將詞彙從 one-hot encoding 的高維度向量表達,轉換成低維度的向量,以利運算的進行。在向量空間中,cosine similarity 越高的兩個向量,也代表它們的語意越相近。
系統實作
1. 中文詞向量: 我們訓練中文詞向量的語料來源為 Chinese Gigaword
的中央社語料以及 ASBC 中研院平衡語料,共建構出 517015 詞彙訊息。
目前提供兩個版本,建立方式與參數分別說明如下: w2v:word2vec
(skip-gram), 300維, 其它參數為預設. (zip, 559MB) Glove:glove, 300維,
其它參數為預設. (zip, 544MB)
2. 中文詞向量評估資料集:
目前中文最大規模的詞向量評估資料集, 建構細節請參以下論文: Chi-Yen Chen,
Wei-Yun Ma. “Word Embedding Evaluation Datasets and Wikipedia Title
Embedding for Chinese”. LREC, May 2018.
下載軟體與資源
論文發表
- Jhih-Sheng Fan, Mu Yang, Peng-Hsuan Li, Wei-Yun Ma. “HWE: Word Embedding with Heterogeneous Features”. IEEE ICSC, Jan 2019.
- Chi-Yen Chen, Wei-Yun Ma. “Word Embedding Evaluation Datasets and Wikipedia Title Embedding for Chinese”. LREC, May 2018.
- Chi-Yen Chen, Wei-Yun Ma. “Embedding Wikipedia Title Based on Its Wikipedia Text and Categories”. IALP, Dec 2017.
參與開發人員
馬偉雲、王欣陽、薛祐婷、范植昇、楊慕、陳紀嫣