語言模型
統計式的語言模型是一個詞序列上的機率分布,提供了上下文來區分那些聽起來相似的單詞和短語。例如,短語「再給我兩份蔥,讓我把記憶煎成餅」和「再給我兩分鐘,讓我把記憶結成冰」聽起來相似,但意思不同。
語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析,手寫體識別和資訊檢索。
由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難。
Transformer
Transformer 是 2017 年推出的深度學習模型,主要用於自然語言處理領域(NLP)。
像遞歸神經網絡(RNN)一樣,Transformer 旨在處理連續資料(例如自然語言中的句子),以執行翻譯和文本摘要之類的任務。但是,與 RNN 不同,Transformer 不需要依照順序處理資料。例如,如果輸入數據是自然語言語句,則 Transformer 不需要按造順序處理文字。由於此功能,與 RNN 相比,Transformer 計算上可更加的平行,因此減少了訓練時間。
Transformer 已迅速成為 NLP 問題的首選模型,取代了舊的遞歸神經網絡模型,例如長短期記憶模型(LSTM)。由於 Transformer 模型在訓練過程中的平行,因此與之前的模型相比,它可以訓練在更大的數據集上。這導致了諸如 BERT(Bidirectional Encoder Representations from Transformers)和 GPT(Generative Pre-trained Transformer)之類的預訓練系統的開發,這些系統已通過龐大的通用語言數據集(如 Wikipedia )進行了訓練,並且可以進行微調於特定的語言任務。
CKIP Transformers
我們針對繁體中文訓練了一系列的 Transformer 模型,包含 ALBERT、BERT、GPT2。除了訓練語言模型之外,我們亦於各個自然語言任務上訓練了對應的模型(包含斷詞、詞性標記、實體辨識)。
詳細的模型介紹及下載連結可參見 https://github.com/ckiplab/ckip-transformers 。
線上系統展示
下載軟體與資源
參與開發人員
楊慕、邱詩涵