廣義知網
概念網
概念網是指一表達及處理詞彙知識和常識的本體架構。它的建構主要依賴兩項工作的完成:建立知識表達模型以及自動抽取常識。概念網的知識表達模型是以「個體—關係」 (entity-relation) 框架為本的模型,由於它延伸自 知網 (HowNet) 的語意定義機制,在本計畫中又稱為「廣義知網」。在廣義知網中,每一個詞彙都可根據「個體—關係」框架來定義,並能由簡單概念組合成複雜概念,或反向地由複雜概念分解為簡單概念。概念網中所涵蓋的知識內容則包括詞彙概念定義與一般常識。
廣義知網
廣義知網 (E-HowNet) 是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典 (CKIP Chinese Lexical Knowledge Base) 中的九萬多詞條與知網連結。在研究過程中,詞庫小組對知網的定義架構做了一些更動,新增了多層次定義架構與複雜關係表示式,我們以簡單概念取代義原,作為定義複雜概念的元素;並設計了複雜關係的表達架構,使繁體字知網逐漸發展成為一個新的知識表達模型,稱為「廣義知網」。細節請參見 “多層次概念定義與複雜關係表達—繁體字知網的新增架構” (Chen et al. 2005) 一文。
此處僅整合廣義知網的優點如下:
- 廣義知網不受有限義原的限制,能夠更精確的表達知識。
- 廣義知網符合人的認知方式,對標注者而言較簡單,他們可以靈活的運用簡單概念進行定義。
- 標注者使用不同的簡單概念定義同一詞彙時,最後仍可轉換為相同或相近的義原,並可利用上下位承襲規範進行整合,有利於知識庫建立的方便性與一致性。
- 廣義知網利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只需把額外的訊息補充說明即可,因此表示式較清楚易懂。當簡單概念出現歧義時,我們的解決方法是以 WordNet 同義詞集 (synset) 加以限定,藉著與 WordNet 同義詞集的連結,將可以限定詞義,解決歧義詞的問題。
- 廣義知網的表示式比較容易轉換為自然語言。
- 複雜關係表示式便於用來定義任何具有多重結合關係的人際概念、時空概念與比較概念。
目前,我們已針對比較詞、疑問詞及情態詞的表達制訂定義規範,也持續分析複合詞、否定詞及其他功能詞,並建立角色的上下位關係及變數指派,因為角色的本體架構也有上下位共性承襲的優點,可以輔助計算機理解概念與概念間的關係。未來,我們仍將朝下位角色繼續擴充,藉由關係的合成產生複雜的下位關係,希望建立更細密完整的知識表達架構,使每個概念都能以框架為基礎 (frame-based) 來進行定義。廣義知網的技術報告內有對於角色關係更詳細的說明,請參見 “E-HowNet Technical Report” (詞庫小組 2009)。
詞彙的知識表達
- 將原有語法詞類訊息的CKIP辭典,約八萬目詞,增加英文翻譯與廣義知網定義,使辭典內容涵蓋以詞彙為本的語法與語義訊息,實例如下:
中文詞彙 汽油彈 注音 ㄑㄧˋ ㄧㄡˊ ㄉㄢˋ 漢語拼音 qi4 you2 dan4 詞類 Nab 英文翻譯 petrol_bomb 廣義知網概念式 {weapon|武器:material={汽油}} 廣義知網展開式 {weapon|武器:material={material|材料:attribute={StateLiquid|液態},telic={burn|焚燒:material={~},purpose={VehicleGo|駛}}}} - 建立詞彙自動分類器。自動將有相同語義中心的詞彙,放置於本體知識架構中適切的上下階位置。
- 開放廣義知網本體架構線上瀏覽。
常識的知識抽取
概念和概念之間的關係是透過中文剖析系統分析大量文本所抽取得到的。經過剖析抽取後,我們首先得到詞與詞之間的關係。例如:在「我們都喜歡蝴蝶」一句中,經過斷詞與剖析之後得到它的結構樹如下:
再從其中抽出詞與詞的關係如下:
experiencer | 我們 Nhaa | Head[S] | 喜歡 VK1 |
quantify | 都 Dab | Head[S] | 喜歡 VK1 |
Head[S] | 喜歡 VK1 | goal | 蝴蝶 Nab |
經過大量抽取詞與詞的關係後,我們把這些詞彙和廣義知網所提供的訊息作一連結,得到更多的詞與詞關係,接著用這些關係來定義詞彙的意義,把有類似上下文脈絡的詞彙整合在一起,就成為概念網的知識架構。例如:(喜歡, goal-蝴蝶) (experiencer-我們, 喜歡) 用廣義知網表示式可分別表達為:
({FondOf|喜歡}, goal-{InsectWorm|蟲:{fly|飛:agent={~}}})
(experiencer-{human|人:PersonPro={1stPerson|我},quantity={mass|眾}},{FondOf|喜歡})
從而我們可以推知凡是和「我們」一樣以 {human|人} 作為中心語的詞彙,例如:你、張三、媽媽…等等都可能是喜歡的經驗者。凡是和「蝴蝶」一樣以 {InsectWorm|蟲} 做為中心語的詞彙,例如昆蟲、蜜蜂、蚊子⋯⋯等等都可能作為喜歡的終點角色。在剖析大量文本後,我們得到許多概念訊息,概念網的詞彙知識及一般常識便由此建立。
線上系統展示
廣義知網(九萬目中文詞知識庫)線上系統
廣義知網承續知網(HowNet)的語意定義機制,將中央研究院詞庫小組辭典(CKIP Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結,目的在建立一表達概念與概念之間,以及概念所具有之屬性間的關係的詞彙知識庫,並形成基本知識的概念網。
Demo下載軟體與資源
論文發表
- Shu-Ling Huang, Yu-Ming Hsieh, Su-Chu Lin, Keh-Jiann Chen. “Resolving the Representational Problems of Polarity and Interaction Between Process and State Verbs”. IJCLCLP, Vol. 19, No. 2, pp. 33–52, Jun 2014.
- Shu-Ling Huang, Keh-Jiann Chen. “Semantic Analysis and Contextual Harmony of Durations”. Journal of Chinese Linguistics, Vol. 41, No. 1, pp. 118–144, Jan 2013.
- Shu-Ling Huang, Yu-Ming Hsieh, Su-Chu Lin, Keh-Jiann Chen. “Lexical Representation and Classification of Eventive Verbs — Polarity and Interaction between Process and State”. SIGHAN, Oct 2013.
- You-shan Chung, Keh-Jiann Chen. “Transitivity of a Chinese Verb-Result Compound and Affected Argument of the Result Verb”. Vol. 17, No. 2, pp. 1–20, Jun 2012.
- You-shan Chung, Keh-Jiann Chen. “Transitivity of a Chinese Verb-result Compound and Affected Argument of the Result Verb”. ROCLING, Sep 2011.
- Wei-Te Chen, Su-Chu Lin, Shu-Ling Huang, You-Shan Chung, Keh-Jiann Chen. “E-HowNet and Automatic Construction of a Lexical Ontology”. COLING, Aug 2010.
- You-shan Chung, Keh-Jiann Chen. “Analysis of Chinese Morphemes and Its Application to Sense and Part-Of-Speech Prediction for Chinese Compounds”. ICCPOL, Jul 2010.
- Ming-Hong Bai, Jia-Ming You, Keh-Jiann Chen, Jason S. Chang. “Acquiring Translation Equivalences of Multiword Expressions by Normalized Correlation Frequencies”. EMNLP, Aug 2009.
- Chia-Hung Tai, Jia-Zen Fan, Shu-Ling Huang, Keh-Jiann Chen. “Automatic Sense Derivation for Determinative-Measure Compounds under the Framework of E-HowNet”. IJCLCLP, Vol. 14, No. 1, pp. 19–44, Mar 2009.
- Shu-Ling Huang, Keh-Jiann Chen. “A Semantic Analysis of Time Intervals — Core Senses and Relational Senses of a Time Interval”. CLSW, Jul 2009.
- Ming-Hong Bai, Keh-Jiann Chen, Jason S. Chang. “Improving Word Alignment by Adjusting Chinese Word Segmentation”. IJCNLP, Jan 2008.
- Shu-Ling Huang, Keh-Jiann Chen. “Knowledge Representation and Sense Disambiguation for Interrogatives in E-HowNet”. IJCLCLP, Vol. 13, No. 3, pp. 255–278, Dec 2008.
- Chia-hung Tai, Shu-Ling Huang, Keh-Jiann Chen. “A Semantic Composition Method for Deriving Sense Representations of Determinative-Measure Compounds in E-HowNet”. ROCLING, Sep 2008.
- Shu-Ling Huang, You-Shan Chung, Keh-Jiann Chen. “E-HowNet: the Expansion of HowNet”. National HowNet Workshop, May 2008.
- Shu-Ling Huang, Yueh-Yin Shih, Keh-Jiann Chen. “Knowledge Representation for Comparative Constructions in Extended-HowNet”. Language and Linguistics, Vol. 9, No. 2, pp. 395–413, Apr 2008.
- You-Shan Chung, Shu-Ling Huang, Keh-Jiann Chen. “Modality and Modal Sense Representation in E-HowNet”. PACLIC, Nov 2007.
- Shu-Ling Huang, You-Shan Chung, Yueh-Yin Shih, Keh-Jiann Chen. “Knowledge Representation for Interrogatives in E-HowNet”. ROCLING, Sep 2007.
- Yueh-Yin Shih, Shu-Ling Huang, Keh-Jiann Chen. “Semantic Representation and Composition for Unknown Compounds in E-HowNet”. PACLIC, Nov 2006.
- Shu-Ling Huang, Yueh-Yin Shih, Keh-Jiann Chen. “The Knowledge Representation for Comparison Words in Extended-HowNet”. CLSW, May 2006.
- Yi-Jun Chen, Shu-Ling Huang, Yueh-Yin Shih, Keh-Jiann Chen. “多層次概念定義與複雜關係表達—繁體字知網的新增架構”. 漢語詞彙語義研究的現狀與發展趨勢國際學術研討會, Nov 2005.
- Yueh-Yin Shih, Shu-Ling Huang, Yi-Jun Chen, Keh-Jiann Chen. “Semantic Representation and Composition for Spatial Concepts in Extended-HowNet”. IEEE NLPKE, Oct 2005.
- Keh-Jiann Chen, Shu-Ling Huang, Yueh-Yin Shih, Yi-Jun Chen. “Extended-HowNet: A Representational Framework for Concepts”. IJCNLP, Oct 2005.
- Yi-Jun Chen, Shu-Ling Huang, Yueh-Yin Shih, Keh-Jiann Chen. “繁體字知網架構下之功能詞表達初探”. CLSW, Apr 2005.
- Jia-Ming You, Yu-Ming Hsieh. “Automatic Semantic Role Assignment for a Tree Structure”. SIGHAN, Jul 2004.
- Keh-Jiann Chen, Jia-Ming You. “A Study on Word Similarity Using Context Vector Models”. IJCLCLP, Vol. 7, No. 2, pp. 37–58, Aug 2002.
參與開發人員
施悅音、陳怡君、游佳明、鍾友珊、劉立群、陳維德、林素朱、黃淑齡、白明弘、謝佑明、李婕瑜、楊慕