廣義知網

廣義知網

概念網

概念網是指一表達及處理詞彙知識和常識的本體架構。它的建構主要依賴兩項工作的完成:建立知識表達模型以及自動抽取常識。概念網的知識表達模型是以「個體—關係」 (entity-relation) 框架為本的模型,由於它延伸自 知網 (HowNet) 的語意定義機制,在本計畫中又稱為「廣義知網」。在廣義知網中,每一個詞彙都可根據「個體—關係」框架來定義,並能由簡單概念組合成複雜概念,或反向地由複雜概念分解為簡單概念。概念網中所涵蓋的知識內容則包括詞彙概念定義與一般常識。

廣義知網

廣義知網 (E-HowNet) 是中央研究院資訊所詞庫小組於2003年與董振東先生展開建構繁體字知網的合作計畫,我們承續知網的語意定義機制,將中央研究院詞庫小組辭典 (CKIP Chinese Lexical Knowledge Base) 中的九萬多詞條與知網連結。在研究過程中,詞庫小組對知網的定義架構做了一些更動,新增了多層次定義架構與複雜關係表示式,我們以簡單概念取代義原,作為定義複雜概念的元素;並設計了複雜關係的表達架構,使繁體字知網逐漸發展成為一個新的知識表達模型,稱為「廣義知網」。細節請參見 “多層次概念定義與複雜關係表達—繁體字知網的新增架構” (Chen et al. 2005) 一文。

此處僅整合廣義知網的優點如下:

  1. 廣義知網不受有限義原的限制,能夠更精確的表達知識。
  2. 廣義知網符合人的認知方式,對標注者而言較簡單,他們可以靈活的運用簡單概念進行定義。
  3. 標注者使用不同的簡單概念定義同一詞彙時,最後仍可轉換為相同或相近的義原,並可利用上下位承襲規範進行整合,有利於知識庫建立的方便性與一致性。
  4. 廣義知網利用簡單概念定義複雜概念,可以減少訊息的重複登錄,只需把額外的訊息補充說明即可,因此表示式較清楚易懂。當簡單概念出現歧義時,我們的解決方法是以 WordNet 同義詞集 (synset) 加以限定,藉著與 WordNet 同義詞集的連結,將可以限定詞義,解決歧義詞的問題。
  5. 廣義知網的表示式比較容易轉換為自然語言。
  6. 複雜關係表示式便於用來定義任何具有多重結合關係的人際概念、時空概念與比較概念。

目前,我們已針對比較詞、疑問詞及情態詞的表達制訂定義規範,也持續分析複合詞、否定詞及其他功能詞,並建立角色的上下位關係及變數指派,因為角色的本體架構也有上下位共性承襲的優點,可以輔助計算機理解概念與概念間的關係。未來,我們仍將朝下位角色繼續擴充,藉由關係的合成產生複雜的下位關係,希望建立更細密完整的知識表達架構,使每個概念都能以框架為基礎 (frame-based) 來進行定義。廣義知網的技術報告內有對於角色關係更詳細的說明,請參見 “E-HowNet Technical Report” (詞庫小組 2009)

詞彙的知識表達

  1. 將原有語法詞類訊息的CKIP辭典,約八萬目詞,增加英文翻譯與廣義知網定義,使辭典內容涵蓋以詞彙為本的語法與語義訊息,實例如下:
    中文詞彙 汽油彈
    注音 ㄑㄧˋ ㄧㄡˊ ㄉㄢˋ
    漢語拼音 qi4 you2 dan4
    詞類 Nab
    英文翻譯 petrol_bomb
    廣義知網概念式 {weapon|武器:material={汽油}}
    廣義知網展開式 {weapon|武器:material={material|材料:attribute={StateLiquid|液態},telic={burn|焚燒:material={~},purpose={VehicleGo|駛}}}}
  2. 建立詞彙自動分類器。自動將有相同語義中心的詞彙,放置於本體知識架構中適切的上下階位置。
  3. 開放廣義知網本體架構線上瀏覽

常識的知識抽取

概念和概念之間的關係是透過中文剖析系統分析大量文本所抽取得到的。經過剖析抽取後,我們首先得到詞與詞之間的關係。例如:在「我們都喜歡蝴蝶」一句中,經過斷詞與剖析之後得到它的結構樹如下:

parser_ex

再從其中抽出詞與詞的關係如下:

experiencer 我們 Nhaa Head[S] 喜歡 VK1
quantify 都 Dab Head[S] 喜歡 VK1
Head[S] 喜歡 VK1 goal 蝴蝶 Nab

經過大量抽取詞與詞的關係後,我們把這些詞彙和廣義知網所提供的訊息作一連結,得到更多的詞與詞關係,接著用這些關係來定義詞彙的意義,把有類似上下文脈絡的詞彙整合在一起,就成為概念網的知識架構。例如:(喜歡, goal-蝴蝶) (experiencer-我們, 喜歡) 用廣義知網表示式可分別表達為:

({FondOf|喜歡}, goal-{InsectWorm|蟲:{fly|飛:agent={~}}})
(experiencer-{human|人:PersonPro={1stPerson|我},quantity={mass|眾}},{FondOf|喜歡})

從而我們可以推知凡是和「我們」一樣以 {human|人} 作為中心語的詞彙,例如:你、張三、媽媽…等等都可能是喜歡的經驗者。凡是和「蝴蝶」一樣以 {InsectWorm|蟲} 做為中心語的詞彙,例如昆蟲、蜜蜂、蚊子⋯⋯等等都可能作為喜歡的終點角色。在剖析大量文本後,我們得到許多概念訊息,概念網的詞彙知識及一般常識便由此建立。

線上系統展示

廣義知網(九萬目中文詞知識庫)視覺化展示

廣義知網(九萬目中文詞知識庫)視覺化展示

將 Ehownet 字詞的定義式視覺化,以好理解的方式呈現。

Demo
廣義知網(九萬目中文詞知識庫)線上系統

廣義知網(九萬目中文詞知識庫)線上系統

廣義知網承續知網(HowNet)的語意定義機制,將中央研究院詞庫小組辭典(CKIP Chinese Lexical Knowledge Base)中的九萬多詞條與知網連結,目的在建立一表達概念與概念之間,以及概念所具有之屬性間的關係的詞彙知識庫,並形成基本知識的概念網。

Demo
大廣義知網線上系統

大廣義知網線上系統

基於廣義知網系統之架構、詞條,再加上中文Wikipedia中的條目而建成的知識本體架構。

Demo
康熙字典知識本體

康熙字典知識本體

基於廣義知網系統之架構,以《康熙字典》中收錄4萬8千多字為詞條,建成的知識本體架構。提供使用者了解古漢語詞彙的使用方式。

Demo

下載軟體與資源

論文發表

參與開發人員

施悅音、陳怡君、游佳明、鍾友珊、劉立群、陳維德、林素朱、黃淑齡、白明弘、謝佑明、李婕瑜、楊慕