《知識圖譜:方法、實踐與應用》閱讀筆記——知識圖譜概述
什麼是知識圖譜?
一種用
圖模型
(probabilistic graphic models)來描述知識和建模世界萬物之間的關聯關係的技術方法。由
節點
和
邊
組成
事務關係的可計算模型
知識圖譜的價值
輔助搜尋
輔助問答
輔助大資料分析
輔助語言理解,人機之間的相互理解
這道看似簡單的題,機器卻毫無辦法。“到底誰大誰小?”
5。輔助裝置互聯,機器與機器之間的相互理解
書中一直強調的輔助作用,是不是意味著知識圖譜更像一種錦上添花的工具?
一些知識圖譜專案
wikidata(需要梯子)
如何構建一個規模化的知識圖譜
值得注意的是阿里巴巴有自己的電商知識圖譜,規模達到了百億級別。
知識圖譜的技術流程
知識圖譜採用更加規範而標準的概念模型、本題術語和語法格式來建模和描述資料
透過語義連結來增強資料之間的關係
就像是一張網。
知識圖譜方法論涉及知識表示、知識獲取、知識處理和知識利用多個方面。一般流程為:
首先確定知識表示模型,然後根據資料來源選擇不同的知識獲取手段匯入知識
接著綜合利用知識推理、知識融合、知識挖掘等技術對構建的知識圖譜進行質量提升,
最後根據場景需求設計不同的知知識訪問與呈現方法,如語義搜尋、問答互動、圖譜視覺化分析等。
1。知識來源
有多種來源來獲取知識,除了文字,我們還可以考慮結構化資料庫、多媒體資料、感測器資料和人工眾包。
對於文字資料來源,我們要用到
自然語言處理技術。
對於各種結構化資料庫,
需要將結構化資料定義到本體模型之間的語義對映,再透過編寫語義翻譯工具實現轉化。
2.知識表示
即用計算機符號來表述人類的語言
知識表示的產出目標
知識圖譜分類
3。知識抽取
知識抽取按任務劃分可以分為概念抽取、實體識別、關係抽取、事件抽取和規則抽取等
知識抽取的劃分
書中解釋了遠端監督的思想
遠端監督的思想是,利用一個大型的語義資料庫自動獲取關係型別標籤。這些標籤可能是含有噪聲的,但是大量的訓練資料在一定程度上可以抵消這些噪聲。另外,一些工作透過多工學習等方法將實體和關係做聯合抽取。最新的一些研究則利用強化學習減少人工標註並自動降低噪聲。
如何減少人工標註,是我現階段工作的重點。
4。知識融合
外部資料庫合併到本體知識庫時,需要解決兩個問題
透過模式層(?)的融合,將新的本體融入已有的本體庫中,以及新舊本體的融合
資料層的融合,包括實體的指稱、屬性、關係和所屬類別。
關鍵問題是如何避免例項以及關係的衝突問題,造成不必要的冗餘
資料層的融合主要任務是實體的匹配和對齊
文中提到的本體概念,這邊沒有太理解,需要另找專門的文獻再熟悉熟悉
5。知識圖譜的補全和推理(重頭戲)
補全和推理的各種方法
6。知識檢索和知識分析
包括語義檢索和智慧問答
知識圖譜相關技術
資料庫與資料模型
知識問答
知識推理
基於表示學習的知識圖譜推理研究的主要研究趨勢是,一方面提高表示學習結果對知識圖譜中含有的語義資訊的捕捉能力,目前的研究多集中在連結預測任務上,其他推理任務有待跟進研究;另一方面是利用分散式表示作為橋樑,將知識圖譜與文字、影象等異質資訊結合,實現資訊互補以及更多樣化的綜合推理。
如果說我們人的思維是一個已經存在的知識圖譜,那麼我們在學習知識的時候,基於知識表示的學習方法一定是更快的,相比於基於規則的推理而言,知識來源的渠道更廣泛,更豐富,更能激發“興趣”。
後面還寫到了推薦系統與去中心化,這裡暫且不論。
第一章 完