隨著人工智慧的興起,機器學習(ML)和深度學習(DL)得到了迅速發展,並應用於計算機視覺(CV)、自然語言處理(NLP)、推薦等諸多領域。一些研究已經發展出將ML/DL應用於社交網路、社群分類、腦網路分析等網路任務的方法。在這些任務中,資料由圖G(V,E)表示,其中V是節點的集合,E是邊的集合:節點表示資料點,邊表示節點之間的連線。圖資料集上的ML/DL是一項新的研究課題,有許多方面需要研究。因此,擁有有趣和實用的資料集將有助於研究和開發過程。本文將為ML/DL圖網路提供一些實用的資料集。

Yelp資料集

用於圖神經網路研究的幾個實用的資料集

yelp是美國版的大眾點評,這將是一個有趣的連結預測資料集,可以應用於推薦任務。鏈路預測任務的目的是學習一個模型,可以預測兩個節點之間的鏈路在未來是否會連線。資料集包括關於使用者、業務和點評資訊的json檔案。它還包含商家的照片。該資料集可用於許多工,是ML/DL任務的理想實用資料集。

這裡下載:

https://www。

yelp。com/dataset

亞馬遜評論資料集

用於圖神經網路研究的幾個實用的資料集

與 Yelp 資料集類似,亞馬遜評論資料集收集有關產品(包括照片、星級評分、元資料、產品描述)、使用者(元資料、好友連線、名稱、位置……)以及使用者對產品的評論的資訊。 該資料集非常適合連結預測和節點分類任務:與 yelp 類似,連結預測將在電子商務中具有實用的推薦應用; 節點分類任務將應用於對銷售服務的產品進行評級。 從學術角度來看,它可以用於實現許多實驗,包括:異構圖、關係圖以及知識圖實驗。 評論總數為 2。331 億(從 1996 年 5 月到 2018 年 10 月)。

可以透過

https://

nijianmo。github。io/amaz

on/index。html

訪問資料集。

Flickr 資料集

用於圖神經網路研究的幾個實用的資料集

這個資料集是透過在共享Flickr公共影象之間形成連結來構建的。 邊是透過來自同一位置的圖片、提交到同一個相簿、組或集合的圖片、共享共同標籤的圖片、朋友拍攝的圖片等之間形成的。 資料集從許多來源收集,影象由 SIFT 表示 從它們中提取的特徵。 該資料集包括 105938 張影象和 2316948 個影象之間的連結。 該資料集非常適合 CV 任務:影象分類、物件檢測和分割。 我相信透過圖 ML/DL 的聚合過程,它將提高 ML/DL 模型的健壯性和可信度。

可以透過以下連線訪問資料集。

https://

snap。stanford。edu/data/

web-flickr。html

https://

lms。comp。nus。edu。sg/wp-

content/uploads/2019/research/nuswide/NUS-WIDE。html

假新聞/健康資料集

用於圖神經網路研究的幾個實用的資料集

隨著社交媒體的興起,新聞傳播得更快、更有效。 但是,大多數新聞質量低且不可信。 目前已經進行了許多研究來解決假新聞檢測的問題。 大多數工作都是透過 NLP 模型來解決這個問題的。 但是我們也可以透過圖 ML/DL 來解決這個問題,因為原始新聞和共享新聞有很多共同點,它們的聯絡可以用來解決問題。 解決問題的拓撲可能是一種新穎的觀點和方法,可以提高效能和魯棒性。 資料由 FakeNewsTracker 檢索,從 Twitter 和許多其他社交媒體頁面中提取新聞。 該資料集非常適合圖 ML/DL 中的許多工:節點分類、連結預測和圖分類。

資料集地址如下:

https://

github。com/KaiDMML/Fake

NewsNet

https://

zenodo。org/record/38416

44#。YSGPRC1h1GM

SNAP資料集

用於圖神經網路研究的幾個實用的資料集

斯坦福網路分析平臺(SNAP)是一個通用的網路分析和圖挖掘庫。它是用c++編寫的,很容易擴充套件到具有數億個節點和數十億條邊的大規模網路。它有效地操作大型圖,計算結構屬性,生成規則和隨機圖,並支援節點和邊上的屬性。

這個專案有很多小/中/大的圖形資料集。然而,它們中的大多數對於實際應用程式是不實用的。但是,這些資料集可以應用到理論研究中,從而提高應用效率。

用於圖神經網路研究的幾個實用的資料集

地址如下:

https://

snap。stanford。edu/

總結

在本文中,我介紹了一些用於ML/DL實驗的有趣且實用的資料集。希望這篇文章能對你的研究有所幫助。感謝閱讀這篇文章。

作者:Khang Tran