用於圖神經網路研究的幾個實用的資料集

隨著人工智慧的興起，機器學習（ML）和深度學習（DL）得到了迅速發展，並應用於計算機視覺（CV）、自然語言處理（NLP）、推薦等諸多領域。一些研究已經發展出將ML/DL應用於社交網路、社群分類、腦網路分析等網路任務的方法。在這些任務中，資料由圖G（V，E）表示，其中V是節點的集合，E是邊的集合：節點表示資料點，邊表示節點之間的連線。圖資料集上的ML/DL是一項新的研究課題，有許多方面需要研究。因此，擁有有趣和實用的資料集將有助於研究和開發過程。本文將為ML/DL圖網路提供一些實用的資料集。

Yelp資料集

yelp是美國版的大眾點評，這將是一個有趣的連結預測資料集，可以應用於推薦任務。鏈路預測任務的目的是學習一個模型，可以預測兩個節點之間的鏈路在未來是否會連線。資料集包括關於使用者、業務和點評資訊的json檔案。它還包含商家的照片。該資料集可用於許多工，是ML/DL任務的理想實用資料集。

這裡下載：

https：//www。

yelp。com/dataset

。

亞馬遜評論資料集

與 Yelp 資料集類似，亞馬遜評論資料集收集有關產品（包括照片、星級評分、元資料、產品描述）、使用者（元資料、好友連線、名稱、位置……）以及使用者對產品的評論的資訊。該資料集非常適合連結預測和節點分類任務：與 yelp 類似，連結預測將在電子商務中具有實用的推薦應用；節點分類任務將應用於對銷售服務的產品進行評級。從學術角度來看，它可以用於實現許多實驗，包括：異構圖、關係圖以及知識圖實驗。評論總數為 2。331 億（從 1996 年 5 月到 2018 年 10 月）。

可以透過

https：//

nijianmo。github。io/amaz

on/index。html

訪問資料集。

Flickr 資料集

這個資料集是透過在共享Flickr公共影象之間形成連結來構建的。邊是透過來自同一位置的圖片、提交到同一個相簿、組或集合的圖片、共享共同標籤的圖片、朋友拍攝的圖片等之間形成的。資料集從許多來源收集，影象由 SIFT 表示從它們中提取的特徵。該資料集包括 105938 張影象和 2316948 個影象之間的連結。該資料集非常適合 CV 任務：影象分類、物件檢測和分割。我相信透過圖 ML/DL 的聚合過程，它將提高 ML/DL 模型的健壯性和可信度。

可以透過以下連線訪問資料集。

https：//

snap。stanford。edu/data/

web-flickr。html

https：//

lms。comp。nus。edu。sg/wp-

content/uploads/2019/research/nuswide/NUS-WIDE。html

假新聞/健康資料集

隨著社交媒體的興起，新聞傳播得更快、更有效。但是，大多數新聞質量低且不可信。目前已經進行了許多研究來解決假新聞檢測的問題。大多數工作都是透過 NLP 模型來解決這個問題的。但是我們也可以透過圖 ML/DL 來解決這個問題，因為原始新聞和共享新聞有很多共同點，它們的聯絡可以用來解決問題。解決問題的拓撲可能是一種新穎的觀點和方法，可以提高效能和魯棒性。資料由 FakeNewsTracker 檢索，從 Twitter 和許多其他社交媒體頁面中提取新聞。該資料集非常適合圖 ML/DL 中的許多工：節點分類、連結預測和圖分類。

資料集地址如下：

https：//

github。com/KaiDMML/Fake

NewsNet

https：//

zenodo。org/record/38416

44#。YSGPRC1h1GM

SNAP資料集

斯坦福網路分析平臺（SNAP）是一個通用的網路分析和圖挖掘庫。它是用c++編寫的，很容易擴充套件到具有數億個節點和數十億條邊的大規模網路。它有效地操作大型圖，計算結構屬性，生成規則和隨機圖，並支援節點和邊上的屬性。

這個專案有很多小/中/大的圖形資料集。然而，它們中的大多數對於實際應用程式是不實用的。但是，這些資料集可以應用到理論研究中，從而提高應用效率。

地址如下：

https：//

snap。stanford。edu/

總結

在本文中，我介紹了一些用於ML/DL實驗的有趣且實用的資料集。希望這篇文章能對你的研究有所幫助。感謝閱讀這篇文章。

作者：Khang Tran

小蜜蜂問答

小蜜蜂問答

用於圖神經網路研究的幾個實用的資料集

推薦文章

小蜜蜂問答

小蜜蜂問答

用於圖神經網路研究的幾個實用的資料集

相關文章

怎麼讓安卓的遊戲資料轉移到蘋果上？

solidworks運動算例的建立及動畫的製作？

重要節點的近義詞？

甘油的密度表？

推薦文章