數據挖掘 | 50個免費數據集收錄

08-20

數據挖掘 | 50個免費數據集收錄

來自專欄機器學習與數據挖掘4 人贊了文章

本文是翻譯自Gengo.ai收錄的一份可以用以機器學習及數據挖掘使用的免費數據集。

根據Dataquest的說法，在搜索數據集時要記住幾個標準：

數據集不應該混亂，因為你不想花大量時間清理數據。
數據集不應該有太多的行或列。
數據越乾淨越好 - 清理大型數據集可能非常耗時。
應該有一個有趣的問題可以用數據來回答。

數據集包括：美國政府公布的數據、自然語言處理、圖片、財經資料、自動駕駛資料。

數據集網站

Kaggle：一個數據科學網站，包含各種外部貢獻的有趣數據集。你可以在它的各種數據集的主列表，從拉麵評級至籃球數據到甚至西雅圖的寵物許可證。

UCI機器學習知識庫：網路上最古老的數據集之一，也是尋找有趣數據集時的第一站。雖然數據集是用戶貢獻的，並且因此具有不同程度的清潔度，但絕大多數都是乾淨的。你可以直接從UCI Machine Learning存儲庫下載數據，無需註冊。

一般數據集

公共政府數據集

Data.gov：該網站可以從多個美國政府機構下載數據。數據可以從政府預算到學校績效分數。但要警告：大部分數據需要額外的研究。

食物環境地圖集：包含當地食物選擇如何影響美國飲食的數據。

學校系統財務狀況：美國學校系統財務狀況調查。

慢性病數據：美國各地慢性病指標數據。

美國國家教育統計中心：美國和世界各地的教育機構和教育人口統計數據。

英國數據中心：英國最大的社會，經濟和人口數據收集。

美國數據：美國公共數據的全面可視化。

財經

Quandl：經濟和金融數據的良好來源 - 可用於建立預測經濟指標或股票價格的模型。

世界銀行開放數據：數據集涵蓋來自世界各地的人口統計數據和大量的經濟和發展指標。

國際貨幣基金組織數據：國際貨幣基金組織公布關於國際財務狀況，債務率，外匯儲備，商品價格和投資的數據。

金融時報市場數據：關於全球金融市場的最新信息，包括股票價格指數，商品和外匯。

Google趨勢：檢查和分析全球互聯網搜索活動和趨勢新聞報道的數據。

美國經濟協會（AEA）：尋找美國宏觀經濟數據的好來源。

機器學習數據集：

圖片

Labelme：標註圖像的大型數據集。

ImageNet：新演算法的事實上的圖像數據集。按照WordNet層次結構進行組織，層次結構中的每個節點都由數百和數千個圖像進行描述。

LSUN：具有許多輔助任務的場景理解（房間布局估計，顯著性預測等）

MS COCO：通用圖像理解和字幕。

COIL100：在360度旋轉的每個角度拍攝100個不同的物體。

視覺基因組：非常詳細的視覺知識庫，帶有大約100K圖像的字幕。

Google的開放圖片：在Creative Commons下，共有900萬個圖片網址「已被標註了6,000多個類別的標籤」。

野外標記人臉：13,000個人臉標記圖像，用於開發涉及面部識別的應用程序。

斯坦福犬數據集：包含20,580張圖片和120種不同的犬種。

室內場景識別：一個非常具體的數據集，對於大多數場景識別模型比較「有用」。包含67個室內類別，共15620張圖片。

情緒分析

多域情感分析數據集：一個稍舊的數據集，其中包含來自亞馬遜的產品評論。

IMDB評論：用於二元情感分類的較舊的相對較小的數據集包含25,000個電影評論。

斯坦福情緒樹庫：具有情緒注釋的標準情緒數據集。

Sentiment140：一個流行的數據集，它使用了160,000個推文，並預先刪除了表情圖標。

Twitter美國航空公司情緒：2015年2月以來美國航空公司的 Twitter數據，分類為正面，負面和中性推文

自然語言處理

安然數據集：將來自安然高級管理層的電子郵件數據組織到文件夾中。

亞馬遜評論：包含來自亞馬遜跨越18年的約3500萬條評論。數據包括產品和用戶信息，評級以及明文審查。

Google Books Ngrams：來自Google圖書的單詞集合。

Blogger Corpus：收集來自blogger.com收集的681,288篇博文。每個博客至少包含200次常用英語單詞。

維基百科鏈接數據：維基百科的全文。該數據集包含來自超過400萬篇文章的將近19億字。您可以通過單詞，短語或段落本身的一部分進行搜索。

Gutenberg電子書列表：附註Project List Gutenberg的電子書列表。

Hansards加拿大議會文本塊：第36屆加拿大議會記錄中的130萬對文本。

危險情況：存檔超過200,000個問題節目Jeopardy的問題。

英文簡訊垃圾郵件收集：由5,574條英文簡訊垃圾簡訊組成的數據集

Yelp評論：由Yelp發布的開放數據集包含超過500萬條評論。

UCI的Spambase：一個大型垃圾郵件數據集，可用於垃圾郵件過濾。

自動駕駛

Berkeley DeepDrive BDD100k：目前用於自動駕駛AI的最大數據集。包含超過100,000個視頻，可在一天中的不同時間和天氣條件下實現超過1,100小時的駕駛體驗。注釋圖像來自紐約和舊金山地區。

百度Apolloscapes：大數據集，定義26種不同的語義項目，如汽車，自行車，行人，建築物，路燈等。

逗號：超過7小時的高速公路駕駛。詳細信息包括汽車的速度，加速度，轉向角度和GPS坐標。

牛津機器人汽車：通過英國牛津同樣的路線重複超過100次，歷時一年。數據集捕捉天氣，交通和行人的不同組合，以及建築和道路工程等長期變化。

城市景觀數據集：一個大型數據集，可記錄50個城市的城市街景。

CSSAD數據集：這個數據集對自主車輛的感知和導航非常有用。數據集嚴重偏離發達國家的道路。

KUL比利時交通標誌數據集：來自比利時佛蘭德斯地區的數千個不同交通標誌的超過10000多個交通標誌注釋。

麻省理工學院年齡實驗室：在AgeLab收集的1,000小時以上的多感測器駕駛數據集樣本。

LISA：加州大學聖地亞哥分校智能安全汽車實驗室數據集：該數據集包括交通標誌，車輛檢測，交通信號燈和軌跡模式。

資料來源：

https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#5406a2285f8a

https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

https://www.dataquest.io/blog/ free-datasets-for-projects /

https://gengo.ai/articles/the-best-25-datasets-for-natural-language-processing/

https://github.com/awesomedata/awesome-public-datasets#機器學習