數據挖掘 | 50個免費數據集收錄

數據挖掘 | 50個免費數據集收錄

來自專欄機器學習與數據挖掘4 人贊了文章

本文是翻譯自Gengo.ai收錄的一份可以用以機器學習及數據挖掘使用的免費數據集。

根據Dataquest的說法,在搜索數據集時要記住幾個標準:

  • 數據集不應該混亂,因為你不想花大量時間清理數據。
  • 數據集不應該有太多的行或列。
  • 數據越乾淨越好 - 清理大型數據集可能非常耗時。
  • 應該有一個有趣的問題可以用數據來回答。

數據集包括:美國政府公布的數據、自然語言處理、圖片、財經資料、自動駕駛資料


數據集網站

Kaggle:一個數據科學網站,包含各種外部貢獻的有趣數據集。你可以在它的各種數據集的主列表,從拉麵評級至籃球數據到甚至西雅圖的寵物許可證。

UCI機器學習知識庫:網路上最古老的數據集之一,也是尋找有趣數據集時的第一站。雖然數據集是用戶貢獻的,並且因此具有不同程度的清潔度,但絕大多數都是乾淨的。你可以直接從UCI Machine Learning存儲庫下載數據,無需註冊。


一般數據集

公共政府數據集

Data.gov:該網站可以從多個美國政府機構下載數據。數據可以從政府預算到學校績效分數。但要警告:大部分數據需要額外的研究。

食物環境地圖集:包含當地食物選擇如何影響美國飲食的數據。

學校系統財務狀況:美國學校系統財務狀況調查。

慢性病數據:美國各地慢性病指標數據。

美國國家教育統計中心:美國和世界各地的教育機構和教育人口統計數據。

英國數據中心:英國最大的社會,經濟和人口數據收集。

美國數據:美國公共數據的全面可視化。

財經

Quandl:經濟和金融數據的良好來源 - 可用於建立預測經濟指標或股票價格的模型。

世界銀行開放數據:數據集涵蓋來自世界各地的人口統計數據和大量的經濟和發展指標。

國際貨幣基金組織數據:國際貨幣基金組織公布關於國際財務狀況,債務率,外匯儲備,商品價格和投資的數據。

金融時報市場數據:關於全球金融市場的最新信息,包括股票價格指數,商品和外匯。

Google趨勢:檢查和分析全球互聯網搜索活動和趨勢新聞報道的數據。

美國經濟協會(AEA):尋找美國宏觀經濟數據的好來源。


機器學習數據集:

圖片

Labelme:標註圖像的大型數據集。

ImageNet:新演算法的事實上的圖像數據集。按照WordNet層次結構進行組織,層次結構中的每個節點都由數百和數千個圖像進行描述。

LSUN:具有許多輔助任務的場景理解(房間布局估計,顯著性預測等)

MS COCO:通用圖像理解和字幕。

COIL100:在360度旋轉的每個角度拍攝100個不同的物體。

視覺基因組:非常詳細的視覺知識庫,帶有大約100K圖像的字幕。

Google的開放圖片:在Creative Commons下,共有900萬個圖片網址「已被標註了6,000多個類別的標籤」。

野外標記人臉:13,000個人臉標記圖像,用於開發涉及面部識別的應用程序。

斯坦福犬數據集:包含20,580張圖片和120種不同的犬種。

室內場景識別:一個非常具體的數據集,對於大多數場景識別模型比較「有用」。包含67個室內類別,共15620張圖片。

情緒分析

多域情感分析數據集:一個稍舊的數據集,其中包含來自亞馬遜的產品評論。

IMDB評論:用於二元情感分類的較舊的相對較小的數據集包含25,000個電影評論。

斯坦福情緒樹庫:具有情緒注釋的標準情緒數據集。

Sentiment140:一個流行的數據集,它使用了160,000個推文,並預先刪除了表情圖標。

Twitter美國航空公司情緒:2015年2月以來美國航空公司的 Twitter數據,分類為正面,負面和中性推文

自然語言處理

安然數據集:將來自安然高級管理層的電子郵件數據組織到文件夾中。

亞馬遜評論:包含來自亞馬遜跨越18年的約3500萬條評論。數據包括產品和用戶信息,評級以及明文審查。

Google Books Ngrams:來自Google圖書的單詞集合。

Blogger Corpus:收集來自blogger.com收集的681,288篇博文。每個博客至少包含200次常用英語單詞。

維基百科鏈接數據:維基百科的全文。該數據集包含來自超過400萬篇文章的將近19億字。您可以通過單詞,短語或段落本身的一部分進行搜索。

Gutenberg電子書列表:附註Project List Gutenberg的電子書列表。

Hansards加拿大議會文本塊:第36屆加拿大議會記錄中的130萬對文本。

危險情況:存檔超過200,000個問題節目Jeopardy的問題。

英文簡訊垃圾郵件收集:由5,574條英文簡訊垃圾簡訊組成的數據集

Yelp評論:由Yelp發布的開放數據集包含超過500萬條評論。

UCI的Spambase:一個大型垃圾郵件數據集,可用於垃圾郵件過濾。

自動駕駛

Berkeley DeepDrive BDD100k:目前用於自動駕駛AI的最大數據集。包含超過100,000個視頻,可在一天中的不同時間和天氣條件下實現超過1,100小時的駕駛體驗。注釋圖像來自紐約和舊金山地區。

百度Apolloscapes:大數據集,定義26種不同的語義項目,如汽車,自行車,行人,建築物,路燈等。

逗號:超過7小時的高速公路駕駛。詳細信息包括汽車的速度,加速度,轉向角度和GPS坐標。

牛津機器人汽車:通過英國牛津同樣的路線重複超過100次,歷時一年。數據集捕捉天氣,交通和行人的不同組合,以及建築和道路工程等長期變化。

城市景觀數據集:一個大型數據集,可記錄50個城市的城市街景。

CSSAD數據集:這個數據集對自主車輛的感知和導航非常有用。數據集嚴重偏離發達國家的道路。

KUL比利時交通標誌數據集:來自比利時佛蘭德斯地區的數千個不同交通標誌的超過10000多個交通標誌注釋。

麻省理工學院年齡實驗室:在AgeLab收集的1,000小時以上的多感測器駕駛數據集樣本。

LISA:加州大學聖地亞哥分校智能安全汽車實驗室數據集:該數據集包括交通標誌,車輛檢測,交通信號燈和軌跡模式。


資料來源:

https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#5406a2285f8a

https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

https://www.dataquest.io/blog/ free-datasets-for-projects /

https://gengo.ai/articles/the-best-25-datasets-for-natural-language-processing/

https://github.com/awesomedata/awesome-public-datasets#機器學習

推薦閱讀:

如何計算卷積層中對應參數個數?
15個數據科學家最容易忽視的「坑」!
sklearn實戰-基於邏輯回歸的乳腺癌分類診斷
什麼是生成式對抗網路 GAN
最大逆向匹配分詞演算法以及CRF條件隨機場(一)

TAG:數據分析 | 機器學習 | 自然語言處理 |