TensorFlow中超大的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

時(shí)間：2020-08-06 10:52:02

關(guān)鍵字： tensorflow 數(shù)據(jù) 機(jī)器學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]導(dǎo)讀包括圖像，視頻，音頻，文本，非常的全。 largest tensorflow datasets for machine learning 由谷歌Brain的研究人員創(chuàng)建的TensorFlow

導(dǎo)讀

包括圖像，視頻，音頻，文本，非常的全。

largest tensorflow datasets for machine learning

由谷歌Brain的研究人員創(chuàng)建的TensorFlow是機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域最大的開(kāi)源數(shù)據(jù)庫(kù)之一。它是一個(gè)端到端的平臺(tái)，適用于初學(xué)者和有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家。TensorFlow庫(kù)包括工具、預(yù)訓(xùn)練模型、機(jī)器學(xué)習(xí)指南，以及開(kāi)放數(shù)據(jù)集的語(yǔ)料庫(kù)。為了幫助你找到所需的訓(xùn)練數(shù)據(jù)，本文將簡(jiǎn)要介紹一些用于機(jī)器學(xué)習(xí)的最大的TensorFlow數(shù)據(jù)集。我們已經(jīng)將下面的列表分為圖像、視頻、音頻和文本數(shù)據(jù)集。

圖像數(shù)據(jù)集

1、CelebA: 最大的公開(kāi)的人臉圖像數(shù)據(jù)集之一，名人臉屬性數(shù)據(jù)集(CelebA)包含超過(guò)20萬(wàn)名名人的圖像。

每幅圖像包含5個(gè)面部特征點(diǎn)和40個(gè)二值屬性標(biāo)注。

2、Downsampled Imagenet：該數(shù)據(jù)集用于密度估計(jì)和生成建模任務(wù)。它包含130多萬(wàn)幅物體、場(chǎng)景、車輛、人物等圖像。這些圖像有兩種分辨率：32 x 32和64 x 64。

3、Lsun – Lsun是一個(gè)大型圖像數(shù)據(jù)集，用于幫助訓(xùn)練模型理解場(chǎng)景。數(shù)據(jù)集包含超過(guò)900萬(wàn)張圖像，這些圖像被劃分為場(chǎng)景類別，例如臥室、教室和餐廳。

4、Bigearthnet – Bigearthnet是另一個(gè)大型數(shù)據(jù)集，包含來(lái)自Sentinel-2衛(wèi)星的航空?qǐng)D像。每幅圖像覆蓋1.2 km x 1.2 km的地面。每張圖像包括43個(gè)不平衡標(biāo)簽。

5、Places 365 – 顧名思義，Places 365包含了180多萬(wàn)張不同地方或場(chǎng)景的圖片。其中包括辦公室、碼頭和小屋。Places 365是用于場(chǎng)景識(shí)別任務(wù)的最大數(shù)據(jù)集之一。

6、Quickdraw Bitmap – Quickdraw數(shù)據(jù)集是Quickdraw玩家社區(qū)繪制的圖像集合。它包含了500萬(wàn)幅橫跨345個(gè)類別的畫(huà)作。這個(gè)版本的Quickdraw數(shù)據(jù)集包括28 x 28灰度格式的圖像。

7、SVHN Cropped – 來(lái)自斯坦福大學(xué)的街景門牌號(hào)(SVHN)是一個(gè)TensorFlow數(shù)據(jù)集，用來(lái)訓(xùn)練數(shù)字識(shí)別算法。它包含600,000個(gè)真實(shí)世界的圖像數(shù)據(jù)樣本，這些數(shù)據(jù)被裁剪成32 x 32像素。

8、VGGFace2 – 最大的人臉圖像數(shù)據(jù)集之一，VGGFace2包含從谷歌搜索引擎下載的圖像。這些臉因年齡、姿勢(shì)和種族而不同。每個(gè)受試者平均有362張圖像。

9、COCO – 由谷歌，F(xiàn)AIR, Caltech和更多的合作者制作，COCO是世界上最大的標(biāo)記圖像數(shù)據(jù)集之一。它用于目標(biāo)檢測(cè)、分割和圖像描述任務(wù)。

Coco TensorFlow Dataset

數(shù)據(jù)集包含330,000張圖像，其中200,000張已被標(biāo)注。在這些圖像中有分布在80個(gè)類別中的150萬(wàn)個(gè)物體實(shí)例。

10、Open Images Challenge 2019 – 包含大約900萬(wàn)幅圖像，這個(gè)數(shù)據(jù)集是在線可用的最大的標(biāo)注圖像數(shù)據(jù)集。包含圖像級(jí)標(biāo)簽、物體邊框和物體分割掩碼，以及視覺(jué)關(guān)系。

11、Open Images V4 – 這個(gè)數(shù)據(jù)集是上面提到的開(kāi)放圖像數(shù)據(jù)集的另一個(gè)迭代。V4有600個(gè)不同的物體類包含1460萬(wàn)個(gè)邊框。邊界框是由人工標(biāo)注人員手動(dòng)繪制的。

12、AFLW2K3D – 該數(shù)據(jù)集包含2000個(gè)面部圖像，所有標(biāo)注了3D人臉特征點(diǎn)。它是用來(lái)評(píng)估三維人臉特征點(diǎn)檢測(cè)模型的。

視頻數(shù)據(jù)集

13、UCF101 – 來(lái)自中佛羅里達(dá)大學(xué)的UCF101是一個(gè)用來(lái)訓(xùn)練動(dòng)作識(shí)別模型的視頻數(shù)據(jù)集。該數(shù)據(jù)集有13,320個(gè)跨越101個(gè)動(dòng)作類別的視頻。

14、BAIR Robot Pushing – 來(lái)自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000個(gè)機(jī)器人推動(dòng)運(yùn)動(dòng)的示例視頻。

15、Moving MNIST – 該數(shù)據(jù)集是MNIST基準(zhǔn)數(shù)據(jù)集的一個(gè)變體，Moving MNIST包含10,000個(gè)視頻。

16、EMNIST – 擴(kuò)展MNIST包含從原始MNIST數(shù)據(jù)集轉(zhuǎn)換為28 x 28像素格式的數(shù)字。

音頻數(shù)據(jù)集

17、CREMA-D – CREMA-D是為情感識(shí)別任務(wù)而創(chuàng)建的，包括聲音情感表達(dá)。這個(gè)數(shù)據(jù)集包含7,442個(gè)音頻片段，由91個(gè)不同年齡、種族和性別的演員配音。

18、Librispeech – Librispeech是一個(gè)簡(jiǎn)單的音頻數(shù)據(jù)集，它包含1000小時(shí)的英語(yǔ)語(yǔ)音，這些語(yǔ)音來(lái)自LibriVox項(xiàng)目的有聲讀物。它被用于訓(xùn)練聲學(xué)模型和語(yǔ)言模型。

19、Libritts – 這個(gè)數(shù)據(jù)集包含大約585小時(shí)的英語(yǔ)演講，是在谷歌Brain team成員的協(xié)助下準(zhǔn)備的。Libritts最初是為文本到語(yǔ)音(TTS)研究設(shè)計(jì)的，但可以用于各種語(yǔ)音識(shí)別任務(wù)。

20、TED-LIUM – TED- lium是一個(gè)包含超過(guò)110小時(shí)的英語(yǔ)TED演講的數(shù)據(jù)集。所有談話都已抄錄下來(lái)。

21、VoxCeleb – VoxCeleb是一個(gè)用于揚(yáng)聲器識(shí)別任務(wù)的大型音頻數(shù)據(jù)集，包含來(lái)自1,251名揚(yáng)聲器的超過(guò)150,000個(gè)音頻樣本。

文本數(shù)據(jù)集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web頁(yè)面數(shù)據(jù)的開(kāi)放源碼存儲(chǔ)庫(kù)。它有40多種語(yǔ)言，涵蓋了7年的數(shù)據(jù)。

23、Civil Comments – 這個(gè)數(shù)據(jù)集包含了來(lái)自50個(gè)英語(yǔ)新聞網(wǎng)站的超過(guò)180萬(wàn)份公眾評(píng)論。

24、IRC Disentanglement – 這個(gè)TensorFlow數(shù)據(jù)集包含了來(lái)自Ubuntu IRC頻道的77000多條評(píng)論。每個(gè)樣本的元數(shù)據(jù)包括消息ID和時(shí)間戳。

25、Lm1b – 這個(gè)數(shù)據(jù)集被稱為語(yǔ)言模型基準(zhǔn)測(cè)試，它包含10億個(gè)單詞。它最初是用來(lái)衡量統(tǒng)計(jì)語(yǔ)言建模的進(jìn)展。

26、SNLI – 斯坦福自然語(yǔ)言推理數(shù)據(jù)集是一個(gè)包含570,000對(duì)人類書(shū)寫(xiě)的句子的語(yǔ)料庫(kù)。所有對(duì)都經(jīng)過(guò)人工標(biāo)記，以達(dá)到類別平衡。

27、e-SNLI – 這個(gè)數(shù)據(jù)集是上面提到的SNLI的擴(kuò)展，它包含了原始數(shù)據(jù)集的570,000對(duì)句子，分類為：entailment，contradiction和neutral。

28、MultiNLI – 以SNLI數(shù)據(jù)集為模型，MultiNLI包括433,000對(duì)句子對(duì)，它們都標(biāo)注了entailment信息。

29、Wiki40b – 這個(gè)大規(guī)模數(shù)據(jù)集包括來(lái)自40種不同語(yǔ)言的維基百科文章的文本。數(shù)據(jù)已經(jīng)被清洗，非內(nèi)容部分以及結(jié)構(gòu)化對(duì)象已經(jīng)被刪除。

30、Yelp Polarity Reviews – 這個(gè)數(shù)據(jù)集包含59.8萬(wàn)個(gè)高度兩極分化的Yelp評(píng)論。它們是從2015年Yelp數(shù)據(jù)集挑戰(zhàn)賽的數(shù)據(jù)中提取出來(lái)的。

TensorFlow中超大的30個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開(kāi)發(fā)時(shí)間和成本降低90%

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

中國(guó)游戲市場(chǎng)開(kāi)始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動(dòng)新能源出行體驗(yàn)

安嵐攜手妮可?巴菲特開(kāi)啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國(guó)封鎖！華為：我們給大家提供系統(tǒng)、存儲(chǔ)等

尼爾森IQ深耕中國(guó)四十載，共繪未來(lái)新篇章

第二十二屆跨盈年度B2B營(yíng)銷高管峰會(huì)2025聚焦"營(yíng)銷競(jìng)?cè)?，打破市?chǎng)內(nèi)卷實(shí)現(xiàn)認(rèn)知進(jìn)化"

恒久動(dòng)力馳騁天地美孚1號(hào)攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗(yàn)

美通社母公司Cision發(fā)布CisionOne平臺(tái)，進(jìn)軍亞太地區(qū)媒體監(jiān)測(cè)市場(chǎng)

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計(jì)業(yè)績(jī)

華為發(fā)布AI百校計(jì)劃：培養(yǎng)AI人才每年獲最高100萬(wàn)支持