Buka Kumpulan Data

Temukan set data open source yang membuat Anda melatih model ML

Buka kumpulan data

Kumpulan Data Sumber Terbuka Untuk Memulai Model AI/ML

Keluaran model AI & ML Anda hanya sebaik data yang Anda gunakan untuk melatihnya – jadi ketepatan yang Anda terapkan pada agregasi data serta penandaan dan pengidentifikasian data itu penting!

Jadi, jika Anda ingin memulai inisiatif AI/ML baru dan sekarang Anda dengan cepat menyadari bahwa menemukan data pelatihan berkualitas tinggi akan menjadi salah satu aspek yang lebih menantang dari proyek Anda karena set data berkualitas tinggi adalah bahan bakar yang menjaga AI/ Mesin ML berjalan. Kami telah mengumpulkan daftar kumpulan data terbuka yang gratis untuk digunakan dan melatih model AI/ML Anda di masa mendatang.

SpesialisasiTipe dataNama Set DataIndustri / Departemen.Anotasi/Kasus PenggunaanDeskripsi ProdukLink
NLPTeksUlasan AmazonE-commerceAnalisis SentimenSatu set 35 juta ulasan & peringkat dari lebih dari 18 tahun terakhir dalam teks biasa dengan detail pengguna dan produk.Link
NLPTeksData Tautan WikipediaUmumLebih dari 4 Mn. artikel yang mengandung 1.9 Miliar. kata yang terdiri dari kata dan frasa serta paragraf.Link
NLPTeksStandford Sentimen TreebankMenghiburAnalisis SentimenKumpulan data anotasi sentimen untuk lebih dari 10,000 ulasan dari Rotten Tomatoes dalam format file HTMLLink
NLPTeksSentimen Maskapai Penerbangan AS Twitterperusahaan penerbanganAnalisis SentimenTweet 2015 di US Airlines terbagi menjadi nada positif, negatif, dan netralLink
CVGambar Wajah Berlabel Di Alam LiarUmumPengenalan WajahKumpulan data berisi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeda untuk pelatihan pengenalan wajah.Link
CVVideo, GambarKumpulan Data UMDfacesUmumPengenalan WajahKumpulan data beranotasi yang berisi lebih dari 367,000 wajah dari lebih dari 8,000 subjek yang Termasuk gambar diam dan video.Link
CVGambar jaringan gambarUmumDataset dengan lebih dari 14 Juta. gambar dalam berbagai format file, diatur menurut hierarki WordNet.Link
CVGambar Gambar Terbuka GoogleUmum9 jt. URL untuk mengkategorikan gambar publik dari lebih dari 6,000 kategori.Link
NLPTeksDatabase Perawatan Kritis MIMICKesehatanKumpulan Data Fisiologi Komputasi dengan data yang tidak teridentifikasi dari 40,000 pasien perawatan kritis. Dataset berisi informasi seperti demografi, tanda-tanda vital, obat-obatan, dll.Link
CVGambarKantor Perjalanan dan Pariwisata Nasional ASPariwisataMenyediakan foto-foto luas dari industri pariwisata dengan basis data yang dapat dipercaya, yang mencakup topik-topik seperti perjalanan masuk dan keluar serta info wisata internasional.Link
NLPTeksDepartemen PerhubunganPariwisataKumpulan data pariwisata yang mencakup Taman Nasional, daftar pengemudi, jembatan & info kereta api, dll.Link
NLPAudioKorpus Teks Audio FlickrUmumLebih dari 40 ribu teks lisan dari 8,000 foto yang dirancang untuk pola bicara tanpa pengawasanLink
NLPAudioDataset Perintah UcapanUmumPengenalan Ucapan, Anotasi AudioUcapan panjang 1 detik dari ribuan individu, untuk membangun antarmuka suara dasar.Link
NLPAudioKumpulan Data Audio LingkunganUmumSet data audio lingkungan yang berisi tabel suara acara dan tabel adegan akustik.Link
NLPTeksCOVID-19 Set Data Penelitian Terbuka KesehatanAI medisKumpulan data penelitian yang terdiri dari 45,000 artikel ilmiah tentang COVID-19 & keluarga virus coronavirus.Link
CVGambarWaymo Buka Dataset OtomotifKumpulan data mengemudi otonom paling beragam yang dirilis oleh WaymoLink
CVGambarLabel saya Pemerintah publikKumpulan besar gambar beranotasi yang dapat diakses melalui Labelme MatlabLink
CVGambarkumparan100UmumLebih dari 100 objek bervariasi difoto dari berbagai sudut (yaitu 360 derajat)Link
CVGambarKumpulan Data Anjing StanfordUmumLebih dari 20,500+ gambar dikategorikan ke dalam kumpulan gambar dari 120 ras anjing yang berbedaLink
CVGambarPengenalan Pemandangan Dalam RuanganUmumPengenalan AdeganKumpulan data spesifik yang terdiri dari 15620 gambar dari 67 kategori dalam ruangan untuk membangun model pengenalan pemandanganLink
CVGambarVisualQAUmumKumpulan data yang mencakup pertanyaan terbuka terkait 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk merespons.Link
NLPTeksKumpulan Data Analisis Sentimen MultidomainE-commerceAnalisis SentimenKumpulan data yang berisi ulasan produk dari AmazonLink
NLPTeksUlasan IMDBMenghiburAnalisis SentimenKumpulan data yang berisi 25000 ulasan film untuk analisis sentimenLink
NLPTeksSentimen140UmumAnalisis SentimenKumpulan data yang berisi 160,000 tweet dengan emotikon yang telah dihapus untuk akurasi yang lebih tinggiLink
NLPTeksKorpus BloggerUmumAnalisis KeypraseDataset berisi 681,288 posting blog dari blogger.com yang terdiri dari minimal 200 kemunculan kata-kata bahasa Inggris yang banyak digunakan.Link
NLPTeksBahayaUmumPelatihan ChatbotKumpulan data dengan lebih dari 200,000 pertanyaan yang dapat digunakan untuk melatih model pembelajaran mesin agar dapat merespons otomatis secara cerdasLink
NLPTeksKoleksi Spam SMS dalam bahasa InggrisTelecomPengenalan SpamKumpulan data pesan spam yang terdiri dari 5,574 SMS berbahasa InggrisLink
NLPTeksUlasan YelpUmumAnalisis SentimenKumpulan data dengan lebih dari 5 juta ulasan diterbitkan oleh YelpLink
NLPTeksSpambase UCIEnterprisePengenalan SpamKumpulan data email spam yang besar, berguna untuk pemfilteran spam.Link
CVVideo, GambarBerkeley Deep Drive BDD100kOtomotifKendaraan otonomSalah satu kumpulan data terbesar untuk AI self-driving yang berisi 1,100 jam pengalaman mengemudi di lebih dari 100,000 video dari waktu yang berbeda dalam sehari dari wilayah New York dan San Francisco.Link
CVVideokoma.aiOtomotifKendaraan otonom Kumpulan data mengemudi jalan raya 7 jam yang berisi informasi tentang kecepatan mobil, akselerasi, sudut kemudi, dan koordinat GPSLink
CVVideo, GambarKumpulan Data Pemandangan KotaOtomotifLabel Semantik untuk Kendaraan OtonomKumpulan data 5,000 anotasi tingkat piksel ditambah kumpulan lebih besar dari 20,000 bingkai beranotasi lemah dalam urutan video stereo, direkam dari 50 kota berbedaLink
CVGambarKUL Belgia Traffic Sign DatasetOtomotifKendaraan otonomLebih dari 10000+ anotasi rambu lalu lintas dari wilayah Flanders berdasarkan rambu lalu lintas yang berbeda secara fisik dari seluruh Belgia.Link
CVGambarLISA: Laboratorium untuk Mobil Cerdas & Aman, Dataset UC San DiegoOtomotifKendaraan otonomKumpulan data kaya yang berisi rambu lalu lintas, deteksi kendaraan, lampu lalu lintas, dan pola lintasan.Link
CVGambarCIFAR-10UmumPengakuan ObjekKumpulan data yang terdiri dari 50,000 gambar dan 10,000 gambar uji (yaitu 60,000 gambar berwarna 32×32 dalam 10 kelas) untuk pengenalan objek.Link
CVGambarMode MNISTFashionKumpulan data gambar yang terdiri dari 60,000 contoh dan kumpulan uji 10,000 contoh dalam gambar skala abu-abu 28x28, terkait dengan label dari 10 kelas.Link
CVGambarKumpulan Data Wiki-IMDBMenghiburPengenalan WajahKumpulan data besar gambar wajah dengan label seperti jenis kelamin dan usia. Dari total 523,051 gambar wajah, 460,723 gambar diperoleh dari 20,284 selebriti dari IMDB & 62,328 dari Wikipedia.Link
CVVideoKinetika-700UmumUntuk setiap kelas tindakan, kumpulan data berkualitas tinggi terdiri dari 650,000 klip video dan mencakup 700 kelas tindakan manusia dengan setidaknya 600 klip video. Di sini, setiap klip berlangsung sekitar 10 detik.Link
CVGambarMS KelapaUmumDeteksi objek, SegmentasiSet data berisi 328 ribu gambar dan memiliki total 2.5 juta instans dan 91 gambar objek untuk melatih deteksi objek skala besar, segmentasi, dan model ML terkait teks data.Link
CVGambarKumpulan Data Pose Manusia MPIIUmumSekitar 25K foto yang berisi lebih dari 40K individu dengan sendi tubuh beranotasi disertakan dalam kumpulan data, yang digunakan untuk mengartikulasikan estimasi pose manusia. Secara keseluruhan kumpulan data mencakup 410 aktivitas manusia dan setiap gambar dilengkapi dengan label aktivitas.Link
CVGambarBuka GambarUmumAnotasi lokasi objekKumpulan data gambar dengan sekitar 9 Mn gambar yang dianotasi dengan label tingkat gambar, kotak pembatas objek, segmentasi objek, dll. Kumpulan data juga terdiri dari 16 Mn. kotak pembatas untuk 600 kelas objek pada 1.9 Mn gambar.Link
CVVideo, GambarArgo, oleh Argo, ASOtomotifKotak Batas, Aliran Optik, Label Perilaku, Label Semantik, Penandaan JalurKumpulan data self-driving yang terdiri dari peta HD dengan metadata geometrik & semantik yaitu garis tengah lajur, arah lajur, & area yang dapat dikendarai. Kumpulan data digunakan untuk melatih model ML, untuk membuat algoritme persepsi yang lebih akurat, yang akan membantu kendaraan yang mengemudi sendiri bernavigasi dengan aman.Link
CVVideoLampu Lalu Lintas Kecil Bosch, oleh Bosch North America ResearchOtomotifKotak pembatasKumpulan data yang terdiri dari 13427 gambar kamera dengan resolusi 1280*720 untuk membangun sistem deteksi lampu lalu lintas berbasis penglihatan. Dataset memiliki lebih dari 24000 lampu lalu lintas beranotasi.Link
CVVideoBrain4Cars, oleh Cornell Univ., Amerika SerikatOtomotifLabel PerilakuKumpulan data yang terdiri dari serangkaian sensor kabin (kamera, sensor taktil, perangkat pintar, dll.) untuk mengekstrak statistik berguna tentang kewaspadaan pengemudi. Algoritme kami dapat mendeteksi pengemudi yang mengantuk atau terganggu dan meningkatkan alarm yang diperlukan untuk meningkatkan perlindungan.Link
CVGambarCULane, oleh Chinese Univ. dari Hong Kong, Beijing, CinaOtomotifPenandaan JalurKumpulan data Computer Vision pada deteksi jalur lalu lintas, yang terdiri dari 55 jam video di mana 133,235 (88880 set pelatihan, 9675 set validasi, dan 34680 set uji) diekstraksi. Itu dikumpulkan oleh kamera yang dipasang pada enam kendaraan berbeda yang dikendarai oleh pengemudi berbeda di Beijing.Link
CVVideoDAVIS, oleh Univ. dari Zurich,ETH Zurich, Jerman, SwissOtomotifKumpulan data pelatihan mengemudi kendaraan menyeluruh yang menggunakan kamera event+frame DAVIS. Data mobil seperti kemudi, throttle, GPS, dll. digunakan untuk mengevaluasi perpaduan antara frame dan data peristiwa untuk aplikasi otomotif.Link
CVVideoDBNet, oleh Shanghai Jiao Tong Univ.,Xiamen Univ., CinaOtomotifTitik Cloud, LiDARData mengemudi 1000 KM dunia nyata, yang mencakup video selaras, cloud titik, GPS, dan perilaku pengemudi untuk penelitian mendalam tentang perilaku mengemudi.Link
CVVideoDr(mata)ve, oleh Univ. Modena dan Reggio Emilia, Modena, ItaliaOtomotifLabel PerilakuKumpulan data yang berisi 74 urutan video masing-masing 5 menit, yang dianotasi dalam lebih dari 500,000 bingkai. Dataset terdiri dari lokasi yang direferensikan Geo, kecepatan mengemudi, jalur, dan juga label fiksasi pandangan pengemudi dan integrasi temporal mereka yang menyediakan peta khusus tugas.Link
CVVideoETH Pedestrian (2009), oleh ETH Zurich, Zurich, SwissUmumKotak pembatasKumpulan data dari 74 urutan video masing-masing 5 menit, dijelaskan dalam lebih dari 500,000 bingkai. Dataset menyediakan posisi geo-referensi, kecepatan mengemudi, arah, dan juga memberi label fiksasi pandangan untuk pengemudi dan integrasi temporal mereka, termasuk peta khusus tugas.Link
CVVideoFord (2009), oleh Univ. dari Michigan, Michigan, ASOtomotifKotak Pembatas, , LiDARKumpulan data yang disusun oleh kendaraan darat otomatis yang dipersenjatai dengan pemindai Velodyne 3D-lidar, dua lidar Rieg yang menghadap ke depan, Unit Pengukuran Inersia (IMU) teknis dan konsumen, dan sistem kamera omnidirectional Point Grey Ladybug3.Link
CVVideoStereo Menantang HCI, Bosch Corporation Research, Hildesheim, JermanUmumKumpulan data beberapa juta bingkai dari adegan video yang diambil yang mencakup berbagai macam kondisi cuaca, banyak lapisan gerakan dan kedalaman; situasi di kota dan pedesaan, dll.Link
CVVideoJAAD, oleh Universitas York, Ukraina, KanadaOtomotifKotak Batas, Label Perilaku Behavior"JAAD adalah kumpulan data untuk mempelajari perhatian bersama dalam konteks mengemudi secara otonom. Fokusnya adalah pada perilaku pejalan kaki dan pengemudi di titik penyeberangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, kumpulan data JAAD menyediakan kumpulan 346 video pendek yang beranotasi. klip (5-10 detik) yang diambil dari lebih dari 240 jam rekaman mengemudi dari beberapa lokasi di Amerika Utara dan Eropa Timur. Kotak pembatas dengan tag oklusi digunakan untuk semua pejalan kaki sehingga kumpulan data ini cocok untuk deteksi pejalan kaki. Anotasi perilaku menentukan perilaku pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pengemudi. Untuk setiap video ada beberapa tag (cuaca, lokasi, dll.) dan label perilaku yang diberi stempel waktu (misalnya berhenti, berjalan, melihat, dll.). Selain itu, daftar atribut demografis adalah disediakan untuk setiap pejalan kaki (misalnya usia, jenis kelamin, arah gerak, dll.) serta daftar elemen pemandangan lalu lintas yang terlihat (misalnya tanda berhenti, lampu lalu lintas, dll.) di setiap bingkai."Link
CVGambarRambu Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika SerikatOtomotifKotak pembatasKumpulan set data yang berisi video dan bingkai beranotasi yang berisi rambu lalu lintas AS. Ini dirilis dalam dua tahap, satu dengan hanya gambar dan satu dengan gambar dan video.Link
CVGambarPemandangan Mapillary, oleh Mapillary AB, GlobalOtomotifLabel SemantikKumpulan data fotografi tingkat jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang akurat-piksel dan spesifik-contoh.Link
CVVideo, GambarKITTI semantik, oleh Universitas Bonn, Karlsruhe, JermanOtomotifKotak Batas, Label Semantik, Penandaan JalurKumpulan data yang menyertakan anotasi semantik untuk semua urutan Tolok Ukur Odometry. Dataset menjelaskan berbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk mobil, sepeda, sepeda, pejalan kaki, dan pengendara sepeda, memungkinkan objek di tempat kejadian untuk dipelajari.Link
CVVideoStanford Track, oleh Stanford Univ., Amerika SerikatOtomotifDeteksi Objek / Klasifikasi LiDAR, GPS, KodeKumpulan data yang mencakup 14,000 trek objek berlabel seperti yang diamati oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan alami, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D.Link
CVVideo, GambarKumpulan Data Kotak, oleh Bosch, Amerika SerikatOtomotifKotak Batas / Deteksi KendaraanKumpulan data deteksi kendaraan yang berisi 2 juta kendaraan beranotasi untuk melatih dan menganalisis strategi pengenalan objek untuk mobil self-driving di jalan raya.Link
CVVideoTME Motorway, oleh Czech Technical Univ., Italia UtaraOtomotifKotak pembatasKumpulan Data 28 klip dengan total 27 menit terbagi menjadi 30,000+ bingkai anotasi kendaraan. Anotasi dibuat secara semi-otomatis menggunakan data dari pemindai laser. Pengumpulan data ini melibatkan skenario lalu lintas variabel, jumlah lajur, kelengkungan jalan dan penerangan, yang mencakup sebagian besar kondisi akuisisi penuh.Link
CVVideoLlama tanpa pengawasan, oleh Bosch, Amerika SerikatOtomotifPenandaan Jalur, LiDARKumpulan data Unsupervised Llamas dianotasi dengan menghasilkan peta mengemudi otomatis definisi tinggi, termasuk penanda jalur berbasis Lidar. Kendaraan otonom dapat disejajarkan dengan peta-peta ini dan marka jalur diproyeksikan ke dalam bingkai kamera. Proyeksi 3D dioptimalkan dengan meminimalkan perbedaan antara penanda gambar yang sudah diamati dan yang diprediksi.Link
NLPAudioLibriSpeech Multibahasa AI Facebook (MLS)UmumAnotasi Audio / Pengenalan UcapanFacebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data open source berskala besar yang dirancang untuk membantu penelitian lanjutan dalam pengenalan ucapan otomatis (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggris, Jerman, Belanda, Prancis, Spanyol, Italia, Portugis, dan Polandia. Link