Buka Kumpulan Data
Temukan set data open source yang membuat Anda melatih model ML
Kumpulan Data Sumber Terbuka Untuk Memulai Model AI/ML
Keluaran model AI & ML Anda hanya sebaik data yang Anda gunakan untuk melatihnya – jadi ketepatan yang Anda terapkan pada agregasi data serta penandaan dan pengidentifikasian data itu penting!
Jadi, jika Anda ingin memulai inisiatif AI/ML baru dan sekarang Anda dengan cepat menyadari bahwa menemukan data pelatihan berkualitas tinggi akan menjadi salah satu aspek yang lebih menantang dari proyek Anda karena set data berkualitas tinggi adalah bahan bakar yang menjaga AI/ Mesin ML berjalan. Kami telah mengumpulkan daftar kumpulan data terbuka yang gratis untuk digunakan dan melatih model AI/ML Anda di masa mendatang.
Spesialisasi | Tipe data | Nama Set Data | Industri / Departemen. | Anotasi/Kasus Penggunaan | Deskripsi Produk | Link |
---|---|---|---|---|---|---|
NLP | Teks | Ulasan Amazon | E-commerce | Analisis Sentimen | Satu set 35 juta ulasan & peringkat dari lebih dari 18 tahun terakhir dalam teks biasa dengan detail pengguna dan produk. | Link |
NLP | Teks | Data Tautan Wikipedia | Umum | Lebih dari 4 Mn. artikel yang mengandung 1.9 Miliar. kata yang terdiri dari kata dan frasa serta paragraf. | Link | |
NLP | Teks | Standford Sentimen Treebank | Menghibur | Analisis Sentimen | Kumpulan data anotasi sentimen untuk lebih dari 10,000 ulasan dari Rotten Tomatoes dalam format file HTML | Link |
NLP | Teks | Sentimen Maskapai Penerbangan AS Twitter | perusahaan penerbangan | Analisis Sentimen | Tweet 2015 di US Airlines terbagi menjadi nada positif, negatif, dan netral | Link |
CV | Gambar | Wajah Berlabel Di Alam Liar | Umum | Pengenalan Wajah | Kumpulan data berisi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeda untuk pelatihan pengenalan wajah. | Link |
CV | Video, Gambar | Kumpulan Data UMDfaces | Umum | Pengenalan Wajah | Kumpulan data beranotasi yang berisi lebih dari 367,000 wajah dari lebih dari 8,000 subjek yang Termasuk gambar diam dan video. | Link |
CV | Gambar | jaringan gambar | Umum | Dataset dengan lebih dari 14 Juta. gambar dalam berbagai format file, diatur menurut hierarki WordNet. | Link | |
CV | Gambar | Gambar Terbuka Google | Umum | 9 jt. URL untuk mengkategorikan gambar publik dari lebih dari 6,000 kategori. | Link | |
NLP | Teks | Database Perawatan Kritis MIMIC | Kesehatan | Kumpulan Data Fisiologi Komputasi dengan data yang tidak teridentifikasi dari 40,000 pasien perawatan kritis. Dataset berisi informasi seperti demografi, tanda-tanda vital, obat-obatan, dll. | Link | |
CV | Gambar | Kantor Perjalanan dan Pariwisata Nasional AS | Pariwisata | Menyediakan foto-foto luas dari industri pariwisata dengan basis data yang dapat dipercaya, yang mencakup topik-topik seperti perjalanan masuk dan keluar serta info wisata internasional. | Link | |
NLP | Teks | Departemen Perhubungan | Pariwisata | Kumpulan data pariwisata yang mencakup Taman Nasional, daftar pengemudi, jembatan & info kereta api, dll. | Link | |
NLP | Audio | Korpus Teks Audio Flickr | Umum | Lebih dari 40 ribu teks lisan dari 8,000 foto yang dirancang untuk pola bicara tanpa pengawasan | Link | |
NLP | Audio | Dataset Perintah Ucapan | Umum | Pengenalan Ucapan, Anotasi Audio | Ucapan panjang 1 detik dari ribuan individu, untuk membangun antarmuka suara dasar. | Link |
NLP | Audio | Kumpulan Data Audio Lingkungan | Umum | Set data audio lingkungan yang berisi tabel suara acara dan tabel adegan akustik. | Link | |
NLP | Teks | COVID-19 Set Data Penelitian Terbuka | Kesehatan | AI medis | Kumpulan data penelitian yang terdiri dari 45,000 artikel ilmiah tentang COVID-19 & keluarga virus coronavirus. | Link |
CV | Gambar | Waymo Buka Dataset | Otomotif | Kumpulan data mengemudi otonom paling beragam yang dirilis oleh Waymo | Link | |
CV | Gambar | Genom Visual | Umum | Keterangan Gambar | Basis pengetahuan visual dengan keterangan rinci lebih dari 100 ribu gambar | Link |
CV | Gambar | Label saya | Pemerintah publik | Kumpulan besar gambar beranotasi yang dapat diakses melalui Labelme Matlab | Link | |
CV | Gambar | kumparan100 | Umum | Lebih dari 100 objek bervariasi difoto dari berbagai sudut (yaitu 360 derajat) | Link | |
CV | Gambar | Kumpulan Data Anjing Stanford | Umum | Lebih dari 20,500+ gambar dikategorikan ke dalam kumpulan gambar dari 120 ras anjing yang berbeda | Link | |
CV | Gambar | Pengenalan Pemandangan Dalam Ruangan | Umum | Pengenalan Adegan | Kumpulan data spesifik yang terdiri dari 15620 gambar dari 67 kategori dalam ruangan untuk membangun model pengenalan pemandangan | Link |
CV | Gambar | VisualQA | Umum | Kumpulan data yang mencakup pertanyaan terbuka terkait 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk merespons. | Link | |
NLP | Teks | Kumpulan Data Analisis Sentimen Multidomain | E-commerce | Analisis Sentimen | Kumpulan data yang berisi ulasan produk dari Amazon | Link |
NLP | Teks | Ulasan IMDB | Menghibur | Analisis Sentimen | Kumpulan data yang berisi 25000 ulasan film untuk analisis sentimen | Link |
NLP | Teks | Sentimen140 | Umum | Analisis Sentimen | Kumpulan data yang berisi 160,000 tweet dengan emotikon yang telah dihapus untuk akurasi yang lebih tinggi | Link |
NLP | Teks | Korpus Blogger | Umum | Analisis Keyprase | Dataset berisi 681,288 posting blog dari blogger.com yang terdiri dari minimal 200 kemunculan kata-kata bahasa Inggris yang banyak digunakan. | Link |
NLP | Teks | Bahaya | Umum | Pelatihan Chatbot | Kumpulan data dengan lebih dari 200,000 pertanyaan yang dapat digunakan untuk melatih model pembelajaran mesin agar dapat merespons otomatis secara cerdas | Link |
NLP | Teks | Koleksi Spam SMS dalam bahasa Inggris | Telecom | Pengenalan Spam | Kumpulan data pesan spam yang terdiri dari 5,574 SMS berbahasa Inggris | Link |
NLP | Teks | Ulasan Yelp | Umum | Analisis Sentimen | Kumpulan data dengan lebih dari 5 juta ulasan diterbitkan oleh Yelp | Link |
NLP | Teks | Spambase UCI | Enterprise | Pengenalan Spam | Kumpulan data email spam yang besar, berguna untuk pemfilteran spam. | Link |
CV | Video, Gambar | Berkeley Deep Drive BDD100k | Otomotif | Kendaraan otonom | Salah satu kumpulan data terbesar untuk AI self-driving yang berisi 1,100 jam pengalaman mengemudi di lebih dari 100,000 video dari waktu yang berbeda dalam sehari dari wilayah New York dan San Francisco. | Link |
CV | Video | koma.ai | Otomotif | Kendaraan otonom | Kumpulan data mengemudi jalan raya 7 jam yang berisi informasi tentang kecepatan mobil, akselerasi, sudut kemudi, dan koordinat GPS | Link |
CV | Video, Gambar | Kumpulan Data Pemandangan Kota | Otomotif | Label Semantik untuk Kendaraan Otonom | Kumpulan data 5,000 anotasi tingkat piksel ditambah kumpulan lebih besar dari 20,000 bingkai beranotasi lemah dalam urutan video stereo, direkam dari 50 kota berbeda | Link |
CV | Gambar | KUL Belgia Traffic Sign Dataset | Otomotif | Kendaraan otonom | Lebih dari 10000+ anotasi rambu lalu lintas dari wilayah Flanders berdasarkan rambu lalu lintas yang berbeda secara fisik dari seluruh Belgia. | Link |
CV | Gambar | LISA: Laboratorium untuk Mobil Cerdas & Aman, Dataset UC San Diego | Otomotif | Kendaraan otonom | Kumpulan data kaya yang berisi rambu lalu lintas, deteksi kendaraan, lampu lalu lintas, dan pola lintasan. | Link |
CV | Gambar | CIFAR-10 | Umum | Pengakuan Objek | Kumpulan data yang terdiri dari 50,000 gambar dan 10,000 gambar uji (yaitu 60,000 gambar berwarna 32×32 dalam 10 kelas) untuk pengenalan objek. | Link |
CV | Gambar | Mode MNIST | Fashion | Kumpulan data gambar yang terdiri dari 60,000 contoh dan kumpulan uji 10,000 contoh dalam gambar skala abu-abu 28x28, terkait dengan label dari 10 kelas. | Link | |
CV | Gambar | Kumpulan Data Wiki-IMDB | Menghibur | Pengenalan Wajah | Kumpulan data besar gambar wajah dengan label seperti jenis kelamin dan usia. Dari total 523,051 gambar wajah, 460,723 gambar diperoleh dari 20,284 selebriti dari IMDB & 62,328 dari Wikipedia. | Link |
CV | Video | Kinetika-700 | Umum | Untuk setiap kelas tindakan, kumpulan data berkualitas tinggi terdiri dari 650,000 klip video dan mencakup 700 kelas tindakan manusia dengan setidaknya 600 klip video. Di sini, setiap klip berlangsung sekitar 10 detik. | Link | |
CV | Gambar | MS Kelapa | Umum | Deteksi objek, Segmentasi | Set data berisi 328 ribu gambar dan memiliki total 2.5 juta instans dan 91 gambar objek untuk melatih deteksi objek skala besar, segmentasi, dan model ML terkait teks data. | Link |
CV | Gambar | Kumpulan Data Pose Manusia MPII | Umum | Sekitar 25K foto yang berisi lebih dari 40K individu dengan sendi tubuh beranotasi disertakan dalam kumpulan data, yang digunakan untuk mengartikulasikan estimasi pose manusia. Secara keseluruhan kumpulan data mencakup 410 aktivitas manusia dan setiap gambar dilengkapi dengan label aktivitas. | Link | |
CV | Gambar | Buka Gambar | Umum | Anotasi lokasi objek | Kumpulan data gambar dengan sekitar 9 Mn gambar yang dianotasi dengan label tingkat gambar, kotak pembatas objek, segmentasi objek, dll. Kumpulan data juga terdiri dari 16 Mn. kotak pembatas untuk 600 kelas objek pada 1.9 Mn gambar. | Link |
CV | Video | Platform Terbuka Apollo, oleh Baidu Inc, Tiongkok | Otomotif | Kotak Pembatas, LiDAR | Kumpulan data penggerak otonom yang kaya, yang memberi pengembang data yang diperlukan dalam mengemudi otonom untuk mempercepat efisiensi iterasi inovatif. | Link |
CV | Video, Gambar | Argo, oleh Argo, AS | Otomotif | Kotak Batas, Aliran Optik, Label Perilaku, Label Semantik, Penandaan Jalur | Kumpulan data self-driving yang terdiri dari peta HD dengan metadata geometrik & semantik yaitu garis tengah lajur, arah lajur, & area yang dapat dikendarai. Kumpulan data digunakan untuk melatih model ML, untuk membuat algoritme persepsi yang lebih akurat, yang akan membantu kendaraan yang mengemudi sendiri bernavigasi dengan aman. | Link |
CV | Video | Lampu Lalu Lintas Kecil Bosch, oleh Bosch North America Research | Otomotif | Kotak pembatas | Kumpulan data yang terdiri dari 13427 gambar kamera dengan resolusi 1280*720 untuk membangun sistem deteksi lampu lalu lintas berbasis penglihatan. Dataset memiliki lebih dari 24000 lampu lalu lintas beranotasi. | Link |
CV | Video | Brain4Cars, oleh Cornell Univ., Amerika Serikat | Otomotif | Label Perilaku | Kumpulan data yang terdiri dari serangkaian sensor kabin (kamera, sensor taktil, perangkat pintar, dll.) untuk mengekstrak statistik berguna tentang kewaspadaan pengemudi. Algoritme kami dapat mendeteksi pengemudi yang mengantuk atau terganggu dan meningkatkan alarm yang diperlukan untuk meningkatkan perlindungan. | Link |
CV | Gambar | CULane, oleh Chinese Univ. dari Hong Kong, Beijing, Cina | Otomotif | Penandaan Jalur | Kumpulan data Computer Vision pada deteksi jalur lalu lintas, yang terdiri dari 55 jam video di mana 133,235 (88880 set pelatihan, 9675 set validasi, dan 34680 set uji) diekstraksi. Itu dikumpulkan oleh kamera yang dipasang pada enam kendaraan berbeda yang dikendarai oleh pengemudi berbeda di Beijing. | Link |
CV | Video | DAVIS, oleh Univ. dari Zurich,ETH Zurich, Jerman, Swiss | Otomotif | Kumpulan data pelatihan mengemudi kendaraan menyeluruh yang menggunakan kamera event+frame DAVIS. Data mobil seperti kemudi, throttle, GPS, dll. digunakan untuk mengevaluasi perpaduan antara frame dan data peristiwa untuk aplikasi otomotif. | Link | |
CV | Video | DBNet, oleh Shanghai Jiao Tong Univ.,Xiamen Univ., Cina | Otomotif | Titik Cloud, LiDAR | Data mengemudi 1000 KM dunia nyata, yang mencakup video selaras, cloud titik, GPS, dan perilaku pengemudi untuk penelitian mendalam tentang perilaku mengemudi. | Link |
CV | Video | Dr(mata)ve, oleh Univ. Modena dan Reggio Emilia, Modena, Italia | Otomotif | Label Perilaku | Kumpulan data yang berisi 74 urutan video masing-masing 5 menit, yang dianotasi dalam lebih dari 500,000 bingkai. Dataset terdiri dari lokasi yang direferensikan Geo, kecepatan mengemudi, jalur, dan juga label fiksasi pandangan pengemudi dan integrasi temporal mereka yang menyediakan peta khusus tugas. | Link |
CV | Video | ETH Pedestrian (2009), oleh ETH Zurich, Zurich, Swiss | Umum | Kotak pembatas | Kumpulan data dari 74 urutan video masing-masing 5 menit, dijelaskan dalam lebih dari 500,000 bingkai. Dataset menyediakan posisi geo-referensi, kecepatan mengemudi, arah, dan juga memberi label fiksasi pandangan untuk pengemudi dan integrasi temporal mereka, termasuk peta khusus tugas. | Link |
CV | Video | Ford (2009), oleh Univ. dari Michigan, Michigan, AS | Otomotif | Kotak Pembatas, , LiDAR | Kumpulan data yang disusun oleh kendaraan darat otomatis yang dipersenjatai dengan pemindai Velodyne 3D-lidar, dua lidar Rieg yang menghadap ke depan, Unit Pengukuran Inersia (IMU) teknis dan konsumen, dan sistem kamera omnidirectional Point Grey Ladybug3. | Link |
CV | Video | Stereo Menantang HCI, Bosch Corporation Research, Hildesheim, Jerman | Umum | Kumpulan data beberapa juta bingkai dari adegan video yang diambil yang mencakup berbagai macam kondisi cuaca, banyak lapisan gerakan dan kedalaman; situasi di kota dan pedesaan, dll. | Link | |
CV | Video | JAAD, oleh Universitas York, Ukraina, Kanada | Otomotif | Kotak Batas, Label Perilaku Behavior | "JAAD adalah kumpulan data untuk mempelajari perhatian bersama dalam konteks mengemudi secara otonom. Fokusnya adalah pada perilaku pejalan kaki dan pengemudi di titik penyeberangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, kumpulan data JAAD menyediakan kumpulan 346 video pendek yang beranotasi. klip (5-10 detik) yang diambil dari lebih dari 240 jam rekaman mengemudi dari beberapa lokasi di Amerika Utara dan Eropa Timur. Kotak pembatas dengan tag oklusi digunakan untuk semua pejalan kaki sehingga kumpulan data ini cocok untuk deteksi pejalan kaki. Anotasi perilaku menentukan perilaku pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pengemudi. Untuk setiap video ada beberapa tag (cuaca, lokasi, dll.) dan label perilaku yang diberi stempel waktu (misalnya berhenti, berjalan, melihat, dll.). Selain itu, daftar atribut demografis adalah disediakan untuk setiap pejalan kaki (misalnya usia, jenis kelamin, arah gerak, dll.) serta daftar elemen pemandangan lalu lintas yang terlihat (misalnya tanda berhenti, lampu lalu lintas, dll.) di setiap bingkai." | Link |
CV | Video | KAIST Urban, oleh KAIST, Korea Selatan | Umum | LiDAR | Pengumpulan data mencakup berbagai sensor lokasi untuk data LiDAR dan gambar stereo yang menargetkan area perkotaan yang sangat kompleks (mis. area metropolis, bangunan kompleks, dan area perumahan). | Link |
CV | Gambar | Rambu Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika Serikat | Otomotif | Kotak pembatas | Kumpulan set data yang berisi video dan bingkai beranotasi yang berisi rambu lalu lintas AS. Ini dirilis dalam dua tahap, satu dengan hanya gambar dan satu dengan gambar dan video. | Link |
CV | Gambar | Pemandangan Mapillary, oleh Mapillary AB, Global | Otomotif | Label Semantik | Kumpulan data fotografi tingkat jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang akurat-piksel dan spesifik-contoh. | Link |
CV | Video, Gambar | KITTI semantik, oleh Universitas Bonn, Karlsruhe, Jerman | Otomotif | Kotak Batas, Label Semantik, Penandaan Jalur | Kumpulan data yang menyertakan anotasi semantik untuk semua urutan Tolok Ukur Odometry. Dataset menjelaskan berbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk mobil, sepeda, sepeda, pejalan kaki, dan pengendara sepeda, memungkinkan objek di tempat kejadian untuk dipelajari. | Link |
CV | Video | Stanford Track, oleh Stanford Univ., Amerika Serikat | Otomotif | Deteksi Objek / Klasifikasi LiDAR, GPS, Kode | Kumpulan data yang mencakup 14,000 trek objek berlabel seperti yang diamati oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan alami, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D. | Link |
CV | Video, Gambar | Kumpulan Data Kotak, oleh Bosch, Amerika Serikat | Otomotif | Kotak Batas / Deteksi Kendaraan | Kumpulan data deteksi kendaraan yang berisi 2 juta kendaraan beranotasi untuk melatih dan menganalisis strategi pengenalan objek untuk mobil self-driving di jalan raya. | Link |
CV | Video | TME Motorway, oleh Czech Technical Univ., Italia Utara | Otomotif | Kotak pembatas | Kumpulan Data 28 klip dengan total 27 menit terbagi menjadi 30,000+ bingkai anotasi kendaraan. Anotasi dibuat secara semi-otomatis menggunakan data dari pemindai laser. Pengumpulan data ini melibatkan skenario lalu lintas variabel, jumlah lajur, kelengkungan jalan dan penerangan, yang mencakup sebagian besar kondisi akuisisi penuh. | Link |
CV | Video | Llama tanpa pengawasan, oleh Bosch, Amerika Serikat | Otomotif | Penandaan Jalur, LiDAR | Kumpulan data Unsupervised Llamas dianotasi dengan menghasilkan peta mengemudi otomatis definisi tinggi, termasuk penanda jalur berbasis Lidar. Kendaraan otonom dapat disejajarkan dengan peta-peta ini dan marka jalur diproyeksikan ke dalam bingkai kamera. Proyeksi 3D dioptimalkan dengan meminimalkan perbedaan antara penanda gambar yang sudah diamati dan yang diprediksi. | Link |
NLP | Audio | LibriSpeech Multibahasa AI Facebook (MLS) | Umum | Anotasi Audio / Pengenalan Ucapan | Facebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data open source berskala besar yang dirancang untuk membantu penelitian lanjutan dalam pengenalan ucapan otomatis (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggris, Jerman, Belanda, Prancis, Spanyol, Italia, Portugis, dan Polandia. | Link |