Buka Kumpulan Data

Temukan set data open source yang membuat Anda melatih model ML

Kumpulan Data Sumber Terbuka Untuk Memulai Model AI/ML

Keluaran model AI & ML Anda hanya sebaik data yang Anda gunakan untuk melatihnya – jadi ketepatan yang Anda terapkan pada agregasi data serta penandaan dan pengidentifikasian data itu penting!

Jadi, jika Anda ingin memulai inisiatif AI/ML baru dan sekarang Anda dengan cepat menyadari bahwa menemukan data pelatihan berkualitas tinggi akan menjadi salah satu aspek yang lebih menantang dari proyek Anda karena set data berkualitas tinggi adalah bahan bakar yang menjaga AI/ Mesin ML berjalan. Kami telah mengumpulkan daftar kumpulan data terbuka yang gratis untuk digunakan dan melatih model AI/ML Anda di masa mendatang.

Spesialisasi	Tipe data	Nama Set Data	Industri / Departemen.	Anotasi/Kasus Penggunaan	Deskripsi Produk	Link
NLP	Teks	Ulasan Amazon	E-commerce	Analisis Sentimen	Satu set 35 juta ulasan & peringkat dari lebih dari 18 tahun terakhir dalam teks biasa dengan detail pengguna dan produk.	Link
NLP	Teks	Data Tautan Wikipedia	Umum		Lebih dari 4 Mn. artikel yang mengandung 1.9 Miliar. kata yang terdiri dari kata dan frasa serta paragraf.	Link
NLP	Teks	Standford Sentimen Treebank	Menghibur	Analisis Sentimen	Kumpulan data anotasi sentimen untuk lebih dari 10,000 ulasan dari Rotten Tomatoes dalam format file HTML	Link
NLP	Teks	Sentimen Maskapai Penerbangan AS Twitter	perusahaan penerbangan	Analisis Sentimen	Tweet 2015 di US Airlines terbagi menjadi nada positif, negatif, dan netral	Link
CV	Gambar	Wajah Berlabel Di Alam Liar	Umum	Pengenalan Wajah	Kumpulan data berisi lebih dari 13,000 wajah yang dipotong dengan dua gambar berbeda untuk pelatihan pengenalan wajah.	Link
CV	Video, Gambar	Kumpulan Data UMDfaces	Umum	Pengenalan Wajah	Kumpulan data beranotasi yang berisi lebih dari 367,000 wajah dari lebih dari 8,000 subjek yang Termasuk gambar diam dan video.	Link
CV	Gambar	jaringan gambar	Umum		Dataset dengan lebih dari 14 Juta. gambar dalam berbagai format file, diatur menurut hierarki WordNet.	Link
CV	Gambar	Gambar Terbuka Google	Umum		9 jt. URL untuk mengkategorikan gambar publik dari lebih dari 6,000 kategori.	Link
NLP	Teks	Database Perawatan Kritis MIMIC	Kesehatan		Kumpulan Data Fisiologi Komputasi dengan data yang tidak teridentifikasi dari 40,000 pasien perawatan kritis. Dataset berisi informasi seperti demografi, tanda-tanda vital, obat-obatan, dll.	Link
CV	Gambar	Kantor Perjalanan dan Pariwisata Nasional AS	Pariwisata		Menyediakan foto-foto luas dari industri pariwisata dengan basis data yang dapat dipercaya, yang mencakup topik-topik seperti perjalanan masuk dan keluar serta info wisata internasional.	Link
NLP	Teks	Departemen Perhubungan	Pariwisata		Kumpulan data pariwisata yang mencakup Taman Nasional, daftar pengemudi, jembatan & info kereta api, dll.	Link
NLP	Audio	Korpus Teks Audio Flickr	Umum		Lebih dari 40 ribu teks lisan dari 8,000 foto yang dirancang untuk pola bicara tanpa pengawasan	Link
NLP	Audio	Dataset Perintah Ucapan	Umum	Pengenalan Ucapan, Anotasi Audio	Ucapan panjang 1 detik dari ribuan individu, untuk membangun antarmuka suara dasar.	Link
NLP	Audio	Kumpulan Data Audio Lingkungan	Umum		Set data audio lingkungan yang berisi tabel suara acara dan tabel adegan akustik.	Link
NLP	Teks	COVID-19 Set Data Penelitian Terbuka	Kesehatan	AI medis	Kumpulan data penelitian yang terdiri dari 45,000 artikel ilmiah tentang COVID-19 & keluarga virus coronavirus.	Link
CV	Gambar	Waymo Buka Dataset	Otomotif		Kumpulan data mengemudi otonom paling beragam yang dirilis oleh Waymo	Link
CV	Gambar	Genom Visual	Umum	Keterangan Gambar	Basis pengetahuan visual dengan keterangan rinci lebih dari 100 ribu gambar	Link
CV	Gambar	Label saya	Pemerintah publik		Kumpulan besar gambar beranotasi yang dapat diakses melalui Labelme Matlab	Link
CV	Gambar	kumparan100	Umum		Lebih dari 100 objek bervariasi difoto dari berbagai sudut (yaitu 360 derajat)	Link
CV	Gambar	Kumpulan Data Anjing Stanford	Umum		Lebih dari 20,500+ gambar dikategorikan ke dalam kumpulan gambar dari 120 ras anjing yang berbeda	Link
CV	Gambar	Pengenalan Pemandangan Dalam Ruangan	Umum	Pengenalan Adegan	Kumpulan data spesifik yang terdiri dari 15620 gambar dari 67 kategori dalam ruangan untuk membangun model pengenalan pemandangan	Link
CV	Gambar	VisualQA	Umum		Kumpulan data yang mencakup pertanyaan terbuka terkait 265,016 foto yang memerlukan pemahaman penglihatan dan pemahaman bahasa untuk merespons.	Link
NLP	Teks	Kumpulan Data Analisis Sentimen Multidomain	E-commerce	Analisis Sentimen	Kumpulan data yang berisi ulasan produk dari Amazon	Link
NLP	Teks	Ulasan IMDB	Menghibur	Analisis Sentimen	Kumpulan data yang berisi 25000 ulasan film untuk analisis sentimen	Link
NLP	Teks	Sentimen140	Umum	Analisis Sentimen	Kumpulan data yang berisi 160,000 tweet dengan emotikon yang telah dihapus untuk akurasi yang lebih tinggi	Link
NLP	Teks	Korpus Blogger	Umum	Analisis Keyprase	Dataset berisi 681,288 posting blog dari blogger.com yang terdiri dari minimal 200 kemunculan kata-kata bahasa Inggris yang banyak digunakan.	Link
NLP	Teks	Bahaya	Umum	Pelatihan Chatbot	Kumpulan data dengan lebih dari 200,000 pertanyaan yang dapat digunakan untuk melatih model pembelajaran mesin agar dapat merespons otomatis secara cerdas	Link
NLP	Teks	Koleksi Spam SMS dalam bahasa Inggris	Telecom	Pengenalan Spam	Kumpulan data pesan spam yang terdiri dari 5,574 SMS berbahasa Inggris	Link
NLP	Teks	Ulasan Yelp	Umum	Analisis Sentimen	Kumpulan data dengan lebih dari 5 juta ulasan diterbitkan oleh Yelp	Link
NLP	Teks	Spambase UCI	Enterprise	Pengenalan Spam	Kumpulan data email spam yang besar, berguna untuk pemfilteran spam.	Link
CV	Video, Gambar	Berkeley Deep Drive BDD100k	Otomotif	Kendaraan otonom	Salah satu kumpulan data terbesar untuk AI self-driving yang berisi 1,100 jam pengalaman mengemudi di lebih dari 100,000 video dari waktu yang berbeda dalam sehari dari wilayah New York dan San Francisco.	Link
CV	Video	koma.ai	Otomotif	Kendaraan otonom	Kumpulan data mengemudi jalan raya 7 jam yang berisi informasi tentang kecepatan mobil, akselerasi, sudut kemudi, dan koordinat GPS	Link
CV	Video, Gambar	Kumpulan Data Pemandangan Kota	Otomotif	Label Semantik untuk Kendaraan Otonom	Kumpulan data 5,000 anotasi tingkat piksel ditambah kumpulan lebih besar dari 20,000 bingkai beranotasi lemah dalam urutan video stereo, direkam dari 50 kota berbeda	Link
CV	Gambar	KUL Belgia Traffic Sign Dataset	Otomotif	Kendaraan otonom	Lebih dari 10000+ anotasi rambu lalu lintas dari wilayah Flanders berdasarkan rambu lalu lintas yang berbeda secara fisik dari seluruh Belgia.	Link
CV	Gambar	LISA: Laboratorium untuk Mobil Cerdas & Aman, Dataset UC San Diego	Otomotif	Kendaraan otonom	Kumpulan data kaya yang berisi rambu lalu lintas, deteksi kendaraan, lampu lalu lintas, dan pola lintasan.	Link
CV	Gambar	CIFAR-10	Umum	Pengakuan Objek	Kumpulan data yang terdiri dari 50,000 gambar dan 10,000 gambar uji (yaitu 60,000 gambar berwarna 32×32 dalam 10 kelas) untuk pengenalan objek.	Link
CV	Gambar	Mode MNIST	Fashion		Kumpulan data gambar yang terdiri dari 60,000 contoh dan kumpulan uji 10,000 contoh dalam gambar skala abu-abu 28x28, terkait dengan label dari 10 kelas.	Link
CV	Gambar	Kumpulan Data Wiki-IMDB	Menghibur	Pengenalan Wajah	Kumpulan data besar gambar wajah dengan label seperti jenis kelamin dan usia. Dari total 523,051 gambar wajah, 460,723 gambar diperoleh dari 20,284 selebriti dari IMDB & 62,328 dari Wikipedia.	Link
CV	Video	Kinetika-700	Umum		Untuk setiap kelas tindakan, kumpulan data berkualitas tinggi terdiri dari 650,000 klip video dan mencakup 700 kelas tindakan manusia dengan setidaknya 600 klip video. Di sini, setiap klip berlangsung sekitar 10 detik.	Link
CV	Gambar	MS Kelapa	Umum	Deteksi objek, Segmentasi	Set data berisi 328 ribu gambar dan memiliki total 2.5 juta instans dan 91 gambar objek untuk melatih deteksi objek skala besar, segmentasi, dan model ML terkait teks data.	Link
CV	Gambar	Kumpulan Data Pose Manusia MPII	Umum		Sekitar 25K foto yang berisi lebih dari 40K individu dengan sendi tubuh beranotasi disertakan dalam kumpulan data, yang digunakan untuk mengartikulasikan estimasi pose manusia. Secara keseluruhan kumpulan data mencakup 410 aktivitas manusia dan setiap gambar dilengkapi dengan label aktivitas.	Link
CV	Gambar	Buka Gambar	Umum	Anotasi lokasi objek	Kumpulan data gambar dengan sekitar 9 Mn gambar yang dianotasi dengan label tingkat gambar, kotak pembatas objek, segmentasi objek, dll. Kumpulan data juga terdiri dari 16 Mn. kotak pembatas untuk 600 kelas objek pada 1.9 Mn gambar.	Link
CV	Video	Platform Terbuka Apollo, oleh Baidu Inc, Tiongkok	Otomotif	Kotak Pembatas, LiDAR	Kumpulan data penggerak otonom yang kaya, yang memberi pengembang data yang diperlukan dalam mengemudi otonom untuk mempercepat efisiensi iterasi inovatif.	Link
CV	Video, Gambar	Argo, oleh Argo, AS	Otomotif	Kotak Batas, Aliran Optik, Label Perilaku, Label Semantik, Penandaan Jalur	Kumpulan data self-driving yang terdiri dari peta HD dengan metadata geometrik & semantik yaitu garis tengah lajur, arah lajur, & area yang dapat dikendarai. Kumpulan data digunakan untuk melatih model ML, untuk membuat algoritme persepsi yang lebih akurat, yang akan membantu kendaraan yang mengemudi sendiri bernavigasi dengan aman.	Link
CV	Video	Lampu Lalu Lintas Kecil Bosch, oleh Bosch North America Research	Otomotif	Kotak pembatas	Kumpulan data yang terdiri dari 13427 gambar kamera dengan resolusi 1280*720 untuk membangun sistem deteksi lampu lalu lintas berbasis penglihatan. Dataset memiliki lebih dari 24000 lampu lalu lintas beranotasi.	Link
CV	Video	Brain4Cars, oleh Cornell Univ., Amerika Serikat	Otomotif	Label Perilaku	Kumpulan data yang terdiri dari serangkaian sensor kabin (kamera, sensor taktil, perangkat pintar, dll.) untuk mengekstrak statistik berguna tentang kewaspadaan pengemudi. Algoritme kami dapat mendeteksi pengemudi yang mengantuk atau terganggu dan meningkatkan alarm yang diperlukan untuk meningkatkan perlindungan.	Link
CV	Gambar	CULane, oleh Chinese Univ. dari Hong Kong, Beijing, Cina	Otomotif	Penandaan Jalur	Kumpulan data Computer Vision pada deteksi jalur lalu lintas, yang terdiri dari 55 jam video di mana 133,235 (88880 set pelatihan, 9675 set validasi, dan 34680 set uji) diekstraksi. Itu dikumpulkan oleh kamera yang dipasang pada enam kendaraan berbeda yang dikendarai oleh pengemudi berbeda di Beijing.	Link
CV	Video	DAVIS, oleh Univ. dari Zurich,ETH Zurich, Jerman, Swiss	Otomotif		Kumpulan data pelatihan mengemudi kendaraan menyeluruh yang menggunakan kamera event+frame DAVIS. Data mobil seperti kemudi, throttle, GPS, dll. digunakan untuk mengevaluasi perpaduan antara frame dan data peristiwa untuk aplikasi otomotif.	Link
CV	Video	DBNet, oleh Shanghai Jiao Tong Univ.,Xiamen Univ., Cina	Otomotif	Titik Cloud, LiDAR	Data mengemudi 1000 KM dunia nyata, yang mencakup video selaras, cloud titik, GPS, dan perilaku pengemudi untuk penelitian mendalam tentang perilaku mengemudi.	Link
CV	Video	Dr(mata)ve, oleh Univ. Modena dan Reggio Emilia, Modena, Italia	Otomotif	Label Perilaku	Kumpulan data yang berisi 74 urutan video masing-masing 5 menit, yang dianotasi dalam lebih dari 500,000 bingkai. Dataset terdiri dari lokasi yang direferensikan Geo, kecepatan mengemudi, jalur, dan juga label fiksasi pandangan pengemudi dan integrasi temporal mereka yang menyediakan peta khusus tugas.	Link
CV	Video	ETH Pedestrian (2009), oleh ETH Zurich, Zurich, Swiss	Umum	Kotak pembatas	Kumpulan data dari 74 urutan video masing-masing 5 menit, dijelaskan dalam lebih dari 500,000 bingkai. Dataset menyediakan posisi geo-referensi, kecepatan mengemudi, arah, dan juga memberi label fiksasi pandangan untuk pengemudi dan integrasi temporal mereka, termasuk peta khusus tugas.	Link
CV	Video	Ford (2009), oleh Univ. dari Michigan, Michigan, AS	Otomotif	Kotak Pembatas, , LiDAR	Kumpulan data yang disusun oleh kendaraan darat otomatis yang dipersenjatai dengan pemindai Velodyne 3D-lidar, dua lidar Rieg yang menghadap ke depan, Unit Pengukuran Inersia (IMU) teknis dan konsumen, dan sistem kamera omnidirectional Point Grey Ladybug3.	Link
CV	Video	Stereo Menantang HCI, Bosch Corporation Research, Hildesheim, Jerman	Umum		Kumpulan data beberapa juta bingkai dari adegan video yang diambil yang mencakup berbagai macam kondisi cuaca, banyak lapisan gerakan dan kedalaman; situasi di kota dan pedesaan, dll.	Link
CV	Video	JAAD, oleh Universitas York, Ukraina, Kanada	Otomotif	Kotak Batas, Label Perilaku Behavior	"JAAD adalah kumpulan data untuk mempelajari perhatian bersama dalam konteks mengemudi secara otonom. Fokusnya adalah pada perilaku pejalan kaki dan pengemudi di titik penyeberangan dan faktor-faktor yang mempengaruhinya. Untuk tujuan ini, kumpulan data JAAD menyediakan kumpulan 346 video pendek yang beranotasi. klip (5-10 detik) yang diambil dari lebih dari 240 jam rekaman mengemudi dari beberapa lokasi di Amerika Utara dan Eropa Timur. Kotak pembatas dengan tag oklusi digunakan untuk semua pejalan kaki sehingga kumpulan data ini cocok untuk deteksi pejalan kaki. Anotasi perilaku menentukan perilaku pejalan kaki yang berinteraksi dengan atau memerlukan perhatian pengemudi. Untuk setiap video ada beberapa tag (cuaca, lokasi, dll.) dan label perilaku yang diberi stempel waktu (misalnya berhenti, berjalan, melihat, dll.). Selain itu, daftar atribut demografis adalah disediakan untuk setiap pejalan kaki (misalnya usia, jenis kelamin, arah gerak, dll.) serta daftar elemen pemandangan lalu lintas yang terlihat (misalnya tanda berhenti, lampu lalu lintas, dll.) di setiap bingkai."	Link
CV	Video	KAIST Urban, oleh KAIST, Korea Selatan	Umum	LiDAR	Pengumpulan data mencakup berbagai sensor lokasi untuk data LiDAR dan gambar stereo yang menargetkan area perkotaan yang sangat kompleks (mis. area metropolis, bangunan kompleks, dan area perumahan).	Link
CV	Gambar	Rambu Lalu Lintas LISA, oleh Univ. California, San Diego, Amerika Serikat	Otomotif	Kotak pembatas	Kumpulan set data yang berisi video dan bingkai beranotasi yang berisi rambu lalu lintas AS. Ini dirilis dalam dua tahap, satu dengan hanya gambar dan satu dengan gambar dan video.	Link
CV	Gambar	Pemandangan Mapillary, oleh Mapillary AB, Global	Otomotif	Label Semantik	Kumpulan data fotografi tingkat jalanan untuk menafsirkan pemandangan jalanan di seluruh dunia dengan anotasi manusia yang akurat-piksel dan spesifik-contoh.	Link
CV	Video, Gambar	KITTI semantik, oleh Universitas Bonn, Karlsruhe, Jerman	Otomotif	Kotak Batas, Label Semantik, Penandaan Jalur	Kumpulan data yang menyertakan anotasi semantik untuk semua urutan Tolok Ukur Odometry. Dataset menjelaskan berbagai jenis lalu lintas bergerak dan tidak bergerak: termasuk mobil, sepeda, sepeda, pejalan kaki, dan pengendara sepeda, memungkinkan objek di tempat kejadian untuk dipelajari.	Link
CV	Video	Stanford Track, oleh Stanford Univ., Amerika Serikat	Otomotif	Deteksi Objek / Klasifikasi LiDAR, GPS, Kode	Kumpulan data yang mencakup 14,000 trek objek berlabel seperti yang diamati oleh Velodyne HDL-64E S2 LIDAR dalam pemandangan jalanan alami, yang dapat digunakan untuk melatih model pembelajaran mesin untuk Pengenalan Objek 3D.	Link
CV	Video, Gambar	Kumpulan Data Kotak, oleh Bosch, Amerika Serikat	Otomotif	Kotak Batas / Deteksi Kendaraan	Kumpulan data deteksi kendaraan yang berisi 2 juta kendaraan beranotasi untuk melatih dan menganalisis strategi pengenalan objek untuk mobil self-driving di jalan raya.	Link
CV	Video	TME Motorway, oleh Czech Technical Univ., Italia Utara	Otomotif	Kotak pembatas	Kumpulan Data 28 klip dengan total 27 menit terbagi menjadi 30,000+ bingkai anotasi kendaraan. Anotasi dibuat secara semi-otomatis menggunakan data dari pemindai laser. Pengumpulan data ini melibatkan skenario lalu lintas variabel, jumlah lajur, kelengkungan jalan dan penerangan, yang mencakup sebagian besar kondisi akuisisi penuh.	Link
CV	Video	Llama tanpa pengawasan, oleh Bosch, Amerika Serikat	Otomotif	Penandaan Jalur, LiDAR	Kumpulan data Unsupervised Llamas dianotasi dengan menghasilkan peta mengemudi otomatis definisi tinggi, termasuk penanda jalur berbasis Lidar. Kendaraan otonom dapat disejajarkan dengan peta-peta ini dan marka jalur diproyeksikan ke dalam bingkai kamera. Proyeksi 3D dioptimalkan dengan meminimalkan perbedaan antara penanda gambar yang sudah diamati dan yang diprediksi.	Link
NLP	Audio	LibriSpeech Multibahasa AI Facebook (MLS)	Umum	Anotasi Audio / Pengenalan Ucapan	Facebook AI Multilingual LibriSpeech (MLS), adalah kumpulan data open source berskala besar yang dirancang untuk membantu penelitian lanjutan dalam pengenalan ucapan otomatis (ASR). MLS menyediakan lebih dari 50,000 jam audio dalam 8 bahasa: Inggris, Jerman, Belanda, Prancis, Spanyol, Italia, Portugis, dan Polandia.	Link

Buka Kumpulan Data

Kumpulan Data Sumber Terbuka Untuk Memulai Model AI/ML

Layanan Data AI

Khusus

Industri

Produk

Perusahaan

Sumber

Hubungi Kami