Algoritme AI hanya sebagus data yang Anda berikan.
Ini bukan pernyataan yang berani atau tidak konvensional. AI mungkin tampak agak mengada-ada beberapa dekade yang lalu, tetapi Kecerdasan Buatan dan Pembelajaran Mesin telah berkembang sangat jauh sejak saat itu.
Visi komputer membantu komputer memahami dan menginterpretasikan label dan gambar. Saat Anda melatih komputer menggunakan kumpulan data gambar yang tepat, komputer dapat memperoleh kemampuan untuk mendeteksi, memahami, dan mengidentifikasi berbagai fitur wajah, mendeteksi penyakit, mengendarai kendaraan otonom, dan juga menyelamatkan nyawa menggunakan pemindaian organ multidimensi.
Pasar Computer Vision diprediksi akan mencapai $ 144.46 Miliar oleh 2028 dari yang sederhana $7.04 Miliar pada tahun 2020, tumbuh pada CAGR sebesar 45.64% antara 2021 dan 2028.
Kumpulan data gambar yang Anda masukkan dan latih untuk tugas Machine Learning dan visi komputer sangat penting bagi keberhasilan proyek AI Anda. Kumpulan data yang berkualitas cukup sulit didapat. Menggunakan koleksi gambar yang beragam sangat penting untuk memastikan pelatihan model yang kuat dan untuk lebih mencerminkan kompleksitas dunia nyata.
Bergantung pada kompleksitas proyek Anda, dibutuhkan waktu antara beberapa hari hingga beberapa minggu untuk mendapatkan kumpulan data yang andal dan relevan untuk tujuan visi komputer. Berbagai kumpulan data diperlukan untuk mencakup berbagai tugas visi komputer dan skenario dunia nyata. Peneliti sering kali mencari kumpulan data yang substansial untuk tujuan penelitian guna memastikan evaluasi model yang komprehensif dan untuk mendukung berbagai macam aplikasi.
Di sini, kami menyediakan berbagai (dikategorikan untuk memudahkan Anda) kumpulan data gambar sumber terbuka yang dapat Anda gunakan segera.
Tugas Kumpulan Data Gambar: Klasifikasi, Segmentasi, Deteksi, dan Lainnya
Kumpulan data gambar adalah tulang punggung visi komputer modern, yang mendukung berbagai tugas yang memungkinkan mesin menafsirkan dan memahami informasi visual. Baik Anda sedang membangun model untuk kendaraan otonom, mengembangkan teknologi pengenalan wajah, atau mengerjakan analisis citra medis, kumpulan data citra yang tepat merupakan alat penting untuk meraih keberhasilan.
Klasifikasi gambar adalah salah satu tugas visi komputer yang paling mendasar. Dalam proses ini, model belajar memberi label pada seluruh gambar berdasarkan kontennya. Misalnya, kumpulan data klasifikasi gambar dapat membantu model membedakan antara gambar kucing dan anjing, atau mengidentifikasi berbagai jenis tanaman. Tugas ini penting untuk aplikasi seperti penandaan foto otomatis, diagnosis penyakit dari gambar medis, dan tolok ukur kategorisasi pemandangan.
Deteksi objek membawa hal-hal ke tahap yang lebih jauh dengan tidak hanya mengidentifikasi keberadaan objek dalam gambar tetapi juga menentukan lokasi objek tersebut menggunakan kotak pembatas. Kumpulan data untuk deteksi objek, seperti yang berisi gambar beranotasi dengan kotak pembatas, sangat penting untuk aplikasi seperti deteksi pejalan kaki di kendaraan otonom, pengawasan keamanan, dan analitik ritel. Deteksi objek juga merupakan komponen utama dalam mengembangkan algoritma visi komputer yang tangguh untuk skenario dunia nyata.
Segmentasi semantik melibatkan pengklasifikasian setiap piksel dalam gambar ke dalam kategori tertentu, yang memberikan pemahaman terperinci tentang pemandangan. Segmentasi trimap tingkat piksel ini sangat penting dalam tugas-tugas seperti pencitraan medis, yang memerlukan penggambaran organ atau tumor yang tepat, dan di lingkungan perkotaan untuk mengemudi secara otomatis, yang mana pembedaan antara jalan, trotoar, dan kendaraan sangat penting.
Di luar tugas-tugas inti ini, kumpulan data gambar juga mendukung segmentasi instans (membedakan antara objek-objek individual dari kelas yang sama), pemberian teks pada gambar (menghasilkan teks deskriptif untuk gambar), dan pengenalan wajah (mengidentifikasi atau memverifikasi wajah manusia dalam gambar). Setiap tugas visi komputer ini bergantung pada gambar berkualitas tinggi yang diberi anotasi untuk melatih dan memvalidasi model pembelajaran mesin.
Dengan memanfaatkan kumpulan data gambar yang beragam dan beranotasi baik, ilmuwan data dan praktisi pembelajaran mesin dapat mengatasi berbagai tantangan visi komputer, mulai dari tugas pengenalan dan klasifikasi gambar hingga masalah segmentasi dan deteksi yang rumit. Kumpulan data yang tepat tidak hanya mempercepat penelitian dan pengembangan, tetapi juga memastikan bahwa sistem visi komputer bekerja secara akurat dalam aplikasi dunia nyata.
Daftar Lengkap Kumpulan Data Gambar untuk Melatih Model Visi Komputer Anda
Umum:
-
IMAGEnet
ImageNet adalah kumpulan data yang banyak digunakan, dan dilengkapi dengan 1.2 juta gambar yang dikategorikan ke dalam 1000 kategori. Dataset ini diatur sesuai dengan hierarki WorldNet dan dikategorikan menjadi tiga bagian – data pelatihan, label gambar, dan data validasi.
-
Kinetika 700
Kinetics 700 adalah kumpulan data berkualitas tinggi yang sangat besar dengan lebih dari 650,000 klip dari 700 kelas tindakan manusia yang berbeda. Setiap tindakan kelas memiliki sekitar 700 klip video. Klip dalam kumpulan data memiliki interaksi manusia-objek dan manusia-manusia, yang terbukti cukup membantu saat mengenali tindakan manusia dalam video.
-
CIFAR-10
CIFAR 10 adalah salah satu kumpulan data visi komputer terbesar yang memiliki 60000 gambar berwarna 32 x 32 yang mewakili sepuluh kelas yang berbeda. Setiap kelas memiliki sekitar 6000 gambar yang digunakan untuk melatih algoritma computer vision dan pembelajaran mesin.
-
Kumpulan Data Gambar Hewan Peliharaan Oxford-IIIT
Kumpulan data gambar hewan peliharaan terdiri dari 37 kategori dengan 200 gambar per kelas. Gambar-gambar ini bervariasi dalam skala, pose, dan pencahayaan, dan disertai dengan anotasi untuk ras, ROI kepala, dan segmentasi trimap tingkat piksel.
-
Gambar Terbuka Google
Dengan 9 juta URL yang mengesankan, ini adalah salah satu kumpulan data gambar terbesar dalam daftar, berisi jutaan gambar berlabel di 6,000 kategori.
-
Gambar Tanaman
Kompilasi ini menyertakan beberapa kumpulan data gambar yang menampilkan 1 juta gambar tanaman yang mengesankan, yang mencakup sekitar 11 spesies.
-
LSUN
LSUN adalah kumpulan data gambar berskala besar dengan jutaan gambar berlabel dalam berbagai kategori pemandangan dan objek. Kumpulan data tersebut mencakup satu set pengujian khusus untuk evaluasi model.
Pengenalan wajah:
-
Wajah Berlabel di Alam Liar
Labeled Faced in the Wild adalah kumpulan data besar yang berisi lebih dari 13,230 gambar dari hampir 5,750 orang yang terdeteksi dari internet. Kumpulan data wajah ini dirancang untuk memudahkan mempelajari deteksi wajah tanpa batasan.
-
WebFace CASIA
Wajah Web CASIA adalah kumpulan data yang dirancang dengan baik yang membantu pembelajaran mesin dan penelitian ilmiah tentang pengenalan wajah tanpa batasan. Dengan lebih dari 494,000 gambar dari hampir 10,000 identitas asli, ini sangat ideal untuk tugas identifikasi dan verifikasi wajah.
-
UMD Menghadapi Dataset
UMD menghadapi kumpulan data yang dianotasi dengan baik yang berisi dua bagian – gambar diam dan bingkai video. Kumpulan data memiliki lebih dari 367,800 anotasi wajah dan 3.7 juta bingkai video beranotasi dari subjek.
-
Deteksi Masker Wajah
Kumpulan data ini berisi 853 gambar yang dikategorikan ke dalam tiga kelas: "dengan masker", "tanpa masker", dan "masker yang dipakai tidak benar", beserta kotak pembatasnya dalam format PASCAL VOC.
-
MURID
FERET (Facial Recognition Technology Database) adalah kumpulan data gambar komprehensif yang memuat lebih dari 14,000 gambar wajah manusia yang diberi anotasi.
Pengenalan tulisan tangan:
-
Basis Data MNIST
MNIST adalah database yang berisi sampel angka tulisan tangan dari 0 hingga 9, dan memiliki 60,000 dan 10,000 gambar pelatihan dan pengujian. Dirilis pada tahun 1999, MNIST mempermudah pengujian sistem pemrosesan gambar di Deep Learning.
-
Kumpulan Data Karakter Buatan
Dataset Karakter Buatan adalah, seperti namanya, data yang dihasilkan secara artifisial yang menggambarkan struktur bahasa Inggris dalam sepuluh huruf kapital. Muncul dengan lebih dari 6000 gambar.
Deteksi Objek:
MS COCO
MS COCO atau Common Objects in Context adalah dataset deteksi objek dan teks.
Ini memiliki lebih dari 328,000 gambar dengan deteksi keypoint, deteksi multi-objek, teks, dan anotasi topeng segmentasi. Muncul dengan 80 kategori objek dan lima teks per gambar.
LSUN
LSUN, kependekan dari Large-scale Scene Understanding, memiliki lebih dari satu juta gambar berlabel di 20 objek dan 10 kategori pemandangan. Beberapa kategori memiliki hampir 300,000 gambar, dengan 300 gambar khusus untuk validasi dan 1000 gambar untuk data pengujian.
Objek Rumah
Kumpulan data Objek Rumah berisi gambar beranotasi dari objek acak dari sekitar rumah – dapur, ruang tamu, dan kamar mandi. Kumpulan data ini juga memiliki beberapa video beranotasi dan 398 foto tanpa anotasi yang dirancang untuk pengujian.
Genom Visual
Visual Genome merupakan basis pengetahuan visual yang komprehensif dengan lebih dari 108,000 gambar yang diberi teks. Basis pengetahuan ini menyediakan anotasi yang luas untuk objek, atribut, dan hubungan, sehingga sangat berguna untuk pengenalan objek, pemberian teks pada gambar, dan tugas pembelajaran multimodal.
Otomotif:
Kumpulan data lanskap kota
Cityscape adalah kumpulan data yang harus dikunjungi ketika mencari berbagai rangkaian video yang direkam dari beberapa adegan jalanan di beberapa kota. Gambar-gambar ini diambil dalam waktu yang lama dan dalam cuaca dan kondisi cahaya yang berbeda. Anotasi untuk 30 kelas gambar dibagi menjadi delapan kategori berbeda.
Drive Dalam Barkley
Barkley DeepDrive dirancang khusus untuk pelatihan kendaraan otonom, dan memiliki lebih dari 100 ribu urutan video beranotasi. Ini adalah salah satu data pelatihan yang paling membantu untuk kendaraan otonom dengan perubahan jalan dan kondisi mengemudi.
Mapilari
Mapillary memiliki lebih dari 750 juta pemandangan jalan dan rambu lalu lintas di seluruh dunia, yang sangat berguna dalam melatih model persepsi visual dalam pembelajaran mesin dan algoritme AI. Ini memungkinkan Anda mengembangkan kendaraan otonom yang memenuhi berbagai kondisi pencahayaan dan cuaca serta sudut pandang.
Pencitraan medis:
Dataset Riset Terbuka Covid-19
Dataset asli ini memiliki sekitar 6500 piksel-poligonal segmentasi paru-paru tentang rontgen dada AP/PA. Selain itu, tersedia 517 gambar rontgen pasien Covid-19 dengan tag yang berisi nama, lokasi, detail rawat inap, hasil, dan lainnya.
Database NIH dari 100,000 Rontgen Dada
Basis data NIH adalah salah satu kumpulan data paling luas yang tersedia untuk umum yang berisi 100,000 gambar rontgen dada dan data terkait yang berguna bagi komunitas ilmiah dan penelitian. Bahkan memiliki gambar pasien dengan kondisi paru-paru lanjut.
Atlas Patologi Digital
Atlas of Digital Pathology menawarkan beberapa gambar patch histopatologi, lebih dari 17,000 total, dari hampir 100 slide beranotasi dari organ yang berbeda. Dataset ini berguna dalam mengembangkan visi komputer dan perangkat lunak pengenalan pola.
Pengenalan Adegan:
Pengenalan Pemandangan Dalam Ruangan
Pengenalan Pemandangan Dalam Ruangan adalah kumpulan data yang sangat dikategorikan dengan hampir 15620 gambar objek dan pemandangan dalam ruangan untuk digunakan dalam pembelajaran mesin dan pelatihan data. Muncul dengan lebih dari 65 kategori, dan setiap kategori memiliki minimal 100 gambar.
xLihat
Sebagai salah satu kumpulan data paling terkenal yang tersedia untuk umum, xView berisi banyak gambar overhead beranotasi dari berbagai adegan yang kompleks dan besar. Memiliki sekitar 60 kelas dan lebih dari satu juta instance objek, tujuan dari kumpulan data ini adalah untuk memberikan bantuan bencana yang lebih baik menggunakan citra satelit.
Tempat
Places, kumpulan data yang disumbangkan oleh MIT, memiliki lebih dari 1.8 juta gambar dari 365 kategori pemandangan yang berbeda. Ada sekitar 50 gambar di masing-masing kategori ini untuk validasi dan 900 gambar untuk pengujian. Mempelajari fitur adegan dalam untuk menetapkan pengenalan adegan atau tugas pengenalan visual dimungkinkan.
Basis Data SUN
Basis data SUN merupakan tolok ukur kategorisasi pemandangan komprehensif yang banyak digunakan dalam visi komputer. Basis data ini berisi ribuan gambar yang mencakup berbagai lingkungan dalam dan luar ruangan, dengan anotasi terperinci untuk setiap pemandangan. Basis data SUN dikenal karena cakupannya terhadap berbagai pemandangan dan berfungsi sebagai referensi standar untuk mengevaluasi algoritme pemahaman pemandangan.
Hiburan:
Kumpulan Data WIKI IMDB
IMDB – Wiki adalah salah satu database publik paling populer tentang wajah yang diberi label cukup umur, jenis kelamin, dan nama. Ini juga memiliki sekitar 20 ribu wajah selebriti dan 62 ribu dari Wikipedia.
Wajah Selebriti
Celeb Faces adalah database skala besar dengan 200,000 gambar beranotasi dari selebriti. Gambar datang dengan kebisingan latar belakang dan variasi pose, menjadikannya berharga untuk set tes pelatihan dalam tugas visi komputer. Ini sangat bermanfaat untuk mencapai akurasi yang lebih tinggi dalam pengenalan wajah, pengeditan, pelokalan bagian wajah, dan banyak lagi.
Kumpulan Data YouTube-8M
YouTube-8M adalah kumpulan data video berlabel berskala besar yang berisi jutaan ID video YouTube dengan anotasi entitas visual berkualitas tinggi yang dibuat oleh mesin. Kumpulan data ini banyak digunakan untuk pemahaman video berskala besar dan algoritma pelatihan visi, karena menghubungkan konten video ke metadata melalui ID video YouTube, yang memungkinkan pengumpulan dan anotasi data video yang dapat diskalakan.
Sekarang Anda memiliki daftar besar kumpulan data gambar sumber terbuka untuk mendukung mesin kecerdasan buatan Anda. Hasil model AI dan pembelajaran mesin Anda terutama bergantung pada kualitas kumpulan data yang Anda masukkan dan latih. Jika Anda ingin model AI Anda menghasilkan prediksi yang akurat, model tersebut memerlukan kumpulan data berkualitas yang diagregasi, diberi tag, dan diberi label dengan sempurna. Bekerja dengan kumpulan data ini merupakan cara yang sangat baik untuk mengembangkan dan meningkatkan keterampilan pembelajaran mesin Anda melalui proyek-proyek praktis di dunia nyata. Untuk memperkuat keberhasilan sistem visi komputer Anda, Anda harus menggunakan basis data gambar berkualitas yang relevan dengan visi proyek Anda.