Model AI yang berfungsi dibangun di atas kumpulan data yang solid, andal, dan dinamis. Tanpa kaya dan detail data pelatihan AI di tangan, tentu saja tidak mungkin untuk membangun solusi AI yang berharga dan sukses. Kita tahu bahwa kompleksitas proyek menentukan, dan menentukan kualitas data yang diperlukan. Tapi kami tidak yakin berapa banyak data pelatihan yang kami butuhkan untuk membangun model kustom.
Tidak ada jawaban langsung untuk berapa jumlah yang tepat dari data pelatihan untuk pembelajaran mesin dibutuhkan. Alih-alih bekerja dengan angka rata-rata, kami percaya banyak metode dapat memberi Anda gambaran akurat tentang ukuran data yang mungkin Anda butuhkan. Namun sebelum itu, mari kita pahami mengapa data pelatihan sangat penting untuk keberhasilan proyek AI Anda.
Pentingnya Data Pelatihan
Berbicara di The Wall Street Journal's Future of Everything Festival, Arvind Krishna, CEO IBM, mengatakan bahwa hampir 80% pekerjaan di Proyek AI adalah tentang mengumpulkan, membersihkan, dan menyiapkan data.' Dan dia juga berpendapat bahwa bisnis melepaskan usaha AI mereka karena mereka tidak dapat mengimbangi biaya, pekerjaan, dan waktu yang diperlukan untuk mengumpulkan data pelatihan yang berharga.
Menentukan data ukuran sampel membantu dalam merancang solusi. Ini juga membantu secara akurat memperkirakan biaya, waktu, dan keterampilan yang dibutuhkan untuk proyek tersebut.
Jika set data yang tidak akurat atau tidak dapat diandalkan digunakan untuk melatih model ML, aplikasi yang dihasilkan tidak akan memberikan prediksi yang baik.
7 Faktor Yang Menentukan Volume Data Pelatihan Yang Diperlukan
Meskipun persyaratan data dalam hal volume untuk melatih model AI sepenuhnya subjektif dan harus dipertimbangkan berdasarkan kasus per kasus, ada beberapa faktor universal yang memengaruhi secara objektif. Mari kita lihat yang paling umum.
Model Pembelajaran Mesin
Volume data pelatihan bergantung pada apakah pelatihan model Anda berjalan pada pembelajaran terbimbing atau tidak terbimbing. Sementara yang pertama memerlukan lebih banyak data pelatihan, yang kedua tidak.
Pembelajaran yang Diawasi
Hal ini melibatkan penggunaan data berlabel, yang pada gilirannya menambah kompleksitas pada pelatihan. Tugas seperti klasifikasi atau pengelompokan gambar memerlukan label atau atribusi agar mesin dapat menguraikan dan membedakannya, yang menyebabkan permintaan akan lebih banyak data.
Pembelajaran Tanpa Pengawasan
Penggunaan data berlabel bukanlah suatu keharusan dalam pembelajaran tanpa pengawasan, sehingga mengurangi kebutuhan akan volume data yang sangat besar secara komparatif. Dengan demikian, volume data akan tetap tinggi bagi model untuk mendeteksi pola dan mengidentifikasi struktur bawaan serta menghubungkannya.
Variabilitas & Keanekaragaman
Agar model dapat bersikap adil dan objektif, bias bawaan harus dihilangkan sepenuhnya. Ini berarti diperlukan lebih banyak volume kumpulan data yang beragam. Ini memastikan model mempelajari banyak kemungkinan yang ada, sehingga terhindar dari menghasilkan respons sepihak.
Peningkatan Data dan Pembelajaran Transfer
Mendapatkan data berkualitas untuk berbagai kasus penggunaan di berbagai industri dan domain tidak selalu mulus. Di sektor sensitif seperti perawatan kesehatan atau keuangan, data berkualitas jarang tersedia. Dalam kasus seperti itu, penambahan data yang melibatkan penggunaan data yang disintesis menjadi satu-satunya cara maju dalam model pelatihan.
Eksperimen dan Validasi
Pelatihan iteratif adalah keseimbangan, di mana volume data pelatihan yang dibutuhkan dihitung setelah eksperimen dan validasi hasil yang konsisten. Melalui pengujian dan pemantauan berulang
kinerja model, pemangku kepentingan dapat mengukur apakah lebih banyak data pelatihan diperlukan untuk pengoptimalan respons.
Cara Mengurangi Persyaratan Volume Data Pelatihan
Terlepas dari apakah itu kendala anggaran, tenggat waktu masuk ke pasar, atau tidak tersedianya beragam data, ada beberapa opsi yang dapat digunakan perusahaan untuk mengurangi ketergantungan mereka pada data pelatihan dalam jumlah besar.
Augmentasi Data
di mana data baru dihasilkan atau disintesis dari kumpulan data yang ada sangat ideal untuk digunakan sebagai data pelatihan. Data ini berasal dari dan meniru data induk, yang merupakan 100% data nyata.
Transfer Belajar
Hal ini melibatkan modifikasi parameter model yang sudah ada untuk menjalankan dan mengeksekusi tugas baru. Misalnya, jika model Anda telah belajar mengidentifikasi apel, Anda dapat menggunakan model yang sama dan memodifikasi parameter pelatihan yang sudah ada untuk mengidentifikasi jeruk juga.
Model pra-terlatih
Di mana pengetahuan yang ada dapat digunakan sebagai kebijaksanaan untuk proyek baru Anda. Ini bisa berupa ResNet untuk tugas yang terkait dengan identifikasi gambar atau BERT untuk kasus penggunaan NLP.
Contoh Nyata Proyek Pembelajaran Mesin dengan Dataset Minimal
Meskipun kedengarannya mustahil bahwa beberapa proyek pembelajaran mesin yang ambisius dapat dijalankan dengan bahan baku yang minimal, beberapa kasus benar-benar terjadi. Bersiaplah untuk takjub.
Laporan Kaggle | Tenaga Kesehatan | Onkologi Klinis |
Survei Kaggle mengungkapkan bahwa lebih dari 70% proyek pembelajaran mesin diselesaikan dengan kurang dari 10,000 sampel. | Dengan hanya 500 gambar, tim MIT melatih model untuk mendeteksi neuropati diabetik dalam gambar medis dari pemindaian mata. | Melanjutkan contoh dengan perawatan kesehatan, tim Universitas Stanford berhasil mengembangkan model untuk mendeteksi kanker kulit hanya dengan 1000 gambar. |
Membuat Tebakan Terdidik
Tidak ada angka ajaib mengenai jumlah minimum data yang diperlukan, tetapi ada beberapa aturan praktis yang dapat Anda gunakan untuk sampai pada angka rasional.
aturan 10
Sebagai rule of thumb, untuk mengembangkan model AI yang efisien, jumlah set data pelatihan yang diperlukan harus sepuluh kali lebih banyak dari setiap parameter model, juga disebut derajat kebebasan. Aturan waktu '10' bertujuan untuk membatasi variabilitas dan meningkatkan keragaman data. Dengan demikian, aturan praktis ini dapat membantu Anda memulai proyek dengan memberi Anda ide dasar tentang jumlah kumpulan data yang diperlukan.
Belajar mendalam
Metode pembelajaran mendalam membantu mengembangkan model berkualitas tinggi jika lebih banyak data diberikan ke sistem. Secara umum diterima bahwa memiliki 5000 gambar berlabel per kategori sudah cukup untuk membuat algoritme pembelajaran mendalam yang dapat bekerja setara dengan manusia. Untuk mengembangkan model yang sangat kompleks, setidaknya diperlukan minimal 10 juta item berlabel.
Visi Komputer
Jika Anda menggunakan pembelajaran mendalam untuk klasifikasi gambar, ada konsensus bahwa kumpulan data 1000 gambar berlabel untuk setiap kelas adalah angka yang wajar.
Kurva Pembelajaran
Kurva pembelajaran digunakan untuk mendemonstrasikan kinerja algoritme pembelajaran mesin terhadap kuantitas data. Dengan memiliki keterampilan model pada sumbu Y dan kumpulan data pelatihan pada sumbu X, dimungkinkan untuk memahami bagaimana ukuran data memengaruhi hasil proyek.
Kerugian Memiliki Data Terlalu Sedikit
Anda mungkin berpikir bahwa proyek membutuhkan data dalam jumlah besar, tetapi terkadang, bahkan bisnis besar dengan akses ke data terstruktur gagal mendapatkannya. Pelatihan tentang jumlah data yang terbatas atau sempit dapat menghentikan model pembelajaran mesin dari mencapai potensi penuh mereka dan meningkatkan risiko memberikan prediksi yang salah.
Meskipun tidak ada aturan emas dan generalisasi kasar biasanya dibuat untuk memperkirakan kebutuhan data pelatihan, selalu lebih baik memiliki kumpulan data besar daripada menderita keterbatasan. Keterbatasan data yang diderita model Anda akan menjadi batasan proyek Anda.
Apa yang harus dilakukan jika Anda Membutuhkan lebih banyak Dataset
Meskipun semua orang ingin memiliki akses ke kumpulan data besar, itu lebih mudah diucapkan daripada dilakukan. Mendapatkan akses ke sejumlah besar kumpulan data kualitas dan keragaman sangat penting untuk keberhasilan proyek. Di sini kami memberi Anda langkah-langkah strategis untuk mempermudah pengumpulan data.
Buka Kumpulan Data
Kumpulan data terbuka biasanya dianggap sebagai 'sumber yang baik' dari data gratis. Meskipun ini mungkin benar, set data terbuka bukanlah yang dibutuhkan proyek dalam banyak kasus. Ada banyak tempat dari mana data dapat diperoleh, seperti sumber pemerintah, portal data EU Open, penjelajah data Google Public, dan banyak lagi. Namun, ada banyak kerugian menggunakan kumpulan data terbuka untuk proyek yang kompleks.
Saat Anda menggunakan kumpulan data seperti itu, Anda berisiko pelatihan dan pengujian model Anda pada data yang salah atau hilang. Metode pengumpulan data umumnya tidak diketahui, yang dapat berdampak pada hasil proyek. Privasi, persetujuan, dan pencurian identitas adalah kelemahan signifikan dari penggunaan sumber data terbuka.
Kumpulan Data yang Diperbesar
Ketika Anda memiliki beberapa jumlah data pelatihan tetapi tidak cukup untuk memenuhi semua persyaratan proyek Anda, Anda perlu menerapkan teknik augmentasi data. Dataset yang tersedia digunakan kembali untuk memenuhi kebutuhan model.
Sampel data akan mengalami berbagai transformasi yang membuat dataset kaya, bervariasi, dan dinamis. Contoh sederhana dari augmentasi data dapat dilihat ketika berhadapan dengan gambar. Sebuah gambar dapat diperbesar dalam banyak cara – dapat dipotong, diubah ukurannya, dicerminkan, diubah menjadi berbagai sudut, dan pengaturan warna dapat diubah.
Data Sintetis
Ketika ada data yang tidak mencukupi, kita dapat beralih ke generator data sintetis. Data sintetis sangat berguna dalam hal pembelajaran transfer, karena model pertama-tama dapat dilatih pada data sintetis dan kemudian pada kumpulan data dunia nyata. Misalnya, kendaraan self-driving berbasis AI pertama-tama dapat dilatih untuk mengenali dan menganalisis objek di visi komputer video game.
Data sintetis bermanfaat ketika ada kekurangan dari kehidupan nyata data untuk dilatih dan uji model terlatih. Selain itu, ini juga digunakan ketika berhadapan dengan privasi dan sensitivitas data.
Pengumpulan Data Kustom
Pengumpulan data khusus mungkin ideal untuk menghasilkan kumpulan data ketika formulir lain tidak memberikan hasil yang diperlukan. Kumpulan data berkualitas tinggi dapat dihasilkan menggunakan alat pengikis web, sensor, kamera, dan alat lainnya. Saat Anda membutuhkan kumpulan data yang dibuat khusus untuk meningkatkan kinerja model Anda, pengadaan kumpulan data khusus mungkin merupakan langkah yang tepat. Beberapa penyedia layanan pihak ketiga menawarkan keahlian mereka.
Untuk mengembangkan solusi AI berperforma tinggi, model perlu dilatih dengan kumpulan data andal berkualitas baik. Namun, tidak mudah untuk mendapatkan kumpulan data yang kaya dan terperinci yang berdampak positif pada hasil. Namun, saat Anda bermitra dengan penyedia data yang andal, Anda dapat membangun model AI yang kuat dengan fondasi data yang kuat.
Apakah Anda memiliki proyek hebat dalam pikiran tetapi sedang menunggu kumpulan data yang dibuat khusus untuk melatih model Anda atau berjuang untuk mendapatkan hasil yang tepat dari proyek Anda? Kami menawarkan kumpulan data pelatihan ekstensif untuk berbagai kebutuhan proyek. Memanfaatkan potensi Shaip dengan berbicara dengan salah satu dari kami ilmuwan data hari ini dan memahami bagaimana kami telah memberikan kumpulan data berkinerja tinggi dan berkualitas untuk klien di masa lalu.