Crowd Worker untuk Pengumpulan Data

Crowd Worker untuk Pengumpulan Data – Bagian Tak Tergantikan dari Ethical AI

Dalam upaya kami untuk membangun solusi AI yang kuat dan tidak bias, penting bagi kami untuk fokus pada pelatihan model pada kumpulan data yang tidak bias, dinamis, dan representatif. Proses pengumpulan data kami sangat penting dalam mengembangkan solusi AI yang kredibel. Dalam hal ini, berkumpul Data pelatihan AI melalui pekerja kerumunan menjadi aspek penting dari strategi pengumpulan data.

Pada artikel ini, mari kita telusuri peran crowd worker, dampaknya terhadap pengembangan AI algoritma pembelajaran dan model ML, serta kebutuhan dan manfaat yang diberikannya ke seluruh proses. 

Mengapa pekerja kerumunan diharuskan membuat model AI?

Sebagai manusia, kita menghasilkan banyak sekali data, namun hanya sebagian kecil dari data yang dihasilkan dan dikumpulkan ini yang bernilai. Karena kurangnya standar pembandingan data, sebagian besar data yang dikumpulkan bias, penuh dengan masalah kualitas, atau tidak mewakili lingkungan. Sejak semakin banyak Mesin belajar dan model pembelajaran mendalam sedang dikembangkan yang berkembang pada data dalam jumlah besar, kebutuhan akan kumpulan data yang lebih baik, lebih baru, dan beragam semakin terasa.

Di sinilah pekerja kerumunan ikut bermain.

Crowd-sourcing data sedang membangun kumpulan data dengan partisipasi kelompok besar orang. Pekerja kerumunan memasukkan kecerdasan manusia ke dalam kecerdasan buatan.

Platform crowdsourcing berikan tugas mikro pengumpulan dan anotasi data kepada sekelompok orang yang besar dan beragam. Crowdsourcing memungkinkan perusahaan untuk mengakses tenaga kerja yang masif, dinamis, hemat biaya, dan dapat diskalakan.

Platform crowd-sourcing paling populer – Amazon Mechanical Turk, mampu mendapatkan 11 ribu dialog manusia-ke-manusia dalam waktu 15 jam, dan membayar para pekerja $0.35 untuk setiap dialog yang berhasil. Pekerja kerumunan dilibatkan untuk jumlah yang sangat sedikit, menyoroti pentingnya membangun standar sumber data yang etis.

Secara teoritis, ini terdengar seperti rencana yang cerdas, namun ini bukanlah strategi yang mudah untuk dijalankan. Anonimitas pekerja kerumunan telah menimbulkan masalah dengan upah rendah, pengabaian hak-hak pekerja, dan kualitas kerja yang buruk yang berdampak pada kinerja model AI. 

Manfaat memiliki pekerja kerumunan untuk sumber data

Dengan melibatkan beragam kelompok pekerja, pengembang solusi berbasis AI dapat mendistribusikan tugas-tugas mikro dan mengumpulkan pengamatan yang bervariasi dan tersebar luas dengan cepat dan dengan biaya yang relatif rendah.

Beberapa manfaat menonjol dari mempekerjakan pekerja kerumunan untuk proyek AI adalah

Manfaat pengumpulan data melalui crowdworker

Waktu Lebih Cepat ke Pasar: Menurut penelitian dari Cognilytica, hampir 80% dari kecerdasan buatan waktu proyek dihabiskan untuk kegiatan pengumpulan data seperti pembersihan data, pelabelan, dan agregasi. Hanya 20% dari waktu yang dihabiskan untuk pengembangan dan pelatihan. Hambatan tradisional untuk menghasilkan data dihilangkan karena sejumlah besar kontributor dapat direkrut dalam waktu singkat. 

Solusi Hemat Biaya: Pengumpulan data bersumber dari banyak orang mengurangi waktu dan energi yang dihabiskan untuk melatih, merekrut, dan membawa mereka bergabung. Ini menghilangkan biaya, waktu, dan sumber daya yang diperlukan karena tenaga kerja dipekerjakan dengan metode bayar per tugas. 

Meningkatkan Keanekaragaman dalam Kumpulan Data: Keragaman data sangat penting untuk seluruh pelatihan solusi AI. Agar model menghasilkan hasil yang tidak bias, ia harus dilatih pada kumpulan data yang beragam. Dengan crowd-sourcing data, dimungkinkan untuk menghasilkan kumpulan data yang beragam (geografis, bahasa, dialek) dengan sedikit usaha dan biaya.

Meningkatkan Skalabilitas: Ketika Anda merekrut pekerja kerumunan yang andal, Anda dapat memastikannya berkualitas tinggi pengumpulan data yang dapat diskalakan berdasarkan kebutuhan proyek Anda.

In-house vs crowdsourcing – Siapa yang keluar sebagai pemenang?

Data internalData Crowdsource
Keakuratan dan konsistensi data dapat dijamin.Kualitas, akurasi, dan konsistensi data dapat dipertahankan jika platform crowdsourcing yang andal dengan ukuran QA standar digunakan
Sumber data internal tidak selalu merupakan keputusan praktis karena tim internal Anda mungkin tidak memenuhi tuntutan proyek.Keanekaragaman data dapat terjamin karena memungkinkan untuk merekrut kelompok pekerja kerumunan yang heterogen berdasarkan kebutuhan proyek.
Mahal untuk merekrut dan melatih pekerja untuk kebutuhan proyek.Solusi hemat biaya untuk pengumpulan data karena dimungkinkan untuk merekrut, melatih, dan menempatkan pekerja dengan investasi lebih sedikit.
Waktu ke pasar tinggi karena pengumpulan data internal membutuhkan waktu yang cukup lama.Waktu ke pasar jauh lebih sedikit karena banyak kontribusi datang dengan cepat.
Sekelompok kecil kontributor dan pemberi label internalKelompok kontributor yang besar dan beragam dan pemberi label data
Kerahasiaan data sangat tinggi dengan tim internal.Kerahasiaan data sulit dipertahankan saat bekerja dengan banyak pekerja di seluruh dunia.
Lebih mudah melacak, melatih, dan mengevaluasi pengumpul dataMenantang untuk melacak dan melatih para pengumpul data.

Menjembatani kesenjangan antara pekerja crowdsource dan pemohon.

Menjembatani kesenjangan antara pekerja crowdsource dan pemohon Ada kebutuhan yang sangat mendesak untuk menjembatani kesenjangan antara pekerja kerumunan dan pemohon, tidak hanya dalam bidang gaji.

Ada kekurangan informasi yang mencolok dari pihak pemohon karena pekerja hanya diberikan informasi mengenai tugas tertentu. Misalnya, meskipun pekerja diberi tugas mikro seperti merekam dialog dalam dialek asli mereka, mereka jarang diberi konteks. Mereka tidak memiliki informasi yang diperlukan tentang mengapa mereka melakukan apa yang mereka lakukan dan cara terbaik untuk melakukannya. Kurangnya informasi ini berdampak pada kualitas pekerjaan yang bersumber dari orang banyak.

Bagi seorang manusia, memiliki seluruh konteks memberikan kejelasan dan tujuan bagi pekerjaan mereka.

Tambahkan ke campuran ini dimensi lain dari NDA - perjanjian non-disclosure yang membatasi jumlah informasi yang disediakan oleh pekerja kerumunan. Dari perspektif pekerja massa, penarikan informasi ini menunjukkan kurangnya kepercayaan dan berkurangnya kepentingan pekerjaan mereka.

Ketika situasi yang sama dilihat dari ujung spektrum yang lain, ada kekurangan transparansi dari pihak pekerja. Pemohon tidak sepenuhnya memahami pekerja yang ditugaskan untuk melakukan pekerjaan itu. Beberapa proyek mungkin memerlukan jenis pekerja tertentu; namun, di sebagian besar proyek, terdapat ambiguitas. Itu kebenaran dasar apakah ini dapat mempersulit evaluasi, umpan balik, dan pelatihan di kemudian hari.

Untuk mengatasi kesulitan ini, bekerja sama dengan pakar pengumpulan data dengan rekam jejak menyediakan data yang beragam, terkurasi, dan terwakili dengan baik dari berbagai pilihan kontributor adalah penting.

Memilih Shaip sebagai mitra data Anda dapat memiliki banyak manfaat. Kami fokus pada keragaman dan perwakilan distribusi data. Staf kami yang berpengalaman dan berdedikasi memahami dorongan dari setiap proyek dan mengembangkan kumpulan data yang dapat melatih solusi berbasis AI yang kuat dalam waktu singkat.

[Baca juga: Panduan Memulai Data Pelatihan AI: Definisi, Contoh, Kumpulan Data]

sosial Share