Juli 18, 2023

Di Balik Layar: Menjelajahi Cara Kerja Bagian Dalam ChatGPT – Bagian 2

Selamat datang kembali di bagian kedua dari diskusi menarik kami dengan ChatGPT. Dalam segmen awal percakapan kami, kita membahas peran pengumpulan data, anotasi, dan pentingnya Human-in-the-loop dalam pelatihan Language Large Models. Sekarang kita akan berbicara tentang tantangan, bias yang dihadapi saat melatih model AI, penerapannya, dan bagaimana model AI tingkat lanjut memengaruhi manusia secara umum.

Ya, mengotomatiskan proses anotasi data memang dapat mengurangi waktu, biaya, dan potensi kesalahan manusia yang terkait dengan anotasi manual. Ini sering dilakukan melalui teknik yang dikenal sebagai "pelabelan otomatis" atau "pembelajaran semi-diawasi". Berikut adalah beberapa strategi untuk anotasi otomatis:

Sistem Berbasis Aturan: Ini melibatkan pembuatan aturan khusus yang diikuti mesin untuk menganotasi data. Misalnya, aturannya adalah memberi label teks apa pun yang terlihat seperti alamat email (misalnya, berisi simbol '@') sebagai 'Email'.
Model Pembelajaran Mesin: Model pembelajaran mesin terlatih dapat digunakan untuk membubuhi keterangan data baru. Misalnya, model pengenalan entitas bernama pra-pelatihan dapat digunakan untuk mengidentifikasi dan melabeli entitas dalam teks.
Giat belajar: Dalam metode ini, model pembelajaran mesin awalnya dilatih dengan sekumpulan kecil data yang dianotasi secara manual. Kemudian, model menganotasi data yang paling diyakini, dan anotasi ini diverifikasi dan diperbaiki oleh anotator manusia. Model dilatih ulang dengan kumpulan data yang lebih besar ini dan prosesnya diulang.
Pengawasan Lemah: Di sini, beberapa anotator lemah (yang bisa berupa sistem berbasis aturan, crowdsourcing, heuristik, dll.) digunakan untuk melabeli data. Meskipun setiap annotator yang lemah tidak sempurna, label gabungannya dapat memberikan perkiraan yang baik untuk melatih model awal.
Transfer Pembelajaran: Pendekatan ini memanfaatkan model yang telah dilatih pada satu tugas dan menerapkannya pada tugas terkait lainnya. Misalnya, model yang dilatih untuk mengenali objek dalam gambar dapat digunakan sebagai titik awal untuk model yang didesain untuk mengenali jenis objek tertentu.

Meskipun anotasi otomatis dapat menjadi alat yang ampuh, penting untuk diingat bahwa anotasi tidak selalu sempurna, dan kualitasnya dapat bervariasi berdasarkan metode yang digunakan dan kompleksitas tugas. Mungkin ada kesalahan karena bias dalam aturan awal atau rangkaian pelatihan, dan tugas yang kompleks seringkali masih memerlukan pengawasan manusia. Dengan demikian, kombinasi anotasi otomatis dan manual (pembelajaran semi-diawasi) seringkali merupakan pendekatan terbaik untuk kumpulan data yang besar dan kompleks.

Mengumpulkan dan membuat anotasi data untuk AI dan proyek pembelajaran mesin dapat menghadirkan beberapa tantangan, termasuk:

Keanekaragaman dan Keterwakilan Data: Memastikan bahwa data yang dikumpulkan mencakup beragam skenario dan secara akurat mewakili kondisi dunia nyata merupakan tantangan. Misalnya, model pengenalan gambar memerlukan gambar dengan pencahayaan, orientasi, dan latar belakang yang bervariasi.
Privasi dan Etika Data: Menghormati hak privasi dan mematuhi pedoman etika saat mengumpulkan data sangatlah penting. Menganonimkan data pasien dalam AI perawatan kesehatan memastikan privasi tanpa mengurangi kegunaannya untuk pelatihan model.
Kualitas data: Data berkualitas tinggi sangat penting; data yang berisik, tidak relevan, atau salah dapat berdampak negatif pada kinerja model. Data media sosial, dengan slang, salah ketik, dan penggunaan bahasa yang tidak konsisten, menjadi tantangan untuk pelatihan analisis sentimen.
Kualitas dan Konsistensi Anotasi: Memastikan anotasi yang akurat dan konsisten itu rumit. Dalam klasifikasi gambar, annotator berbeda yang melabeli objek yang sama secara berbeda dapat membingungkan model selama pelatihan.
Waktu dan Biaya: Anotasi manual memakan waktu dan mahal, terutama untuk kumpulan data besar. Untuk pemrosesan bahasa alami, anotator membutuhkan banyak waktu dan keahlian linguistik untuk memahami konteks teks.
Skalabilitas: Menskalakan proses anotasi sambil mempertahankan kualitas merupakan tantangan. Model bahasa seringkali membutuhkan miliaran contoh, memerlukan koordinasi di antara tim besar pembuat anotasi dan memastikan konsistensi di seluruh anotasi.
Ambiguitas Pelabelan: Label yang benar dapat bersifat subyektif dan terbuka untuk interpretasi. Anotator mungkin memiliki pendapat yang berbeda tentang tugas analisis sentimen, yang mengarah ke penetapan label yang berbeda untuk teks yang sama.
Data sensitif: Penanganan data sensitif, seperti catatan medis atau keuangan, memerlukan tindakan pencegahan tambahan. Anotator mungkin memerlukan pelatihan atau sertifikasi khusus untuk menangani data ini dengan tepat dan memastikan perlindungannya.

Mengatasi tantangan ini seringkali memerlukan kombinasi perencanaan proyek yang baik, pedoman yang jelas untuk pengumpul data dan anotator, penggunaan alat otomatis jika memungkinkan, dan sistem kontrol kualitas yang kuat.

Bias dalam data pelatihan adalah masalah signifikan dalam pembelajaran mesin karena model belajar dari data yang dilatihkan. Jika data pelatihan bias, prediksi model juga bisa bias. Berikut adalah beberapa cara untuk mengatasi bias selama proses fine-tuning:

Seimbangkan Kumpulan Data: Sesuaikan dataset untuk memiliki representasi yang sama dari kelas yang berbeda.
Gunakan Algoritma Mitigasi Bias: Terapkan teknik yang dirancang untuk mengurangi bias dalam prediksi model.
Terapkan Privasi Diferensial: Tambahkan noise ke data untuk melindungi atribut sensitif.
Lakukan Penyesuaian Model Bias-Aware: Sesuaikan model dengan mempertimbangkan mitigasi bias.
Mempekerjakan Tinjauan dan Panduan Manusia: Peninjau mengikuti pedoman yang menginstruksikan untuk tidak mendukung grup mana pun selama penyesuaian.
Buat Putaran Umpan Balik Berkelanjutan: Interaksi reguler dengan pengulas memungkinkan pembelajaran berkelanjutan dan koreksi bias.

Ingat, menghilangkan bias sepenuhnya itu menantang, tetapi langkah-langkah ini dapat membantu menguranginya.

Model bahasa besar memiliki berbagai aplikasi praktis di berbagai industri:

Pembuatan Konten: Mereka dapat membantu menghasilkan konten seperti artikel, laporan, & email.
Layanan Pelanggan: Mereka dapat digunakan di chatbot dan asisten virtual untuk mengotomatiskan dukungan pelanggan.
Terjemahan Bahasa: Mereka dapat membantu dalam menerjemahkan teks antar bahasa yang berbeda.
Bimbingan: Mereka dapat memberikan penjelasan tentang berbagai mata pelajaran, membantu dalam pendidikan.
Penulisan Kode: Mereka dapat membantu dalam menulis kode, membantu pengembangan perangkat lunak.
Pemasaran dan Periklanan: Mereka dapat menghasilkan konten kreatif untuk kampanye pemasaran.
Aksesibilitas: Mereka dapat membantu menghasilkan ucapan untuk aplikasi text-to-speech.

Model AI tingkat lanjut dapat membentuk kembali pasar kerja dengan beberapa cara:

Otomatisasi Pekerjaan: Tugas-tugas rutin dan biasa, terutama di sektor-sektor seperti manufaktur, logistik, dan pekerjaan klerikal, dapat diotomatisasi, yang mengarah pada pemindahan pekerjaan.
Penciptaan Pekerjaan Baru: Sisi positifnya, kebangkitan AI akan menciptakan peran baru yang belum pernah ada sebelumnya, seperti spesialis AI, analis data, insinyur pembelajaran mesin, dan peran dalam etika dan kebijakan AI.
Transformasi Pekerjaan: Banyak pekerjaan akan diubah alih-alih dihilangkan, dengan AI mengambil alih aspek rutin pekerjaan, membebaskan karyawan untuk fokus pada tugas yang lebih kompleks dan kreatif.
Pergeseran Permintaan Keterampilan: Akan ada peningkatan permintaan untuk keterampilan digital dan pemahaman AI, yang dapat menyebabkan kesenjangan keterampilan dalam jangka pendek.

Jadi, meskipun AI pasti akan mengganggu pasar kerja, AI juga menghadirkan peluang untuk pekerjaan baru dan peningkatan produktivitas.

Model pembelajaran AI dan mesin saat ini, terlepas dari kemampuannya yang luar biasa, masih memiliki beberapa keterbatasan:

Kurangnya pemahaman: Model AI tidak memahami konteks atau konsep dengan cara yang sama seperti manusia. Mereka mengidentifikasi pola dalam data tetapi tidak memahami makna yang mendasarinya.
Ketergantungan Data: Mereka membutuhkan sejumlah besar data untuk pelatihan. Jika data bias, tidak lengkap, atau berkualitas buruk, performa model dapat terpengaruh secara signifikan.
Generalisasi: Model yang dilatih untuk tugas atau kumpulan data tertentu sering kesulitan menggeneralisasi pembelajaran mereka ke skenario baru yang tidak terlihat.
Dapat dijelaskan: Seringkali sulit untuk memahami mengapa model tertentu (terutama model pembelajaran mendalam) membuat keputusan khusus, yang menyebabkan kurangnya transparansi atau interpretasi.
Kekokohan: Model AI dapat sensitif terhadap perubahan kecil pada data input (noise, distorsi) dan mungkin tidak bekerja dengan andal di semua kondisi.
Masalah Etis: Aplikasi AI dapat menyebabkan masalah privasi, potensi penyalahgunaan, atau bias yang tidak disengaja, meningkatkan masalah etika dan hukum.

Pertanyaan apakah AI dapat benar-benar memahami konteks dengan cara yang sama seperti manusia adalah pertanyaan yang kompleks dan melibatkan perdebatan yang sedang berlangsung tentang sifat AI dan kesadaran.

Sejak batas pengetahuan saya pada September 2021, AI telah membuat langkah signifikan dalam pemahaman kontekstual, terutama dengan pengembangan model bahasa canggih seperti GPT-3 dan GPT-4. Model-model ini dapat menghasilkan teks mirip manusia berdasarkan input yang mereka terima dan pemahaman internal mereka tentang hubungan antara kata dan konsep.

Namun, penting untuk dicatat bahwa “pemahaman” ini berbeda dengan pemahaman manusia. Sistem AI, seperti yang ada sekarang, tidak memiliki kesadaran, kesadaran diri, atau kedalaman pengetahuan pengalaman yang sama dengan yang dimiliki manusia. Mereka menginterpretasikan konteks berdasarkan pola dalam data, bukan pada pengalaman hidup atau pemahaman nuansa secara intuitif. Oleh karena itu, pemahaman mereka tentang konteks pada dasarnya berbeda dari pemahaman kita.

Misalnya, meskipun AI dapat menghasilkan respons terhadap pertanyaan tentang pengalaman pribadi, seperti "bagaimana perasaan Anda di hari pertama sekolah?", AI melakukannya berdasarkan pola dalam data yang dilatihnya, bukan pada data mana pun. pengalaman pribadi atau emosi yang dimilikinya. AI tidak memiliki perasaan atau pengalaman pribadi.

Mengenai masa depan, sulit dikatakan. Kemajuan dalam penelitian dan pengembangan AI berlanjut dengan kecepatan tinggi, tetapi lompatan dari pengenalan pola ke pemahaman dan kesadaran seperti manusia yang asli adalah lompatan besar, dan kami belum tahu apakah itu mungkin atau bagaimana hal itu akan dicapai. Bahkan jika sistem AI menjadi lebih canggih dalam menafsirkan konteks, ini tidak berarti mereka memiliki pemahaman seperti manusia tentangnya.

Meskipun tidak mungkin untuk memprediksi dengan pasti, para ahli di bidang AI telah mengidentifikasi beberapa area di mana kemajuan yang signifikan diharapkan dalam waktu dekat, seperti yang saya ketahui pada September 2021:

Peningkatan pemahaman dan generasi bahasa alami: AI percakapan yang lebih mirip manusia dan terjemahan otomatis yang lebih baik.
Keadilan, penjelasan, dan transparansi AI: Teknik untuk memahami pengambilan keputusan AI, memastikan keadilan, dan mendorong transparansi.
AI dalam perawatan kesehatan: Peningkatan diagnosis penyakit, prediksi hasil pasien, dan perawatan yang dipersonalisasi melalui AI.
Pembelajaran penguatan dan AI umum: Sistem AI yang lebih mudah beradaptasi yang dapat mempelajari berbagai tugas dan beradaptasi dengan situasi baru.
AI dan komputasi kuantum: Kekuatan komputasi yang ditingkatkan memungkinkan model yang lebih kompleks dan waktu pelatihan yang lebih cepat.
Pembelajaran Federasi: Machine learning yang menjaga privasi yang melatih model di beberapa perangkat tanpa berbagi data.

Terima kasih kembali! Saya senang bisa membantu Anda. Jangan ragu untuk menghubungi kami jika Anda memiliki pertanyaan lain di masa mendatang. Semoga harimu menyenangkan!

sosial Share

Bicaralah dengan Pakar

Nama Depan*
Nama Belakang*
Email*
Nomor Hp / Telephone*
Perusahaan*
Negara*
Negara
komentar*
Dengan mendaftar, saya setuju dengan Shaip Kebijakan Privasi dan Ketentuan Layanan dan memberikan persetujuan saya untuk menerima komunikasi pemasaran B2B dari Shaip.
CAPTCHA

Unduh Buku Gratis

Anda Mungkin Juga Suka

Di Balik Layar: Menjelajahi Cara Kerja Bagian Dalam ChatGPT – Bagian 2

sosial Share

Bicaralah dengan Pakar

Apa itu Anotasi Audio / Pidato Dengan Contoh

Menerapkan AI Generatif untuk Pertumbuhan dan Kesuksesan yang Lebih Baik

Memilih Kumpulan Data Pengenalan Ucapan yang Tepat untuk Model AI Anda

Layanan Data AI

Khusus

Industri

Produk

Perusahaan

Sumber

Hubungi Kami