Pengumpulan Data Ucapan

6 Metode Terbukti untuk Menyesuaikan Pengumpulan Data Ucapan

Ada beberapa jenis klien yang berbeda – beberapa memiliki gagasan yang jelas tentang bagaimana data ucapan mereka harus terstruktur, dan beberapa lebih fleksibel dengan pendekatan mereka.

Sebagai penyedia layanan, kami harus memastikan kedua persyaratan klien terpenuhi. Namun, dengan klien yang fleksibel dengan kebutuhan mereka, mungkin saja mereka belum sepenuhnya memberi pengumpulan data ucapan sebuah pemikiran yang lengkap.

Di sinilah kontribusi penyedia dataset ucapan berperan.

Kami memiliki tanggung jawab untuk menunjukkan poin yang harus diingat sebelum memulai audio pengumpulan data proyek sehingga memungkinkan organisasi AI untuk mengidentifikasi solusi yang layak, efisien dan hemat biaya.

Pasar pengenalan suara, di dunia, diperkirakan akan tumbuh menjadi $ 27.16 miliar 2026 dari $10.7 miliar pada tahun 2020 dengan CAGR 16.8%.

Mari kita lihat semua cara atau poin efektif yang harus diingat sebelum menyesuaikan pengumpulan data ucapan proyek.

Points to keep in mind while customizing speech data collection

  • Bahasa dan demografi
  • Ukuran Koleksi
  • Struktur Naskah
  • Persyaratan dan format audio
  • Persyaratan Pengiriman dan Pemrosesan
  • Poin Penting Lainnya yang Perlu Diperhatikan

Bahasa dan demografi

Proyek pertama-tama harus menentukan bahasa target dan demografi target.

  • Bahasa dan Dialek

    Mulailah dengan mengingat persyaratan proyek – bahasa yang digunakan untuk mengumpulkan dan menyesuaikan kumpulan data ucapan. Juga, pahami persyaratan kemahiran khusus. Misalnya, haruskah peserta menjadi penutur asli atau bukan penutur asli?

    Misalnya – Penutur Asli Bahasa Inggris

    Berlari dekat dengan bahasa adalah dialek. Untuk memastikan dataset tidak mengalami bias, disarankan untuk secara sengaja memperkenalkan dialek untuk mengakomodasi keragaman peserta.

    Misalnya – Penutur beraksen Inggris Australia

  • Negara

    Sebelum menyesuaikan, penting untuk mengetahui apakah ada persyaratan khusus bahwa peserta harus berasal dari negara tertentu. Dan, apakah peserta saat ini harus tinggal di negara tertentu.

    Misalnya - Punjabi diucapkan secara berbeda di India dan Pakistan.

  • Demografi

    Selain bahasa dan geografi, kustomisasi juga dapat dilakukan berdasarkan demografi. Distribusi target peserta berdasarkan usia, jenis kelamin, kualifikasi pendidikan, dan lainnya juga dapat dilakukan.

    Misalnya – Dewasa Vs Anak-anak atau Berpendidikan vs Tidak Terdidik

Ukuran koleksi

Kumpulan data Anda akan memengaruhi kinerja proyek data Anda. Namun, ukuran data koleksi yang Anda butuhkan juga akan menentukan peserta yang dibutuhkan.

  • Jumlah Responden

    Tentukan jumlah total peserta yang akan dibutuhkan untuk proyek tersebut. Jika proyek membutuhkan bahasa pengumpulan data audio, Anda harus menganalisis jumlah total peserta yang diperlukan per bahasa yang ditargetkan.

    Misalnya – 50% Bahasa Inggris Amerika dan 50% Penutur Bahasa Inggris Australia

  • Jumlah Total Ucapan

    Untuk membangun pengumpulan data ujaran, tentukan jumlah total ujaran atau pengulangan per peserta atau total pengulangan yang diperlukan.

    Misalnya – 50 peserta dengan 25 ucapan per peserta = 1250 pengulangan

Struktur skrip

Skrip juga dapat disesuaikan untuk memenuhi kebutuhan proyek, jadi disarankan untuk mencari bantuan terapis wicara untuk merancang aliran teks. Jika model ML harus dilatih pada data yang terstruktur dengan baik, model tersebut harus mempertimbangkan skrip dan alur kerja.

  • Berskrip vs Tidak Berskrip

    Anda dapat memilih antara menggunakan teks bernaskah atau teks alami atau tanpa naskah untuk dibaca oleh para peserta.

    Dalam pidato teks skrip, para peserta membaca apa yang ditampilkan di layar. Metode ini, sebagian besar, digunakan untuk merekam perintah atau instruksi.

    Misalnya – 'Matikan musik', 'Tekan 1 untuk merekam.'

    Dalam pidato tanpa naskah, para peserta diberikan skenario dan diminta untuk membingkai kalimat mereka dan berbicara sealami mungkin.

    Misalnya – 'Bisakah Anda memberi tahu saya di mana pom bensin berikutnya?'

  • Kumpulan Ucapan / Kata Bangun

    Jika teks skrip digunakan, Anda harus memutuskan jumlah skrip yang akan digunakan, dan apakah setiap peserta akan membaca skrip unik atau sekelompok skrip. Juga, tentukan apakah skrip berisi kumpulan kata dan perintah bangun.

    Misalnya -

    Perintah 1:

    "Alexa, apa resep cupcake cokelat?"

    “Ok Google, apa resep cupcake coklatnya?”

    "Siri, apa resep kue mangkuk cokelat?"

    Perintah 2:

    "Alexa, kapan penerbangan ke New York?"

    “Google, kapan penerbangan ke New York?”

    "Siri, kapan penerbangan ke New York?"

Persyaratan dan format audio

Audio requirements Kualitas audio memainkan peran penting dalam pengenalan suara pengumpulan data proses. Suara latar yang mengganggu dapat berdampak negatif pada kualitas catatan suara yang dikumpulkan. Ini juga dapat menurunkan efektivitas algoritma pengenalan suara.

  • Kualitas Audio

    Kualitas rekaman dan adanya kebisingan latar belakang dapat memengaruhi hasil proyek. Tetapi beberapa kumpulan data ucapan menerima adanya noise. Namun, disarankan untuk memiliki pemahaman yang lebih baik tentang persyaratan dalam hal kecepatan bit, rasio signal-to-noise, amplitudo, dan banyak lagi.

  • dibentuk

    Format berkas, titik data, struktur konten, kompresi, dan persyaratan pasca-pemrosesan juga menentukan kualitas rekaman ucapan.

    Alasan pentingnya format file adalah bahwa model harus mengidentifikasi output file dan dilatih untuk mengenali kualitas suara tertentu.

  • Tentukan Persyaratan Audio Khusus

    Persyaratan audio khusus harus disebutkan sebelum dimulainya proses pengumpulan. Klien dapat memilih file audio khusus di mana file tertentu disatukan.

Persyaratan Pengiriman dan Pemrosesan

Setelah data pidato dikumpulkan, klien dapat memilih untuk mengirimkannya sesuai dengan kebutuhan mereka.

  • Persyaratan Transkripsi dan Anotasi

    Beberapa klien memerlukan transkripsi dan pelabelan data sebelum dikirim. Selain itu, mereka mungkin juga memerlukan bentuk pelabelan dan segmentasi tertentu.

    Terkadang lebih baik mencari ahli patologi wicara-bahasa dan para ahli untuk membantu menyalin ucapan dalam berbagai bahasa untuk menjaga keaslian bahasa sasaran.

  • Konvensi penamaan file

    Grafik formulir pengumpulan data harus menentukan konvensi penamaan file apa pun yang harus diikuti. Jika konvensi penamaan rumit atau di luar ruang lingkup standar proses, itu bisa menarik biaya pengembangan tambahan.

  • Pedoman Pengiriman

    Panduan keamanan dan pengiriman harus diikuti sebagaimana ditentukan dalam persyaratan proyek. Selain itu, jika data akan dikirimkan dalam tonggak kecil atau sebagai paket lengkap sekaligus harus ditentukan. Klien juga lebih suka tepat waktu pemantauan kemajuan pembaruan sehingga mereka dapat melacak status proyek.

Poin Penting Lainnya yang Perlu Diperhatikan

Penyesuaian akan berdampak pada bagaimana,

  • Metode pengumpulan data bekas
  • Rekrutmen peserta
  • Jadwal pengiriman
  • Biaya Tentatif proyek

Saat memilih vendor yang tepat, Anda harus memastikan bahwa Anda memilih seseorang yang memiliki pengalaman untuk memberikan pilihan penyesuaian dan fleksibilitas untuk menskalakan proyek dengan mudah. Sifat pengumpulan data ucapan adalah bahwa ia berkembang dan kompleksitas berubah dari waktu ke waktu, dan penyedia yang tepat harus dapat mengimbanginya.

Ketika yang Anda butuhkan hanyalah fleksibilitas dan skalabilitas, Shaip adalah pilihan yang tepat. Kami menawarkan layanan yang dapat disesuaikan berdasarkan kebutuhan proyek spesifik Anda. Kami menawarkan skalabel dan fleksibel solusi pengumpulan data untuk proyek multibahasa dengan harga bersaing. Bicaralah dengan pakar kami untuk mengetahui cara kerja pengumpulan data ucapan dan teknik penyesuaian kami dalam mengembangkan AI percakapan.

[Baca juga: Data Pelatihan Pengenalan Suara – Jenis, Pengumpulan Data, dan Aplikasi]

sosial Share