Pengumpulan Data Ucapan

7 Metode Terbukti untuk Menyesuaikan Pengumpulan Data Ucapan

Pasar pengenalan suara, di dunia, diperkirakan akan tumbuh menjadi $ 84.97 miliar 2032 dari $10.7 miliar pada tahun 2023 dengan CAGR 23.7%.

Menyesuaikan pengumpulan data ucapan sangat penting untuk keberhasilan proyek AI dan pembelajaran mesin (ML) Anda. Baik Anda membuat agen AI percakapan, model pengenalan ucapan, atau aplikasi berbasis suara lainnya, kualitas dan keragaman data ucapan Anda dapat meningkatkan atau menghancurkan performa model Anda.

Dalam panduan komprehensif ini, kami akan mengeksplorasi 7 metode yang telah terbukti untuk membantu Anda menyesuaikan dan mengoptimalkan proses pengumpulan data ucapan Anda. Mulai dari menentukan persyaratan bahasa dan demografi yang tepat hingga mengintegrasikan teknik augmentasi data tingkat lanjut, strategi ini akan memastikan Anda mengumpulkan data ucapan berkualitas tinggi yang dibutuhkan model AI/ML Anda untuk berkembang.

Mari kita lihat semua cara atau poin efektif yang harus diingat sebelum menyesuaikan pengumpulan data ucapan proyek.

Hal-hal yang perlu diingat saat menyesuaikan pengumpulan data ucapan

  • Bahasa dan demografi
  • Ukuran Koleksi
  • Struktur Naskah
  • Persyaratan dan format audio
  • Persyaratan Pengiriman dan Pemrosesan
  • Memanfaatkan Teknik Augmentasi Data Tingkat Lanjut
  • Poin Penting Lainnya yang Perlu Diperhatikan

Bahasa dan demografi

Proyek pertama-tama harus menentukan bahasa target dan demografi target.

  • Bahasa dan Dialek

    Mulailah dengan mengingat persyaratan proyek – bahasa yang digunakan untuk mengumpulkan dan menyesuaikan kumpulan data ucapan. Juga, pahami persyaratan kemahiran khusus. Misalnya, haruskah peserta menjadi penutur asli atau bukan penutur asli?

    Misalnya – Penutur Asli Bahasa Inggris

    Berlari dekat dengan bahasa adalah dialek. Untuk memastikan dataset tidak mengalami bias, disarankan untuk secara sengaja memperkenalkan dialek untuk mengakomodasi keragaman peserta.

    Misalnya – Penutur beraksen Inggris Australia

  • Negara

    Sebelum menyesuaikan, penting untuk mengetahui apakah ada persyaratan khusus bahwa peserta harus berasal dari negara tertentu. Dan, apakah peserta saat ini harus tinggal di negara tertentu.

    Misalnya - Punjabi diucapkan secara berbeda di India dan Pakistan.

  • Demografi

    Selain bahasa dan geografi, kustomisasi juga dapat dilakukan berdasarkan demografi. Distribusi target peserta berdasarkan usia, jenis kelamin, kualifikasi pendidikan, dan lainnya juga dapat dilakukan.

    Misalnya – Dewasa Vs Anak-anak atau Berpendidikan vs Tidak Terdidik

Ukuran koleksi

Kumpulan data Anda akan memengaruhi kinerja proyek data Anda. Namun, ukuran data koleksi yang Anda butuhkan juga akan menentukan peserta yang dibutuhkan.

  • Jumlah Responden

    Tentukan jumlah total peserta yang akan dibutuhkan untuk proyek tersebut. Jika proyek membutuhkan bahasa pengumpulan data audio, Anda harus menganalisis jumlah total peserta yang diperlukan per bahasa yang ditargetkan.

    Misalnya – 50% Bahasa Inggris Amerika dan 50% Penutur Bahasa Inggris Australia

  • Jumlah Total Ucapan

    Untuk membangun pengumpulan data ujaran, tentukan jumlah total ujaran atau pengulangan per peserta atau total pengulangan yang diperlukan.

    Misalnya – 50 peserta dengan 25 ucapan per peserta = 1250 pengulangan

Struktur skrip

Skrip juga dapat disesuaikan untuk memenuhi kebutuhan proyek, jadi disarankan untuk mencari bantuan terapis wicara untuk merancang aliran teks. Jika model ML harus dilatih pada data yang terstruktur dengan baik, model tersebut harus mempertimbangkan skrip dan alur kerja.

  • Berskrip vs Tidak Berskrip

    Anda dapat memilih antara menggunakan teks bernaskah atau teks alami atau tanpa naskah untuk dibaca oleh para peserta.

    Dalam pidato teks skrip, para peserta membaca apa yang ditampilkan di layar. Metode ini, sebagian besar, digunakan untuk merekam perintah atau instruksi.

    Misalnya – 'Matikan musik', 'Tekan 1 untuk merekam.'

    Dalam pidato tanpa naskah, para peserta diberikan skenario dan diminta untuk membingkai kalimat mereka dan berbicara sealami mungkin.

    Misalnya – 'Bisakah Anda memberi tahu saya di mana pom bensin berikutnya?'

  • Kumpulan Ucapan / Kata Bangun

    Jika teks skrip digunakan, Anda harus memutuskan jumlah skrip yang akan digunakan, dan apakah setiap peserta akan membaca skrip unik atau sekelompok skrip. Juga, tentukan apakah skrip berisi kumpulan kata dan perintah bangun.

    Misalnya -

    Perintah 1:

    "Alexa, apa resep cupcake cokelat?"

    “Ok Google, apa resep cupcake coklatnya?”

    "Siri, apa resep kue mangkuk cokelat?"

    Perintah 2:

    "Alexa, kapan penerbangan ke New York?"

    “Google, kapan penerbangan ke New York?”

    "Siri, kapan penerbangan ke New York?"

Persyaratan dan format audio

Persyaratan audio Kualitas audio memainkan peran penting dalam pengenalan suara pengumpulan data proses. Suara latar yang mengganggu dapat berdampak negatif pada kualitas catatan suara yang dikumpulkan. Ini juga dapat menurunkan efektivitas algoritma pengenalan suara.

  • Kualitas Audio

    Kualitas rekaman dan adanya kebisingan latar belakang dapat memengaruhi hasil proyek. Tetapi beberapa kumpulan data ucapan menerima adanya noise. Namun, disarankan untuk memiliki pemahaman yang lebih baik tentang persyaratan dalam hal kecepatan bit, rasio signal-to-noise, amplitudo, dan banyak lagi.

  • dibentuk

    Format berkas, titik data, struktur konten, kompresi, dan persyaratan pasca-pemrosesan juga menentukan kualitas rekaman ucapan.

    Alasan pentingnya format file adalah bahwa model harus mengidentifikasi output file dan dilatih untuk mengenali kualitas suara tertentu.

  • Tentukan Persyaratan Audio Khusus

    Persyaratan audio khusus harus disebutkan sebelum dimulainya proses pengumpulan. Klien dapat memilih file audio khusus di mana file tertentu disatukan.

Persyaratan Pengiriman dan Pemrosesan

Setelah data pidato dikumpulkan, klien dapat memilih untuk mengirimkannya sesuai dengan kebutuhan mereka.

  • Persyaratan Transkripsi dan Anotasi

    Beberapa klien memerlukan transkripsi dan pelabelan data sebelum dikirim. Selain itu, mereka mungkin juga memerlukan bentuk pelabelan dan segmentasi tertentu.

    Terkadang lebih baik mencari ahli patologi wicara-bahasa dan para ahli untuk membantu menyalin ucapan dalam berbagai bahasa untuk menjaga keaslian bahasa sasaran.

  • Konvensi penamaan file

    formulir pengumpulan data harus menentukan konvensi penamaan file apa pun yang harus diikuti. Jika konvensi penamaan rumit atau di luar ruang lingkup standar proses, itu bisa menarik biaya pengembangan tambahan.

  • Pedoman Pengiriman

    Panduan keamanan dan pengiriman harus diikuti sebagaimana ditentukan dalam persyaratan proyek. Selain itu, jika data akan dikirimkan dalam tonggak kecil atau sebagai paket lengkap sekaligus harus ditentukan. Klien juga lebih suka tepat waktu pemantauan kemajuan pembaruan sehingga mereka dapat melacak status proyek.

Memanfaatkan Teknik Augmentasi Data Tingkat Lanjut

  • Augmentasi data ucapan dapat memperluas keragaman dan ketahanan kumpulan data Anda secara signifikan.
  • Jelajahi teknik seperti peralihan nada audio, peregangan waktu, injeksi kebisingan, dan konversi suara untuk menghasilkan sampel ucapan baru dan berkualitas tinggi secara sintetis.
  • Integrasikan metode augmentasi data ini ke dalam alur kerja pengumpulan data ucapan Anda untuk membuat kumpulan data yang lebih komprehensif dan representatif

Poin Penting Lainnya yang Perlu Diperhatikan

Penyesuaian akan berdampak pada bagaimana,

  • Metode pengumpulan data yang digunakan
  • Rekrutmen peserta
  • Jadwal pengiriman
  • Biaya Tentatif proyek

Studi Kasus: Pengumpulan Data Pidato Multibahasa

Shaip baru-baru ini bermitra dengan perusahaan AI percakapan terkemuka untuk mengumpulkan data ucapan berkualitas tinggi dalam 12 bahasa untuk platform asisten virtual mereka. Dengan memanfaatkan keahlian kami dalam keragaman linguistik dan praktik terbaik pengumpulan data, kami berhasil memberikan kumpulan data komprehensif yang secara signifikan meningkatkan akurasi pengenalan ucapan klien dan pengalaman pengguna di berbagai pasar.

Pengumpulan Data Pidato Masa Depan

Seiring dengan kemajuan teknologi AI dan ML, permintaan akan data ucapan berkualitas tinggi akan terus meningkat. Tren yang muncul, seperti pengenalan suara multibahasa dan multi-aksen, akan memerlukan kumpulan data yang lebih beragam dan representatif. Selain itu, penggunaan data sintetik dan teknik augmentasi data tingkat lanjut akan memainkan peran yang semakin penting dalam memperluas ukuran dan variasi kumpulan data ucapan.

Di Shaip, kami berkomitmen untuk tetap menjadi yang terdepan dalam tren ini dan menyediakan layanan pengumpulan data ucapan berkualitas tinggi kepada klien kami untuk mendukung inovasi AI/ML mereka.

Kesimpulan

Dengan mengikuti 7 metode yang telah terbukti ini, Anda dapat merancang dan melaksanakan proyek pengumpulan data ucapan yang menyiapkan aplikasi AI/ML Anda agar sukses. Ingat, kualitas dan keragaman data ucapan Anda adalah yang terpenting, jadi pastikan untuk menginvestasikan waktu dan sumber daya yang diperlukan untuk membuat kumpulan data yang benar-benar memenuhi persyaratan proyek Anda.

Jika Anda memerlukan bantuan lebih lanjut dalam menyesuaikan dan mengoptimalkan pengumpulan data ucapan Anda, para ahli di Shaip siap membantu. Hubungi kami hari ini untuk mempelajari bagaimana layanan data menyeluruh kami dapat meningkatkan kemampuan AI/ML Anda.

[Baca juga: Data Pelatihan Pengenalan Suara – Jenis, Pengumpulan Data, dan Aplikasi]

sosial Share