Data Pelatihan Pengenalan Ucapan

Data Pelatihan Pengenalan Ucapan – Jenis, Pengumpulan Data, dan Aplikasi

Jika Anda menggunakan Siri, Alexa, Cortana, Amazon Echo, atau lainnya sebagai bagian dari kehidupan sehari-hari Anda, Anda akan menerimanya Pengenalan suara telah menjadi bagian dari kehidupan kita. Ini bertenaga kecerdasan buatan asisten suara mengubah pertanyaan verbal pengguna menjadi teks, menafsirkan dan memahami apa yang dikatakan pengguna untuk menghasilkan respons yang sesuai.

Ada kebutuhan untuk pengumpulan data yang berkualitas untuk mengembangkan model pengenalan ucapan yang andal. Tapi, berkembang perangkat lunak pengenalan suara bukanlah tugas yang sederhana – justru karena menyalin ucapan manusia dalam segala kerumitannya, seperti ritme, aksen, nada, dan kejelasan, adalah sulit. Dan, ketika Anda menambahkan emosi ke dalam campuran yang kompleks ini, itu menjadi sebuah tantangan.

Apa itu Pengenalan Suara?

Pengenalan ucapan adalah kemampuan perangkat lunak untuk mengenali dan memproses ucapan manusia ke dalam teks. Meskipun perbedaan antara pengenalan suara dan pengenalan suara mungkin tampak subjektif bagi banyak orang, ada beberapa perbedaan mendasar di antara keduanya.

Meskipun pengenalan suara dan ucapan merupakan bagian dari teknologi asisten suara, keduanya melakukan dua fungsi yang berbeda. Pengenalan suara melakukan transkripsi otomatis ucapan dan perintah manusia ke dalam teks, sedangkan pengenalan suara hanya berurusan dengan mengenali suara pembicara.

Jenis Pengenalan Ucapan

Sebelum kita melompat ke jenis pengenalan ucapan, mari kita lihat sekilas data pengenalan suara.

Data pengenalan ucapan adalah kumpulan rekaman audio ucapan manusia dan transkripsi teks yang membantu melatih sistem pembelajaran mesin untuk pengenalan suara.

Rekaman audio dan transkripsi dimasukkan ke dalam sistem ML sehingga algoritme dapat dilatih untuk mengenali nuansa ucapan dan memahami maknanya.

Meskipun ada banyak tempat di mana Anda bisa mendapatkan set data pra-paket gratis, yang terbaik adalah mendapatkannya kumpulan data yang disesuaikan untuk proyek Anda. Anda dapat memilih ukuran koleksi, persyaratan audio dan speaker, dan bahasa dengan memiliki kumpulan data khusus.

Spektrum Data Ucapan

Data ucapan spektrum mengidentifikasi kualitas dan nada bicara mulai dari alami hingga tidak alami.

  • Data pengenalan ucapan yang dituliskan

    Seperti namanya, Scripted speech adalah bentuk data yang dikendalikan. Pembicara merekam frasa tertentu dari teks yang disiapkan. Ini biasanya digunakan untuk menyampaikan perintah, menekankan bagaimana kata atau frase dikatakan daripada apa yang dikatakan.

    Pengenalan ucapan skrip dapat digunakan saat mengembangkan asisten suara yang harus mengambil perintah yang dikeluarkan menggunakan aksen speaker yang bervariasi.

  • Pengenalan ucapan Berbasis Skenario

    Dalam pidato berbasis skenario, pembicara diminta untuk membayangkan skenario dan masalah tertentu perintah suara berdasarkan skenario. Dengan cara ini, hasilnya adalah kumpulan perintah suara yang tidak ditulis tetapi dikendalikan.

    Data ucapan berbasis skenario diperlukan oleh pengembang yang ingin mengembangkan perangkat yang memahami ucapan sehari-hari dengan berbagai nuansanya. Misalnya menanyakan arah menuju Pizza Hut terdekat dengan menggunakan berbagai pertanyaan.

  • Pengenalan Ucapan Alami

    Tepat di ujung spektrum ujaran adalah ucapan yang spontan, alami, dan tidak terkontrol dengan cara apa pun. Pembicara berbicara dengan bebas menggunakan nada percakapan alami, bahasa, nada, dan tenor.

    Jika Anda ingin melatih aplikasi berbasis ML pada pengenalan suara multi-speaker, maka aplikasi tanpa skrip atau pidato percakapan kumpulan data bermanfaat.

Komponen Pengumpulan Data untuk Proyek Pidato

Pengumpulan data ucapan Serangkaian langkah yang terlibat dalam pengumpulan data ucapan memastikan bahwa data yang dikumpulkan berkualitas dan membantu dalam melatih model berbasis AI berkualitas tinggi.

Pahami tanggapan pengguna yang diperlukan

Mulailah dengan memahami respons pengguna yang diperlukan untuk model tersebut. Untuk mengembangkan model pengenalan suara, Anda harus mengumpulkan data yang mewakili konten yang Anda butuhkan. Kumpulkan data dari interaksi dunia nyata untuk memahami interaksi dan respons pengguna. Jika Anda sedang membangun asisten obrolan berbasis AI, lihat log obrolan, rekaman panggilan, respons kotak dialog obrolan untuk membuat kumpulan data.

Meneliti bahasa khusus domain

Anda memerlukan konten generik dan khusus domain untuk kumpulan data pengenalan suara. Setelah Anda mengumpulkan data ucapan umum, Anda harus menyaring data dan memisahkan yang umum dari yang spesifik.

Misalnya, pelanggan dapat menelepon untuk meminta janji temu untuk memeriksa glaukoma di pusat perawatan mata. Meminta janji adalah istilah yang sangat umum, tetapi glaukoma adalah spesifik domain.

Selain itu, saat melatih model ML pengenalan suara, pastikan Anda melatihnya untuk mengidentifikasi frasa, bukan satu per satu kata-kata yang dikenali.

Rekam Ucapan Manusia

Setelah mengumpulkan data dari dua langkah sebelumnya, langkah selanjutnya akan melibatkan manusia untuk merekam pernyataan yang dikumpulkan.

Sangat penting untuk mempertahankan panjang naskah yang ideal. Meminta orang untuk membaca lebih dari 15 menit teks bisa menjadi kontraproduktif. Pertahankan jarak minimal 2 – 3 detik antara setiap pernyataan yang direkam.

Biarkan rekaman menjadi dinamis

Bangun gudang ucapan dari berbagai orang, aksen bicara, gaya yang direkam dalam situasi, perangkat, dan lingkungan yang berbeda. Jika sebagian besar pengguna masa depan akan menggunakan telepon rumah, basis data koleksi ucapan Anda harus memiliki representasi signifikan yang sesuai dengan persyaratan itu.

Menginduksi variabilitas dalam rekaman Pidato

Setelah lingkungan target disiapkan, minta subjek pengumpulan data Anda untuk membaca skrip yang disiapkan di bawah lingkungan yang serupa. Mintalah subjek untuk tidak khawatir tentang kesalahan dan menjaga penampilan sealami mungkin. Idenya adalah untuk membuat sekelompok besar orang merekam naskah di lingkungan yang sama.

Transkripsikan Pidato

Setelah Anda merekam skrip menggunakan banyak subjek (dengan kesalahan), Anda harus melanjutkan dengan transkripsi. Jaga agar kesalahan tetap utuh, karena ini akan membantu Anda mencapai dinamisme dan variasi dalam data yang dikumpulkan.

Alih-alih meminta manusia mentranskripsikan seluruh teks kata demi kata, Anda dapat melibatkan mesin ucapan-ke-teks untuk melakukan transkripsi. Namun, kami juga menyarankan Anda menggunakan transkrip manusia untuk memperbaiki kesalahan.

Kembangkan Set tes

Mengembangkan perangkat tes sangat penting karena merupakan pelopor untuk model bahasa.

Buat sepasang pidato dan teks yang sesuai dan buat menjadi segmen-segmen.

Setelah mengumpulkan elemen yang dikumpulkan, ekstrak sampel 20%, yang membentuk set tes. Ini bukan set pelatihan, tetapi data yang diekstraksi ini akan memberi tahu Anda jika model terlatih mentranskripsi audio yang belum dilatih.

Bangun model dan ukuran pelatihan bahasa

Sekarang buat model bahasa pengenalan suara menggunakan pernyataan khusus domain dan variasi tambahan jika diperlukan. Setelah Anda melatih modelnya, Anda harus mulai mengukurnya.

Ambil model pelatihan (dengan 80% segmen audio yang dipilih) dan uji terhadap set pengujian (set data yang diekstraksi 20%) untuk memeriksa prediksi dan keandalan. Periksa kesalahan, pola, dan fokus pada faktor lingkungan yang dapat diperbaiki.

Kemungkinan Kasus Penggunaan atau Aplikasi

Kasus penggunaan pengenalan ucapan

Aplikasi Suara, Peralatan Cerdas, Ucapan ke teks, Dukungan Pelanggan, Dikte Konten, Aplikasi Keamanan, Kendaraan Otonom, Pencatatan untuk perawatan kesehatan.

Pengenalan suara membuka banyak kemungkinan, dan penggunaan aplikasi suara oleh pengguna telah meningkat selama bertahun-tahun.

Beberapa aplikasi umum dari teknologi pengenalan suara meliputi:

  1. Aplikasi Pencarian Suara

    Menurut Google, tentang 20% pencarian yang dilakukan di Google app adalah suara. Delapan miliar orang diproyeksikan menggunakan asisten suara pada tahun 2023, meningkat tajam dari prediksi 6.4 miliar pada tahun 2022.

    Adopsi pencarian suara telah meningkat secara signifikan selama bertahun-tahun, dan tren ini diperkirakan akan terus berlanjut. Konsumen mengandalkan pencarian suara untuk mencari kueri, membeli produk, menemukan bisnis, menemukan bisnis lokal, dan banyak lagi.

  2. Perangkat Rumah/Peralatan Pintar

    Teknologi pengenalan suara sedang digunakan untuk memberikan perintah suara ke perangkat pintar rumah seperti TV, lampu, dan peralatan lainnya. 66% konsumen di Inggris, AS, dan Jerman menyatakan bahwa mereka menggunakan asisten suara saat menggunakan perangkat pintar dan speaker.

  3. Ucapan ke teks

    Aplikasi ucapan-ke-teks digunakan untuk membantu komputasi gratis saat mengetik email, dokumen, laporan, dan lainnya. Ucapan ke teks menghilangkan waktu untuk mengetik dokumen, menulis buku dan surat, video subtitle, dan menerjemahkan teks.

  4. Customer Support

    Aplikasi pengenalan suara digunakan terutama dalam layanan dan dukungan pelanggan. Sistem pengenalan suara membantu dalam memberikan solusi layanan pelanggan 24/7 dengan biaya terjangkau dengan jumlah perwakilan terbatas.

  5. Dikte Konten

    Dikte konten adalah hal lain kasus penggunaan pengenalan suara yang membantu siswa dan akademisi menulis konten ekstensif dalam waktu singkat. Ini sangat membantu bagi siswa yang kurang beruntung karena kebutaan atau masalah penglihatan.

  6. Aplikasi keamanan

    Pengenalan suara digunakan secara luas untuk tujuan keamanan dan otentikasi dengan mengidentifikasi karakteristik suara yang unik. Alih-alih meminta orang tersebut mengidentifikasi diri mereka menggunakan informasi pribadi yang dicuri atau disalahgunakan, biometrik suara meningkatkan keamanan.

    Selain itu, pengenalan suara untuk tujuan keamanan telah meningkatkan tingkat kepuasan pelanggan seperti halnya proses login yang diperpanjang dan duplikasi kredensial.

  7. Perintah suara untuk kendaraan

    Kendaraan, terutama mobil, kini memiliki fitur pengenalan suara yang umum untuk meningkatkan keselamatan berkendara. Ini membantu pengemudi fokus mengemudi dengan menerima perintah suara sederhana seperti memilih stasiun radio, membuat panggilan, atau mengurangi volume.

  8. Mencatat untuk perawatan kesehatan

    Perangkat lunak transkripsi medis yang dibuat menggunakan algoritme pengenalan suara dengan mudah menangkap catatan suara, perintah, diagnosis, dan gejala dokter. Pencatatan medis meningkatkan kualitas dan urgensi dalam industri perawatan kesehatan.

Apakah Anda memiliki proyek pengenalan suara yang dapat mengubah bisnis Anda? Yang Anda butuhkan hanyalah kumpulan data pengenalan suara yang disesuaikan.

Perangkat lunak pengenalan suara berbasis AI perlu dilatih pada kumpulan data yang andal pada algoritme pembelajaran mesin untuk mengintegrasikan sintaks, tata bahasa, struktur kalimat, emosi, dan nuansa ucapan manusia. Yang terpenting, perangkat lunak harus terus belajar dan merespons – tumbuh dengan setiap interaksi.

Di Shaip, kami menyediakan kumpulan data pengenalan ucapan yang disesuaikan sepenuhnya untuk berbagai proyek pembelajaran mesin. Dengan Shaip, Anda memiliki akses ke data pelatihan yang dibuat khusus dengan kualitas terbaik yang dapat digunakan untuk membangun dan memasarkan sistem pengenalan ucapan yang andal. Hubungi pakar kami untuk pemahaman menyeluruh tentang penawaran kami.

[Baca juga: Panduan Lengkap untuk AI Percakapan]

sosial Share