30 Agustus 2022

Memahami Proses Pengumpulan Data Audio untuk Pengenalan Ucapan Otomatis

Sistem Pengenalan Ucapan Otomatis dan asisten virtual seperti Siri, Alexa, dan Cortana telah menjadi bagian umum dari kehidupan kita. Ketergantungan kita pada mereka meningkat secara signifikan saat mereka menjadi lebih pintar. Dari menyalakan lampu hingga melakukan panggilan hingga mengganti saluran TV, kami memanfaatkan teknologi pintar ini untuk menyelesaikan tugas-tugas biasa.

Namun, pernahkah Anda bertanya-tanya bagaimana sistem pengenalan suara ini bekerja?

Nah, blog ini akan mendidik Anda tentang beberapa dasar Pengenalan Ucapan Otomatis. Selain itu, kami akan mengeksplorasi cara kerjanya dan bagaimana asisten virtual fungsional seperti Siri dibuat.

Apa itu Pengenalan Ucapan Otomatis?

Automatic Speech Recognition (ASR) adalah perangkat lunak yang memungkinkan sistem komputer mengubah ucapan manusia menjadi teks, memanfaatkan beberapa kecerdasan buatan dan algoritma pembelajaran mesin.

Setelah mengubah dan menganalisis perintah yang diberikan, komputer merespons dengan output yang sesuai untuk pengguna. ASR pertama kali diperkenalkan pada tahun 1962, dan sejak itu, ASR terus meningkatkan operasinya dan menjadi pusat perhatian besar karena aplikasi populer seperti Alexa dan Siri.

Tahukah Anda Pengenalan Ucapan Otomatis juga dikenal sebagai Pembaca Ucapan-ke-Teks? Baca selengkapnya di blog ini!

Bagaimana Proses Pengumpulan Ucapan untuk Pelatihan Model ASR?

Pengumpulan ucapan bertujuan untuk mengumpulkan beberapa sampel rekaman dari berbagai area yang digunakan untuk memberi makan dan melatih model ASR. Sistem ASR memberikan efisiensi tertinggi ketika kumpulan data ucapan & audio yang besar dikumpulkan dan diberikan ke sistemnya.

Agar bekerja dengan lancar, kumpulan data ucapan yang dikumpulkan harus berisi semua target demografi, bahasa, aksen, dan dialek. Proses berikut menunjukkan cara melatih model machine learning dalam beberapa langkah:

Mulailah dengan Membangun Matriks Demografis
Terutama mengumpulkan data untuk demografi yang berbeda seperti lokasi, jenis kelamin, bahasa, usia, dan aksen. Juga, pastikan untuk menangkap berbagai kebisingan lingkungan seperti kebisingan jalan, kebisingan ruang tunggu, kebisingan kantor umum, dll.
Kumpulkan dan Transkripsikan Data Pidato
Langkah selanjutnya adalah mengumpulkan sampel audio dan ucapan manusia berdasarkan lokasi geografis yang berbeda untuk melatih model ASR Anda. Ini adalah langkah penting dan membutuhkan ahli manusia untuk melakukan pengucapan kata-kata yang panjang dan pendek untuk mendapatkan nuansa kalimat yang asli dan mengulangi kalimat yang sama dalam aksen dan dialek yang berbeda.
Buat Set Tes Terpisah
Setelah Anda mengumpulkan teks yang ditranskripsi, langkah selanjutnya adalah memasangkannya dengan data audio yang sesuai. Kemudian, segmentasikan data lebih lanjut dan sertakan satu pernyataan dari mereka. Sekarang, dari pasangan data tersegmentasi, Anda dapat menarik data acak dari satu set untuk pengujian lebih lanjut.
Latih Model Bahasa ASR Anda
Semakin banyak informasi yang dimiliki kumpulan data Anda, semakin baik performa model terlatih AI Anda. Oleh karena itu, buat beberapa variasi teks dan ucapan yang Anda rekam sebelumnya. Parafrase kalimat yang sama menggunakan notasi ucapan yang berbeda.
Evaluasi Output dan Akhirnya, Iterate
Terakhir, ukur output model ASR Anda untuk memperbaiki kinerjanya. Uji model terhadap set uji untuk menentukan efisiensinya. Sesuai, libatkan model ASR Anda dalam loop umpan balik untuk menghasilkan output yang diinginkan dan perbaiki celah apa pun.

Apa Kasus Penggunaan yang Berbeda dari Pengenalan Ucapan?

Teknologi pengenalan ucapan sangat lazim di banyak industri saat ini. Beberapa industri yang menggunakan teknologi luar biasa ini adalah sebagai berikut:

Industri makanan: Raksasa makanan seperti Wendy's dan McDonald's siap meningkatkan pengalaman pelanggan mereka menggunakan ASR. Di banyak gerai mereka, mereka telah menerapkan model ASR yang berfungsi penuh untuk menerima pesanan, dan selanjutnya meneruskannya ke bagian memasak untuk membuat pesanan pelanggan siap.
Telekomunikasi: Vodafone adalah salah satu penyedia telekomunikasi terbesar di dunia. Ini telah merancang layanan pelanggan dan layanan relai telepon yang memanfaatkan model ASR yang memandu Anda untuk memecahkan berbagai pertanyaan dan merutekan ulang panggilan Anda ke departemen terkait.
Perjalanan dan Transportasi: Google Android Auto atau Apple CarPlay sudah menjadi hal biasa. Kebanyakan orang menggunakannya untuk mengaktifkan sistem navigasi, mengirim pesan, atau mengganti daftar putar musik. Namun, dengan kemajuan teknologi, sistem tersebut menjadi lebih halus.
BMW Intelligent Personal Assistant yang diluncurkan dalam BMW Seri 3-nya jauh lebih pintar daripada asisten suara biasa. Ini dapat memungkinkan pengemudi untuk menemukan informasi terkait mobil dan mengoperasikan mobil menggunakan perintah suara.
Media dan Hiburan: Industri media juga menggunakan ASR dalam banyak proyeknya. Youtube telah meluncurkan asisten berbasis AI yang menghasilkan teks otomatis langsung. Saat Anda berbicara di layar, asisten akan memberikan subtitle untuk membuat video dapat diakses oleh kelompok pengguna Youtube yang lebih besar.

Bagaimana Shaip Dapat Membantu?

Shaip adalah salah satu layanan pelatihan AI terkemuka yang memiliki keahlian di berbagai bidang AI dan ML. Mereka dapat membantu Anda membangun kumpulan data Anda sendiri yang dapat digunakan untuk berbagai aplikasi dan proyek.

Beberapa layanan yang disediakan oleh Shaip adalah:

Pengenalan Ucapan Otomatis (ASR)
Koleksi Pidato Naskah
Transkreasi
Koleksi Pidato Spontan
Kumpulan Ucapan/Kata Bangun,
Teks-ke-ucapan (TTS)

Anda dapat memanfaatkan layanan ini untuk mendapatkan hasil terbaik untuk proyek berbasis AI Anda. Ketahui lebih banyak tentang layanan ini dengan menghubungi tim ahli kami hari ini!

sosial Share

Bicaralah dengan Pakar

Nama Depan*
Nama Belakang*
Email*
Nomor Hp / Telephone*
Perusahaan*
Negara*
Negara
komentar*
Dengan mendaftar, saya setuju dengan Shaip Kebijakan Privasi dan Ketentuan Layanan dan memberikan persetujuan saya untuk menerima komunikasi pemasaran B2B dari Shaip.
CAPTCHA

Unduh Buku Gratis

Anda Mungkin Juga Suka

Memahami Proses Pengumpulan Data Audio untuk Pengenalan Ucapan Otomatis

Apa itu Pengenalan Ucapan Otomatis?

Bagaimana Proses Pengumpulan Ucapan untuk Pelatihan Model ASR?

Mulailah dengan Membangun Matriks Demografis

Kumpulkan dan Transkripsikan Data Pidato

Buat Set Tes Terpisah

Latih Model Bahasa ASR Anda

Evaluasi Output dan Akhirnya, Iterate

Apa Kasus Penggunaan yang Berbeda dari Pengenalan Ucapan?

Bagaimana Shaip Dapat Membantu?

sosial Share

Bicaralah dengan Pakar

Apa itu Teknologi Ucapan-Ke-Teks dan Bagaimana Cara Kerjanya dalam Pengenalan Ucapan Otomatis

Memilih Kumpulan Data Pengenalan Ucapan yang Tepat untuk Model AI Anda

Bagaimana Pengenalan Ucapan Berbeda Dari Pengenalan Suara?

Layanan Data AI

Khusus

Industri

Produk

Perusahaan

Sumber

Hubungi Kami