Pengenalan Ucapan Otomatis

Memahami Proses Pengumpulan Data Audio untuk Pengenalan Ucapan Otomatis

Sistem Pengenalan Ucapan Otomatis dan asisten virtual seperti Siri, Alexa, dan Cortana telah menjadi bagian umum dari kehidupan kita. Ketergantungan kita pada mereka meningkat secara signifikan saat mereka menjadi lebih pintar. Dari menyalakan lampu hingga melakukan panggilan hingga mengganti saluran TV, kami memanfaatkan teknologi pintar ini untuk menyelesaikan tugas-tugas biasa.

Namun, pernahkah Anda bertanya-tanya bagaimana sistem pengenalan suara ini bekerja?

Nah, blog ini akan mendidik Anda tentang beberapa dasar Pengenalan Ucapan Otomatis. Selain itu, kami akan mengeksplorasi cara kerjanya dan bagaimana asisten virtual fungsional seperti Siri dibuat.

Apa itu Pengenalan Ucapan Otomatis?

Automatic Speech Recognition (ASR) adalah perangkat lunak yang memungkinkan sistem komputer mengubah ucapan manusia menjadi teks, memanfaatkan beberapa kecerdasan buatan dan algoritma pembelajaran mesin.

Setelah mengubah dan menganalisis perintah yang diberikan, komputer merespons dengan output yang sesuai untuk pengguna. ASR pertama kali diperkenalkan pada tahun 1962, dan sejak itu, ASR terus meningkatkan operasinya dan menjadi pusat perhatian besar karena aplikasi populer seperti Alexa dan Siri.

Tahukah Anda Pengenalan Ucapan Otomatis juga dikenal sebagai Pembaca Ucapan-ke-Teks? Baca selengkapnya di blog ini! 

Bagaimana Proses Pengumpulan Ucapan untuk Pelatihan Model ASR?

Proses pengumpulan pidato

Pengumpulan ucapan bertujuan untuk mengumpulkan beberapa sampel rekaman dari berbagai area yang digunakan untuk memberi makan dan melatih model ASR. Sistem ASR memberikan efisiensi tertinggi ketika kumpulan data ucapan & audio yang besar dikumpulkan dan diberikan ke sistemnya.

Agar bekerja dengan lancar, kumpulan data ucapan yang dikumpulkan harus berisi semua target demografi, bahasa, aksen, dan dialek. Proses berikut menunjukkan cara melatih model machine learning dalam beberapa langkah:

  • Mulailah dengan Membangun Matriks Demografis

    Terutama mengumpulkan data untuk demografi yang berbeda seperti lokasi, jenis kelamin, bahasa, usia, dan aksen. Juga, pastikan untuk menangkap berbagai kebisingan lingkungan seperti kebisingan jalan, kebisingan ruang tunggu, kebisingan kantor umum, dll.

  • Kumpulkan dan Transkripsikan Data Pidato

    Langkah selanjutnya adalah mengumpulkan sampel audio dan ucapan manusia berdasarkan lokasi geografis yang berbeda untuk melatih model ASR Anda. Ini adalah langkah penting dan membutuhkan ahli manusia untuk melakukan pengucapan kata-kata yang panjang dan pendek untuk mendapatkan nuansa kalimat yang asli dan mengulangi kalimat yang sama dalam aksen dan dialek yang berbeda.

  • Buat Set Tes Terpisah

    Setelah Anda mengumpulkan teks yang ditranskripsi, langkah selanjutnya adalah memasangkannya dengan data audio yang sesuai. Kemudian, segmentasikan data lebih lanjut dan sertakan satu pernyataan dari mereka. Sekarang, dari pasangan data tersegmentasi, Anda dapat menarik data acak dari satu set untuk pengujian lebih lanjut.

  • Latih Model Bahasa ASR Anda

    Semakin banyak informasi yang dimiliki kumpulan data Anda, semakin baik performa model terlatih AI Anda. Oleh karena itu, buat beberapa variasi teks dan ucapan yang Anda rekam sebelumnya. Parafrase kalimat yang sama menggunakan notasi ucapan yang berbeda.

  • Evaluasi Output dan Akhirnya, Iterate

    Terakhir, ukur output model ASR Anda untuk memperbaiki kinerjanya. Uji model terhadap set uji untuk menentukan efisiensinya. Sesuai, libatkan model ASR Anda dalam loop umpan balik untuk menghasilkan output yang diinginkan dan perbaiki celah apa pun.

[Baca juga: Tinjauan Komprehensif tentang Pengenalan Ucapan Otomatis]

Apa Kasus Penggunaan yang Berbeda dari Pengenalan Ucapan?

Teknologi pengenalan ucapan sangat lazim di banyak industri saat ini. Beberapa industri yang menggunakan teknologi luar biasa ini adalah sebagai berikut:

  • Industri makanan Industri makanan: Raksasa makanan seperti Wendy's dan McDonald's siap meningkatkan pengalaman pelanggan mereka menggunakan ASR. Di banyak gerai mereka, mereka telah menerapkan model ASR yang berfungsi penuh untuk menerima pesanan, dan selanjutnya meneruskannya ke bagian memasak untuk membuat pesanan pelanggan siap.

     

  • Telekomunikasi Telekomunikasi: Vodafone adalah salah satu penyedia telekomunikasi terbesar di dunia. Ini telah merancang layanan pelanggan dan layanan relai telepon yang memanfaatkan model ASR yang memandu Anda untuk memecahkan berbagai pertanyaan dan merutekan ulang panggilan Anda ke departemen terkait.

     

  • Perjalanan dan transportasi Perjalanan dan Transportasi: Google Android Auto atau Apple CarPlay sudah menjadi hal biasa. Kebanyakan orang menggunakannya untuk mengaktifkan sistem navigasi, mengirim pesan, atau mengganti daftar putar musik. Namun, dengan kemajuan teknologi, sistem tersebut menjadi lebih halus.
    BMW Intelligent Personal Assistant yang diluncurkan dalam BMW Seri 3-nya jauh lebih pintar daripada asisten suara biasa. Ini dapat memungkinkan pengemudi untuk menemukan informasi terkait mobil dan mengoperasikan mobil menggunakan perintah suara.
  • Media dan hiburan Media dan Hiburan: Industri media juga menggunakan ASR dalam banyak proyeknya. Youtube telah meluncurkan asisten berbasis AI yang menghasilkan teks otomatis langsung. Saat Anda berbicara di layar, asisten akan memberikan subtitle untuk membuat video dapat diakses oleh kelompok pengguna Youtube yang lebih besar.

 

[Baca juga: Apa itu Teknologi Pidato-Ke-Teks dan Bagaimana Cara Kerjanya]

Bagaimana Shaip Dapat Membantu?

Shaip adalah salah satu layanan pelatihan AI terkemuka yang memiliki keahlian di berbagai bidang AI dan ML. Mereka dapat membantu Anda membangun kumpulan data Anda sendiri yang dapat digunakan untuk berbagai aplikasi dan proyek.

Beberapa layanan yang disediakan oleh Shaip adalah:

  • Pengenalan Ucapan Otomatis (ASR)
  • Koleksi Pidato Naskah
  • Transkreasi
  • Koleksi Pidato Spontan
  • Kumpulan Ucapan/Kata Bangun,
  • Teks-ke-ucapan (TTS)

Anda dapat memanfaatkan layanan ini untuk mendapatkan hasil terbaik untuk proyek berbasis AI Anda. Ketahui lebih banyak tentang layanan ini dengan menghubungi tim ahli kami hari ini!

sosial Share