Pengenalan Ucapan Otomatis

Pengenalan Ucapan Otomatis (ASR): Semua yang Perlu Diketahui Pemula (pada tahun 2024)

Teknologi Pengenalan Ucapan Otomatis telah ada sejak lama tetapi baru-baru ini menjadi terkenal setelah penggunaannya menjadi lazim di berbagai aplikasi smartphone seperti Siri dan Alexa. Aplikasi smartphone berbasis AI ini telah mengilustrasikan kekuatan ASR dalam menyederhanakan tugas sehari-hari bagi kita semua.

Selain itu, karena vertikal industri yang berbeda bergerak lebih jauh ke arah otomatisasi, kebutuhan mendasar akan ASR mengalami lonjakan. Oleh karena itu, mari kita pahami hal yang luar biasa ini teknologi pengenalan suara mendalam dan mengapa itu dianggap sebagai salah satu teknologi paling penting untuk masa depan.

Sejarah Singkat Teknologi ASR

Sebelum melanjutkan dan menjelajahi potensi Pengenalan Ucapan Otomatis, pertama-tama mari kita lihat evolusinya.

DasawarsaEvolusi ASR
1950sTeknologi Speech Recognition pertama kali diperkenalkan oleh Bell Laboratories pada tahun 1950an. Bell Labs menciptakan pengenal ucapan virtual yang dikenal sebagai 'Audrey' yang dapat mengidentifikasi angka antara 1-9 ketika diucapkan dengan satu suara.
1960sPada tahun 1952, IBM meluncurkan sistem pengenalan suara pertamanya, 'Shoebox.' Shoebox dapat memahami dan membedakan enam belas kata bahasa Inggris yang diucapkan.
1970sUniversitas Carnegie Mellon pada tahun 1976 mengembangkan sistem 'Harpy' yang dapat mengenali lebih dari 1000 kata.
1990sSetelah penantian panjang selama hampir 40 tahun, Bell Technologies kembali melakukan terobosan dalam industri ini dengan sistem pengenalan suara interaktif dial-in yang dapat mendikte ucapan manusia.
2000sIni adalah periode transformatif bagi teknologi ASR ketika raksasa teknologi besar Google mulai mengerjakan teknologi pengenalan suara. Mereka menciptakan perangkat lunak ucapan yang canggih dengan tingkat akurasi sekitar 80%, menjadikannya populer di seluruh dunia.
2010sDekade terakhir menjadi periode emas bagi ASR, dengan Amazon dan Apple meluncurkan perangkat lunak ucapan berbasis AI pertama mereka, Alexa dan Siri.

Melangkah ke depan tahun 2010, ASR sangat berkembang dan menjadi semakin lazim dan akurat. Saat ini, Amazon, Google, dan Apple adalah pemimpin paling menonjol dalam teknologi ASR.

[ Baca juga: Panduan Lengkap untuk AI Percakapan ]

Bagaimana Cara Kerja Pengenalan Suara?

Pengenalan Ucapan Otomatis adalah teknologi yang cukup maju yang sangat sulit untuk dirancang dan dikembangkan. Ada ribuan bahasa di seluruh dunia dengan berbagai dialek dan aksen, sehingga sulit untuk mengembangkan perangkat lunak yang dapat memahami semuanya.

ASR menggunakan konsep pemrosesan bahasa alami dan pembelajaran mesin untuk pengembangannya. Dengan menggabungkan berbagai mekanisme pembelajaran bahasa dalam perangkat lunak, pengembang memastikan ketepatan dan efisiensi perangkat lunak pengenalan suara.

Pengenalan Ucapan Otomatis (ASR) adalah teknologi kompleks yang mengandalkan beberapa proses utama untuk mengubah bahasa lisan menjadi teks. Pada tingkat tinggi, langkah-langkah utama yang terlibat adalah:

  1. Pengambilan Audio: Mikrofon menangkap ucapan pengguna dan mengubah gelombang akustik menjadi sinyal listrik.
  2. Pra-pemrosesan Audio: Sinyal listrik kemudian didigitalkan dan menjalani berbagai langkah pra-pemrosesan, seperti pengurangan noise, untuk meningkatkan kualitas input audio.
  3. Ekstraksi Fitur: Audio digital dianalisis untuk mengekstrak fitur akustik, seperti nada, energi, dan koefisien spektral, yang merupakan karakteristik bunyi ujaran yang berbeda.
  4. Pemodelan Akustik: Fitur yang diekstraksi dibandingkan dengan model akustik terlatih, yang memetakan fitur audio ke bunyi ucapan atau fonem individual.
  5. Pemodelan Bahasa: Fonem yang dikenali kemudian dirangkai menjadi kata & frasa menggunakan model bahasa statistik yang memprediksi urutan kata yang paling mungkin berdasarkan konteks.
  6. Dekode: Langkah terakhir melibatkan penguraian kode urutan kata yang paling mungkin cocok dengan audio masukan, dengan mempertimbangkan model akustik dan bahasa.

Komponen inti ini bekerja sama dengan lancar untuk memungkinkan konversi ucapan-ke-teks yang sangat akurat, bahkan ketika ada kebisingan latar belakang, aksen, dan beragam kosakata.

[ Baca juga: Apa itu Teknologi Pidato-ke-Teks dan Bagaimana cara kerjanya]

Contoh ASR di Dunia Nyata

Contoh asar di dunia nyata

Pengenalan Ucapan Otomatis adalah teknologi hebat yang telah menjadi sangat populer dan berharga saat ini. Keunggulannya adalah karena memungkinkan pengguna menyelesaikan banyak tugas dengan cepat menggunakan kontrol hands-free.

Asisten Virtual dan Perangkat Cerdas: ASR adalah komponen inti asisten virtual seperti Siri, Alexa, dan Google Assistant, yang memungkinkan kontrol dan interaksi handsfree dengan berbagai perangkat rumah pintar dan layanan online. Produk paling populer yang menggunakan teknologi pengenalan suara adalah:

  • Asisten Google: Dikembangkan pada tahun 2016, Asisten Google adalah perangkat lunak berbasis obrolan terbaik saat ini, memiliki tingkat akurasi tertinggi lebih dari 95% dalam bahasa Inggris AS. Secara kasar, ini digunakan oleh ratusan juta orang di seluruh dunia.
  • Siri apel: Siri adalah contoh klasik ketersediaan ASR di lebih dari 30 negara dan 21 bahasa secara global. Siri adalah sistem berbasis obrolan pertama yang merevolusi penggunaan teknologi ucapan-ke-teks.
  • Amazon Alexa: Alexa telah menjadi nama dan perangkat rumah tangga saat ini, dengan perkiraan jumlah pengguna lebih dari 100 juta orang di seluruh dunia.

Kasus Penggunaan untuk Teknologi Pengenalan Ucapan

Selain menggunakan teknologi ASR dalam perangkat lunak berbasis obrolan, ada kasus penggunaan lain dari teknologi luar biasa ini. Berikut ini beberapa di antaranya:

Pengenalan ucapan kendaraan

Otomotif dan Transportasi

ASR diintegrasikan ke dalam sistem infotainment di dalam kendaraan, memungkinkan pengemudi mengontrol berbagai fungsi, seperti pemutaran musik, navigasi, dan pengatur suhu, menggunakan perintah suara, sehingga meningkatkan keselamatan dan kenyamanan.

Layanan transkripsi

Transkripsi Kesehatan & Medis

ASR mentransformasi industri layanan kesehatan dengan memungkinkan dokter mendiktekan catatan dan catatan dengan lebih efisien, menyederhanakan proses dokumentasi, dan mengurangi biaya administrasi.

Pusat panggilan dan dukungan pelanggan

Pusat Panggilan & Dukungan Pelanggan

ASR banyak digunakan di pusat panggilan untuk mengotomatisasi transkripsi interaksi pelanggan, meningkatkan produktivitas agen, dan meningkatkan pengalaman pelanggan secara keseluruhan.

Pembelajaran bahasa

Belajar bahasa

Teknologi ASR telah merevolusi pembelajaran bahasa dengan memberikan umpan balik waktu nyata tentang pengucapan dan keterampilan bahasa lisan. Hal ini memungkinkan pelajar untuk menyempurnakan pola bicara mereka, menerima koreksi langsung, dan meningkatkan kefasihan mereka dengan cara yang lebih efisien.

Aksesibilitas untuk tuna rungu

Aksesibilitas untuk Tunarungu

Teknologi ASR berperan penting dalam menjadikan konten dan pengalaman digital lebih mudah diakses oleh penyandang disabilitas, seperti menyediakan teks secara real-time untuk didengar atau mengaktifkan kontrol suara bagi mereka yang memiliki mobilitas terbatas.

Biometrik dan keamanan suara

Biometrik Suara dan Keamanan

Karakteristik unik dari suara seseorang dapat dimanfaatkan sebagai bentuk otentikasi biometrik. Teknologi ASR memainkan peran penting dalam sistem biometrik suara, menawarkan lapisan keamanan tambahan untuk identifikasi pribadi dan kontrol akses.

Media dan penyiaran

Media dan Penyiaran

ASR digunakan untuk menghasilkan teks tertulis dan subtitel untuk konten langsung dan rekaman sebelumnya, sehingga lebih mudah diakses oleh pemirsa dan memungkinkan bentuk-bentuk baru pengalaman media interaktif.

Bagaimana Masa Depan Teknologi ASR?

Dengan kemajuan AI dan pembelajaran mesin, teknologi Pengenalan Ucapan Otomatis diharapkan menjadi lebih akurat, lebih cepat, dan terdengar lebih alami. Selain itu, teknologi ASR cenderung menjadi lazim dalam layanan pelanggan, pendidikan, perawatan kesehatan, dan banyak lagi. Bagi organisasi, mengembangkan solusi bisnis berbasis ASR yang disesuaikan harus menjadi target berikutnya.

Dapatkan Bantuan untuk Proyek Berbasis ASR Anda dari Pakar Shaip

sosial Share