Teknologi Pengenalan Ucapan Otomatis telah ada sejak lama tetapi baru-baru ini menjadi terkenal setelah penggunaannya menjadi lazim di berbagai aplikasi smartphone seperti Siri dan Alexa. Aplikasi smartphone berbasis AI ini telah mengilustrasikan kekuatan ASR dalam menyederhanakan tugas sehari-hari bagi kita semua.
Selain itu, seiring dengan semakin banyaknya industri vertikal yang beralih ke otomatisasi, kebutuhan mendasar akan ASR pun meningkat. Oleh karena itu, mari kita pahami teknologi pengenalan suara yang hebat ini secara mendalam dan mengapa teknologi ini dianggap sebagai salah satu teknologi paling penting untuk masa depan.
Sejarah Singkat Teknologi ASR
Sebelum melanjutkan dan menjelajahi potensi Pengenalan Ucapan Otomatis, pertama-tama mari kita lihat evolusinya.
Dasawarsa | Evolusi ASR |
---|---|
1950s | Teknologi Speech Recognition pertama kali diperkenalkan oleh Bell Laboratories pada tahun 1950an. Bell Labs menciptakan pengenal ucapan virtual yang dikenal sebagai 'Audrey' yang dapat mengidentifikasi angka antara 1-9 ketika diucapkan dengan satu suara. |
1960s | Pada tahun 1952, IBM meluncurkan sistem pengenalan suara pertamanya, 'Shoebox.' Shoebox dapat memahami dan membedakan enam belas kata bahasa Inggris yang diucapkan. |
1970s | Universitas Carnegie Mellon pada tahun 1976 mengembangkan sistem 'Harpy' yang dapat mengenali lebih dari 1000 kata. |
1990s | Setelah penantian panjang selama hampir 40 tahun, Bell Technologies kembali melakukan terobosan dalam industri ini dengan sistem pengenalan suara interaktif dial-in yang dapat mendikte ucapan manusia. |
2000s | Ini adalah periode transformatif bagi teknologi ASR ketika raksasa teknologi besar Google mulai mengerjakan teknologi pengenalan suara. Mereka menciptakan perangkat lunak ucapan yang canggih dengan tingkat akurasi sekitar 80%, menjadikannya populer di seluruh dunia. |
2010s | Dekade terakhir menjadi periode emas bagi ASR, dengan Amazon dan Apple meluncurkan perangkat lunak ucapan berbasis AI pertama mereka, Alexa dan Siri. |
Melangkah ke depan tahun 2010, ASR sangat berkembang dan menjadi semakin lazim dan akurat. Saat ini, Amazon, Google, dan Apple adalah pemimpin paling menonjol dalam teknologi ASR.
[ Baca juga: Panduan Lengkap untuk AI Percakapan ]
Bagaimana Cara Kerja Pengenalan Suara?
Pengenalan Ucapan Otomatis adalah teknologi yang cukup maju yang sangat sulit untuk dirancang dan dikembangkan. Ada ribuan bahasa di seluruh dunia dengan berbagai dialek dan aksen, sehingga sulit untuk mengembangkan perangkat lunak yang dapat memahami semuanya.
ASR menggunakan konsep pemrosesan bahasa alami dan pembelajaran mesin untuk pengembangannya. Dengan menggabungkan berbagai mekanisme pembelajaran bahasa dalam perangkat lunak, pengembang memastikan ketepatan dan efisiensi perangkat lunak pengenalan suara.
Pengenalan Ucapan Otomatis (ASR) adalah teknologi kompleks yang mengandalkan beberapa proses utama untuk mengubah bahasa lisan menjadi teks. Pada tingkat tinggi, langkah-langkah utama yang terlibat adalah:
- Pengambilan Audio: Mikrofon menangkap ucapan pengguna dan mengubah gelombang akustik menjadi sinyal listrik.
- Pra-pemrosesan Audio: Sinyal listrik kemudian didigitalkan dan menjalani berbagai langkah pra-pemrosesan, seperti pengurangan noise, untuk meningkatkan kualitas input audio.
- Ekstraksi Fitur: Audio digital dianalisis untuk mengekstrak fitur akustik, seperti nada, energi, dan koefisien spektral, yang merupakan karakteristik bunyi ujaran yang berbeda.
- Pemodelan Akustik: Fitur yang diekstraksi dibandingkan dengan model akustik terlatih, yang memetakan fitur audio ke bunyi ucapan atau fonem individual.
- Pemodelan Bahasa: Fonem yang dikenali kemudian dirangkai menjadi kata & frasa menggunakan model bahasa statistik yang memprediksi urutan kata yang paling mungkin berdasarkan konteks.
- Dekode: Langkah terakhir melibatkan penguraian kode urutan kata yang paling mungkin cocok dengan audio masukan, dengan mempertimbangkan model akustik dan bahasa.
Komponen inti ini bekerja sama dengan lancar untuk memungkinkan konversi ucapan-ke-teks yang sangat akurat, bahkan ketika ada kebisingan latar belakang, aksen, dan beragam kosakata.
[ Baca juga: Apa itu Teknologi Pidato-ke-Teks dan Bagaimana cara kerjanya]
Contoh ASR di Dunia Nyata
Pengenalan Ucapan Otomatis adalah teknologi hebat yang telah menjadi sangat populer dan berharga saat ini. Keunggulannya adalah karena memungkinkan pengguna menyelesaikan banyak tugas dengan cepat menggunakan kontrol hands-free.
Asisten Virtual dan Perangkat Cerdas: ASR adalah komponen inti asisten virtual seperti Siri, Alexa, dan Google Assistant, yang memungkinkan kontrol dan interaksi handsfree dengan berbagai perangkat rumah pintar dan layanan online. Produk paling populer yang menggunakan teknologi pengenalan suara adalah:
- Asisten Google: Dikembangkan pada tahun 2016, Asisten Google adalah perangkat lunak berbasis obrolan terbaik saat ini, memiliki tingkat akurasi tertinggi lebih dari 95% dalam bahasa Inggris AS. Secara kasar, ini digunakan oleh ratusan juta orang di seluruh dunia.
- Siri apel: Siri adalah contoh klasik ketersediaan ASR di lebih dari 30 negara dan 21 bahasa secara global. Siri adalah sistem berbasis obrolan pertama yang merevolusi penggunaan teknologi ucapan-ke-teks.
- Amazon Alexa: Alexa telah menjadi nama dan perangkat rumah tangga saat ini, dengan perkiraan jumlah pengguna lebih dari 100 juta orang di seluruh dunia.
Kasus Penggunaan untuk Teknologi Pengenalan Ucapan
Selain menggunakan teknologi ASR dalam perangkat lunak berbasis obrolan, ada kasus penggunaan lain dari teknologi luar biasa ini. Berikut ini beberapa di antaranya:
Otomotif dan Transportasi
ASR diintegrasikan ke dalam sistem infotainment di dalam kendaraan, memungkinkan pengemudi mengontrol berbagai fungsi, seperti pemutaran musik, navigasi, dan pengatur suhu, menggunakan perintah suara, sehingga meningkatkan keselamatan dan kenyamanan.
Transkripsi Kesehatan & Medis
ASR mentransformasi industri layanan kesehatan dengan memungkinkan dokter mendiktekan catatan dan catatan dengan lebih efisien, menyederhanakan proses dokumentasi, dan mengurangi biaya administrasi.
Pusat Panggilan & Dukungan Pelanggan
ASR banyak digunakan di pusat panggilan untuk mengotomatisasi transkripsi interaksi pelanggan, meningkatkan produktivitas agen, dan meningkatkan pengalaman pelanggan secara keseluruhan.
Belajar bahasa
Teknologi ASR telah merevolusi pembelajaran bahasa dengan memberikan umpan balik waktu nyata tentang pengucapan dan keterampilan bahasa lisan. Hal ini memungkinkan pelajar untuk menyempurnakan pola bicara mereka, menerima koreksi langsung, dan meningkatkan kefasihan mereka dengan cara yang lebih efisien.
Aksesibilitas untuk Tunarungu
Teknologi ASR berperan penting dalam menjadikan konten dan pengalaman digital lebih mudah diakses oleh penyandang disabilitas, seperti menyediakan teks secara real-time untuk didengar atau mengaktifkan kontrol suara bagi mereka yang memiliki mobilitas terbatas.
Biometrik Suara dan Keamanan
Karakteristik unik dari suara seseorang dapat dimanfaatkan sebagai bentuk otentikasi biometrik. Teknologi ASR memainkan peran penting dalam sistem biometrik suara, menawarkan lapisan keamanan tambahan untuk identifikasi pribadi dan kontrol akses.
Media dan Penyiaran
ASR digunakan untuk menghasilkan teks tertulis dan subtitel untuk konten langsung dan rekaman sebelumnya, sehingga lebih mudah diakses oleh pemirsa dan memungkinkan bentuk-bentuk baru pengalaman media interaktif.
Keuntungan ASR
- Efisiensi: ASR mempercepat entri data dan komunikasi, memungkinkan pengguna berbicara alih-alih mengetik, yang meningkatkan produktivitas.
- Aksesibilitas : Meningkatkan aksesibilitas teknologi bagi penyandang disabilitas, memungkinkan interaksi yang lebih mudah dengan perangkat.
- Operasi Bebas Genggam: ASR memfasilitasi multitasking dengan memungkinkan pengguna mengendalikan perangkat melalui perintah suara, sehingga tangan mereka bebas untuk melakukan tugas lain.
- Hemat BiayaDengan mengurangi kebutuhan akan layanan transkripsi manual, ASR menghemat waktu dan biaya operasional bisnis.
Tantangan dalam ASR
- Aksen dan Dialek: Variabilitas dalam aksen dapat menghambat akurasi pengenalan dan menyebabkan kesalahan dalam transkripsi.
- Kebisingan latar belakang: Lingkungan yang bising dapat mengganggu kinerja ASR, sehingga menyulitkan sistem untuk menangkap ucapan dengan jelas.
- Homofon: Kata-kata yang bunyinya sama tetapi maknanya berbeda dapat membingungkan sistem ASR, sehingga mengakibatkan kesalahpahaman.
- Ucapan Terus MenerusPola bicara alami, termasuk jeda dan variasi, mempersulit pengenalan, menantang akurasi ASR.
Bagaimana Masa Depan Teknologi ASR?
Dengan kemajuan AI dan pembelajaran mesin, teknologi Pengenalan Ucapan Otomatis diharapkan menjadi lebih akurat, lebih cepat, dan terdengar lebih alami. Selain itu, teknologi ASR cenderung menjadi lazim dalam layanan pelanggan, pendidikan, perawatan kesehatan, dan banyak lagi. Bagi organisasi, mengembangkan solusi bisnis berbasis ASR yang disesuaikan harus menjadi target berikutnya.
Dapatkan Bantuan untuk Proyek Berbasis ASR Anda dari Pakar Shaip