Case Study: Automatic Speech Recognition

Lebih dari 8k jam Audio Dikumpulkan, 800 jam Ditranskripsikan untuk Teknologi Suara Multibahasa

Percakapan ai

Pengantar

India membutuhkan platform yang berkonsentrasi pada pembuatan kumpulan data multibahasa dan solusi teknologi bahasa berbasis AI untuk menyediakan layanan digital dalam bahasa India. Untuk meluncurkan inisiatif ini, Klien bermitra dengan Shaip untuk mengumpulkan, dan menyalin bahasa India untuk membangun model ucapan multi-bahasa.

Volume

Jam Pengumpulan Data
10
Jumlah Halaman yang Dianotasi
10 +
Durasi proyek
< 1 bulan

Tantangan

Untuk membantu klien dengan peta jalan Teknologi Ucapan untuk bahasa India, tim perlu memperoleh, mengelompokkan, dan menyalin data pelatihan dalam jumlah besar untuk membangun model AI. Persyaratan penting klien adalah:

Pengumpulan Data

  • Dapatkan 8000 jam data pelatihan dari lokasi terpencil di India
  • Pemasok untuk mengumpulkan pidato spontan dari Kelompok Usia 20-70 tahun
  • Pastikan beragam penutur berdasarkan usia, jenis kelamin, pendidikan, dan dialek
  • Setiap rekaman audio minimal harus 16kHz dengan 16 bit/sampel.
Pengumpulan data

Transkripsi Data

Ikuti panduan transkripsi detail seputar Karakter dan Simbol Khusus, Ejaan dan Tata Bahasa, Kapitalisasi, Singkatan, Kontraksi, Huruf Lisan Individual, Angka, Tanda Baca, Akronim dan Inisialisme, Ucapan Tidak Lancar, Ucapan Tidak Dapat Dipahami, Bahasa Non-Target, Non-Ucapan

Transkripsi data

Pemeriksaan Kualitas & Umpan Balik

Semua rekaman harus menjalani penilaian kualitas dan validasi, hanya rekaman pidato tervalidasi yang akan dikirimkan

Solusi

Dengan pemahaman mendalam kami tentang AI percakapan, kami membantu klien mengumpulkan, menyalin data audio dengan tim kolektor ahli, ahli bahasa, dan anotator untuk membangun kumpulan besar data audio dari wilayah terpencil di India.

Ruang lingkup pekerjaan Shaip termasuk namun tidak terbatas pada memperoleh data pelatihan audio dalam jumlah besar, menyalin data, dan mengirimkan file JSON terkait yang berisi metadata [untuk pembicara dan transkrip. Untuk setiap pembicara, metadatanya mencakup ID Pembicara yang dianonimkan, detail perangkat, informasi demografis seperti jenis kelamin, usia, dan pendidikan, beserta kode pin, status sosial ekonomi, bahasa yang digunakan, dan catatan durasi tinggal mereka. Untuk setiap transcriber, datanya mencakup ID Transcriber yang dianonimkan, detail demografis yang mirip dengan pembicara, durasi pengalaman transkripsi mereka, dan rincian bahasa yang dapat mereka baca, tulis, dan ucapkan.

Shaip dikumpulkan 8000 jam data audio / Ucapan spontan dalam skala besar dan transkripsi 800 jam dengan tetap mempertahankan tingkat kualitas yang diinginkan yang diperlukan untuk melatih teknologi ucapan untuk proyek yang kompleks. Formulir Persetujuan Eksplisit diambil dari masing-masing peserta. Pidato / Spontan yang dikumpulkan berdasarkan gambar yang disediakan Universitas. Dari 3500 gambar 1000 bersifat generik dan 2500 berhubungan dengan budaya, festival, dll. Gambar yang menggambarkan berbagai domain seperti stasiun kereta api, pasar, cuaca, dan banyak lagi.

Pengumpulan Data

NegaraDistrikJam AudioTurunan
(Jam)
BiharSaran, Champaran Timur, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradeshDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
Bengal BaratPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, 24 Parganas Utara, Dakshin Dinajpur80080
JharkhandSahebganj, Jamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaGoa Utara+Selatan10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Total8000800

Petunjuk umum

dibentuk

    • Audio pada 16 kHz, 16 bit/sampel.
    • Saluran tunggal.
    • Audio mentah tanpa transcoding.

Gaya

    • Pidato spontan.
    • Kalimat berdasarkan gambar yang disediakan Universitas. Dari 3500 gambar, 1000 bersifat umum dan 2500 berhubungan dengan budaya, festival, dll. Gambar-gambar tersebut menggambarkan berbagai domain seperti stasiun kereta api, pasar, cuaca, dan banyak lagi.

Latar Belakang Rekaman

    • Direkam di lingkungan yang tenang dan bebas gema.
    • Tidak ada gangguan smartphone (getaran atau notifikasi) selama perekaman.
    • Tidak ada distorsi seperti kliping atau efek medan jauh.
    • Getaran dari telepon tidak dapat diterima; getaran eksternal dapat ditoleransi jika audionya jernih.

Spesifikasi Speaker

    • Rentang usia 20-70 tahun dengan distribusi gender yang seimbang per kabupaten.
    • Minimal 400 penutur asli di setiap distrik.
    • Penutur harus menggunakan bahasa/dialek asalnya.
    • Formulir persetujuan wajib bagi semua peserta.


Pemeriksaan Kualitas & Jaminan Kualitas Kritis

Proses QA mengutamakan jaminan kualitas rekaman audio dan transkripsi. Standar audio berfokus pada keheningan yang tepat, durasi segmen, kejernihan satu speaker, dan metadata terperinci termasuk usia dan status sosial ekonomi. Kriteria transkripsi menekankan keakuratan tag, kebenaran kata, dan detail segmen yang benar. Tolok ukur penerimaan menyatakan bahwa jika lebih dari 20% kumpulan audio gagal memenuhi standar ini, kumpulan audio tersebut akan ditolak. Untuk perbedaan kurang dari 20%, diperlukan rekaman pengganti dengan profil serupa.

Transkripsi Data

Pedoman transkripsi menekankan keakuratan dan transkripsi kata demi kata hanya jika kata-katanya jelas dan dapat dimengerti; kata-kata yang tidak jelas ditandai sebagai [tidak dapat dipahami] atau [tidak terdengar] berdasarkan masalahnya. Batasan kalimat dalam audio panjang ditandai dengan , dan parafrase atau koreksi kesalahan tata bahasa tidak diperbolehkan. Transkripsi kata demi kata mencakup kesalahan, bahasa gaul, dan pengulangan tetapi menghilangkan permulaan yang salah, bunyi pengisi, dan kegagapan. Suara latar belakang dan latar depan ditranskripsikan dengan tag deskriptif, sedangkan nama, judul, dan nomor diri mengikuti aturan transkripsi tertentu. Label pembicara digunakan untuk setiap kalimat, dan kalimat yang tidak lengkap ditandai dengan.

Alur Kerja Proyek

Alur kerja menjelaskan proses transkripsi audio. Dimulai dengan orientasi dan pelatihan peserta. Mereka merekam audio menggunakan aplikasi, yang diunggah ke platform QA. Audio ini menjalani pemeriksaan kualitas dan segmentasi otomatis. Tim teknologi kemudian menyiapkan segmen untuk transkripsi. Setelah transkripsi manual, ada langkah jaminan kualitas. Transkripsi dikirimkan ke klien, dan jika diterima, pengiriman dianggap selesai. Jika tidak, revisi dilakukan berdasarkan masukan klien.

Hasil

Data audio berkualitas tinggi dari ahli bahasa akan memungkinkan klien kami melatih dan membangun model Pengenalan Ucapan multibahasa secara akurat dalam berbagai bahasa India dengan dialek berbeda dalam waktu yang ditentukan. Model pengenalan ucapan dapat digunakan untuk:

  • Atasi kendala bahasa untuk inklusi digital dengan menghubungkan warga dengan inisiatif dalam bahasa ibu mereka sendiri.
  • Mempromosikan Tata Kelola Digital
  • Katalis untuk membentuk ekosistem untuk layanan dan produk dalam bahasa India
  • Konten digital yang lebih terlokalisasi dalam domain kepentingan publik, khususnya tata kelola & kebijakan

Kami kagum dengan keahlian Shaip dalam bidang AI percakapan. Tugas menangani 8000 jam data audio bersama dengan 800 jam transkripsi di 80 distrik yang berbeda merupakan tugas yang sangat berat. Pemahaman mendalam Shaip terhadap detail rumit dan nuansa domain inilah yang memungkinkan keberhasilan pelaksanaan proyek yang menantang tersebut. Kemampuan mereka untuk mengelola dan menavigasi kompleksitas data dalam jumlah besar ini dengan lancar sambil memastikan kualitas terbaik sungguh terpuji.

Bintang emas 5

Percepat AI Percakapan Anda
pengembangan aplikasi sebesar 100%