Studi Kasus: AI Percakapan

Lebih dari 3k jam Data Dikumpulkan, Disegmentasi & Ditranskripsikan untuk membangun ASR dalam 8 bahasa India

Koleksi ucapan
Pemerintah bertujuan untuk memungkinkan warganya dengan akses mudah ke layanan internet & digital dalam bahasa ibu mereka sendiri melalui Proyek Bhashini.

BHASHINI, platform terjemahan bahasa India yang digerakkan oleh AI, adalah bagian penting dari inisiatif Digital India.

Dirancang untuk menyediakan alat Artificial Intelligence (AI) dan Natural Language Processing (NLP) untuk UMKM, startup, dan inovator independen, platform Bhashini berfungsi sebagai sumber daya publik. Tujuannya adalah untuk mempromosikan inklusi digital dengan memungkinkan warga negara India untuk berinteraksi dengan inisiatif digital negara tersebut dalam bahasa asli mereka.

Selain itu, ini bertujuan untuk secara signifikan memperluas ketersediaan konten internet dalam bahasa India. Hal ini terutama ditargetkan pada bidang kepentingan publik seperti tata kelola dan kebijakan, sains dan teknologi, dll. Oleh karena itu, hal ini akan mendorong warga untuk menggunakan internet dalam bahasa mereka sendiri, mendorong partisipasi aktif mereka.

Memanfaatkan NLP untuk memungkinkan beragam ekosistem kontributor, entitas mitra, dan warga negara untuk tujuan mengatasi hambatan bahasa, sehingga memastikan inklusi & pemberdayaan digital

Solusi Dunia Nyata

Melepaskan Kekuatan Pelokalan dengan Data

India membutuhkan platform yang akan berkonsentrasi pada pembuatan kumpulan data multibahasa dan solusi teknologi bahasa berbasis AI untuk menyediakan layanan digital dalam bahasa India. Untuk meluncurkan inisiatif ini, Indian Institute of Technology, Madras (IIT Madras) bermitra dengan Shaip untuk mengumpulkan, menyegmentasikan, dan menyalin kumpulan data bahasa India untuk membuat model ucapan multibahasa.

Tantangan

Untuk membantu klien dengan peta jalan ucapan Teknologi Pidato mereka untuk bahasa India, tim perlu memperoleh, menyegmentasikan, dan mentranskripsi data pelatihan dalam jumlah besar untuk membangun model AI. Persyaratan kritis klien adalah:

Pengumpulan Data

  • Dapatkan 3000 jam data pelatihan dalam 8 bahasa India dengan 4 dialek per bahasa.
  • Untuk setiap bahasa, pemasok akan mengumpulkan Extempore Speech dan
    Pidato Percakapan dari Kelompok Usia 18-60 tahun
  • Pastikan beragam pembicara berdasarkan usia, jenis kelamin, pendidikan & dialek
  • Pastikan beragam lingkungan perekaman sesuai Spesifikasi.
  • Setiap rekaman audio harus setidaknya 16kHz tetapi sebaiknya 44kHz

Segmentasi Data

  • Buat segmen ucapan 15 detik & cap waktu audio ke milidetik untuk setiap pembicara tertentu, jenis suara (ucapan, ocehan, musik, kebisingan), belokan, ucapan, & frasa dalam percakapan
  • Buat setiap segmen untuk sinyal suara yang ditargetkan dengan padding 200-400 milidetik di awal & akhir.
  • Untuk semua segmen, objek berikut harus diisi yaitu, Waktu Mulai, Waktu Berakhir, ID Segmen, Tingkat Kenyaringan, Jenis Suara, Kode Bahasa, ID Speaker, dll.

Transkripsi Data

  • Ikuti panduan transkripsi detail seputar Karakter dan Simbol Khusus, Ejaan dan Tata Bahasa, Kapitalisasi, Singkatan, Kontraksi, Huruf Lisan Individual, Angka, Tanda Baca, Akronim, Ketidaklancaran, Ucapan, Ucapan Tidak Dapat Dipahami, Bahasa Non-Target, Non-Bahasa, dll.

Pemeriksaan Kualitas & Umpan Balik

  • Semua rekaman harus menjalani penilaian & validasi kualitas, hanya ucapan tervalidasi yang akan disampaikan

Solusi

Dengan pemahaman mendalam kami tentang AI percakapan, kami membantu klien mengumpulkan, menyegmentasikan, dan mentranskripsikan data dengan tim pengumpul ahli, ahli bahasa, dan anotator untuk membuat korpus besar kumpulan data audio dalam 8 bahasa India

Cakupan pekerjaan untuk Shaip termasuk tetapi tidak terbatas pada perolehan volume besar data pelatihan audio, segmentasi rekaman audio menjadi beberapa, menyalin data dan mengirimkan file JSON terkait yang berisi metadata [SpeakerID, Age, Gender, Language, Dialect,
Bahasa Ibu, Kualifikasi, Pekerjaan, Domain, Format File, Frekuensi, Saluran, Jenis Audio, Jumlah Pembicara, Jumlah Bahasa Asing, Pengaturan yang Digunakan, Audio Narrowband atau Wideband, dll.]. 

Shaip mengumpulkan 3000 jam data audio dalam skala besar sambil mempertahankan tingkat kualitas yang diinginkan yang diperlukan untuk melatih teknologi ucapan untuk proyek yang kompleks. Formulir Persetujuan Eksplisit diambil dari masing-masing peserta.

1. Pengumpulan data

2. Segmentasi Data

  • Data audio yang dikumpulkan selanjutnya dibagi menjadi segmen ucapan masing-masing 15 detik dan cap waktu ke milidetik untuk setiap pembicara, jenis suara, belokan, ucapan, dan frasa yang diberikan dalam percakapan.
  • Membuat setiap segmen untuk sinyal suara yang ditargetkan dengan padding 200-400 milidetik di awal dan akhir sinyal suara.
  • Untuk semua segmen, objek berikut hadir dan diisi yaitu, Waktu Mulai, Waktu Selesai, ID Segmen, Tingkat Kenyaringan (Loud, Normal, Tenang), Jenis Suara Utama (Ucapan, Ocehan, Musik, Kebisingan, Tumpang Tindih), Kode Bahasa Speaker ID, Transkripsi dll.

3. Pemeriksaan Kualitas dan Umpan Balik

  • Semua rekaman dinilai kualitasnya dan hanya rekaman ucapan tervalidasi dengan WER 90% dan TER 90% yang dikirimkan
  • Daftar Periksa Kualitas yang Diikuti:
       » Maks 15 detik panjang segmen
       » Transkripsi dari domain tertentu, yaitu: Cuaca, berbagai jenis berita, kesehatan, pertanian, pendidikan, pekerjaan atau keuangan
       » Kebisingan latar belakang rendah
       » Tidak ada klip Audio – Tidak ada distorsi
       » Segmentasi audio yang benar untuk transkripsi

4. Transkripsi Data
Semua kata yang diucapkan, termasuk keragu-raguan, kata pengisi, permulaan yang salah, dan tics verbal lainnya, ditangkap secara akurat dalam transkripsi. Kami juga mengikuti panduan transkripsi detail seputar huruf besar dan kecil, ejaan, kapitalisasi, singkatan, kontraksi, angka,
tanda baca, Akronim, Disfluent Speech, non-speech noises dll. Selain itu Alur Kerja yang diikuti untuk Pengumpulan dan Transkripsi adalah sebagai berikut: