AI Percakapan: Pengenalan Ucapan Otomatis

Lebih dari 8k jam Audio Dikumpulkan, 800 jam Ditranskripsikan untuk Teknologi Suara Multibahasa

Pengantar

India membutuhkan platform yang berkonsentrasi pada pembuatan kumpulan data multibahasa dan solusi teknologi bahasa berbasis AI untuk menyediakan layanan digital dalam bahasa India. Untuk meluncurkan inisiatif ini, Klien bermitra dengan Shaip untuk mengumpulkan, dan menyalin bahasa India untuk membangun model ucapan multi-bahasa.

Volume

Jam Pengumpulan Data

Jumlah Halaman yang Dianotasi

10 +

Durasi proyek

< 1 bulan

Tantangan

Untuk membantu klien dengan peta jalan Teknologi Ucapan untuk bahasa India, tim perlu memperoleh, mengelompokkan, dan menyalin data pelatihan dalam jumlah besar untuk membangun model AI. Persyaratan penting klien adalah:

Pengumpulan Data

Dapatkan 8000 jam data pelatihan dari lokasi terpencil di India
Pemasok untuk mengumpulkan pidato spontan dari Kelompok Usia 20-70 tahun
Pastikan beragam penutur berdasarkan usia, jenis kelamin, pendidikan, dan dialek
Setiap rekaman audio minimal harus 16kHz dengan 16 bit/sampel.

Transkripsi Data

Ikuti panduan transkripsi detail seputar Karakter dan Simbol Khusus, Ejaan dan Tata Bahasa, Kapitalisasi, Singkatan, Kontraksi, Huruf Lisan Individual, Angka, Tanda Baca, Akronim dan Inisialisme, Ucapan Tidak Lancar, Ucapan Tidak Dapat Dipahami, Bahasa Non-Target, Non-Ucapan

Pemeriksaan Kualitas & Umpan Balik

Semua rekaman harus menjalani penilaian kualitas dan validasi, hanya rekaman pidato tervalidasi yang akan dikirimkan

Solusi

Dengan pemahaman mendalam kami tentang AI percakapan, kami membantu klien mengumpulkan, menyalin data audio dengan tim kolektor ahli, ahli bahasa, dan anotator untuk membangun kumpulan besar data audio dari wilayah terpencil di India.

Ruang lingkup pekerjaan Shaip termasuk namun tidak terbatas pada memperoleh data pelatihan audio dalam jumlah besar, menyalin data, dan mengirimkan file JSON terkait yang berisi metadata [untuk pembicara dan transkrip. Untuk setiap pembicara, metadatanya mencakup ID Pembicara yang dianonimkan, detail perangkat, informasi demografis seperti jenis kelamin, usia, dan pendidikan, beserta kode pin, status sosial ekonomi, bahasa yang digunakan, dan catatan durasi tinggal mereka. Untuk setiap transcriber, datanya mencakup ID Transcriber yang dianonimkan, detail demografis yang mirip dengan pembicara, durasi pengalaman transkripsi mereka, dan rincian bahasa yang dapat mereka baca, tulis, dan ucapkan.

Shaip dikumpulkan 8000 jam data audio / Ucapan spontan dalam skala besar dan transkripsi 800 jam dengan tetap mempertahankan tingkat kualitas yang diinginkan yang diperlukan untuk melatih teknologi ucapan untuk proyek yang kompleks. Formulir Persetujuan Eksplisit diambil dari masing-masing peserta. Pidato / Spontan yang dikumpulkan berdasarkan gambar yang disediakan Universitas. Dari 3500 gambar 1000 bersifat generik dan 2500 berhubungan dengan budaya, festival, dll. Gambar yang menggambarkan berbagai domain seperti stasiun kereta api, pasar, cuaca, dan banyak lagi.

Pengumpulan Data

Negara	Distrik	Jam Audio	Turunan (Jam)
Bihar	Saran, Champaran Timur, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaﬀarpur, Jamui	2000	200
Uttarpradesh	Deoria, Varanasi, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
Rajasthan	Nagaur, Churu	200	20
Uttarakhand	Tehri Garhwal, Uttarkashi	200	20
Chhattisgarh	Bilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma	1000	100
Bengal Barat	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, 24 Parganas Utara, Dakshin Dinajpur	800	80
Jharkhand	Sahebganj, Jamtara	200	20
AP	Guntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam	600	60
Telangana	Karimnagar, Nalgonda	200	20
Goa	Goa Utara+Selatan	100	10
Karnataka	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
Maharashtra	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur	700	70
Total		8000	800

Petunjuk umum

dibentuk

- Audio pada 16 kHz, 16 bit/sampel.
- Saluran tunggal.
- Audio mentah tanpa transcoding.

Gaya

- Pidato spontan.
- Kalimat berdasarkan gambar yang disediakan Universitas. Dari 3500 gambar, 1000 bersifat umum dan 2500 berhubungan dengan budaya, festival, dll. Gambar-gambar tersebut menggambarkan berbagai domain seperti stasiun kereta api, pasar, cuaca, dan banyak lagi.

Latar Belakang Rekaman

- Direkam di lingkungan yang tenang dan bebas gema.
- Tidak ada gangguan smartphone (getaran atau notifikasi) selama perekaman.
- Tidak ada distorsi seperti kliping atau efek medan jauh.
- Getaran dari telepon tidak dapat diterima; getaran eksternal dapat ditoleransi jika audionya jernih.

Spesifikasi Speaker

- Rentang usia 20-70 tahun dengan distribusi gender yang seimbang per kabupaten.
- Minimal 400 penutur asli di setiap distrik.
- Penutur harus menggunakan bahasa/dialek asalnya.
- Formulir persetujuan wajib bagi semua peserta.

Pemeriksaan Kualitas & Jaminan Kualitas Kritis

Proses QA mengutamakan jaminan kualitas rekaman audio dan transkripsi. Standar audio berfokus pada keheningan yang tepat, durasi segmen, kejernihan satu speaker, dan metadata terperinci termasuk usia dan status sosial ekonomi. Kriteria transkripsi menekankan keakuratan tag, kebenaran kata, dan detail segmen yang benar. Tolok ukur penerimaan menyatakan bahwa jika lebih dari 20% kumpulan audio gagal memenuhi standar ini, kumpulan audio tersebut akan ditolak. Untuk perbedaan kurang dari 20%, diperlukan rekaman pengganti dengan profil serupa.

Transkripsi Data

Pedoman transkripsi menekankan keakuratan dan transkripsi kata demi kata hanya jika kata-katanya jelas dan dapat dimengerti; kata-kata yang tidak jelas ditandai sebagai [tidak dapat dipahami] atau [tidak terdengar] berdasarkan masalahnya. Batasan kalimat dalam audio panjang ditandai dengan , dan parafrase atau koreksi kesalahan tata bahasa tidak diperbolehkan. Transkripsi kata demi kata mencakup kesalahan, bahasa gaul, dan pengulangan tetapi menghilangkan permulaan yang salah, bunyi pengisi, dan kegagapan. Suara latar belakang dan latar depan ditranskripsikan dengan tag deskriptif, sedangkan nama, judul, dan nomor diri mengikuti aturan transkripsi tertentu. Label pembicara digunakan untuk setiap kalimat, dan kalimat yang tidak lengkap ditandai dengan.

Alur Kerja Proyek

Alur kerja menjelaskan proses transkripsi audio. Dimulai dengan orientasi dan pelatihan peserta. Mereka merekam audio menggunakan aplikasi, yang diunggah ke platform QA. Audio ini menjalani pemeriksaan kualitas dan segmentasi otomatis. Tim teknologi kemudian menyiapkan segmen untuk transkripsi. Setelah transkripsi manual, ada langkah jaminan kualitas. Transkripsi dikirimkan ke klien, dan jika diterima, pengiriman dianggap selesai. Jika tidak, revisi dilakukan berdasarkan masukan klien.

Hasil

Data audio berkualitas tinggi dari ahli bahasa akan memungkinkan klien kami melatih dan membangun model Pengenalan Ucapan multibahasa secara akurat dalam berbagai bahasa India dengan dialek berbeda dalam waktu yang ditentukan. Model pengenalan ucapan dapat digunakan untuk:

Atasi kendala bahasa untuk inklusi digital dengan menghubungkan warga dengan inisiatif dalam bahasa ibu mereka sendiri.
Mempromosikan Tata Kelola Digital
Katalis untuk membentuk ekosistem untuk layanan dan produk dalam bahasa India
Konten digital yang lebih terlokalisasi dalam domain kepentingan publik, khususnya tata kelola & kebijakan

Kami kagum dengan keahlian Shaip dalam bidang AI percakapan. Tugas menangani 8000 jam data audio bersama dengan 800 jam transkripsi di 80 distrik yang berbeda merupakan tugas yang sangat berat. Pemahaman mendalam Shaip terhadap detail rumit dan nuansa domain inilah yang memungkinkan keberhasilan pelaksanaan proyek yang menantang tersebut. Kemampuan mereka untuk mengelola dan menavigasi kompleksitas data dalam jumlah besar ini dengan lancar sambil memastikan kualitas terbaik sungguh terpuji.

Percepat AI Percakapan Anda
pengembangan aplikasi sebesar 100%

AI Percakapan: Pengenalan Ucapan Otomatis

Lebih dari 8k jam Audio Dikumpulkan, 800 jam Ditranskripsikan untuk Teknologi Suara Multibahasa

Pengantar

Volume

Tantangan

Pengumpulan Data

Transkripsi Data

Pemeriksaan Kualitas & Umpan Balik

Solusi

Petunjuk umum

Pemeriksaan Kualitas & Jaminan Kualitas Kritis

Transkripsi Data

Alur Kerja Proyek

Hasil

Layanan Data AI

Khusus

Industri

Produk

Perusahaan

Sumber

Hubungi Kami

Beri tahu kami lebih banyak tentang Anda!