Kumpulan Data Tulisan Tangan

22 Kumpulan Data OCR & Tulisan Tangan Sumber Terbuka Terbaik untuk Melatih model ML Anda

Dunia bisnis berubah dengan kecepatan yang fenomenal, namun transformasi digital ini tidak seluas yang kita inginkan. Orang-orang masih menangani dokumen fisik dalam operasi sehari-hari mereka, dari perusahaan besar hingga bisnis skala kecil. Meskipun frekuensi penggunaan telah berkurang jauh, itu belum sepenuhnya dihilangkan. Alih-alih proses pemindaian dokumen yang memakan waktu untuk penggunaan digital, gunakan yang terbaru OCR adalah waktu yang efisien dan efektif.

Peningkatan penggunaan pengenalan karakter optik terutama dapat dikaitkan dengan peningkatan produksi sistem pengenalan otomatis. Akibatnya, nilai pasar global teknologi OCR, dipatok pada $ 8.93 miliar pada tahun 2021, diperkirakan akan tumbuh pada CAGR sebesar 15.4% antara tahun 2022 dan 2030.

Tapi apa sebenarnya teknologi OCR itu? Dan mengapa ini menjadi pengubah permainan bagi bisnis yang mengembangkan model AI yang efisien? Mari kita cari tahu.

Apa itu OCR?

Atau disebut sebagai pengenalan teks, Pengenalan Karakter OCR atau Optik adalah program yang mengekstrak data tercetak atau tertulis dari dokumen yang dipindai, PDF gambar saja, dan catatan tulisan tangan ke dalam format yang dapat dibaca mesin. Perangkat lunak mengambil setiap huruf dari gambar dan menggabungkannya menjadi kata-kata dan kalimat, sehingga memudahkan untuk mengakses dan mengedit dokumen secara digital.

Apa itu kumpulan data sumber terbuka?

Ada beberapa tempat di mana teknologi OCR memiliki potensi besar untuk dimanfaatkan. Beberapa tempat termasuk bandara, penerbitan e-book, iklan, bank, dan sistem rantai pasokan. Namun, agar aplikasi dapat memenuhi tujuannya, mereka perlu dilatih tentang proyek tertentu Kumpulan data Pengenalan Karakter Optik.

Efisiensi aplikasi sangat tergantung pada kualitas dataset dan metodologi pelatihan yang terlibat. Namun, menemukan kualitas digital dan kumpulan data tulisan tangan sulit untuk aplikasinya. Jadi, banyak perusahaan menggunakan kumpulan data open-source atau free-to-use alih-alih yang berpemilik.

Manfaat dan Tantangan Kumpulan Data Open-Source

Bisnis perlu mengadu manfaat dan tantangan satu sama lain untuk memahami apakah mereka harus memilih data yang dapat digunakan secara gratis untuk aplikasi ML mereka.

manfaat

  • Data tersebut dapat diakses dengan mudah. Karena ketersediaan data, biaya pengembangan aplikasi berkurang secara signifikan.
  • Waktu dan upaya yang dihabiskan untuk mengumpulkan data untuk aplikasi berkurang secara signifikan karena kumpulan data sudah tersedia.
  • Ada banyak forum komunitas atau kelompok bantuan yang membantu mempelajari, mengadaptasi, dan mengoptimalkan kumpulan data.
  • Salah satu keuntungan utama dari kumpulan data sumber terbuka adalah tidak ada batasan pada penyesuaian.
  •   Data Open-Source dapat diakses oleh sebagian besar populasi, memungkinkan analisis dan inovasi tanpa hambatan moneter.

Tantangan

  • Data khusus untuk proyek ini sulit diperoleh. Selain itu, ada kemungkinan informasi yang hilang dan penggunaan yang salah dari data yang tersedia.
  • Memperoleh data kepemilikan membutuhkan waktu, tenaga, dan biaya
  • Meskipun mungkin lebih mudah untuk memperoleh data, pengetahuan dan biaya analisis mungkin lebih besar daripada keuntungan awal.
  • Pengembang lain juga menggunakan data yang sama untuk mengembangkan aplikasi.
  • Kumpulan data ini sangat rentan terhadap pelanggaran keamanan, privasi, dan persetujuan.

22 Kumpulan Data Tulisan Tangan & OCR Terbaik untuk Pembelajaran Mesin

Kumpulan data ocr sumber terbuka

Banyak kumpulan data sumber terbuka tersedia untuk pengembangan aplikasi pengenalan teks. Beberapa dari 22 yang terbaik adalah

  1. Basis Data NIST

    NIST atau National Institute of Science menawarkan koleksi lebih dari 3600 sampel tulisan tangan yang dapat digunakan secara gratis dengan lebih dari 810,000 gambar karakter

  2. Basis Data MNIST

    Berasal dari Basis Data Khusus 1 dan 3 NSIT, basis data MNIST adalah kumpulan yang dikompilasi dari 60,000 nomor tulisan tangan untuk set pelatihan dan 10,000 contoh untuk set tes. Basis data sumber terbuka ini membantu melatih model untuk mengenali pola sambil menghabiskan lebih sedikit waktu untuk pra-pemrosesan.

  3. Deteksi Teks

    Basis data sumber terbuka, kumpulan data Deteksi Teks berisi sekitar 500 gambar papan nama dalam dan luar ruangan, pelat pintu, pelat peringatan, dan banyak lagi.

  4. Stanford OCR

    Diterbitkan oleh Stanford, kumpulan data gratis ini adalah kumpulan kata tulisan tangan oleh MIT Spoken Language Systems Group.

  5. Teks Tampilan Jalan

    Dikumpulkan dari gambar Google Street View, kumpulan data ini memiliki gambar deteksi teks terutama papan dan rambu tingkat jalan.

  6. Database Dokumen

    Database Dokumen adalah kumpulan dari 941 dokumen tulisan tangan, termasuk tabel, rumus, gambar, diagram, daftar, dan banyak lagi, dari 189 penulis.

  7. Ekspresi Matematika

    Ekspresi Matematika adalah database yang berisi 101 simbol matematika dan 10,000 ekspresi.

  8. Nomor Rumah Street View

    Diambil dari Google Street View, Nomor Rumah Street View ini adalah database yang berisi 73257 digit nomor rumah jalan.

  9. Lingkungan Alam OCR

    The Natural Environment OCR, adalah kumpulan data dari hampir 660 gambar di seluruh dunia dan 5238 anotasi teks.

  10. Ekspresi Matematika

    Lebih dari 10,000 ekspresi dengan 101+ simbol matematika.

  11. Karakter Cina tulisan tangan

    Kumpulan data 909,818 gambar karakter Tiongkok tulisan tangan, setara dengan sekitar 10 artikel berita.

  12. Teks Cetak Arab

    Leksikon 113,284 kata menggunakan 10 font Arab.

  13. Teks bahasa Inggris tulisan tangan

    Teks bahasa Inggris tulisan tangan di papan tulis dengan lebih dari 1700 entri.

  14. 3000 lingkungan Gambar

    3000 gambar dari berbagai lingkungan, termasuk pemandangan luar ruangan dan dalam ruangan dengan pencahayaan berbeda.

  15. Data Karakter74K

    74,000 gambar angka bahasa Inggris dan Kannada.

  16. IAM (Tulisan Tangan IAM)

    Basis data IAM memiliki 13,353 gambar teks tulisan tangan oleh 657 penulis dari Lancaster-Oslo/Bergen Corpus British English.

  17. FUNSD (Bentuk Pemahaman dalam Dokumen Pindaian yang Berisik)

    FUNSD mencakup 199 formulir yang dianotasi dan dipindai dengan tampilan yang bervariasi dan berisik, menantang untuk pemahaman formulir.

  18. Teks OCR

    TextOCR mengukur pengenalan teks pada teks adegan berbentuk sewenang-wenang dalam gambar alami.

  19. Twitter 100rb

    Twitter100k adalah kumpulan data besar untuk pengambilan lintas media yang diawasi dengan lemah.

  20. SSIG-SegPlate – Segmentasi Karakter Plat Nomor (LPCS)

    Dataset ini mengevaluasi Segmentasi Karakter Plat Nomor (LPCS) dengan 101 gambar kendaraan siang hari.

  21. 105,941 Gambar Pemandangan Alam Data OCR 12 Bahasa

    Datanya mencakup 12 bahasa (6 Asia, 6 Eropa) dan berbagai pemandangan alam serta sudut. Ini menampilkan kotak pembatas tingkat garis dan transkripsi teks. Ini berguna untuk tugas OCR multi-bahasa.

  22. Kumpulan Data Gambar Papan Nama India

    Kumpulan data tersebut memiliki gambar rambu lalu lintas India untuk klasifikasi dan deteksi, yang diambil dalam berbagai kondisi cuaca pada siang, sore, dan malam hari.

Ini adalah beberapa set data sumber terbuka teratas untuk melatih model ML untuk aplikasi deteksi teks. Memilih salah satu yang sesuai dengan kebutuhan bisnis dan aplikasi Anda bisa memakan waktu dan tenaga. Namun, Anda harus bereksperimen dengan kumpulan data ini sebelum memutuskan yang sesuai.

Untuk membantu Anda maju menuju aplikasi deteksi teks yang andal dan efisien adalah Shaip – ​​penyedia solusi teknologi tingkat tinggi. Kami memanfaatkan pengalaman teknologi kami untuk membuat yang dapat disesuaikan, dioptimalkan, dan kumpulan data pelatihan OCR yang efisien untuk berbagai proyek klien. Untuk sepenuhnya memahami kemampuan kami, hubungi kami hari ini.

sosial Share