Kumpulan Data Tulisan Tangan

15 Kumpulan Data Tulisan Tangan Sumber Terbuka Terbaik untuk Melatih model ML Anda

Dunia bisnis berubah dengan kecepatan yang fenomenal, namun transformasi digital ini tidak seluas yang kita inginkan. Orang-orang masih menangani dokumen fisik dalam operasi sehari-hari mereka, dari perusahaan besar hingga bisnis skala kecil. Meskipun frekuensi penggunaan telah berkurang jauh, itu belum sepenuhnya dihilangkan. Alih-alih proses pemindaian dokumen yang memakan waktu untuk penggunaan digital, gunakan yang terbaru OCR adalah waktu yang efisien dan efektif.

Peningkatan penggunaan pengenalan karakter optik terutama dapat dikaitkan dengan peningkatan produksi sistem pengenalan otomatis. Akibatnya, nilai pasar global teknologi OCR, dipatok pada $ 8.93 miliar pada tahun 2021, diperkirakan akan tumbuh pada CAGR sebesar 15.4% antara tahun 2022 dan 2030.

Tapi apa sebenarnya teknologi OCR itu? Dan mengapa ini menjadi pengubah permainan bagi bisnis yang mengembangkan model AI yang efisien? Mari kita cari tahu.

Apa itu OCR?

Atau disebut sebagai pengenalan teks, Pengenalan Karakter OCR atau Optik adalah program yang mengekstrak data tercetak atau tertulis dari dokumen yang dipindai, PDF gambar saja, dan catatan tulisan tangan ke dalam format yang dapat dibaca mesin. Perangkat lunak mengambil setiap huruf dari gambar dan menggabungkannya menjadi kata-kata dan kalimat, sehingga memudahkan untuk mengakses dan mengedit dokumen secara digital.

Apa itu kumpulan data sumber terbuka?

Ada beberapa tempat di mana teknologi OCR memiliki potensi besar untuk dimanfaatkan. Beberapa tempat termasuk bandara, penerbitan e-book, iklan, bank, dan sistem rantai pasokan. Namun, agar aplikasi dapat memenuhi tujuannya, mereka perlu dilatih tentang proyek tertentu Kumpulan data Pengenalan Karakter Optik.

Efisiensi aplikasi sangat tergantung pada kualitas dataset dan metodologi pelatihan yang terlibat. Namun, menemukan kualitas digital dan kumpulan data tulisan tangan sulit untuk aplikasinya. Jadi, banyak perusahaan menggunakan kumpulan data open-source atau free-to-use alih-alih yang berpemilik.

Manfaat dan Tantangan Kumpulan Data Open-Source

Bisnis perlu mengadu manfaat dan tantangan satu sama lain untuk memahami apakah mereka harus memilih data yang dapat digunakan secara gratis untuk aplikasi ML mereka.

manfaat

  • Data tersebut dapat diakses dengan mudah. Karena ketersediaan data, biaya pengembangan aplikasi berkurang secara signifikan.
  • Waktu dan upaya yang dihabiskan untuk mengumpulkan data untuk aplikasi berkurang secara signifikan karena kumpulan data sudah tersedia.
  • Ada banyak forum komunitas atau kelompok bantuan yang membantu mempelajari, mengadaptasi, dan mengoptimalkan kumpulan data.
  • Salah satu keuntungan utama dari kumpulan data sumber terbuka adalah tidak ada batasan pada penyesuaian.
  •   Data Open-Source dapat diakses oleh sebagian besar populasi, memungkinkan analisis dan inovasi tanpa hambatan moneter.

Tantangan

  • Data khusus untuk proyek ini sulit diperoleh. Selain itu, ada kemungkinan informasi yang hilang dan penggunaan yang salah dari data yang tersedia.
  • Memperoleh data kepemilikan membutuhkan waktu, tenaga, dan biaya
  • Meskipun mungkin lebih mudah untuk memperoleh data, pengetahuan dan biaya analisis mungkin lebih besar daripada keuntungan awal.
  • Pengembang lain juga menggunakan data yang sama untuk mengembangkan aplikasi.
  • Kumpulan data ini sangat rentan terhadap pelanggaran keamanan, privasi, dan persetujuan.

15 Kumpulan Data Tulisan Tangan & OCR Terbaik untuk Pembelajaran Mesin

Kumpulan Data Ocr Sumber Terbuka

Banyak kumpulan data sumber terbuka tersedia untuk pengembangan aplikasi pengenalan teks. Beberapa dari 15 yang terbaik adalah

  1. Kumpulan Data ICDAR

    Konferensi Internasional untuk Analisis dan Pengakuan Dokumen memiliki gudang 229 pelatihan dan 233 gambar pengujian, bersama dengan anotasi. Ini bertindak sebagai patokan untuk evaluasi deteksi teks.

  2. Kumpulan Data IIIT 5K-Word

    Diambil dari pencarian gambar Google, IIIT 5K-word merupakan kumpulan kata dari papan nama, baliho, plat nomor, dan poster. Ini berisi 5K gambar kata yang dipangkas menjadikannya salah satu koleksi paling luas dari kumpulan data pengenalan teks yang tersedia.

  3. Basis Data NIST

    NIST atau National Institute of Science menawarkan koleksi lebih dari 3600 sampel tulisan tangan yang dapat digunakan secara gratis dengan lebih dari 810,000 gambar karakter

  4. Basis Data MNIST

    Berasal dari Basis Data Khusus 1 dan 3 NSIT, basis data MNIST adalah kumpulan yang dikompilasi dari 60,000 nomor tulisan tangan untuk set pelatihan dan 10,000 contoh untuk set tes. Basis data sumber terbuka ini membantu melatih model untuk mengenali pola sambil menghabiskan lebih sedikit waktu untuk pra-pemrosesan.

  5. Deteksi Teks

    Basis data sumber terbuka, kumpulan data Deteksi Teks berisi sekitar 500 gambar papan nama dalam dan luar ruangan, pelat pintu, pelat peringatan, dan banyak lagi.

  6. Stanford OCR

    Diterbitkan oleh Stanford, kumpulan data gratis ini adalah kumpulan kata tulisan tangan oleh MIT Spoken Language Systems Group.

  7. DDI-100

    Atau disebut Distorted Document Images Dataset, DDI-100 adalah kumpulan lebih dari 6658 halaman dokumen dengan beberapa pola geometris dan distorsi yang diterapkan. Selain itu, DDI-100 memiliki lebih dari 99870 gambar, topeng stempel, topeng teks, dan kotak pembatas.

  8. Teks Jalan-1K

    Salah satu kumpulan data terbesar yang membantu melatih model untuk mendeteksi teks dalam video, RoadText-1K berisi 1000 klip video lengkap dengan anotasi teks kotak pembatas dan transkripsi teks di setiap bingkai video.

  9. MSRA-TD500

    Berisi 300 pelatihan dan 200 gambar teks; MSRA-TD500 berisi karakter dari bahasa Cina dan Inggris dan dijelaskan pada tingkat kalimat.

  10. Kumpulan Data MJSynth

    Disediakan oleh Universitas Oxford, kumpulan data kata ini memiliki hampir 9 juta gambar yang dihasilkan secara sintetis yang mencakup lebih dari 90 ribu kata bahasa Inggris.

  11. Teks Tampilan Jalan

    Dikumpulkan dari gambar Google Street View, kumpulan data ini memiliki gambar deteksi teks terutama papan dan rambu tingkat jalan.

  12. Database Dokumen

    Database Dokumen adalah kumpulan dari 941 dokumen tulisan tangan, termasuk tabel, rumus, gambar, diagram, daftar, dan banyak lagi, dari 189 penulis.

  13. Ekspresi Matematika

    Ekspresi Matematika adalah database yang berisi 101 simbol matematika dan 10,000 ekspresi.

  14. Nomor Rumah Street View

    Diambil dari Google Street View, Nomor Rumah Street View ini adalah database yang berisi 73257 digit nomor rumah jalan.

  15. Lingkungan Alam OCR

    The Natural Environment OCR, adalah kumpulan data dari hampir 660 gambar di seluruh dunia dan 5238 anotasi teks.

Ini adalah beberapa set data sumber terbuka teratas untuk melatih model ML untuk aplikasi deteksi teks. Memilih salah satu yang sesuai dengan kebutuhan bisnis dan aplikasi Anda bisa memakan waktu dan tenaga. Namun, Anda harus bereksperimen dengan kumpulan data ini sebelum memutuskan yang sesuai.

Untuk membantu Anda maju menuju aplikasi deteksi teks yang andal dan efisien adalah Shaip – ​​penyedia solusi teknologi tingkat tinggi. Kami memanfaatkan pengalaman teknologi kami untuk membuat yang dapat disesuaikan, dioptimalkan, dan kumpulan data pelatihan OCR yang efisien untuk berbagai proyek klien. Untuk sepenuhnya memahami kemampuan kami, hubungi kami hari ini.

sosial Share