Kumpulan Data NLP untuk ML

15 Dataset NLP Terbaik untuk melatih Anda Model Pemrosesan Bahasa Alami

Pemrosesan bahasa alami adalah bagian penting dalam perlengkapan pembelajaran mesin. Namun, dibutuhkan sejumlah besar data dan pelatihan agar model dapat bekerja dengan baik. Salah satu masalah signifikan dengan NLP adalah kurangnya kumpulan data pelatihan yang dapat mencakup bidang minat yang luas dalam domain tersebut.

Jika Anda memulai di bidang yang luas ini, Anda mungkin merasa sulit dan praktis berlebihan untuk membuat kumpulan data Anda. Apalagi jika ada kualitas NLP set data yang tersedia untuk melatih model machine learning Anda berdasarkan tujuannya.

Pasar NLP dijadwalkan tumbuh pada CAGR 11.7% selama 2018 dan 2026 untuk mencapai $ 28.6 Miliar oleh 2026. Berkat meningkatnya permintaan untuk NLP dan pembelajaran mesin, sekarang Anda dapat memperoleh kumpulan data berkualitas yang melayani analisis sentimen, ulasan, analisis tanya jawab, dan kumpulan data analisis ucapan.

Kumpulan Data NLP Untuk Pembelajaran Mesin yang Dapat Anda Percayai

Karena kumpulan data yang tak terhitung jumlahnya – berfokus pada berbagai kebutuhan – dirilis hampir setiap hari, mengakses kumpulan data yang berkualitas, andal, dan terbaik dapat menjadi tantangan. Di sini, kami telah mempermudah pekerjaan Anda, karena kami telah memberi Anda kumpulan data terkurasi yang dipisahkan berdasarkan kategori yang mereka layani.

Umum

Spambase, dibuat di Hewlett-Packard Labs, memiliki koleksi email spam oleh pengguna, yang bertujuan untuk mengembangkan filter spam yang dipersonalisasi. Ini memiliki lebih dari 4600 pengamatan dari pesan email, di mana hampir 1820 adalah spam.

Dataset Enron memiliki banyak koleksi email 'nyata' anonim yang tersedia untuk umum untuk melatih model pembelajaran mesin mereka. Ini menawarkan lebih dari setengah juta email dari lebih dari 150 pengguna, terutama manajemen senior Enron. Dataset ini tersedia untuk digunakan dalam format terstruktur dan tidak terstruktur. Untuk merapikan data yang tidak terstruktur, Anda harus menerapkan teknik pengolahan data.

  • Kumpulan data Sistem Rekomendasi (Tautan)

Kumpulan data Sistem Rekomendasi adalah kumpulan besar berbagai kumpulan data yang berisi berbagai fitur seperti,

  • Review produk
  • Peringkat bintang
  • Pelacakan kebugaran
  • data lagu
  • Jaringan sosial
  • Cap waktu
  • Interaksi pengguna/item
  • data GPS

Analisis Sentimen

Analisis sentimen
Kumpulan data Kamus untuk Film dan Keuangan menyediakan kamus khusus domain untuk polaritas positif atau negatif dalam pengisian Keuangan dan ulasan film. Kamus ini diambil dari isian IMDb dan US Form-8.

Sentiment 140 memiliki lebih dari 160,000 tweet dengan berbagai emotikon yang dikategorikan dalam 6 bidang berbeda: tanggal tweet, polaritas, teks, nama pengguna, ID, dan kueri. Dataset ini memungkinkan Anda untuk menemukan sentimen merek, produk, atau bahkan topik berdasarkan aktivitas Twitter. Karena kumpulan data ini dibuat secara otomatis, tidak seperti tweet beranotasi manusia lainnya, ini mengklasifikasikan tweet dengan emosi positif dan emosi negatif sebagai tidak menguntungkan.

  • Kumpulan data Sentimen Multi-Domain (Tautan)

Dataset sentimen multi-domain ini adalah gudang ulasan Amazon untuk berbagai produk. Beberapa kategori produk, seperti buku, memiliki ribuan ulasan, sementara yang lain hanya memiliki beberapa ratus ulasan. Selain itu, ulasan dengan peringkat bintang dapat diubah menjadi label biner.

Mari diskusikan kebutuhan Data Pelatihan AI Anda hari ini.

Teks

Dibuat untuk membantu penelitian pertanyaan dan jawaban domain terbuka, Wiki QA Corpus adalah salah satu kumpulan data paling luas yang tersedia untuk umum. Dikompilasi dari log permintaan mesin pencari Bing, ia dilengkapi dengan pasangan tanya jawab. Ini memiliki lebih dari 3000 pertanyaan dan 1500 kalimat jawaban berlabel.

  • Kumpulan Data Laporan Kasus Hukum (Tautan)

Dataset Laporan Kasus Hukum memiliki koleksi 4000 kasus hukum dan dapat digunakan untuk melatih peringkasan teks otomatis dan analisis kutipan. Setiap dokumen, frase slogan, kelas kutipan, frase slogan kutipan, dan banyak lagi digunakan.

Dataset Jeopardy adalah kumpulan lebih dari 200,000 pertanyaan yang ditampilkan dalam acara TV kuis populer yang dibawakan oleh pengguna Reddit. Setiap titik data diklasifikasikan berdasarkan tanggal tayang, nomor episode, nilai, putaran, dan tanya jawab.

Audio Pidato

Pidato audio Dataset ini sangat cocok untuk semua orang yang ingin melampaui bahasa Inggris. Dataset ini memiliki kumpulan artikel yang diucapkan dalam bahasa Belanda dan Jerman dan Inggris. Ini memiliki beragam topik dan set pembicara yang berlangsung selama ratusan jam.

Dataset bahasa Inggris HUB2000 5 memiliki 40 transkrip percakapan telepon dalam bahasa Inggris. Data disediakan oleh Institut Nasional Standar dan Teknologi, dan fokus utamanya adalah mengenali ucapan percakapan dan mengubah ucapan menjadi teks.

Dataset LibriSpeech adalah kumpulan hampir 1000 jam pidato bahasa Inggris yang diambil dan disegmentasi dengan benar berdasarkan topik ke dalam bab dari buku audio, menjadikannya alat yang sempurna untuk Pemrosesan Bahasa Alami.

Review

Kumpulan data Yelp memiliki koleksi besar sekitar 8.5 juta ulasan dari 160,000 plus bisnis, ulasan mereka, dan data pengguna. Ulasan dapat digunakan untuk melatih model Anda tentang analisis sentimen. Selain itu, dataset ini juga memiliki lebih dari 200,000 gambar yang mencakup delapan lokasi metropolitan.

Ulasan IMDB adalah salah satu kumpulan data paling populer yang berisi informasi pemeran, peringkat, deskripsi, dan genre untuk lebih dari 50 ribu film. Set data ini dapat digunakan untuk menguji dan melatih model machine learning Anda.

  • Dataset Ulasan dan Peringkat Amazon (Tautan)

Dataset ulasan dan peringkat Amazon berisi kumpulan metadata dan ulasan berharga dari berbagai produk dari Amazon yang dikumpulkan dari tahun 1996 hingga 2014 – sekitar 142.8 juta catatan. Metadata mencakup harga, deskripsi produk, merek, kategori, dan lainnya, sedangkan ulasan memiliki kualitas teks, kegunaan teks, peringkat, dan banyak lagi.

Jadi, dataset mana yang Anda pilih untuk melatih model pembelajaran mesin Anda?

Saat kami pergi, kami akan meninggalkan Anda dengan tip pro. 

Pastikan untuk membaca file README secara menyeluruh sebelum memilih kumpulan data NLP untuk kebutuhan Anda. Kumpulan data akan berisi semua informasi penting yang mungkin Anda perlukan, seperti konten kumpulan data, berbagai parameter di mana data telah dikategorikan, dan kemungkinan kasus penggunaan kumpulan data.

Terlepas dari model yang Anda buat, ada prospek menarik untuk mengintegrasikan mesin kami lebih dekat dan secara intrinsik dengan kehidupan kami. Dengan NLP, kemungkinan untuk bisnis, film, pengenalan suara, keuangan, dan banyak lagi meningkat berlipat ganda. Jika Anda mencari lebih banyak kumpulan data seperti itu Klik Disini.

sosial Share

Anda Mungkin Juga Suka