Kumpulan Data NLP untuk ML

33 Kumpulan Data NLP Terbaik untuk Melatih Model Pemrosesan Bahasa Alami Anda

Pemrosesan bahasa alami adalah bagian penting dalam perlengkapan pembelajaran mesin. Namun, dibutuhkan sejumlah besar data dan pelatihan agar model dapat bekerja dengan baik. Salah satu masalah signifikan dengan NLP adalah kurangnya kumpulan data pelatihan yang dapat mencakup bidang minat yang luas dalam domain tersebut.

Jika Anda baru memulai di bidang yang luas ini, Anda mungkin merasa kesulitan dan praktis membuat kumpulan data Anda mubazir. Terutama ketika tersedia kumpulan data NLP berkualitas untuk melatih model pembelajaran mesin Anda berdasarkan tujuannya.

Pasar NLP dijadwalkan tumbuh pada CAGR 11.7% selama 2018 dan 2026 untuk mencapai $ 28.6 Miliar oleh 2026. Berkat meningkatnya permintaan untuk NLP dan pembelajaran mesin, sekarang Anda dapat memperoleh kumpulan data berkualitas yang melayani analisis sentimen, ulasan, analisis tanya jawab, dan kumpulan data analisis ucapan.

Kumpulan Data NLP Untuk Pembelajaran Mesin yang Dapat Anda Percayai

Karena kumpulan data yang tak terhitung jumlahnya – yang berfokus pada berbagai kebutuhan – dirilis hampir setiap hari, mengakses kumpulan data yang berkualitas, andal, dan terbaik dapat menjadi tantangan. Di sini, kami telah mempermudah pekerjaan Anda, karena kami telah menyajikan kepada Anda kumpulan data pilihan yang dipisahkan berdasarkan kategori yang dilayaninya.

Umum

  • Spambase UCI (Tautan)

    Spambase, dibuat di Hewlett-Packard Labs, memiliki koleksi email spam oleh pengguna, yang bertujuan untuk mengembangkan filter spam yang dipersonalisasi. Ini memiliki lebih dari 4600 pengamatan dari pesan email, di mana hampir 1820 adalah spam.

  • Dataset Enron (Tautan)

    Dataset Enron memiliki banyak koleksi email 'nyata' anonim yang tersedia untuk umum untuk melatih model pembelajaran mesin mereka. Ini menawarkan lebih dari setengah juta email dari lebih dari 150 pengguna, terutama manajemen senior Enron. Dataset ini tersedia untuk digunakan dalam format terstruktur dan tidak terstruktur. Untuk merapikan data yang tidak terstruktur, Anda harus menerapkan teknik pengolahan data.

  • Kumpulan data Sistem Rekomendasi (Tautan)

    Kumpulan data Sistem Rekomendasi adalah kumpulan besar berbagai kumpulan data yang berisi berbagai fitur seperti,

    • Review produk
    • Peringkat bintang
    • Pelacakan kebugaran
    • data lagu
    • Jaringan sosial
    • Cap waktu
    • Interaksi pengguna/item
    • data GPS
  • Penn Treebank (Tautan)

    Korpus ini, dari Wall Street Journal, populer untuk menguji model pelabelan urutan.

  • NLTK (Tautan)

    Pustaka Python ini menyediakan akses ke lebih dari 100 corpora dan sumber daya leksikal untuk NLP. Di dalamnya juga terdapat buku NLTK, kursus pelatihan pemanfaatan perpustakaan.

  • Ketergantungan Universal (Tautan)

    UD menyediakan cara yang konsisten untuk membuat anotasi tata bahasa, dengan sumber daya dalam lebih dari 100 bahasa, 200 treebank, dan dukungan dari lebih dari 300 anggota komunitas.

Analisis Sentimen

  • Kamus untuk Film dan Keuangan (Tautan)

    Analisis sentimen
    Kumpulan data Kamus untuk Film dan Keuangan menyediakan kamus khusus domain untuk polaritas positif atau negatif dalam pengisian Keuangan dan ulasan film. Kamus ini diambil dari isian IMDb dan US Form-8.

  • Sentimen 140 (Tautan)

    Sentiment 140 memiliki lebih dari 160,000 tweet dengan berbagai emotikon yang dikategorikan dalam 6 bidang berbeda: tanggal tweet, polaritas, teks, nama pengguna, ID, dan kueri. Dataset ini memungkinkan Anda untuk menemukan sentimen merek, produk, atau bahkan topik berdasarkan aktivitas Twitter. Karena kumpulan data ini dibuat secara otomatis, tidak seperti tweet beranotasi manusia lainnya, ini mengklasifikasikan tweet dengan emosi positif dan emosi negatif sebagai tidak menguntungkan.

  • Kumpulan data Sentimen Multi-Domain (Tautan)

    Dataset sentimen multi-domain ini adalah gudang ulasan Amazon untuk berbagai produk. Beberapa kategori produk, seperti buku, memiliki ribuan ulasan, sementara yang lain hanya memiliki beberapa ratus ulasan. Selain itu, ulasan dengan peringkat bintang dapat diubah menjadi label biner.

  • Bank Pohon Sentimen Standford (Tautan)

    Kumpulan data NLP dari Rotten Tomatoes ini mencakup frasa yang lebih panjang dan contoh teks yang lebih detail.

  • Korpus Kepengarangan Blog (Tautan)

    Koleksi ini memiliki postingan blog dengan hampir 1.4 juta kata, setiap blog merupakan kumpulan data terpisah.

  • Kumpulan Data OpinRank (Tautan)

    300,000 ulasan dari Edmunds dan TripAdvisor, disusun berdasarkan model mobil atau tujuan perjalanan dan hotel.

Teks

  • Wiki QA Corpus (Tautan)

    Dibuat untuk membantu penelitian pertanyaan dan jawaban domain terbuka, Wiki QA Corpus adalah salah satu kumpulan data paling luas yang tersedia untuk umum. Dikompilasi dari log permintaan mesin pencari Bing, ia dilengkapi dengan pasangan tanya jawab. Ini memiliki lebih dari 3000 pertanyaan dan 1500 kalimat jawaban berlabel.

  • Kumpulan Data Laporan Kasus Hukum (Tautan)

    Dataset Laporan Kasus Hukum memiliki koleksi 4000 kasus hukum dan dapat digunakan untuk melatih peringkasan teks otomatis dan analisis kutipan. Setiap dokumen, frase slogan, kelas kutipan, frase slogan kutipan, dan banyak lagi digunakan.

  • Bahaya (Tautan)

    Dataset Jeopardy adalah kumpulan lebih dari 200,000 pertanyaan yang ditampilkan dalam acara TV kuis populer yang dibawakan oleh pengguna Reddit. Setiap titik data diklasifikasikan berdasarkan tanggal tayang, nomor episode, nilai, putaran, dan tanya jawab.

  • 20 Grup Berita (Tautan)

    Koleksi 20,000 dokumen mencakup 20 grup berita dan subjek, merinci topik mulai dari agama hingga olahraga populer.

  • Kumpulan Data Berita Reuters (Tautan)

    Pertama kali muncul pada tahun 1987, kumpulan data ini telah diberi label, diindeks, dan dikompilasi untuk tujuan pembelajaran mesin.

  • ArXiv (Tautan)

    Kumpulan data besar sebesar 270 GB ini mencakup teks lengkap semua makalah penelitian arXiv.

  • Proses Parlemen Eropa Paralel Corpus (Tautan)

    Pasangan kalimat dari proses Parlemen mencakup entri dari 21 bahasa Eropa, yang menampilkan beberapa bahasa yang kurang umum untuk corpora pembelajaran mesin.

  • Tolok Ukur Miliar Kata (Tautan)

    Berasal dari News Crawl WMT 2011, kumpulan data pemodelan bahasa ini terdiri dari hampir satu miliar kata untuk menguji teknik pemodelan bahasa yang inovatif.

Audio Pidato

  • Diucapkan Wikipedia Corpora (Tautan)

    Pidato audio Dataset ini sangat cocok untuk semua orang yang ingin melampaui bahasa Inggris. Dataset ini memiliki kumpulan artikel yang diucapkan dalam bahasa Belanda dan Jerman dan Inggris. Ini memiliki beragam topik dan set pembicara yang berlangsung selama ratusan jam.

  • 2000 HUB5 Bahasa Inggris (Tautan)

    Dataset bahasa Inggris HUB2000 5 memiliki 40 transkrip percakapan telepon dalam bahasa Inggris. Data disediakan oleh Institut Nasional Standar dan Teknologi, dan fokus utamanya adalah mengenali ucapan percakapan dan mengubah ucapan menjadi teks.

  • PerpustakaanPidato (Tautan)

    Dataset LibriSpeech adalah kumpulan hampir 1000 jam pidato bahasa Inggris yang diambil dan disegmentasi dengan benar berdasarkan topik ke dalam bab dari buku audio, menjadikannya alat yang sempurna untuk Pemrosesan Bahasa Alami.

  • Kumpulan Data Digit Lisan Gratis (Tautan)

    Kumpulan data NLP ini mencakup lebih dari 1,500 rekaman angka lisan dalam bahasa Inggris.

  • Kumpulan Data Pidato M-AI Labs (Tautan)

    Kumpulan data ini menawarkan hampir 1,000 jam audio dengan transkripsi, mencakup berbagai bahasa dan dikategorikan berdasarkan suara pria, wanita, dan campuran.

  • Basis Data Ucapan Bising (tautan)

    Kumpulan data ini menampilkan rekaman ucapan yang bising dan jernih secara paralel, yang ditujukan untuk pengembangan perangkat lunak penyempurnaan ucapan, namun juga bermanfaat untuk pelatihan ucapan dalam kondisi yang menantang.

Review

  • Ulasan Yelp (Tautan)

    Kumpulan data Yelp memiliki koleksi besar sekitar 8.5 juta ulasan dari 160,000 plus bisnis, ulasan mereka, dan data pengguna. Ulasan dapat digunakan untuk melatih model Anda tentang analisis sentimen. Selain itu, dataset ini juga memiliki lebih dari 200,000 gambar yang mencakup delapan lokasi metropolitan.

  • Ulasan IMDB (Tautan)

    Ulasan IMDB adalah salah satu kumpulan data paling populer yang berisi informasi pemeran, peringkat, deskripsi, dan genre untuk lebih dari 50 ribu film. Set data ini dapat digunakan untuk menguji dan melatih model machine learning Anda.

  • Dataset Ulasan dan Peringkat Amazon (Tautan)

    Dataset ulasan dan peringkat Amazon berisi kumpulan metadata dan ulasan berharga dari berbagai produk dari Amazon yang dikumpulkan dari tahun 1996 hingga 2014 – sekitar 142.8 juta catatan. Metadata mencakup harga, deskripsi produk, merek, kategori, dan lainnya, sedangkan ulasan memiliki kualitas teks, kegunaan teks, peringkat, dan banyak lagi.

Pertanyaan dan jawaban

  • Kumpulan Data Tanya Jawab Stanford (SQuAD) (Tautan)

    Kumpulan data pemahaman bacaan ini memiliki 100,000 pertanyaan yang dapat dijawab dan 50,000 pertanyaan yang tidak dapat dijawab, semuanya dibuat oleh crowdworker Wikipedia.

  • Pertanyaan Alami (Tautan)

    Kumpulan pelatihan ini memiliki lebih dari 300,000 contoh pelatihan, 7,800 contoh pengembangan, dan 7,800 contoh pengujian, masing-masing dengan kueri Google dan halaman Wikipedia yang cocok.

  • TriviaQA (Tautan)

    Kumpulan pertanyaan yang menantang ini memiliki 950,000 pasangan QA, termasuk subkumpulan yang diverifikasi oleh manusia dan yang dibuat oleh mesin.

  • CLEVR (Bahasa Komposisi dan Penalaran Visual Dasar) (Tautan)

    Kumpulan data penjawab pertanyaan visual ini menampilkan objek yang dirender 3D dan ribuan pertanyaan dengan detail tentang pemandangan visual.

Jadi, dataset mana yang Anda pilih untuk melatih model pembelajaran mesin Anda?

Saat kami pergi, kami akan meninggalkan Anda dengan tip pro.

Pastikan untuk membaca file README secara menyeluruh sebelum memilih kumpulan data NLP untuk kebutuhan Anda. Kumpulan data akan berisi semua informasi penting yang mungkin Anda perlukan, seperti konten kumpulan data, berbagai parameter di mana data telah dikategorikan, dan kemungkinan kasus penggunaan kumpulan data.

Apa pun model yang Anda buat, terdapat prospek menarik untuk mengintegrasikan alat berat secara lebih dekat dan intrinsik dengan kehidupan kita. Dengan NLP, kemungkinan untuk bisnis, film, pengenalan suara, keuangan, dan banyak lagi meningkat berlipat ganda.

sosial Share