Anotasi Data – NER

Named Entity Recognition (NER) Anotasi untuk Klinis NLP

Anotasi Ner

Data teks klinis yang dianotasi dengan baik dan Standar Emas untuk melatih/mengembangkan NLP klinis guna membangun API Layanan Kesehatan versi berikutnya

Pentingnya Pemrosesan Bahasa Alami (NLP) klinis semakin diakui selama beberapa tahun terakhir dan telah membawa kemajuan transformatif. NLP Klinis memungkinkan komputer memahami kekayaan makna yang ada di balik analisis tertulis dokter terhadap pasien. NLP klinis dapat memiliki banyak kasus penggunaan mulai dari analisis kesehatan populasi hingga peningkatan dokumentasi klinis, pengenalan suara, hingga pencocokan uji klinis, dll.

Untuk mengembangkan dan melatih model NLP klinis apa pun, Anda memerlukan kumpulan data yang akurat, tidak memihak, dan diberi anotasi yang baik dalam volume yang sangat besar. Standar Emas dan beragam data membantu meningkatkan presisi dan perolehan mesin NLP.

Volume

Jumlah Dokumen yang Dianotasi
10
Jumlah Halaman yang Dianotasi
10 +
Durasi proyek
< 1 bulan

Tantangan

Klien berharap untuk melatih dan mengembangkan Platform Pemrosesan Bahasa Alami (NLP) mereka dengan tipe entitas baru dan juga mengidentifikasi hubungan di antara berbagai tipe. Selain itu, mereka mengevaluasi vendor yang menawarkan akurasi tinggi, mematuhi undang-undang setempat, dan memiliki pengetahuan medis yang diperlukan untuk membuat anotasi pada kumpulan data yang besar.

Tugasnya adalah memberi label dan membuat anotasi hingga 20,000 Catatan Berlabel termasuk hingga 15,000 Catatan Berlabel dari data catatan kesehatan elektronik (EHR) rawat inap dan rawat jalan dan hingga 5,000 Catatan Berlabel dari dikte medis yang ditranskripsikan, didistribusikan secara merata di (1) asal geografis dan ( 2) spesialisasi medis yang tersedia.

Jadi, untuk meringkas tantangannya:

  • Atur data klinis heterogen untuk melatih Platform NLP
  • Identifikasi hubungan antara entitas yang berbeda untuk mendapatkan informasi penting
  • Kemampuan dan keahlian untuk memberi label / membubuhi keterangan pada serangkaian dokumen klinis yang kompleks
  • Menjaga biaya tetap terkendali untuk memberi label / membubuhi keterangan sejumlah besar data untuk melatih NLP klinis dalam jangka waktu yang ditentukan
  • Beri anotasi pada entitas dalam kumpulan data klinis yang terdiri dari 75% EHR dan 25% catatan Dikte.
  • De-identifikasi Data pada saat pengiriman

Tantangan Lain dalam Pemahaman Bahasa Alami

Kemenduaan

Kata-kata bersifat unik namun dapat memiliki arti berbeda tergantung pada konteksnya sehingga menimbulkan ambiguitas pada tingkat leksikal, sintaksis, dan semantik.

Kesinoniman

Kita dapat mengungkapkan gagasan yang sama dengan istilah-istilah berbeda yang juga merupakan sinonim: besar dan besar mempunyai arti yang sama ketika mendeskripsikan suatu benda.

koreferensi

Proses menemukan semua ekspresi yang merujuk pada entitas yang sama dalam sebuah teks disebut resolusi intireferensi.

Kepribadian, Niat, Emosi

Tergantung pada kepribadian pembicara, niat dan emosinya, mungkin diungkapkan secara berbeda untuk gagasan yang sama.

Solusi

Sejumlah besar data dan pengetahuan medis tersedia dalam bentuk dokumen medis, namun sebagian besar dalam format yang tidak terstruktur. Dengan Anotasi Entitas Medis / Anotasi Named Entity Recognition (NER), Shaip mampu mengubah data tidak terstruktur menjadi format terstruktur dengan memberi anotasi pada informasi berguna dari beragam jenis catatan klinis. Setelah entitas diidentifikasi, hubungan di antara entitas tersebut juga dipetakan untuk mengidentifikasi informasi penting.

Lingkup Pekerjaan: Anotasi Sebutan Entitas Kesehatan

9 Tipe Entitas

  • Kondisi medis
  • Prosedur Medis
  • Struktur Anatomi
  • Obat
  • Alat medis
  • Pengukuran Tubuh
  • Penyalahgunaan Zat
  • Data laboratorium
  • Fungsi tubuh

17 Pengubah

  • Pengubah Obat: Kekuatan, Unit, Dosis, Dari, Frekuensi, Rute, Durasi, Status
  • Pengubah Pengukuran Tubuh: Nilai, Satuan, Hasil
  • Pengubah Prosedur: Metode
    • Pengubah Data Laboratorium : Nilai Lab, Unit Lab, Hasil Lab
  • Kerasnya
  • Hasil prosedur

27 Hubungan & Status Pasien

Hasil

Data yang dianotasi akan digunakan untuk mengembangkan dan melatih Platform NLP klinis Klien, yang akan digabungkan dalam versi berikutnya dari API Layanan Kesehatan mereka. Manfaat yang diperoleh klien adalah:

  • Data yang diberi label/dianotasi memenuhi pedoman anotasi data standar Klien.
  • Kumpulan data heterogen digunakan untuk melatih Platform NLP agar lebih akurat.
  • Hubungan antara entitas yang berbeda, yaitu Struktur anatomi tubuh <> Alat Kesehatan, Kondisi Medis <> Alat Kesehatan, Kondisi Medis <> Obat, Kondisi Medis <> Prosedur diidentifikasi untuk memperoleh informasi medis penting.
  • Kumpulan data luas yang diberi label/anotasi juga tidak teridentifikasi pada saat pengiriman.

Kolaborasi kami dengan Shaip secara signifikan memajukan proyek kami dalam Teknologi Ambient dan AI Percakapan dalam layanan kesehatan. Keahlian mereka dalam membuat dan menyalin dialog layanan kesehatan sintetik memberikan landasan yang kuat, menunjukkan potensi data sintetik dalam mengatasi tantangan regulasi. Bersama Shaip, kami mengatasi rintangan ini dan kini selangkah lebih dekat untuk mewujudkan visi kami tentang solusi layanan kesehatan intuitif.

Bintang emas 5

Percepat AI Percakapan Anda
pengembangan aplikasi sebesar 100%