ChatGPT memiliki kemampuan untuk lulus ujian medis, menurut laporan, namun bukanlah keputusan yang bijaksana untuk mengandalkannya untuk beberapa penilaian kesehatan yang serius, misalnya, jika pasien dengan nyeri dada perlu dirawat di rumah sakit, menurut penelitian baru.

ChatGPT pintar tetapi gagal dalam penilaian jantung

Dalam penelitian yang dipublikasikan di jurnal PLOS ONE, ChatGPT memberikan kesimpulan berbeda dengan mengembalikan tingkat risiko jantung yang tidak konsisten untuk pasien yang sama dalam penelitian yang melibatkan ribuan pasien nyeri dada.

Seorang peneliti di Fakultas Kedokteran Elson S. Floyd Universitas Negeri Washington, Dr. Thomas Heston, yang juga merupakan penulis utama penelitian tersebut, mengatakan,

“ChatGPT tidak bertindak secara konsisten; mengingat data yang sama persis, ChatGPT akan memberikan skor risiko rendah, kemudian risiko menengah, dan kadang-kadang memberikan skor risiko tinggi.”

Sumber: WSU.

Menurut para peneliti, masalah ini mungkin disebabkan oleh tingkat keacakan yang dibangun dalam versi terbaru perangkat lunak, ChatGPT-4, karena membantu mendiversifikasi jawaban untuk meniru bahasa alami. Namun Heston mengatakan bahwa tingkat keacakan yang sama tidak berlaku untuk kasus penggunaan di layanan kesehatan dan bisa berbahaya, karena memerlukan jawaban tunggal yang konsisten.

Dokter perlu segera mengevaluasi urgensi kondisi pasien, karena nyeri dada merupakan keluhan sehari-hari di ruang gawat darurat rumah sakit.

Beberapa pasien yang sangat serius dapat dengan mudah dikenali dari gejalanya, namun yang lebih sulit adalah mereka yang memiliki risiko lebih rendah, kata Dr. Heston, terutama ketika mereka perlu memutuskan apakah seseorang tidak cukup berisiko untuk dipulangkan ke rumah dengan rawat jalan. layanan atau harus diterima.

Sistem lain terbukti lebih andal

Jaringan saraf AI seperti ChatGPT, yang dilatih pada sejumlah besar parameter dengan kumpulan data yang besar, dapat menilai miliaran variabel dalam hitungan detik, sehingga memberikannya kemampuan untuk memahami skenario kompleks dengan lebih cepat dan lebih detail.

Heston mengatakan bahwa sebagian besar profesional medis menggunakan dua model untuk penilaian risiko jantung yang disebut HEART dan TIMI, dan dia menyukai perangkat lunak karena mereka menggunakan sejumlah variabel, termasuk usia, riwayat kesehatan, dan gejala, serta mengandalkan variabel yang lebih sedikit dibandingkan ChatGPT.

Untuk studi penelitian ini, Dr. Heston dan rekan kerjanya, Dr. Lawrence Lewis, dari kampus St. Louis di universitas yang sama, menggunakan tiga kumpulan data yang masing-masing berisi 10.000 kasus yang disimulasikan secara acak. Satu kumpulan data memiliki lima variabel dari skala jantung; yang lain memasukkan tujuh variabel dari TIMI; dan yang ketiga memiliki 44 variabel yang dipilih secara acak.

Untuk dua kumpulan data pertama, ChatGPT menghasilkan penilaian risiko yang tidak konsisten sebesar 45% hingga 48% pada masing-masing kasus simulasi dibandingkan dengan skor TIMI dan HEART yang konstan. Namun untuk kumpulan data ketiga, meskipun dijalankan beberapa kali, ChatGPT memberikan hasil yang berbeda untuk kasus yang sama.

Heston berpendapat bahwa terdapat potensi yang lebih besar untuk GenAI dalam layanan kesehatan seiring dengan kemajuan teknologi, meskipun temuan penelitian ini tidak memuaskan. Menurutnya, rekam medis dapat diunggah ke sistem, dan jika terjadi keadaan darurat, dokter dapat meminta ChatGPT untuk memberikan fakta terpenting tentang pasien. Hal ini juga dapat diminta untuk menghasilkan beberapa kemungkinan diagnosis dan alasan untuk masing-masing diagnosis, yang akan membantu dokter mengatasi suatu masalah.