Raporlara göre ChatGPT, tıbbi sınavları geçme yeteneğine sahip ancak yeni araştırmalara göre, örneğin göğüs ağrısı olan bir hastanın hastaneye yatırılması gerekiyorsa, bazı ciddi sağlık değerlendirmeleri için ona güvenmek akıllıca bir karar olmayacak.

ChatGPT akıllıdır ancak kalp değerlendirmesinde başarısız olur

PLOS ONE dergisinde yayınlanan araştırmada ChatGPT, binlerce göğüs ağrısı hastasını kapsayan bir çalışmada aynı hasta için tutarsız kalp riski seviyelerini döndürerek farklı sonuçlar ortaya koydu.

Washington Eyalet Üniversitesi Elson S. Floyd Tıp Fakültesi'nden araştırmacı ve aynı zamanda araştırmanın baş yazarı Dr. Thomas Heston şunları söyledi:

“ChatGPT tutarlı bir şekilde hareket etmiyordu; Tamamen aynı veriler göz önüne alındığında, ChatGPT düşük risk puanı verecek, ardından bir dahaki sefere orta risk verecek ve bazen de yüksek risk verecek kadar ileri gidecektir.

Kaynak: WSU.

Araştırmacılara göre sorun muhtemelen ChatGPT-4 yazılımının son sürümünde yer alan rastgelelik derecesinden kaynaklanıyor çünkü bu, doğal dili taklit edecek şekilde yanıtların çeşitlendirilmesine yardımcı oluyor. Ancak Heston, aynı seviyedeki rastlantısallığın sağlık hizmetlerinde kullanım durumları için işe yaramadığını ve tek, tutarlı bir cevap gerektirdiğinden tehlikeli olabileceğini söylüyor.

Göğüs ağrıları hastanelerin acil servislerinde her gün karşılaşılan bir şikayet olduğundan, doktorların hastanın durumunun aciliyetini hızlı bir şekilde değerlendirmesi gerekir.

Dr. Heston, çok ciddi hastalardan bazılarının semptomlarından kolayca tanınabileceğini, ancak daha zor olanların daha düşük risk taşıyanlar olduğunu söyledi, özellikle de birisinin ayakta tedavi için eve gönderilecek kadar risk altında olup olmadığına karar vermeleri gerektiğinde. hizmetler veya kabul edilmelidir.

Diğer sistemlerin daha güvenilir olduğu kanıtlandı

Devasa veri kümelerine sahip çok sayıda parametre üzerinde eğitilen ChatGPT gibi bir yapay zeka sinir ağı, milyarlarca değişkeni saniyeler içinde değerlendirebiliyor ve bu da ona karmaşık bir senaryoyu daha hızlı ve çok daha ayrıntılı bir şekilde anlama yeteneği sağlıyor.

Dr. Heston, tıp uzmanlarının kalp riski değerlendirmeleri için çoğunlukla HEART ve TIMI adı verilen iki model kullandığını, yaş, sağlık geçmişi ve semptomlar gibi bir dizi değişkeni kullandıkları ve ChatGPT'ye göre daha az değişkene güvendikleri için yazılımı sevdiğini söylüyor.

Araştırma çalışması için, aynı üniversitenin St. Louis kampüsünden Dr. Heston ve iş arkadaşı Dr. Lawrence Lewis, her biri rastgele simüle edilmiş 10.000 vakadan oluşan üç veri seti kullandı. Bir veri setinde kalp ölçeğinden beş değişken vardı; bir diğeri TIMI'den yedi değişken içeriyordu; ve üçüncüsünde rastgele seçilmiş 44 değişken vardı.

İlk iki veri seti için ChatGPT, TIMI ve HEART'ın sabit puanına kıyasla bireysel simüle edilmiş vakalarda %45 ila %48 oranında tutarsız risk değerlendirmesi üretti. Ancak üçüncü veri kümesi için, birden çok kez çalıştırılmasına rağmen ChatGPT aynı durumlarda farklı sonuçlar döndürdü.

Dr. Heston, çalışmanın tatmin edici olmayan bulgularına rağmen, teknoloji ilerledikçe sağlık hizmetlerinde GenAI'nın daha büyük bir potansiyele sahip olduğunu düşünüyor. Ona göre tıbbi kayıtlar sistemlere yüklenebiliyor ve acil bir durum meydana geldiğinde doktorlar ChatGPT'den hasta hakkındaki en önemli bilgileri sağlamasını isteyebiliyor. Ayrıca, doktorların sorunu görmesine yardımcı olacak bazı olası teşhisler ve her biri için gerekçeler üretmesi de istenebilir.