ChatGPT, hastalara karşılık vermekte insan tabiplerden daha mı âlâ? #prizmabet

Hasta derecelendirmelerini inceleyen yeni bir araştırmaya nazaran, ChatGPT, insan hekimlerden daha empatik (duygudaş) olabiliyor. Pek çok insan yapay zekanın (AI) sıhhat sıkıntılarıyla karşı karşıya kaldığında umursamaz, gerçeklere dayalı tavsiyeler vereceğini varsaysa da, incelik kelam konusu olduğunda aslında gerçek hekimlerden daha düzgün bir biçimde derecelendirildiği görülüyor.

Yapay zekayı sıhhat hizmetlerini herkes için erişilebilir hale getirmenin bir yolu olarak kullanma fikri, lisan modelleri etkileyici bir doğruluk gösterdiği için birçok sefer gündeme geldi, lakin hastayla direkt olarak görüşebilmek için gerekli empatiye sahip olup olmadıkları sorusu en kıymetli sorulardan biri oldu. Tıp, kültürel ve toplumsal bağlamları hesaba katan insan marifetleri gerektirir ve lisan modelleri bu misyonlarda berbat olduklarını geçmişte kanıtladılar.

Ancak bir çalışma, insanların sahiden bir sıhhat “uzmanı” olarak AI ile baş başa kalmayı ne kadar sevdiklerini bulmaya çalıştı.

California San Diego Üniversitesi araştırmacıları, Reddit’ten rastgele seçilmiş, her birinde soruları yanıtlayan doğrulanmış bir hekim bulunan 195 hasta sorusu örneğini ele aldı. Takım daha sonra tıpkı soruları ChatGPT’ye sordu ve orjinal insan cevaplarıyla rastgele olarak bir ortaya getirmeden evvel karşılıklarını topladı. Bu rastgele karşılık kümesi, bilgilerin doğruluğu, hangi cevapların daha âlâ olduğu ve cevapların ne kadar empatik olduğu (hastaya karşı tavrı ne kadar iyi) açısından derecelendirilmek üzere lisanslı sıhhat uzmanlarına verildi.

ChatGPT’ye yüzde 78,6, gerçek hekimlere yüzde 22

Şaşırtıcı bir halde, değerlendiriciler, daha kaliteli olduğu düşünülen ve ekseriyetle çok daha uzun olan ChatGPT’nin cevaplarını tabiplerin karşılıklarına kıyasla yüzde 78,6 oranında tercih ettiler. Cevaplar ortasındaki muazzam fark şaşırtıcıydı. “İyi” yahut “çok iyi” olarak bedellendirilen cevapların oranı sohbet robotu için yaklaşık yüzde 80 iken, tabipler için yalnızca yüzde 22 idi.

Empati kelam konusu olduğunda da sohbet robotu hekimleri geride bırakmaya devam etti. ChatGPT’nin karşılıklarının yüzde 45’i “empatik” yahut “çok empatik” olarak değerlendirilirken, tabiplerin karşılıklarının sırf yüzde 4,6’sı tıpkı biçimde değerlendiriliyordu.

Sonuçlar, ChatGPT’nin son derece tesirli bir çevrimiçi sıhhat asistanı olduğunu gösterdi, fakat bu araştırmanın dizaynından kaynaklı meseleleri olduğunu da belirtmekte yarar var. Öncelikle, araştırmaya katılan karşılıkların, hekimlerin boş vakitlerinde karşılık verdiği ve soruyu soran bireyden büsbütün kopuk olduğu çevrimiçi bir forumdan alınması, birtakım empati farklılıklarını açıklayabilecek, yetersiz ve şahsî olmayan yansılarla sonuçlanma ihtimalini epeyce arttırıyor.

Ayrıca ChatGPT, çevrimiçi bilgileri taramanın ve aktarmanın çok tesirli bir yolu. Lakin düşünemez yahut mantıksal olarak akıl yürütemez. Tabipler, evvelki hadise incelemelerine ait mevcut anlayışın dışında kalan yeni hadiselerle karşı karşıya kalabilir ve bu durum, sağlam temel bilgilere sahip olmadığında ChatGPT’nin yanlış tavsiyelerde bulunmasına yahut sorunu anlayamamasına neden olabilir.

Bu nedenle, ChatGPT’nin sıhhat hizmetleriyle tek temas noktası olmasa da, olayları iletmenin ve esasen boğulmuş hekimler için iş yüklerine öncelik vermenin eksiksiz bir yolu olması mümkün olabilir. Araştırmacılar, karşılıkları taslak haline getirebileceğini ve akabinde hekimlerin en uygun sonuçları almak için bunları düzenleyebileceğini öne sürüyor.

Çalışma JAMA Internal Medicine mecmuasında yayınlandı.