در پژوهشی با همکاری دکتر رودمن، عملکرد پزشکان در تشخیص بیماری با استفاده از چتبات GPT-4 مورد بررسی قرار گرفت. نتایج شگفتآوری را نشان داد: هرچند پزشکان با بهرهگیری از این هوش مصنوعی، تنها اندکی بهتر از گروهی که به آن دسترسی نداشتند عمل کردند، اما خود چتبات به تنهایی دقت بالاتری از پزشکان نشان داد.
چتبات GPT-4، محصول شرکت OpenAI، در تشخیص بیماری از گزارشهای بالینی و ارائه توضیحات منطقی، میانگین نمره ۹۰ درصد را کسب کرد. در مقابل، پزشکان گروه آزمایش با استفاده از چتبات به طور متوسط ۷۶ درصد و گروه بدون دسترسی به آن ۷۴ درصد نمره کسب کردند.
این مطالعه نشان داد که پزشکان گاه با وجود وجود شواهد متضاد، به تشخیص اولیه خود پایبند میمانند. به نظر میرسد آشنایی پزشکان با ابزارهای هوش مصنوعی کافی نبوده و آنان نتوانستهاند از تواناییهای چتبات برای حل پیچیدگیهای تشخیصی و ارائه توضیحات دقیق استفاده کنند.
پنجاه پزشک متخصص از چندین بیمارستان بزرگ آمریکا در این پژوهش شرکت داشتند. نتایج این تحقیق ماه گذشته در مجله JAMA Network Open منتشر شد.
شرکتکنندگان شش گزارش موردی دریافت کردند و بر اساس توانایی تشخیص و استدلال خود ارزیابی شدند. نمره نهایی آنها شامل صحت تشخیص نیز میشد.
ارزیابیها توسط متخصصان پزشکی مستقل انجام شد. این متخصصان بدون اطلاع از گروه شرکتکنندگان (پزشک با چتبات، پزشک بدون چتبات یا خود چتبات) پاسخها را بررسی کردند.
گزارشهای موردی، برگرفته از پروندههای واقعی بیماران و بخشی از مجموعه ۱۰۵ موردی بودند که از دهه ۱۹۹۰ توسط محققان جمعآوری و تاکنون منتشر نشده بودند. این امر تضمین میکرد که چتبات پیشتر با این موارد آموزش ندیده است.
به منظور شفافسازی، محققان یکی از این موارد (مورد یک بیمار ۷۶ ساله پس از آنژیوپلاستی با درد شدید کمر، باسن و ساق پا) را به همراه پاسخ پزشکان با نمرات بالا و پایین منتشر کردند. این بیمار علائمی مانند تب، خستگی، کمخونی و افزایش مواد زائد نیتروژن در خون داشت. ده سال پیش نیز عمل بایپس قلب انجام داده بود. تشخیص صحیح، آمبولی کلسترول بود.
شرکتکنندگان میبایست سه تشخیص احتمالی با دلایل و شواهد، و همچنین یافتههای مغایر با تشخیص ارائه میدادند. آنها همچنین باید تشخیص نهایی و سه گام کلیدی فرآیند تشخیص خود را توضیح میدادند.
اگرچه موارد مورد مطالعه آسان نبودند، اما به قدری نادر نبودند که غیرممکن به نظر برسند. با این حال، عملکرد پزشکان به طور متوسط پایینتر از چتبات بود.