11 февраля на The New York Times вышел материал о том, что в скором времени искусственный интеллект будет помогать в работе врачей. Статья была основана на научном исследовании, в котором сравнивали то, насколько точно врачи и ИИ определяют диагноз. «Но в материале не учли один важный момент, — считает журналист Wired, — точность не всегда подразумевает положительный эффект».


Исследование проводилось среди пяти групп врачей с разным опытом: две группы молодых специалистов и три группы профессионалов. Врачи и ИИ получали одни и те же записи о симптомах и ставили диагноз. Согласно полученным результатам, ИИ диагностировал астму с точностью более 90%, а точность врачей составила от 80 до 94%. Во время диагностирования заболеваний желудочно-кишечного тракта система ИИ определила заболевания с точностью 87%, в то время как врачи диагностировали эти же заболевания с точностью от 82 до 90%. Журналисты NYT использовали эти данные, чтобы показать, что ИИ определяют диагнозы точнее, чем реальные врачи.

Автор материала из Wired решил подвергнуть сомнению этот тезис. В исходном исследовании, которое было опубликовано The Nature,
сравнивается не только диагностирование астмы и заболеваний ЖКТ, но и энцефалит. Это заболевание ИИ определил с точностью 83,7%, а точность врачей составила более 95%. «Иначе говоря, когда дело касается более серьезных заболеваний, врачи диагностируют их с более высокой точностью», — считает автор Wired.

В исследовании сказано: «Наша модель достигла уровня F1 (уровень точности — прим. ред), что выше уровня двух групп молодых врачей, но ниже трех групп врачей с большим опытом. Согласно полученным результатам можно сказать, что ИИ потенциально может помогать молодым врачам во время диагностики, но не превосходит показатели опытных врачей».

Впечатляет, что показатели ИИ выше, чем показатели молодых врачей. «В медицине диагностика заболеваний зачастую субъективна», — говорит Sreekanth Chalasani, старший преподаватель в Институте Солка. «Врачи могут быть чрезвычайно осторожны во время диагностирования серьезного заболевания. Они могут использовать дополнительные анализы, не делая поспешные выводы, или не назначать лекарство пациенту с начальной формой астмы пока его состояние не ухудшится. Ни один врач не станет рисковать жизнью пациента, чтобы улучшить свой рейтинг точности и нам, как обществу, не стоит оценивать врачей по метрическим данным или полагаться на машину в решении вопросов жизни и смерти», — считает автор.

«Помимо этого, ИИ может нас просто обманывать. Бывали случаи, когда ИИ выигрывал в играх за счет того, что находил баги в ней. В случае исследования, о котором мы говорим, врачи и ИИ получили одни и те же записи о симптомах. Возможно, врачи, которые делали записи, использовали более короткие фразы, если не подозревали серьезного заболевания. И наоборот, писали много о мелких симптомах, если подозревали серьезную болезнь. ИИ, особенно продвинутый, может все эти мелочи учитывать и, таким образом, иметь тайное преимущество перед врачами.

Когда дело касается ИИ, мы должны понимать, что рейтинг точности диагностирования — не единственное, на что мы должны обращать внимание», — заключает автор.