Chatbots y desinformación médica: una auditoría crítica de la IA generativa
Casi el 50% de las respuestas de cinco modelos son problemáticas. En las categorías de vacunas y cáncer se desempeñan mejor, mientras que en células madre, rendimiento deportivo y nutrición tienen el peor comportamiento.
La inteligencia artificial (IA) generativa ha transformado diversas áreas, incluido el campo de la salud. Sin embargo, algunos estudios destacan preocupaciones sobre la precisión y validez de las respuestas generadas por chatbots impulsados por IA en contextos médicos.
Este estudio, dirigido por Nicholas B. Tiller del Lundquist Institute for Biomedical Innovation en California, EE. UU., aborda la evaluación de chatbots en relación con su capacidad para responder a consultas de salud en áreas propensas a la desinformación médica. La investigación se centró en tres aspectos: precisión de las respuestas, calidad de las referencias y facilidad de lectura.
Se trató de un estudio exploratorio, que evaluó cinco chatbots: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI) en febrero de 2025. Se utilizaron 10 preguntas en cada una de las cinco categorías (cáncer, vacunas, células madre, nutrición y rendimiento deportivo), totalizando 50 consultas. Se implementó un marco de trabajo similar al de un adversario, utilizando prompts abiertos y cerrados diseñados para inducir a los modelos a generar información errónea o consejos contraindicados. Dos expertos de cada categoría calificaron las respuestas como 'no problemáticas', 'algo problemáticas' o 'altamente problemáticas' mediante un sistema de codificación basado en criterios predefinidos. Las citas se evaluaron en cuanto a precisión y exhaustividad, y a cada respuesta se le asignó un índice de legibilidad de Flesch. Solo se utilizaron versiones gratuitas de estas herramientas para replicar las condiciones de uso por el público general.
De las 250 respuestas analizadas, el 49,6% fueron problemáticas, con un 30% 'algo problemáticas' y un 19,6% 'altamente problemáticas'. Grok generó más respuestas altamente problemáticas de lo esperado (puntuación z +2,07; p=0,038). Los chatbots se desempeñaron mejor en vacunas (-2,57) y cáncer (-2,12), y peor en células madre (+1,25), rendimiento deportivo (+3,74) y nutrición (+4,35). Las citas eran incompletas, con una mediana del 40% de completitud, y se presentaron alucinaciones y citas inventadas. Las puntuaciones de legibilidad fueron 'difíciles', entre 30 y 50 en la escala de Flesch. Solo Meta AI se negó a responder dos veces (0,8%), subrayando la tendencia de los modelos a generar respuestas incluso ante interrogantes para las que no están preparados.
Estos hallazgos revelan deficiencias significativas en la forma en que los chatbots manejan consultas médicas, destacando la posibilidad de difundir desinformación. Si se siguen utilizando sin una campaña de sensibilización pública y sin supervisión, podrían exacerbar la propagación de desinformación médica. La implementación de regulaciones estrictas y mejoras en la precisión de las referencias y el contenido generado son imperativas para garantizar que la IA generativa contribuya a la salud pública, en lugar de socavarla.
Fuente bibliográfica
Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability Audit
Tiller NB, et al.
BMJ Open 2026; 16:e112695