Las alucinaciones de los modelos de lenguaje, como los utilizados por ChatGPT, continúan siendo un desafío significativo, afectando la fiabilidad de estas herramientas. La investigadora Shuhui Qu de la Universidad de Stanford ha propuesto un nuevo enfoque para mitigar este problema, que consiste en la Planificación Categorial Bidireccional con Auto-Consulta. Este método busca que los modelos reconozcan explícitamente sus limitaciones y se detengan ante la falta de información en lugar de hacer suposiciones.
El defecto inherente de los modelos de lenguaje actuales radica en su tendencia a responder con confianza, incluso cuando carecen de datos precisos. Qu sugiere que, en cada etapa del razonamiento, los modelos deben preguntarse si realmente poseen la información necesaria. Si se encuentran con una condición desconocida, deben frenar el proceso y abordar la incertidumbre antes de continuar.
Este planteamiento implica que los modelos pueden obtener información adicional formulando preguntas específicas o introduciendo pasos intermedios para verificar la información. Así, el objetivo no es que estos sistemas piensen de manera más inteligente, sino que dejen de pretender saberlo todo.