Una investigación publicada por Columbia Journalism Review y desarrollada por el Centro Tow para el Periodismo Digital analizó el rendimiento de ocho chatbots con funciones de búsqueda en vivo. La prueba, basada en más de 1700 consultas sobre contenido periodístico real, dejó en evidencia fallas significativas en la precisión de las respuestas. Aunque algunas herramientas se destacaron, los datos demuestran que incluso la IA más precisa ofrece resultados que deben ser verificados.
Se seleccionaron al azar diez artículos de diferentes publicaciones (Los Angeles Times, revista Time y otras más) y, posteriormente, se eligieron extractos de dichos artículos para utilizarlos en las consultas.
Tras proporcionar a cada chatbot los extractos seleccionados, se les solicitó que identificaran el título, el nombre del medio, la fecha de publicación y la URL correspondiente.
Se escogieron deliberadamente extractos que, al ser insertados en una búsqueda tradicional de Google, pudieran ser encontrados entre los tres primeros resultados.
Luego de 1700 consultas se evaluaron las respuestas de cada chatbot en función de tres atributos: la obtención del artículo correcto, la editorial indicada y la URL exacta.
Este ejercicio generó 6 clasificaciones:
– Correcto (los tres atributos eran correctos).
– Correcto pero incompleto (algunos atributos eran correctos, pero faltaba información en la respuesta).
– Parcialmente incorrecto (algunos atributos eran correctos, mientras que otros eran incorrectos).
– Completamente incorrecto (los tres atributos eran incorrectos o faltaban).
– No proporcionado (no proporcionó información).
– Rastreador bloqueado (el editor bloquea el rastreador del chatbot en su archivo robots.txt).
Las respuestas de los chatbots a las consultas realizadas fueron a menudo erróneas. En general las plataformas no conseguían recuperar los artículos correctos. En conjunto, proporcionaron respuestas incorrectas a más del 60 % de las consultas.
Poca exactitud, ¿no?
El nivel de error varió entre las diferentes plataformas: Perplexity respondió incorrectamente al 37 % de las consultas, mientras que Grok 3 tuvo la mayor tasa de error, respondiendo incorrectamente al 94 %.
Con estos datos es importante tener en cuenta que la IA sigue siendo una ayuda importante, pero no podemos confiar totalmente en sus resultados. La IA se muestra muy segura cuando de inexactitud se trata. Bien lo retrata CJR:
“La mayoría de las herramientas que probamos presentaron respuestas inexactas con una seguridad alarmante, y rara vez usaron frases calificativas como ‘parece’, ‘es posible’, ‘podría’, etc., ni reconocieron lagunas de conocimiento con afirmaciones como ‘No pude encontrar el artículo exacto’. ChatGPT, por ejemplo, identificó incorrectamente 134 artículos, pero solo mostró falta de confianza en quince de sus doscientas respuestas y nunca se negó a responder”.
La única excepción fue Copilot (no por que fuera más exacta, sino porque rechazó más preguntas de las que respondió). Las demás herramientas mostraron una mayor probabilidad de proporcionar una respuesta incorrecta antes que reconocer limitaciones.
Y por si fuera poco: los modelos ‘Premium’ de cada herramienta de IA entregaron respuestas incorrectas con mayor certeza y seguridad, que sus correspondientes versiones gratuitas.
– Los chatbots, en general no respondieron con precisión a preguntas que no podían responder, ofreciendo respuestas incorrectas o especulativas.
– Los chatbots premium proporcionaban respuestas incorrectas con mayor seguridad que sus correspondientes versiones gratuitas.
– Varios chatbots parecían eludir las preferencias del Protocolo de Exclusión de Robots (ROP).
– Las herramientas de búsqueda generativa ‘fabricaron’ enlaces o citaron versiones sindicadas y copiadas de artículos, cuando no encontraron el dato exacto.
El acceso a las fuentes no garantizó mayor precisión. Algunas IAs fallaron incluso con contenido disponible, mientras que otras, sin acceso formal, ofrecieron respuestas correctas. Perplexity Pro logró identificar artículos a los que no debería haber accedido, y su versión gratuita acertó con contenido restringido de National Geographic, lo que sugiere un posible incumplimiento del archivo robots.txt.
Los bloqueos resultaron poco efectivos: The New York Times fue el sitio más consultado por Perplexity, pese a haberlo bloqueado. ChatGPT evitó responder con más frecuencia, aunque tendía a equivocarse antes que omitir. Copilot, que comparte rastreador con Bing, no fue bloqueado por ningún editor, pero fue el que más preguntas rechazó.
En el caso de Gemini, aunque recibió autorización de la mitad de los editores analizados, solo dio una respuesta completamente correcta, lo que deja en evidencia que el acceso a la fuente no siempre se traduce en calidad de respuesta.
De acuerdo con los resultados de esta investigación, Perplexuty Pro, Perplexity y ChatGPT tuvieron la mayor cantidad de respuestas correctas. No obstante, es una buena práctica siempre confirmar la información que entregan estas plataformas.
Dado que cada IA está pensada para interactuar de manera ‘personalizada’ con cada usuario, es muy posible que un mismo ‘prompt’ genere resultados diferentes dependiendo de quien realiza la solicitud.
Más aún si es capaz de responder con total seguridad aún sin tener la certeza sobre su respuesta. La IA es solo una ayuda.
© 2022 - Todos los derechos reservados.