Con el auge de la IA en 2023, Google y Meta han intentado no quedarse atrás en la carrera tecnológica. Sin embargo, no han sido los únicos. La propia OpenAI ha estado intentando permanecer en la delantera. Como dice The New York Times, la carrera para liderar la revolución de la IA se ha convertido en una búsqueda desesperada de datos digitales para alimentar a sus respectivos modelos de lenguaje extenso (LLM).
Antes de 2020, la internet era vista como un pozo ilimitado de datos digitales con los cuales se podía entrenar dicha tecnología. Tal no es el caso. Repositorios públicos, tales como Wikipedia y Reddit, ya no bastan para alimentar los complejos algoritmos que potencian la inteligencia artificial. Sin datos nuevos, la IA no puede avanzar.
Desafortunadamente, todas las compañías mencionadas han decidido adoptar un enfoque maquiavélico al respecto. Por supuesto, esto supone un precedente peligroso.
Fue a finales de 2021 que OpenAI evidenció la insuficiencia de datos públicamente disponibles para entrenar a su LLM. Necesitaba una nueva fuente de información. Con el fin de recolectar más datos digitales, los investigadores de la empresa crearon Whisper. Esta herramienta podía transcribir el audio de videos de YouTube.
Según The New York Times, algunos empleados de OpenAI señalaron que lo anterior va en contra de las leyes de protección de derechos de autor. También se opone a los términos de YouTube, que prohíben descargar videos para aplicaciones independientes. Aun así, la compañía transcribió más de 1 millón de horas de videos. Esta información fue empleada para entrenar a GPT-4, la base de la última versión de ChatGPT.
Sin embargo, esa no fue la última infracción cometida por OpenAI. El 29 de enero de 2024, la Autoridad de Protección de Datos Personales de Italia (GPDP) amonestó a la empresa informándole que ChatGPT rompe leyes de protección de datos. Aunque hay pocos detalles sobre el incumplimiento, medios como BBC y TechCrunch señalan que podría estar relacionado con la recolección de datos sensibles y protección de edades.
Por ahora no hay información puntual sobre la infracción. Aun así, esta acusación es resultado de una investigación que el organismo ha estado llevando a cabo desde el año pasado. Cabe recordar que ChatGPT fue temporalmente prohibido en Italia a principios de 2023 después de que se descubriera que rompía los artículos 5, 6, 8, 13 y 25 del Reglamento General de Protección de Datos (GDPR) de la Unión Europea.
Meta, compañía propietaria de Facebook e Instagram, ha estado múltiples veces en el ojo del huracán por la forma en que procesan los datos de sus usuarios.
Recientemente, el Comité Europeo de Protección de Datos (EDPB), la Comisión Europea y legisladores criticaron la intención de la empresa de imponer a sus usuarios europeos una decisión: consentir a sus políticas de manejo de datos o pagar para mantener la privacidad de sus datos. ¿Qué es otro escándalo más para el gigante tecnológico?
Durante el año pasado, múltiples empleados en Meta estuvieron discutiendo adquirir la editorial Simon & Schuster para poder utilizar las obras de sus autores. Por supuesto, esto no es ilegal. Más preocupantes son los reportes de The New York Times que revelan que Meta consideró recolectar datos protegidos por derechos de autor. Al parecer, lidiar con demandas es preferible que negociar licencias con los autores.
Podés leer el artículo completo en el siguiente enlace:
© 2022 - Todos los derechos reservados.