Logo de Nvidia, compañía cuya fortuna se ha visto incrementada enormemente con el auge de la inteligencia artificial.
Logo de Nvidia, compañía cuya fortuna se ha visto incrementada enormemente con el auge de la inteligencia artificial.
/ I-HWA CHENG
Agencia Europa Press

Empresas tecnológicas como , y Anthropic han utilizado una base de datos de EleutherAI, que contiene transcripciones de más de 173.500 vídeos de YouTube, para entrenar sus inteligencias artificiales (IA), en contra de las normas de la plataforma de Google y sin el permiso de sus autores.

MIRA: Nvidia: claves de su éxito tras superar a Microsoft y volverse la compañía más valiosa del mundo

El director ejecutivo de YouTube, Neal Mohan, aseguró en abril que el uso de los vídeos de esta plataforma para entrenar modelos y herramientas de IA supone una violación de sus políticas. Se refería al supuesto uso que pudiera haber hecho OpenAI con Sora, una IA que crea escenas realistas de vídeo a partir de instrucciones de texto.

Mohan explicó entonces que se trata de un uso indebido porque los creadores de contenido que deciden publicar vídeos en YouTube esperan que su trabajo esté protegidos por los términos del servicio.

Pese a las políticas de la plataforma, parece ser una práctica extendida, como muestra ahora En este caso, empresas tecnológicas de primera línea, entre las que estarían Apple, Nvidia, Salesforce y Anthropic, han entrenados sus IA con transcripciones de miles de vídeos de YouTube.

No habrían accedido a ellos de manera directa, sino a través de la base de datos facilitada por la firma EleutherAI, en la que el medio citado ha encontrado transcripciones de 173.536 vídeos de YouTube, de más 48.000 canales, de autores como MIT, Harvard, The Wall Street Journal, BBC, MrBeast y PewDiePie, entre otros.

Aunque la base de datos no incluye imágenes, solo los textos de los vídeos -es decir, subtítulos y traducciones a otros idiomas-, los datos se habrían recogido y usado para el entrenamiento de IA sin permiso de sus autores, como denuncian en Proof News.

Salesforce y Anthropic confirmaron al medio citado el uso de la base de datos de EleutherAI, que es en realidad parte de una compilación mayor denominada ‘Pila’ y que también contiene material procedente del Parlamento Europeo, la Wikipedia en inglés y correos corporativos de los empleados de Enron que se hicieron públicos en una investigación federal en Estados Unidos. Gran parte de esta Pila es accesible de manera pública y la usan también académicos e investigadores.

Contenido sugerido

Contenido GEC