
LAION, la organización de investigación alemana que creó los datos utilizados para entrenar Stable Diffusion, entre otros modelos de IA generativa, ha lanzado un nuevo conjunto de datos que afirma ha sido 'minuciosamente limpiado de vínculos conocidos con material sospechoso de abuso sexual infantil (CSAM)’.
El nuevo conjunto de datos, Re-LAION-5B, es en realidad una reedición de un antiguo conjunto de datos, LAION-5B, pero con 'correcciones' implementadas con recomendaciones de la organización sin ánimo de lucro Internet Watch Foundation, Human Rights Watch, el Centro Canadiense de Protección de la Infancia y el ahora desaparecido Observatorio de Internet de Stanford. Está disponible para su descarga en dos versiones, Re-LAION-5B Investigación y Re-LAION-5B Investigación-Segura (que también elimina contenido adicional para adultos), ambas filtradas para miles de enlaces conocidos, y 'probablemente', CSAM, según LAION.
“LAION ha estado comprometida con la eliminación de contenido ilegal de sus conjuntos de datos desde el principio y ha implementado medidas apropiadas para lograr esto desde el principio,” escribió LAION en una publicación de blog. “LAION se adhiere estrictamente al principio de que el contenido ilegal se elimina lo antes posible después de que se conoce’.
Es importante tener en cuenta que los conjuntos de datos de LAION no contienen, y nunca han contenido, imágenes. Más bien, son índices de enlaces a imágenes y texto alternativo de imágenes que LAION ha recopilado, todos los cuales provienen de un conjunto de datos diferente, el Common Crawl, de sitios web y páginas web rasgados.
El lanzamiento de Re-LAION-5B se produce después de una investigación en diciembre de 2023 por el Observatorio de Internet de Stanford que encontró que LAION-5B, específicamente un subconjunto llamado LAION-5B 400M, incluía al menos 1,679 enlaces a imágenes ilegales extraídas de publicaciones en redes sociales y sitios web para adultos populares. Según el informe, 400M también contenía enlaces a 'una amplia gama de contenido inapropiado, incluida imágenes pornográficas, insultos racistas y estereotipos sociales dañinos’.
Aunque los coautores del informe de Stanford señalaron que sería difícil eliminar el contenido ofensivo y que la presencia de CSAM no necesariamente influye en la salida de los modelos entrenados en el conjunto de datos, LAION dijo que retiraría temporalmente LAION-5B.
El informe de Stanford recomendó que los modelos entrenados en LAION-5B 'deberían ser obsoletos y que la distribución debería cesar en la medida de lo posible’”. Quizás relacionado, la startup de IA Runway recientemente retiró su modelo Stable Diffusion 1.5 de la plataforma de alojamiento de IA Hugging Face; nos hemos puesto en contacto con la empresa para obtener más información. (Runway en 2023 se asoció con Stability AI, la empresa detrás de Stable Diffusion, para ayudar a entrenar el modelo original de Stable Diffusion).
Del nuevo conjunto de datos Re-LAION-5B, que contiene alrededor de 5.500 millones de pares de texto e imagen y fue lanzado bajo una licencia Apache 2.0, LAION dice que los metadatos pueden ser utilizados por terceros para limpiar copias existentes de LAION-5B eliminando el contenido ilegal coincidente'.
LAION enfatiza que sus conjuntos de datos están destinados para fines de investigación, no comerciales. Pero, si la historia sirve de indicación, eso no disuadirá a algunas organizaciones. Más allá de Stability AI, Google una vez utilizó los conjuntos de datos de LAION para entrenar sus modelos generadores de imágenes’.
“En total, se eliminaron 2.236 enlaces [a CSAM sospechoso] después de compararlos con las listas de enlaces e imágenes proporcionadas por nuestros socios,” continuó LAION en la publicación. “Estos enlaces también incluyen 1.008 enlaces encontrados por el informe del Observatorio de Internet de Stanford en diciembre de 2023… Instamos enérgicamente a todos los laboratorios de investigación y organizaciones que siguen utilizando el antiguo LAION-5B a migrar a los conjuntos de datos de Re-LAION-5B lo antes posible’.