Mais de mil imagens reais de exploração sexual infantil foram encontradas no LAION-5B, o maior banco de dados utilizado para treinar geradores de imagem por inteligência artificial, como o Stable Diffusion.
A descoberta é do Observatório da Internet da Universidade de Stanford, nos Estados Unidos, que já conduziu pesquisas sobre abuso infantil no Instagram, Mastodon e outras redes e plataformas.
INVESTIGAÇÃO. O novo relatório publicado pelo laboratório de Stanford revela que o LAION-5B, mantido por uma organização sem fins lucrativos da Alemanha, contém ao menos mil imagens de material exploratório em sua base.
A investigação também identificou outras três mil imagens em outro conjunto de dados da organização.
Esse material de abuso, indica a pesquisa, foi coletado de várias fontes, incluindo Reddit, X (antigo Twitter), WordPress, Blogspot e sites de pornografia.
REMOÇÃO. Após a publicação do relatório, um porta-voz disse à Bloomberg que a organização alemã estava fazendo “remoção temporária dos conjuntos de dados da LAION da internet” devido à “política de tolerância zero” para conteúdo ilegal.
NÃO É TÃO SIMPLES. Mesmo com a atualização do conjunto, essas imagens persistem nos repositórios de treinamento dos geradores de IA já lançados.
O relatório destaca o Stable Diffusion 1.5 como o modelo mais popular para gerar imagens explícitas, uma vez que os geradores posteriores da Stability AI filtram a maior parte do conteúdo considerado inseguro, dificultando a geração de conteúdo explícito ou ilegal.
Esse modelo específico é muito utilizado para criar deepnudes de mulheres sem consentimento, problema já reportado pelo Núcleo.
DÁ PRA TIRAR DO AR? Impedir a circulação desse tipo de material é difícil, devido à natureza de código aberto do Stable Diffusion, que exige a hospedagem do modelo pelos próprios usuários.
OUTRO LADO. Um porta-voz da Stability AI afirmou que a empresa está “comprometida em evitar o uso indevido de IA e proíbe a utilização de nossos modelos e serviços de imagem para atividades ilícitas, incluindo tentativas de editar ou criar” material de abuso infantil.
Via Ars Technica e Stanford Internet Observatory (ambos em inglês)