Um escritório de advocacia da Califórnia, nos EUA, abriu um processo coletivo contra a OpenAI (empresa por trás do ChatGPT). A alegação é de que sua inteligência artificial violou os direitos autorais e a privacidade de muitos usuários ao utilizar dados públicos da internet para treinar o modelo.
Ao Washington Post, um dos sócios do escritório, Ryan Clarkson, disse que a empresa quer representar “pessoas reais cujas informações foram roubadas e desviadas comercialmente para criar essa tecnologia muito poderosa”.
“Todas essas informações estão sendo tomadas em escala, mas nunca foram destinadas a serem utilizadas por um grande modelo de linguagem”, disse ele.
SOBRE. O processo pretende testar uma nova teoria jurídica que está se popularizando nos Estados Unidos.
A legalidade do uso de dados públicos para treinar IA ainda é uma questão em aberto. Alguns argumentam que todo conteúdo público na internet pode ser considerado fair use (uso justo, em tradução livre).
Mas essa nova teoria sustenta que a OpenAI violou os direitos de milhões (provavelmente bilhões) de usuários ao não solicitar o consentimento antes de usar publicações na internet para testar seu modelo de inteligência artificial.
Por conta dessas complicações e precedentes de direitos autorais e privacidade, alguns blogs, veículos e até redes sociais estão pensando em maneiras de impedir que seu conteúdo seja usado para treinar modelos de IA sem o pagamento devido.
Inclusive, esse é um dos motivos que recentemente o Reddit decidiu privatizar sua API — revoltando seus usuários.
VALE SABER QUE… A OpenAI não revela detalhes sobre os dados utilizados em seu mais recente modelo, o GPT4, mas investigações apontam que versões anteriores do modelo foram alimentadas com dados da Wikipédia, reportagens e posts nas redes sociais. O Bard, do Google, também usa um conjunto de dados semelhante.
Via Washington Post (em inglês)