Novas pesquisas da Iniciativa de Proveniência de Dados descobriram uma queda dramática no conteúdo disponibilizado para as coleções usadas na construção da inteligência artificial.
Por anos, as pessoas que desenvolvem sistemas poderosos de inteligência artificial usaram enormes quantidades de texto, imagens e vídeos retirados da internet para treinar seus modelos. Agora, esses dados estão se esgotando.
No último ano, muitas das fontes web mais importantes usadas para treinar modelos de I.A. restringiram o uso de seus dados, de acordo com um estudo publicado esta semana pela Iniciativa de Proveniência de Dados, um grupo de pesquisa liderado pelo MIT.
O estudo, que analisou 14.000 domínios web incluídos em três conjuntos de dados de treinamento de I.A. comumente usados, descobriu uma “crise emergente de consentimento”, à medida que editores e plataformas online tomaram medidas para impedir que seus dados fossem colhidos.
Os pesquisadores estimam que nos três conjuntos de dados — chamados C4, RefinedWeb e Dolma — 5% de todos os dados, e 25% dos dados das fontes de mais alta qualidade, foram restringidos. Essas restrições são estabelecidas através do Protocolo de Exclusão de Robôs, um método de décadas para proprietários de sites evitarem que bots automatizados rastreiem suas páginas usando um arquivo chamado robots.txt.
O estudo também descobriu que até 45% dos dados em um conjunto, o C4, haviam sido restringidos pelos termos de serviço dos sites.
“Estamos vendo um rápido declínio no consentimento para usar dados em toda a web, o que terá ramificações não apenas para empresas de I.A., mas para pesquisadores, acadêmicos e entidades não comerciais,” disse Shayne Longpre, autor principal do estudo, em uma entrevista.
Os dados são o principal ingrediente nos sistemas de I.A. generativa de hoje, que são alimentados com bilhões de exemplos de texto, imagens e vídeos. Grande parte desses dados é extraída de sites públicos por pesquisadores e compilada em grandes conjuntos de dados, que podem ser baixados e usados livremente, ou suplementados com dados de outras fontes.
Aprender com esses dados é o que permite às ferramentas de I.A. generativa, como o ChatGPT da OpenAI, o Gemini do Google e o Claude da Anthropic, escrever, codificar e gerar imagens e vídeos. Quanto mais dados de alta qualidade são alimentados nesses modelos, melhores são os seus resultados.
Por anos, os desenvolvedores de I.A. puderam coletar dados com relativa facilidade. Mas o boom da I.A. generativa dos últimos anos levou a tensões com os proprietários desses dados — muitos dos quais têm receios de serem usados como alimento para o treinamento de I.A., ou pelo menos querem ser pagos por isso.
À medida que a reação cresceu, alguns editores configuraram paywalls ou mudaram seus termos de serviço para limitar o uso de seus dados para treinamento de I.A. Outros bloquearam os rastreadores automatizados usados por empresas como OpenAI, Anthropic e Google.
Sites como Reddit e StackOverflow começaram a cobrar das empresas de I.A. pelo acesso aos dados, e alguns editores tomaram medidas legais — incluindo o The New York Times, que processou a OpenAI e a Microsoft por violação de direitos autorais no ano passado, alegando que as empresas usaram artigos de notícias para treinar seus modelos sem permissão.
Empresas como OpenAI, Google e Meta foram a extremos nos últimos anos para reunir mais dados para melhorar seus sistemas, incluindo transcrever vídeos do YouTube e dobrar suas próprias políticas de dados.
Mais recentemente, algumas empresas de I.A. fecharam acordos com editores, incluindo a Associated Press e a News Corp, proprietária do The Wall Street Journal, dando-lhes acesso contínuo ao seu conteúdo.
Mas as restrições generalizadas de dados podem representar uma ameaça para as empresas de I.A., que precisam de um fornecimento constante de dados de alta qualidade para manter seus modelos atualizados.
Elas também podem significar problemas para pequenas empresas de I.A. e pesquisadores acadêmicos que dependem de conjuntos de dados públicos e não podem se dar ao luxo de licenciar dados diretamente dos editores. O Common Crawl, um desses conjuntos de dados que compila bilhões de páginas de conteúdo da web e é mantido por uma organização sem fins lucrativos, foi citado em mais de 10.000 estudos acadêmicos, disse Longpre.
Não está claro quais produtos populares de I.A. foram treinados nessas fontes, já que poucos desenvolvedores divulgam a lista completa de dados que usam. Mas conjuntos de dados derivados do Common Crawl, incluindo o C4 (que significa Colossal, Cleaned Crawled Corpus), foram usados por empresas como Google e OpenAI para treinar versões anteriores de seus modelos. Porta-vozes do Google e da OpenAI se recusaram a comentar.
Yacine Jernite, pesquisador de aprendizado de máquina na Hugging Face, uma empresa que fornece ferramentas e dados para desenvolvedores de I.A., caracterizou a crise de consentimento como uma resposta natural às práticas agressivas de coleta de dados da indústria de I.A.