Um modelo de inteligência artificial da Meta memorizou longos trechos de livros como Harry Potter e a Pedra Filosofal, de J.K. Rowling, e 1984, de George Orwell, revelou um estudo realizado por cientistas da computação e acadêmicos de direito das universidades americanas de Stanford, Cornell e West Virginia.
Para realizar a pesquisa, foram analisados cinco modelos de IA, três da Meta, um da Microsoft e um da EleutherAI e se cada um deles era capaz ou não de reproduzir trechos de 56 livros do Books3, um conjunto de dados que contém milhares de livros digitais, usado para treinar modelos de IA generativa – essa base de datas é polêmica, já que abriga diversas obras ainda protegidas por direitos autorais.
O estudo estimou que o mais recente dos modelos da Meta, o Llama 3.1 70B, lançado em julho de 2024, memorizou ao menos 42% de Harry Potter e a Pedra Filosofal de forma precisa. Além disso, a IA podia reproduzir trechos de 91% do livro, apesar de sem a mesma precisão. Em comparação, o Llama 1 65B, modelo similar lançado no ano anterior, havia memorizado apenas 4,4% do mesmo livro.
Implicações legais
As descobertas dos pesquisadores podem ter consequências importantes em processos coletivos por direitos autorais contra empresas de IA, já que sugerem que a Meta fez pouco para prevenir a memorização e reprodução de trechos de livros, apesar das implicações legais.
Mark A. Lemley, um dos autores do estudo, disse ao portal 404 Media que a pesquisa aponta que os modelos não estão nem apenas criando coisas novas – como defendem as empresas de IA generativa – e nem apenas reutilizando conteúdo já existente – como acusam autores -, mas sim armazenando livros inteiros, praticamente como uma cópia pirata.
Os pesquisadores também descobriram que o Llama 3.1 70B era mais provável de conseguir reproduzir trechos de livros mais populares do que de obras menos conhecidas. A IA conseguiu reproduziu em grande escala livros como 1984 e O Hobbit. Por outro lado, o modelo memorizou apenas 0,13% de Sandman Slim, de Richard Kadrey.
Essa divergência pode representar um problema para Kadrey, que está no centro de um processo contra a OpenAI e a Meta. Ao lado de outros escritores norte-americanos, ele acusa as empresas de usar dados de suas obras, adquiridos de forma ilegal, para criar conteúdo. O Books3 é citado no processo.
Como o estudo foi feito
É difícil provar como o Llama 3.1 70B consegue memorizar os livros, mas, segundo os pesquisadores, esses modelos são treinados a partir de “tokens”, relações matemáticas entre pequenos pedaços de dados. Esses tokens foram utilizados para a realização do estudo.
Os livros foram divididos em passagens sobrepostas de 100 tokens. Os 50 primeiros foram usados como prompts e os pesquisadores avaliaram os próximos 50. Para eles, uma passagem era considerada como “memorizada” se o modelo tivesse mais de 50% de chance de reproduzi-la palavra por palavra.
“É realmente improvável que o modelo consiga acertar as próximas 50 palavras se não as tiver memorizado”, afirmou ao portal 404 Media o professor James Grimmelmann, que também participou do estudo.