Extrativismo digital

01 de abril de 2025

Migrei meu domínio para o Cloudflare e tive acesso a algumas métricas melhores mesmo utilizando o plano gratuito (comprei só o domínio). Meu site não tem nenhuma espécie de ferramenta para monitorar o tráfego. Simplesmente publico e compartilho com amigos e, a partir de hoje, vai para o Lerama.

Fuçando no painel do Cloudflare, eu verifiquei que meu blog teve bastantes acessos, muito mais do que eu poderia imaginar. Sempre brinquei com minha namorada que eu, ela e mais uns três amigos acessavam meu blog. Tive uma surpresa quando vi lá no painel os mais de 12 mil acessos nos últimos 30 dias.

Mas não foi uma surpresa boa. É claro que não existe esse número de pessoas interessadas em minhas publicações. Não sou pretensioso. Alguns desses acessos vieram de um compartilhamento que fiz no Reddit e no Órbita (meu plano não me permite [ou não sei como faz] ver o user-agent dos acessos), porém, a grande maioria, veio de IPs relacionados com a China.

Esses IPs fazem dezenas de acessos em menos de um segundo, extraindo a maior quantidade possível de dados. Como uso um servidor simples sem custo - Web 1.0 Hosting - não me afeta (somente moralmente), mas imagina isso em um serviço vital ou pequenos projetos em muito orçamento? Existem inúmeros exemplos em blogs por aí.

Desde que comecei a estudar, eu ouço falar dos problemas da extração de recursos naturais em nosso planeta. Muitas pessoas estão dedicadas a projetos que diminuam ou acabem totalmente com o modelo de produção extrativista.

Imagens de minas enormes, paisagens dizimadas, extinção de fauna são somente alguns dos exemplos do que o modelo de produção extrativista causa em nosso planeta. No Brasil, temos as tragédias de Mariana, Brumadinho e o desastre Maceió como demonstração do potencial destrutivo da extração desenfreada de minerais.

Na internet, estamos apenas no começo. As grandes empresas de tecnologia estão sedentas por dados para treinar seus grandes modelos de linguagem. Elas estão diante de uma enorme mina de ouro e ainda há espaço pra todo mundo, mas precisamos olhar para o passado para não cometermos os mesmos erros no futuro.

Os rejeitos dessa mineração ja estão disponíveis em diversos blogs e sites institucionais. Quem nunca pesquisou alguma coisa no ultimo ano e se deparou com algum artigo prolixo que não leva a lugar nenhum e te deixa com mais dúvida (e raiva) do que antes do momento da pesquisa?

Existem também processos de grandes veículos de comunicação contra empresas que estão obtendo seus dados sem autorização e utilizando sem dar os devidos créditos. Outras pessoas conseguiram ser ressarcidos pelo valor extra com servidor por conta dos robôs raspando suas páginas indefinidamente.

Mas situações individuais não resolverão o problema. É preciso políticas públicas para coibir esses atos e penalização exemplares para as empresas que descumprirem as medidas. Assim como, hoje, pessoas são multadas por pirataria, as empresas que lucram com esse modelo de negócio também deveriam ser punidas. Sim, considero OpenAI, Meta, Google e cia. empresas de pirataria legalizada.

Não me levem a mal. Eu também utilizo as ferramentas. Uso pra programar esse blog, tirar dúvida em relação a códigos nos meus outros projetos, gerei a imagem no estilo Studio Ghibli a partir de uma foto minha com minha namorada. É uma evolução inegável e uma ferramenta que tem ajudado muitas pessoas por aí, inclusive médicos e pacientes com doenças raras.

Só que a gente precisa pensar para evitar que estragos como o do "extrativismo físico" aconteçam no nosso mundo digital. Quando os dados acabarem, o que essas empresas irão fazer? Os autores que tiveram seus livros, artes, filmes, enfim, todo tipo de criação utilizadas para treinar essas máquinas irão ser reconhecidos e recompensados?

Ou as empresas simplesmente vão ignorar todo o estrago e deixar o monte de rejeitos para todos nós nos afogarmos nesse mar de conteúdo gerado por IA?