A Cloudflare desenvolveu uma solução batizada como “pay per crawl” para que os donos de sites cobrem uma tarifa de acesso a robôs que coletam seu conteúdo para finalidades diversas, como o treinamento de grandes modelos de linguagem natural (LLMs).
Hoje em dia, os sites precisam escolher entre liberar ou bloquear totalmente o acesso desses robôs às suas páginas. A proposta da Cloudflare é viabilizar uma terceira via, em que o dono do site decide quais robôs podem ver seu conteúdo e quais precisam pagar uma taxa, também definida previamente.
O “pay per crawl” está funcionando em um teste beta privado. Em sua mecânica, a Cloudflare atua como intermediadora dos pagamentos. Os robôs precisam ser cadastrados em seu sistema para conseguirem pagar, assim como os sites também precisam utilizar a a infraestrutura da Cloudflare para ter acesso à solução de “pay per crawl”. A Cloudflare se encarrega de repassar os pagamentos para os sites.
Nada impede, contudo, que um site negocie diretamente com o representante de um robô o acesso ao seu conteúdo e configure na Cloudflare a sua liberação, ou seja, dispensando a intermediação de pagamento da empresa.
Nessa primeira versão, a solução permite apenas o pagamento para acesso a todo o conteúdo de um site. Mas espera-se que no futuro seja possível ter maior flexibilidade, com uma precificação dinâmica, que pode variar, por exemplo, de acordo com o conteúdo acessado no site.
A Cloudflare detalha tecnicamente como funciona a solução em seu blog, mas não informa se reteria parte do pagamento como comissão pela utilização do “pay per crawl”.
Análise
O uso de conteúdo na Internet para o treinamento de LLMs é responsável por uma das mais recentes disputas legais no mundo da tecnologia. Alguns grandes veículos de imprensa e editoras de livros têm recorrido aos tribunais acusando empresas como a OpenAI, criadora do ChatGPT, de infringir seus direitos autorais ao usar seu conteúdo para treinamento de IA sem qualquer remuneração ou autorização.
O “pay per crawl” pode solucionar a questão, mas também pode gerar novos problemas jurídicos. O advogado especializado em direito digital Rafael Pellon questiona se essa ferramenta não feriria a neutralidade da Internet, princípio previsto Marco Civil da Internet.
“A neutralidade de rede pressupõe tratamento isonômico dos dados. O artigo 9º (do MCI) determina que os responsáveis pela transmissão, comutação ou roteamento de dados devem tratar de forma igualitária quaisquer pacotes de dados, sem distinção por conteúdo, origem, destino, serviço, terminal ou aplicação. As operadoras de internet não podem discriminar, bloquear, acelerar ou retardar o tráfego de dados com base em interesses comerciais ou no tipo de conteúdo acessado pelo usuário. E os provedores não podem cobrar valores diferentes dos usuários em função do que acessam. A cobrança só pode ser feita pela velocidade de conexão, não pelo tipo de site ou serviço acessado”, explica.
A ilustração no alto foi produzida por Mobile Time com IA