Em 2 de julho último, a ANPD (Autoridade Nacional de Proteção de Dados) determinou a suspensão da vigência da nova Política de Privacidade da Meta, anunciada em 26 de junho, permitindo que os dados gerados e publicamente disponíveis em suas plataformas – Facebook, Instagram, Messenger e WhatsApp – sejam utilizados no treinamento de sistemas de IA generativa (exclui apenas o conteúdo de “mensagens privadas entre amigos e familiares”). A prática é igualmente adotada pela OpenAI e Google, e todos os demais modelos de LLMs (large language models).
A decisão da ANPD baseou-se na inadequação com a base legal de “legítimo interesse”, falta de transparência no acesso ao dispositivo (opt-out) que permite ao usuário se opor à utilização de seus dados pessoais, e ausência de salvaguardas para o tratamento de dados sensíveis (dados de crianças e adolescentes). Existem diversos pareceres disponíveis na internet, entre outros, da Data Privacy Brasil e do VLK Advogados (“Explorando a decisão da ANPD – Treinamento de IA”, 04 de julho); ambos analisam detalhadamente os argumentos da ANPD e os contra-argumentos da Meta. Essa decisão, contudo, tem questões mais abrangentes que valem ser investigadas.
Primeiramente, as motivações políticas:
a) ao “enquadrar” a Meta, a ANPD gera um efeito sistêmico sobre todas as big techs, representa uma primeira intervenção na atual “terra de ninguém”;
b) a última versão do PL 2338, elaborada pela Comissão Temporária do Senado com o propósito de estabelecer o Marco Regulatório de IA no Brasil, sugere a ANPD como a entidade responsável por coordenar a SIA (Sistema Nacional de Regulação e Governança de Inteligência Artificial). Com essa decisão, a ANPD tenta demonstrar que está apta a exercer a função, o que tem sido contestado pela sua atuação limitada na fiscalização da LGPD, pelo risco de considerar a IA apenas pelo prisma da proteção de dados, e pela lacuna de conhecimento especializado; e
c) em novembro acontece o encontro do G20 no Rio de Janeiro sob a presidência brasileira, e o tema da governança de IA está na pauta.
Do ponto de vista técnico,
a) os dados publicamente disponíveis online são captados por meio de uma técnica conhecida como “crawling”: processo no qual os bots dos mecanismos de pesquisa (também conhecidos como “rastreadores da web” ou “spiders”) descobrem o conteúdo de um site – texto, imagens, vídeos ou outros tipos de arquivo -, formando datasets sem nenhuma curadoria (ou seja, incluem conteúdos problemáticos como imagens explícitas de estupro, pornografia, estereótipos malignos, insultos racistas e étnicos, além de desconsiderar as proteções de direitos autorais estabelecidas pelos criadores do conteúdo original); e
b) o processo de treinamento dos sistemas de IA transforma os dados pessoais originais – como número de cartão de crédito, números de previdência social, informações de saúde, endereço, conta bancária – em “tokens”, que são as unidades básicas de texto ou código que um LLM AI usa para processar e gerar linguagem; os tokens podem ser caracteres, palavras, subpalavras ou outros segmentos de texto ou código. A tokenização é fundamental nos modelos de IA porque padroniza a entrada dos dados e reduz a dimensionalidade, permitindo que os modelos de IA capturem características do texto e relações entre as palavras. Em seguida, os tokens são convertidos para representações numéricas (linguagem matemática das máquinas ou sistemas maquínicos). Especialistas creem que seja possível recuperar os tokens originais, embora não seja uma operação trivial e garantida, revertendo a anonimização dos dados com alguma precisão e a um custo computacional bem alto. Os dados são a matéria-prima dos modelos de IA: quantidade e qualidade (diversidade) são diretamente relacionados com a acurácia dos resultados, o desafio é equacionar a necessidade intrínseca aos modelos com questões éticas como a privacidade e dados tendenciosos (ou enviesados).
Outro aspecto a ser considerado é que o futuro da inteligência artificial no Ocidente, mantido o cenário atual, depende das big techs, que controlam a pesquisa, o desenvolvimento e a implementação da IA (inclui o poder computacional para processar os modelos intensivos em dados em seus data centers espalhados pelo mundo – “computação em nuvem”). É baixa a probabilidade de o Brasil se capacitar com infraestrutura adequada, particularmente capacidade de processamento.Talvez um caminho seja estabelecer acordos de colaboração com as big techs, americanas e chinesas, oferecendo consumo eficiente de energia para a instalação de data centers no Brasil com nossa matriz energética (85% de energia renovável); em contrapartida, garantir o acesso diferenciado para as nossas organizações.
O atrativo desse suposto acordo de colaboração para as big techs é reduzir os custos de infraestrutura. A monetização dos massivos investimentos em infraestrutura de IA pelas big techs ainda não se materializou em receitas; relatório da Sequoia Capital prevê uma receita agregada de US$ 600 bilhões por ano para pagar pela infraestrutura de IA, ou seja, embora o potencial da IA seja enorme, as gigantes de tecnologia e as startups ainda precisam inventar aplicativos lucrativos e reduzir os custos de infraestrutura.
Em 4 de julho, a coluna consultou o especialista europeu Philipp Hacker, profundamente envolvido nos processos regulatórios na Europa.
Época Negócios: Esta semana, a autoridade de proteção de dados no Brasil ordenou que a Meta suspendesse temporariamente o uso de dados brasileiros para treinar modelos generativos de IA, alegando que isso vai contra o “interesse legítimo”. Por um lado, parece justo exigir mais transparência e cumprimento de normas/leis por parte das big techs. Por outro lado, essas medidas podem inviabilizar modelos de negócio ou comprometer a capacidade de gerar soluções de IA amplamente adotadas. Como conciliar interesses conflitantes e minimizar as influências políticas nas decisões?
Philipp Hacker: Tem razão em realçar a tensão entre a necessidade de transparência e conformidade com as normas e o impacto potencial nos modelos de negócio e na inovação da IA. Será difícil conciliar as práticas generativas de IA com o GDPR, em geral. Aqui estão algumas sugestões para reconciliar esses interesses conflitantes e, ao mesmo tempo, minimizar as influências políticas nas decisões:
1. Dados fortemente anonimizados: Uma abordagem é garantir que todos os dados usados para treinar modelos de IA sejam totalmente anonimizados. Isso significa retirar qualquer informação pessoal identificável dos conjuntos de dados para proteger a privacidade dos indivíduos e, ao mesmo tempo, permitir que a IA aprenda com padrões amplos. Investir em tecnologias como “differential privacy” (algoritmo de privacidade diferencial, injeta dados aleatórios em um conjunto de dados para proteger a privacidade individual), “federated learning” (aprendizado federado é uma forma de treinar modelos de IA garantindo que seus dados permaneçam ocultos) e “homomorphic encryption” (criptografia homomórfica é a conversão de dados em texto cifrado que pode ser analisado e trabalhado como se ainda estivesse em sua forma original) pode permitir que as empresas utilizem os dados de uma forma que respeite a privacidade, ao mesmo tempo viabilizando o desenvolvimento de modelos avançados de IA.
2. Mecanismos de consentimento robustos: Empresas como a Meta poderiam implementar mecanismos de consentimento mais transparentes e robustos, em que os usuários sejam totalmente informados e optem ativamente por ter os seus dados utilizados para fins de formação em IA. Isto estaria alinhado com os princípios das leis de proteção de dados, como o GDPR.
3. Diálogo Multilateral: As empresas devem envolver-se ativamente no diálogo com reguladores, decisores políticos e partes interessadas de diferentes regiões para garantir que as suas práticas estejam em conformidade com as diversas expectativas jurídicas e culturais. Isto pode ajudar a harmonizar as normas e reduzir o risco de decisões com motivação política.
4. Supervisão Independente: A criação de organismos de supervisão verdadeiramente independentes para monitorizar e auditar o desenvolvimento da IA; a utilização de dados pode proporcionar uma camada adicional de responsabilização e tranquilizar o público e os reguladores de que os padrões legais e éticos estão sendo cumpridos.
A inteligência artificial é a tecnologia de propósito geral do século 21 e, como tal, está mudando a lógica de funcionamento da economia e da sociedade; a IA é estratégica para o futuro das organizações e dos países. Figura entre os desafios enquadrar as big techs nas normas e leis vigentes e futuras; atrair a instalação de data centers no Brasil com o uso de energias renováveis; estabelecer um acordo de colaboração entre as big techs e as autoridades brasileiras para viabilizar o desenvolvimento de IA; e identificar soluções inovadoras para os potenciais danos da IA. A criatividade para encontrar as melhores soluções, contudo, precisa ter base sólida no conhecimento da tecnologia.
Por Dora Kaufman