O cientista-chefe de dados da Intel, Melvin Greer, que apesar dos dados moverem o mundo da tecnologia e da inteligência artificial, a prerrogativa principal para termos os dados no mundo hoje são porque temos pessoas que os utilizam e por isso, as empresas e governos precisam de mais prudência em seu uso.
“Não me diga que os ‘dados são o novo bacon’ e ‘dados são o novo óleo’. Já ouvi todo tipo de analogia possível. Deixe-me dizer o que dados realmente são: dados são pessoas. Dados são você (usuário) e eu. Porque são os seus dados que as pessoas estão usando”, completou o especialista, durante evento organizado pela companhia na Amcham, em São Paulo, no último dia 29.
“Todos os dias, você (usuário) gera cerca de 3,9 terabytes de dados que precisam ser armazenados, protegidos, compartilhados, etiquetados e analisados. Portanto, essa ideia de uso ético e responsável da IA é um fator crucial para os líderes”, disse Greer.
Em conversa com Mobile Time logo após sua palestra, o especialista reforçou que apesar de ser baseado em décadas de trabalho da indústria de tecnologia, a “inteligência artificial é um negócio que é feito para as pessoas”. Mas o problema é que empresas e governos começam a usar a IA para tomar decisão sobre a vida das pessoas quando elas não estão presentes, como um banco ao usar o algoritmo para aprovar um empréstimo e a pessoa que pleiteia o crédito não está presente para se defender. Logo, um banco não tem noção das consequências indesejadas que podem gerar às pessoas.
“Por isso precisamos ter mais pessoas focadas em pessoas. No nosso caso, na Intel, nós passamos a contratar linguistas, sociólogos e antropólogos. Ou seja, são profissionais que não têm histórico tecnológico e podem ajudar a identificar e determinar o que é justo ou razoável em uma tomada de decisão”, concluiu.
Liderança, governança e estratégia
Greer afirmou ainda que a mudança deve começar na liderança. Isso significa que líderes das indústrias e dos governos devem passar por mais treinamento para terem mais habilidade ao abordarem estruturas éticas com práticas responsáveis, princípios e diretrizes. Algo que culmina em ter governança e ética de dados como prerrogativa no top of mind do ecossistema em IA.
“O que vemos é uma imensa pressão das partes interessadas, como acionistas e clientes para (as empresas) implementarem soluções de IA. E o que nós da Intel temos levado muito a sério é aconselhar aos nossos clientes a se concentrarem no desenvolvimento de uma estratégia de dados e uma capacidade de governança de dados antes de pular diretamente para uma estratégia de implementação de IA”, explicou.
Essa criação de estratégia de dados e governança de dados não precisa ser uma pessoa ou uma nova cadeira, mas alguém dentro de uma organização que lidere um comitê e dê conselhos para a companhia como tratar os dados. Inclusive com a devida higiene de dados que deve ser feita desde cedo.
“Queremos a higiene de dados quando os dados são criados. Mas, normalmente, a aplicamos apenas depois que eles são criados e armazenados em algum lugar e alguém os utiliza algumas vezes. E, nesse caso, a higiene de dados é mais difícil”, disse ao comparar com a higiene bucal. “É como uma boa higiene bucal. Damos a elas escovas de dente quando são crianças, para que, quando chegarem aos 60 ou 70 anos, ainda tenham dentes. Não queremos dar a elas escovas de dente quando tiverem 50 anos, porque, nessa altura, já terão acontecido coisas ruins”, completou.
Data starving e Data poisoning
Dois temas bem peculiares à cultura de dados e inteligência artificial que Greer trouxe para a conversa foram os riscos com data starving (fome de dados, na tradução livre do inglês) e data poisoning (envenenamento de dados, na tradução do inglês).
O data starving é a técnica usada para influenciar modelos de fundação com a eliminação de grandes porções de dados de modelos abertos para não se beneficiarem dos dados que têm. Como uma empresa decide não colocar seus dados em um modelo treinado e acabam gerando uma fome de dados que só é substituída com o pagamento de dados externos. Isso em uma forma sem uso danoso. Mas existe também uma versão que causa danos, com pessoas que trabalham para esconder os dados reais para que não sejam encontrados – vide criminosos que aplicam fraudes financeiras.
Por sua vez, o data poisoning é quando as pessoas inserem dados que sabem que são errados dentro de um modelo com intuito de influenciar negativamente o modelo de fundação. O cientista-chefe de dados da Intel deu como exemplo, uma pessoa usar o nome de outra para dar golpe de empréstimo.
“Digamos que, em vez de eu colocar meu nome no financiamento do meu carro, eu coloco em outro nome [um laranja]. Então, insiro o nome do laranja e enveneno os dados financeiros para ele receber os empréstimos”, explicou.
Para combater essas duas vertentes que podem causar danos irreparáveis ao ecossistema que utiliza a IA, Greer afirmou que é preciso ter muito claro a origem dos dados e ter maneiras de verificar e determinar se esses dados são de fato verdadeiros e confiáveis.
Fim dos dados? Longe disso
O cientista-chefe da Intel também foi perguntado sobre o fim dos dados públicos para treinamento e inferência de modelos de fundação, algo que foi preconizado em dezembro de 2024 por Ilya Sutskever, ex-cientista-chefe da OpenAI e reforçado recentemente pelo CEO da Scale AI, Alexandr Wang. Greer acredita que não teremos esse risco, pois o crescimento dos dados é exponencial no mundo.
“Nós estamos crescendo em dados muito rápido do que nós podemos internalizar ou compreender ou analisar ele. Não tenho ouvido sobre essa alegação do fim dos dados, mas não parece razoável, pois estamos criando muito mais. E não só nós (pessoas), os nossos sistemas criam dados, as ferramentas de IA generativa se comunicam entre si e agora com IA agêntica”, afirmou. “Há tantas fontes diferentes de dados que só consigo ver que elas vão continuar crescendo”, prevê.
Imagem principal: cientista-chefe de dados da Intel, Melvin Greer (Crédito: Henrique Medeiros/Mobile Time)