Os agentes de IA são a bola da vez do mundo da tecnologia, mas a gente tem pouca ideia do que esses robôs autônomos, que tomam a iniciativa de fazer ações sem que a gente peça, podem fazer. Pesquisadores colocaram esses agentes para operar num ambiente que simulava a realidade: podiam acessar e-mail, mecanismos de comunicação como o Discord, acessar base de dados e simular a execução de tarefas. Quando têm poucas amarras e poucos freios, esses agentes podem fazer coisas desconfortáveis: vazar dados sensíveis, excluir arquivos importantes, obedecer outras pessoas sem autorização, consumir recursos descontrolados e tentar se passar por outras pessoas.
Helton Simões Gomes
Diogo Cortiz explica que o trabalho, publicado na revista Science, usou a metodologia de “red team”, quando pesquisadores de cibersegurança tentam atacar um sistema para expor falhas e vulnerabilidades.
Eles criaram um “laboratório vivo” para a construção desses agentes, para que as pessoas pudessem interagir com eles, e depois fizeram de tudo para quebrar o sistema: fazer o agente se comportar de forma não prevista, ter um comportamento indevido, e a partir disso entender as dificuldades. Eles reuniram 20 pesquisadores de IA para testar, estressar e quebrar os agentes com diferentes atividades: engenharia social, impersonação, exaustão de recursos e prompt injection. E encontraram mais de 11 estudos de caso com problemas
Diogo Cortiz
Um dos exemplos discutidos no programa mostra como o agente é capaz de esconder informação do próprio dono e ainda tomar medidas desproporcionais para cumprir uma orientação de uma pessoa totalmente desconhecida.
Ele não só guardou o segredo e não contou para o dono, como tomou uma medida totalmente desproporcional. ‘Pra ninguém’ incluía o dono. Só que, se o dono ler os e-mails, ele pode descobrir. Então, ele desativou o acesso dele ao e-mail.
Diogo Cortiz
Para Helton, o caso é um alerta sobre confiança: o usuário espera que um agente de IA “fale em seu nome” e responda somente ao seu comando, não a alguém “mal intencionado” tentando manipular o sistema.












Deixe um comentário