Línguas humanas são um produto social da capacidade cognitiva para a linguagem. Isso significa que o fato de falarmos Português Brasileiro depende, em parte, da nossa configuração cerebral, desenvolvida ao longo da evolução da espécie, e, em parte, às condições sócio-históricas em que utilizamos essa capacidade para adquirir uma língua específica.
Línguas são, portanto, dispositivos culturais compartilhados entre os membros de uma comunidade e, como todo produto da cultura, elas permitem a expressão de ideias, valores e julgamentos que fazem sentido dentro daquela comunidade. A capacidade cognitiva para a linguagem, portanto, comporta um aspecto mais transcultural, mais genericamente aplicável a todo e qualquer ser humano, porque está ancorada em aspectos biológicos. A aplicação dessa capacidade na aquisição de uma língua específica a ancora em um momento histórico, no qual emergem os valores que uma sociedade tem. Uma língua específica também permite aos membros dessa comunidade discutirem esses valores, engajarem-se no debate democrático e, eventualmente, propor novos valores que sejam menos excludentes ou que contemplem uma diversidade maior de subgrupos dessa sociedade.
E o que isso tem a ver com o PBIA?
Tudo. A centralidade dos LLMs, ou Grandes Modelos de Língua, no debate atual sobre IA é inescapável. Eles estão na base de uma infinidade de aplicações de IA e são, de forma esperada, citados em diversas das ações estratégicas previstas no plano: do chatbot para melhoria do acesso de idosos à saúde ao sistema de fiscalização para a Receita Federal. LLMs são, em si mesmos, o objeto de uma das ações do plano, intitulada IA baseada em dados nacionais (LLM em português). A ação prevê apoio para a curadoria de datasets nacionais para o desenvolvimento de LLMs para o português brasileiro e lista como desafio “criar e aprimorar bases de dados nacionais para treinamento de IA, reduzindo a dependência externa e contemplando a diversidade e as especificidades do Brasil”.
Não fica claramente delineado no plano o que se toma por curadoria e por dependência externa, mas é possível ainda assim discutir ambas as questões. Primeiramente, cabe pontuar que qualquer modelo de língua, para ser treinado, requer curadoria de dados. O que se discute, portanto, não é a existência da curadoria, mas, sim, a sua extensão e profundidade. O simples fato de escrever um script que navegue por sites terminados em “.br” coletando todo e qualquer texto —independentemente do conteúdo ou de questões de direito autoral— para ser usado no treinamento de um modelo é curadoria. Trata-se de uma curadoria responsável? Certamente não, mas é uma escolha humana que terá impactos no resultado do modelo. Isso é curadoria de dados.
No extremo oposto, tem-se iniciativas de curadoria de dados que buscam não só escolher os dados coletados, respeitando direitos autorais e filtrando conteúdos ofensivos, mas também anotar esses dados com metadados (etiquetas) que permitam um treinamento mais eficiente. Essa noção de curadoria requer que se entenda o segundo L da sigla LLM como língua e não como linguagem. Porque a curadoria se dá a partir de uma língua específica que representa uma cultura específica, no caso, a brasileira. Ler o L como linguagem abre caminho, por exemplo, para adotar como solução técnicas de transferência de aprendizagem, em que aquilo que um modelo aprendeu com base em dados de uma língua seja transferido para outra para a qual se disponibilizam menos dados de treinamento. Ignorar a distinção entre língua e linguagem, portanto, compromete a formulação adequada de estratégias de curadoria dos dados que serão usados no treinamento de LLMs.
Deixe um comentário