Escala AI usa baixo | Nantong Woofers Group Co., Ltd

Os maiores desenvolvedores de inteligência artificial do Vale do Silício têm um problema de linguagem. Ferramentas generativas de IA, como ChatGPT, prosperam em inglês e espanhol. Mas pesquisas iniciais mostram que essas mesmas ferramentas apresentam desempenho cronicamente inferior em linguagens de “poucos recursos” e menos representadas na Internet. Agora, um dos maiores fornecedores de dados de treinamento parece estar enfrentando esse problema de frente.

A Scale AI, uma das empresas de dados de treinamento mais proeminentes do Vale do Silício, está atualmente contratando para quase 60 cargos de redator contratado em dezenas de idiomas. Cada lista de empregos afirma que o trabalho é para um projeto para treinar “modelos geradores de inteligência artificial para se tornarem melhores escritores”. As línguas incluem Hausa, Punjabi, Tailandês, Lituano, Persa, Xhosa, Catalão e Zulu, entre muitas outras. Seis ofertas de emprego, na categoria “especialistas”, procuram contratar escritores especificamente para línguas regionais do Sul da Ásia, incluindo Kannada, Gujarati, Urdu e Telugu.

Existem disparidades salariais significativas entre as línguas, com as línguas ocidentais dominando até 15 vezes mais do que as do Sul Global. Por exemplo, o anúncio de emprego para escritores alemães paga US$ 21,55 por hora, em comparação com um anúncio para um especialista em telugu que oferece apenas US$ 1,43 por hora.

Muitas das línguas com salários mais baixos são consideradas de “poucos recursos” – ou seja, línguas que estão menos disponíveis na Internet, o que deixa os modelos de IA com dados escassos e muitas vezes pobres. Algumas das línguas mais faladas no mundo, como o urdu e o bengali, ainda se qualificam como de poucos recursos devido à sua escassa presença online. Escalar o uso de trabalhadores humanos pela IA para melhorar o desempenho linguístico de “poucos recursos” é uma mudança notável, de acordo com Julian Posada, professor assistente na Universidade de Yale e membro do Projeto Sociedade da Informação da faculdade de direito.

“Você já limpou toda a internet. Agora, você precisa obter os dados em outro lugar”, disse Posada ao Rest of World. “Isso pode indicar a necessidade não de dados aleatórios que você possa obter do 4chan, mas de dados que estão sendo construídos por alguém com experiência.”

Existem algumas explicações comuns para o motivo pelo qual os sistemas generativos de IA são tão ruins em linguagens com poucos recursos, de acordo com Dylan Hadfield-Mennell, professor assistente de inteligência artificial e tomada de decisão no Instituto de Tecnologia de Massachusetts (MIT).

“Uma [teoria] é que não há dados não supervisionados suficientes para construir bons modelos de, digamos, os padrões linguísticos em bengali”, disse Hadfield-Mennell ao Rest of World, observando quão pouco uma língua como esta é representada na Internet. Existem 270 milhões de falantes nativos de bengali – quase 3% da população mundial – mas ele é usado por apenas 0,013% de todos os domínios da web.

Uma tarefa descrita nas descrições de contratação da Scale AI pode ser tentar resolver esse problema: escrever um conto. Pedir aos trabalhadores de dados que produzam textos criativos sobre um determinado tópico numa língua como o bengali é uma forma de construir um novo corpo de textos digitalizados – um que não esteja vinculado aos domínios existentes da Internet.

Usar essas histórias originais, que seriam em sua maioria livres de discurso de ódio e de propriedade total dos desenvolvedores, poderia ter o benefício adicional de reduzir a necessidade de moderação de conteúdo no futuro, de acordo com Posada. Também poderia ajudar a evitar ações judiciais potencialmente dispendiosas, como a que está sendo considerada contra a OpenAI pelo The New York Times.

Embora a geração de novos dados seja uma solução, está claro que outras estratégias também estão em jogo. Outra tarefa nas ofertas de emprego pede aos redatores que “classifiquem uma série de respostas que foram produzidas por um modelo de IA”.

Para Hadfield-Mennell, esse é um exemplo claro de RLHF, ou “aprendizado por reforço a partir do feedback humano”. RLHF é uma técnica que se concentra em refinar os resultados de um modelo, em vez de apenas alterar os seus dados de entrada. Isso aborda outra teoria comum sobre por que os modelos estão lutando com linguagens de poucos recursos. “A outra possibilidade é que você esteja fundamentalmente perdendo o feedback sobre como escrever bem nessas línguas [de poucos recursos]”, disse ele.