banner
Centro de notícias
Atendimento ao cliente excepcional

As vozes da IA ​​são difíceis de detectar, mesmo se você souber que o áudio pode ser falso

Jul 15, 2023

O áudio deepfake pode enganar as pessoas mesmo quando elas sabem que podem estar ouvindo uma voz gerada por IA – detectores alimentados por IA podem precisar ser aprimorados para ajudar as pessoas a distinguir deepfakes da fala humana autêntica

Por Jeremy Hsu

2 de agosto de 2023

Você poderia dizer se estava ouvindo uma voz gerada por IA?

Shutterstock/fizkes

Mesmo quando as pessoas sabem que podem estar ouvindo uma fala gerada por IA, ainda é difícil para os falantes de inglês e mandarim detectar com segurança uma voz falsa. Isso significa que milhares de milhões de pessoas que compreendem as línguas mais faladas no mundo estão potencialmente em risco quando expostas a fraudes falsas ou a desinformação.

Kimberly Mai, da University College London, e seus colegas desafiaram mais de 500 pessoas a identificar falas falsas entre vários clipes de áudio. Alguns clipes continham a voz autêntica de uma locutora lendo frases genéricas em inglês ou mandarim, enquanto outros eram deepfakes criados por IAs generativas treinadas em vozes femininas.

Consulte Mais informação:

O concreto que armazena energia pode formar a base para casas movidas a energia solar

Anúncio

Os participantes do estudo foram designados aleatoriamente para duas configurações experimentais possíveis diferentes. Um grupo ouviu 20 amostras de voz na sua língua nativa e teve que decidir se os clipes eram reais ou falsos.

As pessoas classificaram corretamente os deepfakes e as vozes autênticas em cerca de 70% das vezes, tanto para as amostras de voz em inglês quanto em mandarim. Isso sugere que a detecção humana de deepfakes na vida real provavelmente será ainda pior porque a maioria das pessoas não saberia necessariamente de antemão que poderiam estar ouvindo fala gerada por IA.

Um segundo grupo recebeu 20 pares de clipes de áudio escolhidos aleatoriamente. Cada par apresentava a mesma frase falada por um humano e pelo deepfake, e os participantes foram solicitados a sinalizar o falso. Isto aumentou a precisão da detecção para mais de 85 por cento – embora a equipe reconhecesse que este cenário dava aos ouvintes uma vantagem irrealista.

Inscreva-se em nosso boletim informativo The Daily

As últimas notícias científicas entregues em sua caixa de entrada, todos os dias.

“Esta configuração não é totalmente representativa dos cenários da vida real”, diz Mai. “Os ouvintes não seriam informados de antemão se o que estão ouvindo é real, e fatores como sexo e idade do locutor poderiam afetar o desempenho da detecção.”

O estudo também não desafiou os ouvintes a identificar se os deepfakes soam ou não como a pessoa alvo que está sendo imitada, diz Hany Farid, da Universidade da Califórnia, Berkeley. Identificar a voz autêntica de oradores específicos é importante em cenários da vida real: os golpistas clonaram as vozes dos líderes empresariais para induzir os funcionários a transferir dinheiro, e as campanhas de desinformação carregaram deepfakes de políticos conhecidos nas redes sociais.

Consulte Mais informação:

Seda artificial de aranha pode nos ajudar a coletar água potável do ar

Ainda assim, Farid descreveu essa pesquisa como ajudando a avaliar o quão bem os deepfakes gerados por IA estão “se movendo através do vale misterioso”, imitando o som natural das vozes humanas sem reter diferenças sutis de fala, o que pode parecer estranho para os ouvintes. O estudo fornece uma base útil para sistemas automatizados de detecção de deepfakes, diz ele.

Tentativas adicionais de treinar os participantes para melhorar a detecção de deepfakes geralmente falharam. Isso sugere que é importante desenvolver detectores deepfake alimentados por IA, diz Mai. Ela e seus colegas estão tentando testar se grandes modelos de linguagem capazes de processar dados de fala podem dar conta do recado.

Referência do diário: