banner
Centro de notícias
Atendimento ao cliente excepcional

Empresas de IA enfrentam acerto de contas com a coleta de dados

Jul 14, 2023

Olá e bem-vindo ao Eye on AI Na semana passada, 12 vigilantes da proteção de dados de todo o mundo se reuniram para emitir uma declaração conjunta abordando a coleta de dados e seus efeitos na privacidade.

A declaração – assinada por autoridades de privacidade da Austrália, Canadá, México, China, Suíça, Colômbia, Argentina e Reino Unido, para citar alguns – visa operadores de sites, especificamente empresas de mídia social, e afirma que eles têm obrigações sob proteção de dados e leis de privacidade para proteger as informações em suas plataformas contra coleta ilegal de dados. Mesmo as informações pessoais acessíveis ao público estão sujeitas a estas leis na maioria das jurisdições, afirma a declaração. Notavelmente, a declaração também descreve que os incidentes de recolha de dados que recolhem informações pessoais podem constituir violações de dados relatáveis ​​em muitas jurisdições.

Além de publicar o comunicado, os autores afirmam que o enviaram diretamente para Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook e Threads), Microsoft (LinkedIn), Sina Corp (Weibo) e X Corp. (X, anteriormente Twitter). Eles também sugerem uma série de controles que essas empresas deveriam implementar para proteger os usuários contra danos associados à extração de dados, incluindo a designação de uma equipe para monitorar e responder às atividades de coleta de dados.

Os danos potenciais descritos incluem ataques cibernéticos, fraude de identidade, vigilância, coleta política ou de inteligência não autorizada e marketing e spam indesejados. Mas embora a inteligência artificial não seja mencionada nenhuma vez na declaração, ela está se tornando cada vez mais um ponto importante nesta questão.

Raspar a Internet – incluindo as informações em sites de mídia social – é exatamente como potências de IA como OpenAI, Meta e Google obtiveram grande parte dos dados para treinar seus modelos. E apenas nas últimas semanas, a coleta de dados emergiu como uma importante frente de batalha no novo cenário da IA. O New York Times, por exemplo, no início deste mês atualizou seus termos de serviço para evitar a extração de seu conteúdo pela IA, e agora o editor está explorando processar a OpenAI por causa do assunto. Isso segue uma proposta de ação coletiva contra a OpenAI e a investidora Microsoft, movida em junho, que alegou que a empresa extraiu secretamente informações pessoais de centenas de milhões de usuários da Internet sem aviso prévio, consentimento ou apenas compensação.

É extremamente improvável que uma carta com palavras fortes tenha impacto em qualquer coisa que esses gigantes da tecnologia façam, mas ações judiciais e regulamentações contra a coleta de dados poderiam muito bem. Na UE, onde a privacidade dos dados e agora a regulamentação da IA ​​estão a evoluir com bastante rapidez, por exemplo, a recolha de dados está a ser cada vez mais examinada pelos órgãos governamentais.

Em sua essência, a IA trata de dados. Portanto, isso levanta a questão: se as empresas não conseguirem coletar dados livremente, onde conseguirão os dados necessários para treinar seus modelos?

Uma opção são os dados sintéticos, que se referem a informações geradas artificialmente, em vez de criadas por eventos do mundo real. Este processo envolve frequentemente, mas nem sempre, a utilização da própria IA para criar um grande conjunto de dados sintéticos a partir de um conjunto mais pequeno de dados do mundo real, com os dados sintéticos resultantes a espelharem as propriedades estatísticas dos dados do mundo real.

Contanto que os dados originais não sejam copiados, esta pode ser uma solução viável. A Gartner estima que os dados sintéticos ultrapassarão os dados do mundo real em modelos de IA até 2030. Mas os dados sintéticos têm as suas desvantagens. Por exemplo, pode ignorar valores discrepantes, introduzir imprecisões e, idealmente, envolver etapas extras de verificação que retardam o processo. E embora algumas empresas afirmem que os dados sintéticos eliminam preconceitos, muitos especialistas refutam isso e veem maneiras pelas quais algumas formas de dados sintéticos podem realmente introduzir preconceitos adicionais nos conjuntos de dados.

Outra solução potencial são os dados primários opcionais. Ao contrário de como os dados do mundo real têm sido historicamente copiados, usados ​​sem permissão e até mesmo vendidos por usuários, estes são dados do mundo real que são opcionais e fornecidos voluntariamente.