Por que os detectores de IA cometem erros e podem ser perigosos

Há poucos dias, a resposta do sistema, que foi criado para determinar se o conteúdo foi criado por inteligência artificial, surpreendeu o público e levantou uma questão preocupante: estamos numa época em que não será mais possível distinguir as produções humanas daquelas criadas pela inteligência artificial?

O instrumento foi consultado com este texto. “Era uma noite escura de novembro quando pensei no culminar de meus esforços. Com uma ansiedade quase beirando a agonia, reuni ao meu redor os instrumentos da vida, para que pudesse soprar a centelha do ser na coisa inerte a meus pés; Quase exausto, quando, na luz fraca e quase extinta, vi o olho amarelo opaco da criatura se abrir, e ela respirava com dificuldade, e um movimento convulsivo sacudia seus membros;

Os leitores mais exigentes reconhecerão o texto como parte da obra frankenstein, Um romance escrito pela famosa Mary Shelley há 200 anos. Agora a surpresa veio quando A ferramenta consultada garantiu que se tratava de um texto “100% gerado por IA”.

Num contexto em que cada vez mais pessoas são tentadas a usar IA para escrever trabalhos escolares, redigir documentos legais ou escrever um livro, surgiram ferramentas como ZeroGPT ou Turnitin com o objetivo de detectar a presença de IA ou plágio. Esses sistemas foram muito populares em instituições de ensino, editoras e escritórios de advocacia, pois conseguem reconhecer até mesmo texto parafraseado (marcar uma cópia da essência de determinado conteúdo, mesmo que o original seja diferente). E embora a utilização destas ferramentas esteja a difundir-se gradualmente, elas podem ser ferramentas perigosas, uma vez que são por vezes utilizadas para tomar decisões em julgamentos, universidades e outros ambientes profissionais. “Essas ferramentas são necessárias para resolver algo que nem mesmo os humanos conseguem resolver com confiança. Ao mesmo tempo, estão habituados a tomar decisões reais sobre escritores, estudantes e profissionais, sem que ninguém verifique como trabalham lá dentro”, partilha Mariano Casero, da Finnegans, empresa tecnológica que desenvolve software ERP e soluções de gestão digital.

Comentários na postagem de X que estão vinculados Frankenstein Eles também são céticos em relação a essas ferramentas e chegam a afirmar que a melhor solução para esse problema é parar de usar esses recursos; “Uma solução simples. pare de usar ZeroGPT, é pior do que eu na detecção de prosa gerada por IA”, disse um usuário, enquanto outro acrescentou:

Marcelo de Luca, cofundador da The App Master, uma fábrica de software tendo mais de 15 anos de experiência no desenvolvimento de soluções digitais, concorda com estas opiniões e acredita; “Em termos de detecção de roubo, a realidade é Hoje, não existe uma tecnologia confiável para determinar se algo foi criado por IA ou não. Os instrumentos disponíveis têm taxas de erro inaceitáveis para qualquer utilização legítima séria“.

Por que as ferramentas de descoberta de conteúdo baseadas em IA erram?

Para entender os erros desses dispositivos é importante saber como eles funcionam. “O principal problema com essas ferramentas é Eles não detectam se o texto foi escrito por inteligência artificial. Eles detectam se o texto possui uma distribuição estatística de palavras semelhante àquela gerada pelos modelos de linguagem.“, diz Agustín Raimondi, advogado e fundador tecnologia jurídica Pobre.

Os especialistas concordam que não existe hoje uma tecnologia confiável para determinar se algo foi criado pela IA ou não.Shterstok-Shutterstock

Raimondi explica que os modelos de linguagem geram texto escolhendo a próxima palavra de acordo com o contexto anterior. Esse sistema produz textos com palavras previsíveis, estruturas formais e pouca variabilidade sintática. As ferramentas medem exatamente esses padrões, mas o problema é que muitos textos humanos compartilham essas mesmas características.

De Luca concorda e se descreve como “um cético em relação a qualquer sistema que tente resolver isso com uma porcentagem de confiança”. Isso mostra que Os mesmos padrões que as ferramentas de detecção de IA procuram também aparecem em textos humanos, especialmente em textos técnicos, acadêmicos ou altamente estruturados.

Cassero acrescenta que os modelos foram treinados em grandes volumes de texto. Desta maneira, “Quando desenvolvem uma passagem na qual foram treinados, eles a reconhecem como familiar, não porque a criaram, mas porque a viram.”

Especialistas em inteligência artificial são céticos em relação a ferramentas que detectam se o conteúdo é criado por IAImagens de Pessoas – Shutterstock

“Pode-se dizer do ponto de vista jurídico Nenhum detector de IA é capaz de servir como prova num processo legal ou disciplinar precisamente por causa destas falhas estruturais.. Não tem metodologia validada nem taxa de erro padronizada”, insiste Raimondi.

Qual é a melhor maneira de saber se algo foi criado pela IA?

Os especialistas concordam que não existe um método confiável para verificar se determinados textos são gerados por IA ou não. No entanto, Eles recomendam certas práticas de transparência que podem ajudar nessa detecção.

Em primeiro lugar, Fala-se em “marcas d’água criptográficas”.isto é, incluindo algumas pistas detectáveis, embora invisíveis, que permitem identificar a origem da saída. Este é, por exemplo, o caso da China, onde a regulamentação exige marca d’água Sobre registrar conteúdo de IA e modelos generativos.

Especialistas recomendam ser transparente na hora de criar conteúdo com inteligência artificialfoto

Outros especialistas sugerem a realização de uma análise que combine diversas ferramentas. procure por perplexidade (se o texto for previsível), mas também realizar análises explodir (investigar ritmo, detectar se há escrita irregular, característica de pessoas que, por exemplo, alternam frases curtas e longas de forma imprevisível) e analisar a coerência semântica (porque a IA costuma ser muito consistente, enquanto os humanos têm saltos, ambiguidades ou contradições). “O que funciona são os padrões humanos aliados ao contexto; conhecer o autor, sua história, sua voz, as inconsistências entre o que ele produziu antes e o que está fazendo agora. Não é um algoritmo, é um julgamento”, acrescenta Casero.

Entre outras recomendações, Eles recomendam gravar metadados no arquivo caso o conteúdo seja gerado por inteligência artificial (São dados “ocultos” no arquivo que descreve coisas como quem o criou, quando foi criado, com qual ferramenta e em qual dispositivo.) No caso da União Europeia, a Lei de IA, que entra em vigor a partir de 2024, inclui obrigações de transparência de dados de treinamento e exige que os desenvolvedores divulguem dados de treinamento. De Luca afirma que a melhor solução é a “honestidade radical”. Ele acrescenta que “nenhuma ferramenta técnica resolverá isso de forma confiável no curto prazo”, mas explica que o que funciona é “criar culturas organizacionais e profissionais onde anunciar o uso da IA seja a norma, não a exceção”.

Em ambientes jurídicos ou acadêmicos, observa Raimondi, a melhor maneira de saber se um texto é humano ou não ainda é o processo (versões de um documento, histórico de revisões, capacidade do autor de explicar suas decisões). De Luca acrescenta que o padrão mais confiável ainda é o humano, embora reconheça que esse padrão é difícil;

“Sem dúvida, a corrida da geração e da descoberta é vencida de geração em geração. Isto faz sentido porque a principal preocupação é como podemos continuar a automatizar processos, e não como podemos ver se esses processos são automatizados. Em suma, a solução a longo prazo parece ser regulamentar (obrigações de divulgação) e cultural (normas de transparência), e não puramente técnica.conclui Raimondi.

Fonte da notícia