Avaliação do uso de grandes modelos de linguagem para detecção de alucinações.

José, Gracielle do Nascimento

Visualizar/Abrir

Artigo principal (1.360Mb)

Data

2025-12-18

Autor

José, Gracielle do Nascimento

http://lattes.cnpq.br/9103837698019996

Metadata

Mostrar registro completo

Resumo

A Inteligência Artificial Generativa vem avançando rapidamente durante os últimos tempos. No entanto, apesar do recorrente investimento na melhora da tecnologia, as saídas geradas por tais modelos ainda contém um nível elevado de alucinações, comprometendo a confiabilidade no conteúdo produzido. Visando encontrar formas de mitigar este problema, esse trabalho apresenta uma comparação entre os modelos Llama e GPT como ferramenta de detecção de alucinações de input, contexto ou factuais. Ao verificar os cálculos de acurácia, ambos modelos apresentaram 84% e 68% para alucinações de input e contexto, respectivamente. Para as alucinações factuais, houve uma diferença de 16% nos resultados dos modelos, com vantagem para o GPT. Por fim, os resultados sugerem que o uso de Inteligência Artificial Generativa sem avaliação humana após a geração do conteúdo não é recomendado para atividades complexas.

URI

https://repositorio.ifpe.edu.br/xmlui/handle/123456789/2017

Collections

Tecnólogo em Análise e Desenvolvimento de Sistemas

Os arquivos de licença a seguir estão associados a este item:

Creative Commons