Estudo do efeito de variáveis de estado e funções de recompensa no desempenho de algoritmos de enxames combinados com aprendizagem por reforço.

Visualizar/ Abrir
Data
2025-11-18Autor
Pimentel, Kamila Rocha
http://lattes.cnpq.br/9153626529135319
Silva, Yasminn Patricia Souza
http://lattes.cnpq.br/9945118727257991
Metadata
Mostrar registro completoResumo
Este trabalho investiga a integração entre Aprendizagem por Reforço e Inteligência de Enxames aplicada a problemas de otimização, com foco na análise do impacto de variáveis de estado e funções de recompensa no desempenho da combinação de agentes. A Inteligência de Enxames, inspirada em comportamentos coletivos de animais, busca soluções por meio da cooperação descentralizada dos agentes, enquanto a Aprendizagem por Reforço ensina um agente a tomar decisões por tentativa e erro, otimizando recompensas acumuladas na interação com o ambiente. O estudo adota uma abordagem na qual um agente Proximal Policy Optimization é responsável por selecionar dinamicamente entre três metaheurísticas de enxame: Global Particle Swarm Optimization, Local Particle Swarm Optimization e Grey Wolf Optimizer. O ambiente experimental foi desenvolvido com a incorporação de variáveis associadas ao comportamento dos enxames e de duas funções de recompensa: a Recompensa 1, já existente e baseada na melhoria incremental do fitness, e a Recompensa 2, proposta neste estudo para penalizar a estagnação. A metodologia contemplou a aplicação da técnica de ablação, permitindo avaliar a relevância de grupos de variáveis de estado no aprendizado. Os experimentos foram conduzidos em funções benchmark, denominadas F1 e F2, sob diferentes dimensionalidades (10, 30 e 50), a fim de identificar como as configurações de observáveis e recompensas influenciam a adaptação e a convergência do agente em cenários de otimização. Os resultados mostraram que a Recompensa 1 destacou-se pela estabilidade e desempenho consistente, enquanto a remoção das variáveis de fitness reduziu o custo computacional sem comprometer a convergência.
Os arquivos de licença a seguir estão associados a este item: