Mostrar registro simples

dc.creatorPimentel, Kamila Rocha
dc.date.accessioned2025-12-03T13:35:02Z
dc.date.available2025-12-03T13:35:02Z
dc.date.issued2025-11-18
dc.identifier.citationPIMENTEL, Kamila Rocha; SILVA, Yasminn Patricia Souza; SILVA, Rodrigo Cesar Lira da. Estudo do efeito de variáveis de estado e funções de recompensa no desempenho de algoritmos de enxames combinados com aprendizagem por reforço. 2025. Artigo (Tecnologia em Análise e Desenvolvimento de Sistemas) – Instituto Federal de Educação, Ciência e Tecnologia de Pernambuco, Campus Paulista, Paulista, 2025.pt_BR
dc.identifier.urihttps://repositorio.ifpe.edu.br/xmlui/handle/123456789/1928
dc.description.abstractThis work investigates the integration between Reinforcement Learning and Swarm Intelligence applied to optimization problems, focusing on the analysis of the impact of state variables and reward functions on the performance of agent combinations. Swarm Intelligence, inspired by the collective behavior of animals, seeks solutions through the decentralized cooperation of agents, while Reinforcement Learning teaches an agent to make decisions by trial and error, optimizing rewards accumulated in the interaction with the environment. The study adopts an approach in which a Proximal Policy Optimization agent is responsible for dynamically selecting between three swarm metaheuristics: Global Particle Swarm Optimization, Local Particle Swarm Optimization, and Grey Wolf Optimizer. The experimental environment was developed by incorporating variables associated with swarm behavior and two reward functions: Reward 1, which already exists and is based on incremental fitness improvement, and Reward 2, proposed in this study to penalize stagnation. The methodology involved applying the ablation technique, allowing the evaluation of the relevance of groups of state variables in learning. The experiments were conducted on benchmark functions, named F1 and F2, under different dimensionalities (10, 30, and 50), in order to identify how the configurations of observables and rewards influence the adaptation and convergence of the agent in optimization scenarios. The results showed that Reward 1 stood out for its stability and consistent performance, while removing fitness variables reduced the computational cost without compromising convergence.pt_BR
dc.format.extent40 p.pt_BR
dc.languagept_BRpt_BR
dc.relationBAU, D. et al. Network Dissection: Quantifying Interpretability of Deep Visual Representations. Researchgate, jul. 2017. Disponível em: https://www.researchgate.net/publication/320971142. Acesso em: 10 ago. 2025. BRATTON, Daniel; KENNEDY, James. Defining a Standard for Particle Swarm Optimization. Researchgate, mai. 2007. Disponível em: https://www.researchgate.net/publication/4251818. Acesso em: 10 ago. 2025. ECHCHAHED, Ayoub; CASTRO, Pablo Samuel. A Survey of State Representation Learning for Deep Reinforcement Learning. ArXiv, v. 1, 20 jun. 2025. Disponível em: https://arxiv.org/abs/2506.17518v1. Acesso em: 18 out. 2025. FOSTIROPOULOS, I. et al. How to Ablate? A Computational Framework for Designing and Interpreting Ablation Studies. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 40., 2023. Proceedings [...]. PMLR, 2023. v. 224. Instituto Federal de Pernambuco. Campus Paulista. Curso de Tecnologia em Análise e Desenvolvimento de Sistemas. 18 de Novembro de 2025. 39 GATTAMI, A. et al. Reinforcement Learning in the Wild: Scalable System Design and Implementation. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 38., 2021. Proceedings [...]. PMLR, 2021. v. 130. HAMAD, Q. S.; SAMMA, H.; SUANDI, S. A. Q-learning based metaheuristic optimization algorithms: A short review and perspectives. Researchgate, jan. 2023. Disponível em: https://www.researchgate.net/publication/366905818. Acesso em: 11 ago. 2025. KENNEDY, J.; EBERHART, R. C. Particle Swarm Optimization. In: IEEE INTERNATIONAL CONFERENCE ON NEURAL NETWORKS, 1995. Proceedings [...]. IEEE, 1995. p. 1942-1948. LIRA, R. C. et al. Applying Reinforcement Learning to Combine Multiple Swarm-based Algorithms. Researchgate, out. 2023. Disponível em: https://www.researchgate.net/publication/377733312. Acesso em: 11 ago. 2025. LIRA, R. C. et al. Exploring Social Dynamics in a Reinforcement Learning-based Metaheuristic: A study using Improvement Frequency and Population Turnover. Researchgate, nov. 2024. Disponível em: https://www.researchgate.net/publication/386218633. Acesso em: 18 out. 2025. LIRA, R. C. et al. Integrating Reinforcement Learning and Optimization Task: Evaluating an Agent to Dynamically Select PSO Communication Topology. Researchgate, jul. 2023. Disponível em: https://www.researchgate.net/publication/372200258. Acesso em: 6 set. 2025. MIRJALILI, S.; MIRJALILI, S. M.; LEWIS, A. Grey Wolf Optimizer. Researchgate, mar. 2014. Disponível em: https://www.researchgate.net/publication/260010809. Acesso em: 2 mar. 2025. MOHAMMED, M. N. et al. Swarm Intelligence: A Review of Algorithms, Applications, and Open Issues. AI and Optimization, v. 4, n. 4, p. 64, 2024. PARSOPOULOS, K. E.; VRAHATIS, M. N. Unified particle swarm optimization in dynamic environments. Researchgate, jan. 2005. Disponível em: https://www.researchgate.net/publication/285896532. Acesso em: 30 jul. 2025. RAY RLlib. RLlib: Aprendizado por Reforço Escalável e de Nível Industrial. Disponível em: https://docs.ray.io/en/latest/rllib/index.html. Acesso em: 25 nov. 2025. SADIKU, M. N. O.; MUSA, S. M. A Primer on Multiple Intelligences. Springer, Capítulo 17, p. 211-220, 25 jul. 2021. SANTOS, R. A.; SILVA, L. C. Otimização por Lobos Cinzentos (GWO) e suas Variantes: Uma Revisão Sistemática da Literatura. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES E SISTEMAS DISTRIBUÍDOS, 41., 2023. Anais [...]. 2023. Instituto Federal de Pernambuco. Campus Paulista. Curso de Tecnologia em Análise e Desenvolvimento de Sistemas. 18 de Novembro de 2025. 40 SAPUTRA, N. J. et al. A Systematic Literature Review on Swarm Intelligence for Optimization: Algorithms and Applications. INFORM: Journal of Computer Science, v. 1, n. 2, p. 1-12, 2024. SCHUCHARDT, J.; GOLKOV, V.; CREMERS, D. Learning to Evolve. ArXiv, v. 1, 8 mai. 2019. Disponível em: https://doi.org/10.48550/ARXIV.1905.03389. Acesso em: 17 de agosto de 2025. SCHULMAN, J.; WOLSKI, F.; DHARIWAL, P.; RADFORD, A.; KLIMOV, O. Proximal policy optimization algorithms. ArXiv, v. 2, 28 ago. 2017. Disponível em: https://arxiv.org/abs/1707.06347. Acesso em: 17 ago. 2025. SHARMA, A.; SHARMA, A.; PANDEY, J. K.; RAM, M. Swarm Intelligence: Theory and Applications. 1. ed. Londres: CRC Press, 2021. SHARMA, M. et al. Deep Reinforcement Learning Based Parameter Control in Differential Evolution. ArXiv, v. 1, 20 mai. 2019. Disponível em: https://doi.org/10.48550/arXiv.1905.08006. Acesso em: 18 out. 2025. SILVA, J. F. da; LOPES, M. A.; SOUZA, S. R. de. An analysis of reward shaping for reinforcement learning in a multi-agent framework for combinatorial optimization. Researchgate, nov. 2022. Disponível em: https://www.researchgate.net/publication/367120936. Acesso em: 10 ago. 2025. SINGH, N.; SINGH, S. B. Swarm intelligence algorithms: a survey of their theoretical foundation and application. International Journal of System Assurance Engineering and Management, 2024. SMITH, A. et al. Penalty functions. Researchgate, jul. 1998. Disponível em: https://www.researchgate.net/publication/2509987. Acesso em: 29 jul. 2025. SUTTON, R. S.; BARTO, A. G. Reinforcement Learning: An Introduction. 2. ed. Londres: Bradford Book, 2018.pt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAn error occurred on the license name.*
dc.rights.uriAn error occurred getting the license - uri.*
dc.subjectAprendizagem por Reforçopt_BR
dc.subjectFunções Benchmarkpt_BR
dc.subjectInteligência de Enxamespt_BR
dc.titleEstudo do efeito de variáveis de estado e funções de recompensa no desempenho de algoritmos de enxames combinados com aprendizagem por reforço.pt_BR
dc.title.alternativeStudy of the effect of state variables and reward functions on the performance of swarm-based algorithms combined with reinforcement learning.pt_BR
dc.typeArticlept_BR
dc.creator.Latteshttp://lattes.cnpq.br/9153626529135319pt_BR
dc.contributor.advisor1Silva, Rodrigo Cesar Lira da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2442224050349612pt_BR
dc.contributor.referee1Silva, João Gabriel Rocha
dc.contributor.referee2Oliveira, Flávio Rosendo da Silva
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4555578101519491pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6828380394080049pt_BR
dc.publisher.departmentPaulistapt_BR
dc.publisher.countryBrasilpt_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.description.resumoEste trabalho investiga a integração entre Aprendizagem por Reforço e Inteligência de Enxames aplicada a problemas de otimização, com foco na análise do impacto de variáveis de estado e funções de recompensa no desempenho da combinação de agentes. A Inteligência de Enxames, inspirada em comportamentos coletivos de animais, busca soluções por meio da cooperação descentralizada dos agentes, enquanto a Aprendizagem por Reforço ensina um agente a tomar decisões por tentativa e erro, otimizando recompensas acumuladas na interação com o ambiente. O estudo adota uma abordagem na qual um agente Proximal Policy Optimization é responsável por selecionar dinamicamente entre três metaheurísticas de enxame: Global Particle Swarm Optimization, Local Particle Swarm Optimization e Grey Wolf Optimizer. O ambiente experimental foi desenvolvido com a incorporação de variáveis associadas ao comportamento dos enxames e de duas funções de recompensa: a Recompensa 1, já existente e baseada na melhoria incremental do fitness, e a Recompensa 2, proposta neste estudo para penalizar a estagnação. A metodologia contemplou a aplicação da técnica de ablação, permitindo avaliar a relevância de grupos de variáveis de estado no aprendizado. Os experimentos foram conduzidos em funções benchmark, denominadas F1 e F2, sob diferentes dimensionalidades (10, 30 e 50), a fim de identificar como as configurações de observáveis e recompensas influenciam a adaptação e a convergência do agente em cenários de otimização. Os resultados mostraram que a Recompensa 1 destacou-se pela estabilidade e desempenho consistente, enquanto a remoção das variáveis de fitness reduziu o custo computacional sem comprometer a convergência.pt_BR
dc.creator.name2Silva, Yasminn Patricia Souza
dc.creator.Lattes2http://lattes.cnpq.br/9945118727257991pt_BR


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples