DEEC TALK: Otimização de Políticas em Aprendizagem por Reforço

No dia 6 de maio decorreu a DEEC TALK Policy Optimization in Reinforcement Learning, que contou com a participação de Yuejie Chi, Professora Charles C. and Dorothea S. Dilley de Estatística e Ciência de Dados na Universidade de Yale, com uma nomeação secundária em Ciência da Computação.
A investigação de Yuejie Chi tem como objetivo acelerar o processo de aprendizagem de algoritmos e centra-se na otimização de resultados através reinforcement learning: o sistema melhora sucessivamente as suas decisões através da interação com o ambiente. Estes mecanismos, preditivos, podem ser utilizados em várias áreas de investigação e da indústria, como, por exemplo, no design de chips para inteligência artificial e no processamento de sinais.

Começando pela referência ao filme The thinking game, onde um investigador procura desenvolver um sistema de inteligência artificial capaz de resolver problemas complexos, Yuejie Chi explicou que o trabalho desenvolvido pela sua equipa se foca na otimização da performance, eficiência e viabilidade dos sistemas de inteligência artificial generativa nos grandes modelos de linguagem (large language models - LLM), nomeadamente em cenários com grandes bases de dados e recursos limitados. Estas ferramentas podem ser utilizadas, por exemplo, para a convergência de informações em sistemas multi-agente, ou seja, onde vários agentes são obrigados a adotar estratégias de forma rápida. Cada agente interage com outros e com o ambiente à sua volta, tendo em conta a informação que possui.

Yuejie Chi explicou também de que forma cada agente toma as suas decisões de ação: o sistema é recompensado ou penalizado de acordo com as suas ações (rewarding system). Desta forma, deixa de existir apenas um fluxo de ações decididas pelo sistema, de forma isolada, passando a existir uma relação com o meio. Devido ao facto de o ambiente ser algo dinâmico, o sistema baseia-se sempre em probabilidades, relacionadas, por exemplo, com as coordenadas e posições dos objetos no espaço, de acordo com o estado atual do mesmo.
Por outro lado, cada escolha influencia as decisões e, consequentemente, as recompensas seguintes. Por este motivo, a investigadora abordou a utilização de métodos de gradiente de política (policy gradient methods): o sistema analisa as possíveis opções e adota a estratégia que maximiza a recompensa esperada (soft policy) (soft policy). Neste sentido, é possível recorrer à utilização do operador de Bellman - o algoritmo atualiza iterativamente as estimativas de valor até convergir na solução ótima.

Por último, Yuejie Chi realçou também que o sistema pode calcular a sua estratégia através de duas formas: uma maximizando e outra minimizando as recompensas obtidas. Desta forma, o sistema "joga" com dois agentes, cruzando a informação de ambos até ao ponto de equilíbrio através de um mecanismo baseado em entropia.
Ao longo da sessão, a investigadora demonstrou de que forma funcionam estes sistemas matematicamente.
A DEEC TALK contou ainda com a resposta a perguntas colocadas pela audiência.

