DEEC TALK: Otimização de Políticas em Aprendizagem por Reforço

No dia 6 de maio decorreu a DEEC TALK Policy Optimization in Reinforcement Learning, que contou com a participação de Yuejie Chi, Professora Charles C. and Dorothea S. Dilley de Estatística e Ciência de Dados na Universidade de Yale, com uma nomeação secundária em Ciência da Computação.

A investigação de Yuejie Chi tem como objetivo acelerar o processo de aprendizagem de algoritmos e centra-se na otimização de resultados através reinforcement learning: o sistema melhora sucessivamente as suas decisões através da interação com o ambiente. Estes mecanismos, preditivos, podem ser utilizados em várias áreas de investigação e da indústria, como, por exemplo, no design de chips para inteligência artificial e no processamento de sinais.

DEEC TALK Policy Optimization in Reinforcement Learning

Começando pela referência ao filme The thinking game, onde um investigador procura desenvolver um sistema de inteligência artificial capaz de resolver problemas complexos, Yuejie Chi explicou que o trabalho desenvolvido pela sua equipa se foca na otimização da performance, eficiência e viabilidade dos sistemas de inteligência artificial generativa nos grandes modelos de linguagem (large language models - LLM), nomeadamente em cenários com grandes bases de dados e recursos limitados. Estas ferramentas podem ser utilizadas, por exemplo, para a convergência de informações em sistemas multi-agente, ou seja, onde vários agentes são obrigados a adotar estratégias de forma rápida. Cada agente interage com outros e com o ambiente à sua volta, tendo em conta a informação que possui.

Yuejie Chi, DEEC TALK Policy Optimization in Reinforcement Learning

Yuejie Chi explicou também de que forma cada agente toma as suas decisões de ação: o sistema é recompensado ou penalizado de acordo com as suas ações (rewarding system). Desta forma, deixa de existir apenas um fluxo de ações decididas pelo sistema, de forma isolada, passando a existir uma relação com o meio. Devido ao facto de o ambiente ser algo dinâmico, o sistema baseia-se sempre em probabilidades, relacionadas, por exemplo, com as coordenadas e posições dos objetos no espaço, de acordo com o estado atual do mesmo.

Por outro lado, cada escolha influencia as decisões e, consequentemente, as recompensas seguintes. Por este motivo, a investigadora abordou a utilização de métodos de gradiente de política (policy gradient methods): o sistema analisa as possíveis opções e adota a estratégia que maximiza a recompensa esperada (soft policy) (soft policy). Neste sentido, é possível recorrer à utilização do operador de Bellman - o algoritmo atualiza iterativamente as estimativas de valor até convergir na solução ótima.

DEEC TALK Policy Optimization in Reinforcement Learning

Por último, Yuejie Chi realçou também que o sistema pode calcular a sua estratégia através de duas formas: uma maximizando e outra minimizando as recompensas obtidas. Desta forma, o sistema "joga" com dois agentes, cruzando a informação de ambos até ao ponto de equilíbrio através de um mecanismo baseado em entropia.

Ao longo da sessão, a investigadora demonstrou de que forma funcionam estes sistemas matematicamente.

A DEEC TALK contou ainda com a resposta a perguntas colocadas pela audiência.

Yuejie Chi

Tópicos: