João Xavier: De Operadores Monótonos e Supermartingalas à Aprendizagem Automática Distribuída

A Aprendizagem Automática Distribuída (Distributed Machine Learning – DML) lida com o problema de treinar um modelo quando o conjunto de dados está repartido entre agentes espacialmente distribuídos. O objetivo é desenvolver algoritmos que permitam a cada agente obter o modelo treinado sobre a totalidade dos dados — sem nunca partilhar os seus dados locais.

Este tutorial aborda os dois principais cenários em DML: a Aprendizagem Federada, em que os agentes comunicam com um servidor central, e a Aprendizagem Descentralizada, onde a comunicação ocorre apenas entre agentes vizinhos. Para ambos os cenários, são apresentados algoritmos síncronos e assíncronos.

Começamos com modelos convexos. Embora os algoritmos distribuídos possam ser concebidos a partir de diversas abordagens, mostramos como os modelos convexos permitem a derivação de algoritmos síncronos interessantes com base em operadores contrativos. Ao ativar estocasticamente estes operadores por blocos, obtêm-se diretamente as suas versões assíncronas. Em ambos os casos, os agentes interagem com as suas funções de perda locais através do operador de proximidade.

Em seguida, analisamos modelos não convexos, onde a interação com as funções de perda é feita via gradiente. São discutidos o Gradiente Estocástico em mini-lotes (SG) e uma versão melhorada, o Gradiente Estocástico com Redução de Variância sem Ciclos (L-SVRG).

Concluímos com uma breve menção à nossa investigação recente em aprendizagem federada vertical, um cenário em que os dados são distribuídos por características (features) e não por exemplos.

Para mais informações consulte o link:

https://m4ai.math.tecnico.ulisboa.pt/lecture_series?sgid=85

Tópicos: