Estimativa de Posição Baseada em Correspondências, por Sérgio Agostinho

No dia 27, o estudante Sérgio Agostinho irá defender a sua tese de doutoramento, com o título Correspondence-Based Pose Estimation.
Resumo:
Embora tecnologias como condução autónoma e realidade aumentada ainda não tenham alcançado uma adoção generalizada, é inegável que a sua influência já se faz sentir hoje em dia. Estas tecnologias são impulsionadas por sistemas complexos e interdisciplinares que percebem, processam e agem com o objetivo de fornecer experiências úteis e satisfatórias aos seus utilizadores finais. Os temas abordados nesta tese são uma das muitas “engrenagens” que impulsionam estes sistemas complexos: foca-se em métodos baseados em correspondências que abordam o antigo problema da estimativa de posição. Na condução autónoma, a estimativa de posição fornece a informação necessária para orientar o veículo até ao destino final do utilizador. Adicionalmente, os dados capturados pelo veículo sobre o seu ambiente são processados para construir mapas de utilidade que podem ser utilizados posteriormente para a navegação. Quando se utilizam LiDARs, isso geralmente implica o registo de sweeps consecutivos, que serão usadas para produzir um mapa globalmente consistente. No caso da realidade aumentada, a estimativa da posição 3D é essencial para uma sobreposição visual precisa de informação digital sobre o fundo do campo de visão do utilizador. Em ambos os casos, a estimativa de posição desempenha um papel crítico ao permitir que estas tecnologias ofereçam a experiência ideal ao utilizador.
Esta tese foca-se nos problemas de estimativa de posição 3D baseados em correspondências, relativamente a aplicações de computer vision, com um foco particular em pontos de interesse ou linhas de interesse, ou seja, pontos ou linhas especiais, provenientes de fontes de dados como imagens 2D e nuvens de pontos 3D. Apesar de ser um tema amplamente investigado que tem ganho cada vez mais interesse nas últimas três décadas, os métodos baseados em correspondências continuam a ser um dos mecanismos mais bem-sucedidos e viáveis para a estimativa de posição, sendo capazes de coexistir e integrar-se com a mais recente onda de técnicas baseadas em dados, ao mesmo tempo que demonstram uma boa capacidade de generalização e uma ampla aplicabilidade a muitas situações do mundo real.
Os problemas de estimativa de posição baseados em correspondências seguem uma sequência usual de passos composta por: identificar pontos-chave ou linhas-chave de interesse; estabelecer correspondências entre estes; encontrar a posição ótima que minimize um custo geométrico dado. Nesta tese, apresentamos uma pesquisa inovadora focada nos dois últimos passos: aproveitando tanto pontos quanto linhas, e utilizando abordagens que combinam o rigor dos princípios geométricos fundamentais em jogo, com o enorme potencial e flexibilidade proporcionados pelas técnicas baseadas em dados. É neste contexto que apresentamos os resultados para três problemas distintos: estimação absoluta de pose entre um modelo 3D e uma câmara, dadas correspondências 2D-3D de pontos e linhas; registo de nuvens de pontos, um problema que visa encontrar a melhor transformação rígida que alinha duas nuvens de pontos; e, por último, correspondência de pontos-chave para localização visual, baseada inteiramente em geometria, sem recorrer a descritores visuais.
A literatura sobre métodos de estimativa de posição baseados em correspondências de pontos é abundante. No entanto, existem situações em que extrair pontos-chave simplesmente não é viável, e a capacidade de complementar essas pistas visuais com linhas naturais proporciona um grau adicional de robustez. O número limitado de métodos que abordam esta modalidade mista de correspondências não fornece garantias quanto à otimização global das soluções encontradas. Este foi o contexto que levou ao desenvolvimento do CvxPnPL, um método convexivo inovador e certificável para estimar a posição 3D a partir de combinações mistas de correspondências de pontos e linhas 2D-3D, resolvendo o problema de Perspectiva-n-Pontos-e-Linhas (PnPL). Fundimos as contribuições de cada ponto e linha num Único Problema Quadrático com Restrições Quadráticas (QCQP) e, em seguida, utilizamos um Programa Semidefinido (SDP) através da Shor. Deste modo, tratamos conjuntamente configurações mistas de pontos e linhas num único quadro computacional. Além disso, a abordagem proposta permite recuperar um número finito de soluções sob configurações ambíguas. Nesses casos, os candidatos a posição 3D são encontrados ao impor restrições geométricas adicionais no espaço das soluções e, em seguida, recuperando tais posições nas interseções de múltiplos quadros. A escolha de uma formulação convexa torna o método insensível à inicialização e fornece o quadro teórico para validação a posteriori de soluções globalmente ótimas. Assim, o CvxPnPL é o primeiro método convexivo certificável para resolver problemas PnPL não-mínimos. Embora sejamos competitivos em relação a outros métodos na presença de correspondências de pontos, alcançamos um desempenho de ponta quando apenas linhas estão disponíveis, promovendo uma redução de 7,4% e 4,5% no erro mediano de translação e rotação.
Na nossa segunda contribuição, abordamos o registo de nuvens de pontos 3D baseado em dados em redes end-to-end baseadas em correspondências. Esta modalidade de abordagem visa ser uma alternativa mais eficiente computacionalmente aos pipelines tradicionais que dependem do RANSAC. Até a adição da Decomposição de Valores Singulares (SVD) diferenciável nos frameworks de aprendizagem profunda comumente usados, a maioria dos métodos de registo de nuvens de pontos baseados em dados aplicava supervisão ao nível das correspondências, uma vez que não existia um mecanismo conveniente para retropropagar end-to-end a partir do erro de posição. Com a SVD diferenciável disponível, a supervisão end-to-end tornou-se facilmente acessível. No entanto, a supervisão baseada exclusivamente no erro de posição é desafiadora para redes neurais mais profundas. Este segundo projeto alivia esse desafio ao propor um método para impor uma supervisão de pose mais forte. Concretamente, dadas as correspondências de pontos, o algoritmo Kabsch fornece uma estimativa ótima de rotação. No entanto, dada a estimativa inicial de rotação fornecida pelo Kabsch, mostramos que podemos melhorar o aprendizado das correspondências de pontos e, consequentemente, as estimativas de pose, estendendo o problema de otimização original. Em particular, linearizamos as restrições governantes da matriz de rotação e resolvemos o sistema linear resultante de equações. Em seguida, produzimos iterativamente novas soluções atualizando a estimativa inicial. Nossos experimentos mostram que, ao adicionar nossa camada diferenciável aos métodos de registo baseados em aprendizado durante o treinamento, melhoramos a correspondência de pontos que é significativa para produzir melhores posições. Isso resulta numa diminuição de até 7% no erro de rotação para métodos de registo baseados em dados.
Na nossa terceira e última contribuição, propomos ir além da abordagem bem estabelecida para localização baseada em visão, que depende da correspondência de descritores visuais entre uma imagem de consulta e uma nuvem de pontos 3D. Embora a correspondência de pontos-chave através de descritores visuais torne a localização altamente precisa, ela apresenta exigências significativas de armazenamento, levanta questões de privacidade e requer atualizações dos descritores a longo prazo. Para abordar elegantemente esses desafios práticos na localização em grande escala, apresentamos o GoMatch, uma alternativa à correspondência baseada em visão que depende exclusivamente de informação geométrica para corresponder pontos-chave da imagem a mapas, representados como conjuntos de vetores de orientação. A nossa representação de vetores de orientação de pontos 3D alivia significativamente o desafio de modalismo cruzado na correspondência geométrica que impediu trabalhos anteriores de enfrentar a localização em ambientes realistas. Com um design arquitetónico adicional, o GoMatch melhora o trabalho anterior de correspondência baseada em geometria, com uma redução de (10,67m, 95,7°) e (1,43m, 34,7°) nos erros médios de pose em Cambridge Landmarks e 7-Scenes, enquanto requer apenas 1,5/1,7% da capacidade de armazenamento em comparação com os melhores métodos de correspondência baseados em visão. Isso confirma seu potencial e viabilidade para localização no mundo real e abre a porta para futuros esforços no avanço de métodos de localização visual em escala de cidade que não necessitam de armazenar descritores visuais.
Todos esses resultados mostram como os problemas baseados em correspondências continuam a ser altamente relevantes e amplamente utilizados nas aplicações modernas, com uma formulação que é favorável tanto a abordagens heurísticas quanto baseadas em dados, oferecendo soluções para problemas que exigem soluções geométricas e com fortes capacidades de generalização. Portanto, acreditamos que o trabalho apresentado nesta tese contribuiu com sucesso para o avanço de um dos pilares da estimativa de posição em visão por computador.