Use este identificador para citar ou linkar para este item: http://repositorio.ufes.br/handle/10/9876
Título: Appearance-based global localization with a hybrid weightless-weighted neural network approach
Autor(es): Silva, Avelino Forechi
Orientador: Souza, Alberto Ferreira de
Coorientador: Santos, Thiago Oliveira dos
Data do documento: 2-Fev-2018
Editor: Universidade Federal do Espírito Santo
Resumo: Currently, self-driving cars rely greatly on the Global Positioning System (GPS) infrastructure, albeit there is an increasing demand for global localization alternative methods in GPS-denied environments. One of them is known as appearance-based global localization, which associates images of places with their corresponding position. This is very appealing regarding the great number of geotagged photos publicly available and the ubiquitous devices fitted with ultra-high-resolution cameras, motion sensors and multicore processors nowadays. The appearance-based global localization can be devised in topological or metric solution regarding whether it is modelled as a classification or regression problem, respectively. The topological common approaches to solve the global localization problem often involve solutions in the spatial dimension and less frequent in the temporal dimension, but not both simultaneously. It was proposed an integrated spatio-temporal solution based on an ensemble of kNN classifiers, where each classifier uses the Dynamic Time Warping (DTW) and the Hamming distance to compare binary features extracted from sequences of images. Each base learner is fed with its own binary set of features extracted from images. The solution was designed to solve the global localization problem in two phases: mapping and localization. During mapping, it is trained with a sequence of images and associated locations that represents episodes experienced by a robot. During localization, it receives subsequences of images of the same environment and compares them to its previous experienced episodes, trying to recollect the most similar “experience” in time and space at once. Then, the system outputs the positions where it “believes” these images were captured. Although the method is fast to train, it scales linearly with the number of training samples in order to compute the Hamming distance and compare it against the test samples. Often, while building a map, one collects high correlated and redundant data around the environment of interest. Some reasons are due to the use of high frequency sensors or to the case of repeating trajectories. This extra data would carry an undesired burden on memory and runtime performance during test if not treated appropriately during the mapping phase. To tackle this problem, it is employed a clustering algorithm to compress the network’s memory after mapping. For large scale environments, it is combined the clustering algorithms with a multi hashing data structure seeking the best compromise between classification accuracy, runtime performance and memory usage. So far, this encompasses solely the topological solution part for the global localization problem, which is not precise enough for autonomous cars operation. Instead of just recognizing places and outputting an associated pose, it is desired that a global localization system regresses a pose given a current image of a place. But, inferring poses for city-scale scenes is unfeasible at least for decimetric precision. The proposed approach to tackle this problem is as follows: first take a live image from the camera and use the localization system aforementioned to return the image-pose pair most similar to a topological database built as before in the mapping phase. And then, given the live and mapped images, a visual localization system outputs the relative pose between those images. To solve the relative camera pose estimation problem, it is trained a Convolutional Neural Network (CNN) to take as input two separated images in time and space in order to output a 6 Degree of Freedom (DoF) pose vector, representing the relative position and orientation between the input images. In conjunction, both systems solve the global localization problem using topological and metric information to approximate the actual robot pose. The proposed hybrid weightless-weighted neural network approach is naturally combined in a way that the output of one system is the input to the other producing competitive results for the Global Localization task. The full approach is compared against a Real Time Kinematic GPS system and a Visual Simultaneous Localization and Mapping (SLAM) system. Experimental results show that the proposed combined approach is able to correctly global localize an autonomous vehicle 90% of the time with a mean error of 1.20m compared to 1.12m of the Visual SLAM system and 0.37m of the GPS, 89% of the time.
Atualmente, veículos autônomos dependem muito da infra-estrutura do Sistema de Posicionamento Global (GPS, da sigla em inglês), embora haja uma demanda crescente de métodos alternativos de localização global em ambientes com ausência de sinal de GPS. Um deles é conhecido como localização global baseada em aparência, que associa imagens de lugares com sua posição correspondente. Isso é muito atraente com relação à grande quantidade de fotos disponíveis publicamente com metadados geográficos e também se considerados os dispositivos móveis equipados com câmeras de altíssima resolução, sensores de movimento e processadores multi-núcleos disponíveis atualmente. A localização global baseada em aparência pode ser concebida como sendo uma solução topológica ou métrica quanto ao fato de ser modelada como um problema de classificação ou regressão, respectivamente. As abordagens topológicas comumente utilizadas para resolver o problema de localização global envolvem soluções na dimensão espacial e menos freqüentemente na dimensão temporal, mas não simultaneamente. Foi proposta uma solução espaço-temporal integrada baseada em um conjunto de classificadores kNN, onde cada classificador usa Dynamic Time Warping (DTW) e a distância de Hamming para comparar Features binárias extraídas de seqüências de imagens. Cada classificador é treinado com seu próprio conjunto binário de Features extraídas das imagens. A solução foi projetada para resolver o problema de localização global em duas fases: mapeamento e localização. Durante o mapeamento, o classificador é treinado com uma seqüência de imagens e locais associados que representam episódios experimentados por um robô. Durante a localização, ele recebe subseqüências de imagens do mesmo ambiente e as compara com os episódios experimentados anteriormente, tentando relembrar qual foi a “experiência” mais semelhante considerando tempo e espaço simultaneamente. Então, o sistema exibe as posições onde “acredita” que essas imagens foram capturadas. Embora o método seja rápido para treinar, ele escala linearmente com o número de amostras de treinamento, ao calcular a distância de Hamming e compará-la com as amostras de teste. Muitas vezes, ao construir um mapa, ocorre dos dados coletados serem altamente correlacionados e redundantes em torno do ambiente de interesse. Algumas razões se devem ao uso de sensores com alta freqüência de amostragem ou o caso de trajetórias repetidas. Esses dados extras podem ocasionar uma sobrecarga indesejada sobre a memória e o desempenho em tempo de execução durante o teste, se não for tratado adequadamente durante a fase de mapeamento. Para enfrentar este problema, foi empregado um algoritmo de agrupamento (Clustering) para comprimir a memória da rede após o mapeamento. Para ambientes de maior escala, combinamos os algoritmos de agrupamento com uma estrutura de dados com múltiplas tabelas de espalhamento (Hash Tables) buscando o melhor equilíbrio entre a precisão da classificação, o desempenho em tempo de execução e o uso de memória. Até aqui, o que foi discutido abrange apenas a parte de solução topológica para o problema de localização global, que não é suficientemente precisa para a operação de carros autônomos. Em vez de apenas reconhecer locais e produzir uma pose associada, é desejado que um sistema de localização global calcule uma pose dada uma imagem atual de um lugar. Mas inferir poses para cenas numa escala de cidade é uma tarefa muitas vezes inviável, pelo menos, para precisão decimétrica. A abordagem proposta para tentar resolver este problema é a seguinte: primeiro capture uma imagem ao vivo da câmera e use o sistema de localização acima mencionado para retornar o par de pose e imagem mais semelhante a um banco de dados topológico construído como antes na fase de mapeamento. E então, dadas as imagens ao vivo e mapeadas, um sistema de localização visual calcula a pose relativa entre essas imagens. Para resolver o problema de estimativa de pose relativa entre câmeras, é treinada uma Rede Neural Convolucional (CNN, da sigla em inglês) seguindo o projeto de uma arquitetura Siamesa para tomar como entrada duas imagens separadas no tempo e espaço e então produzir um vetor de pose com 6 graus de liberdade (6-DoF, da sigla em inglês), representando a posição relativa e orientação entre as imagens de entrada. Em conjunto, ambos os sistemas solucionam o problema de localização global usando informações topológicas e métricas para aproximar a pose real do robô. A abordagem proposta de se combinar rede neurais híbridas, com e sem peso, é uma forma natural de unificar as duas abordagens. De forma que a saída de um sistema seja a entrada para o outro e produza resultados competitivos para a tarefa de localização global. A abordagem completa é comparada então com um GPS cinemático de tempo real (RTK, da sigla em inglês) e um sistema visual de localização e mapeamento simultânemos (SLAM, da sigla em inglês). Os resultados experimentais mostram que a abordagem proposta completa é capaz de localizar globalmente um veículo autônomo em 90% do tempo com um erro médio de 1,20m em comparação com 1,12m alcançado pelo sistema de SLAM visual e 0,37m do GPS-RTK em 89% do tempo.
URI: http://repositorio.ufes.br/handle/10/9876
Aparece nas coleções:PPGI - Teses de doutorado

Arquivos associados a este item:
Arquivo TamanhoFormato 
tese_12130_thesis_avelino.pdf4.58 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.