Lane marking detection and classification using spatial-temporal feature pooling

dc.contributor.advisor1Santos, Thiago Oliveira dos
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-7607-635X
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5117339495064254
dc.contributor.authorTorres, Lucas Tabelini
dc.contributor.authorIDhttps://orcid.org/0000-0001-5371-6692
dc.contributor.authorLatteshttp://lattes.cnpq.br/0954275990134963
dc.contributor.referee1Moreira, Gladston Juliano Prates
dc.contributor.referee1IDhttps://orcid.org/0000-0001-7747-5926
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9902619084565293
dc.contributor.referee2Varejão, Flavio Miguel
dc.contributor.referee2IDhttps://orcid.org/0000-0002-5444-1974
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6501574961643171
dc.date.accessioned2024-05-30T01:42:34Z
dc.date.available2024-05-30T01:42:34Z
dc.date.issued2023-07-31
dc.description.abstractThe lane detection problem has been extensively researched in the past decades, especially since the advent of deep learning. Despite the numerous works proposing solutions to the localization task (i.e., localizing the lane boundaries in an input image), the classification task has not seen the same focus. Nonetheless, knowing the type of lane boundary, particularly that of the ego lane, can be very useful for many applications. For instance, a vehicle might not be allowed by law to overtake depending on the type of the ego lane. Beyond that, very few works take advantage of the temporal information available in the videos captured by the vehicles: most methods employ a single-frame approach. In this work, building upon the recent deep learning-based model LaneATT, we propose an approach to exploit the temporal information and integrate the classification task into the model. This is accomplished by extracting features from multiple frames using a deep neural network (instead of only one as in LaneATT). Our results show that the proposed modifications can improve the detection performance on the most recent benchmark (VIL-100) by 2.34%, establishing a new state-of-the-art. Finally, an extensive evaluation shows that it enables a high classification performance (89.37%) that serves as a future benchmark for the field.
dc.description.resumoO problema de detecção de faixas de trânsito tem sido pesquisado extensivamente nas últimas décadas, especialmente com o advento do aprendizado profundo. Apesar dos inúmeros trabalhos propondo soluções para a tarefa de localização (i.e., a de localizar as bordas das faixas de trânsito na imagem de entrada), a tarefa de classificação não tem recebido a mesma atenção. De qualquer maneira, ter a informação do tipo da faixa, especialmente da faixa atualmente ocupada pelo veículo, pode ser bastante útil em várias aplicações. Por exemplo, dependendo do tipo da faixa, o veículo talvez não possa (pela lei) fazer uma ultrapassagem. Além disso, poucos trabalhos exploram a informação temporal disponível nos vídeos capturados pelos veículos: a maioria faz uso da abordagem singleframe. Neste trabalho, partindo do recém proposto modelo de detecção de faixas LaneATT, nós propomos uma maneira de explorar a informação temporal e integrar a tarefa de classificação no modelo. Isso é alcançado por meio da extração de features de múltiplos frames usando uma rede neural profunda (ao invés de somente um, como no LaneATT). Os resultados mostram que as modificações propostas podem melhorar o desempenho de localização no benchmark (VIL-100) em 2.34%, estabelecendo um novo estado-daarte. Finalmente, uma avaliação extensiva mostra que também é possível obter um alto desempenho de classificação (89.37%) que serve como baseline para a área de pesquisa.
dc.description.sponsorshipFundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/17156
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Informática
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Informática
dc.rightsopen access
dc.subjectVeículos autônomos
dc.subjectDireção autônoma
dc.subjectAprendizado profundo
dc.subjectDetecção de objetos em vídeos
dc.subjectDetecção de faixas de trânsito
dc.subject.br-rjbnsubject.br-rjbn
dc.subject.cnpqCiência da Computação
dc.titleLane marking detection and classification using spatial-temporal feature pooling
dc.title.alternativetitle.alternative
dc.typemasterThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao-lucas-tabelini-torres.pdf
Tamanho:
10 MB
Formato:
Adobe Portable Document Format
Descrição: