Cross-domain object detection using unsupervised image translation and neural style transfer

dc.contributor.advisor1Santos, Thiago Oliveira dos
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-7607-635X
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5117339495064254
dc.contributor.authorArruda, Vinicius Ferraço
dc.contributor.authorIDhttps://orcid.org/0000-0001-9869-196X
dc.contributor.authorLatteshttp://lattes.cnpq.br/9913723441026450
dc.contributor.referee1Rauber, Thomas Walter
dc.contributor.referee1IDhttps://orcid.org/0000000263806584
dc.contributor.referee1Latteshttp://lattes.cnpq.br/0462549482032704
dc.contributor.referee2Mutz, Filipe Wall
dc.contributor.referee2IDhttps://orcid.org/0000-0002-2951-9207
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3123292310632540
dc.date.accessioned2024-05-30T00:53:24Z
dc.date.available2024-05-30T00:53:24Z
dc.date.issued2022-02-24
dc.description.abstractUnsupervised domain adaptation for object detection addresses the adaptation of detectors trained in a source domain to work accurately in an unseen target domain. In real-world applications, object detectors are desired to work accurately regardless of the application domain (e.g., weather condition). These models have the intrinsic property of being biased towards the training data and are known to not generalize well to unseen data. The greatest availability of datasets can be seen in the most prevalent domains (e.g., sunny day), but for certain applications it may be necessary to train a model to deploy in a less prevalent one (e.g., foggy day). In addition, the acquisition of a new dataset involves the laborious process of data annotation, but collecting large amounts of data without annotation might be feasible. Recently, methods for unsupervised domain adaptation approaching the alignment of the intermediate features proven to be promising, achieving state-of-the-art results. However, these methods are laborious to implement and hard to interpret. Although promising, there is still room for improvements to close the performance gap toward the upper-bound (when training with the target data). In this work, we propose a method to generate an artificial dataset in the target domain to train an object detector. We employed an unsupervised image translator (CycleGAN) and a neural style transfer method (AdaIN-based) using only annotated data from the source domain and non-annotated data from the target domain. Our key contributions are the proposal of a less complex yet more effective method that also has an improved interpretability. Results on real-world scenarios for autonomous driving show significant improvements, outperforming state-of-the-art methods in most cases, further closing the gap toward the upper-bound.
dc.description.resumoA adaptação de domínio de modo não supervisionado para detecção de objetos aborda a adaptação de detectores treinados em um domínio de origem para atuar com precisão em um domínio alvo desconhecido. Em aplicações do mundo real, é desejável que os detectores de objetos trabalhem com precisão, independentemente do domínio de aplicação (por exemplo, condições climáticas). Esses modelos têm a propriedade intrínseca de serem enviesados aos dados de treinamento e são conhecidos por não generalizar bem para dados desconhecidos. A maior disponibilidade de conjuntos de dados pode ser vista nos domínios mais prevalentes (por exemplo, dia ensolarado), mas para certas aplicações pode ser necessário treinar um modelo para atuar em um domínio menos predominante (por exemplo, dia com neblina). Para tal, se faz necessário realizar a coleta de um conjunto de dados de domínios menos predominantes. No entanto, a aquisição de um novo conjunto de dados envolve o laborioso processo de anotação de dados, mas a coleta de grandes quantidades de dados sem anotação pode ser viável. Recentemente, métodos de adaptação de domínio não supervisionados que abordam o alinhamento das características intermediárias mostraram-se promissores, alcançando resultados no estado da arte. No entanto, esses métodos são trabalhosos de implementar e por serem métodos caixa preta são difíceis de interpretar. Embora tenham resultados promissores, ainda há espaço para melhorias para fechar a lacuna de desempenho em relação ao modelo ideal (ao treinar com os dados do domínio alvo). Neste trabalho, propomos um método para gerar um conjunto de dados artificial no domínio alvo para treinar um detector de objetos. Empregamos um tradutor de imagem não supervisionado (CycleGAN) e um método de transferência de estilo neural (baseado em AdaIN) usando apenas dados anotados do domínio de origem e dados não anotados do domínio alvo. Nossas principais contribuições são a proposta de um método menos complexo de adaptação de domínio de modo não supervisionado para detecção de objetos, porém mais eficaz, que também tem uma interpretabilidade aprimorada em relação aos métodos estado da arte. Os resultados em cenários do mundo real para direção autônoma mostram melhorias significativas, superando os métodos estado da arte na maioria dos casos, obtendo resultados ainda mais próximos do modelo ideal.
dc.formatText
dc.identifier.urihttp://repositorio.ufes.br/handle/10/15973
dc.languagepor
dc.publisherUniversidade Federal do Espírito Santo
dc.publisher.countryBR
dc.publisher.courseMestrado em Informática
dc.publisher.departmentCentro Tecnológico
dc.publisher.initialsUFES
dc.publisher.programPrograma de Pós-Graduação em Informática
dc.rightsopen access
dc.subjectAdaptação de domínio não supervisionado
dc.subjectRedes generativas adversariais
dc.subjectTransferência de estilo neural
dc.subject.br-rjbnsubject.br-rjbn
dc.subject.cnpqCiência da Computação
dc.titleCross-domain object detection using unsupervised image translation and neural style transfer
dc.typemasterThesis
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
ViniciusFerracoArruda-2022-dissertacao.pdf
Tamanho:
12.09 MB
Formato:
Adobe Portable Document Format
Descrição: