Sistema de reconhecimento de gestos e ações em tempo real baseado em visão computacional
| dc.contributor.advisor1 | Vassallo, Raquel Frizera | |
| dc.contributor.advisor1ID | https://orcid.org/0000000247623219 | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9572903915280374 | |
| dc.contributor.author | Santos, Clebeson Canuto dos | |
| dc.contributor.authorID | https://orcid.org/0000000273141934 | |
| dc.contributor.authorLattes | http://lattes.cnpq.br/7754166023347003 | |
| dc.contributor.referee1 | Ciarelli, Patrick Marques | |
| dc.contributor.referee1ID | https://orcid.org/0000000331774028 | |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/1267950518719423 | |
| dc.contributor.referee2 | Almonfrey, Douglas | |
| dc.contributor.referee2ID | https://orcid.org/0000-0002-0547-3494 | |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/1291322166628469 | |
| dc.contributor.referee3 | Montalvão Filho, Jugurta Rosa | |
| dc.contributor.referee3ID | https://orcid.org/0000-0002-6659-6439 | |
| dc.contributor.referee3Lattes | http://lattes.cnpq.br/4582408199121884 | |
| dc.contributor.referee4 | Bernardino, Alexandre José Malheiro | |
| dc.contributor.referee4ID | https://orcid.org/0000-0003-3991-1269 | |
| dc.date.accessioned | 2024-05-30T00:50:16Z | |
| dc.date.available | 2024-05-30T00:50:16Z | |
| dc.date.issued | 2020-12-17 | |
| dc.description.abstract | This thesis aims to investigate and propose mechanisms for recognizing and anticipating dynamic gestures and actions based only on computer vision. Three proposals are focused on gesture recognition: Star RGB- a representation that condenses the montion contained in the frames of a video into only one RGB image; Star iRGB- an iterative version of Star RGB that can be used by learning models of sequential nature; and Star iRGBhand- an iterative model for recognizing gestures that uses the shape of the hands as context. For action anticipation, bayesian models based on recurrent neural networks were presented, which uses context information to reduce the ambiguity between similar movements in addition to a threshold on the estimated epistemic uncertainty to decide when an action should be anticipaded. In this context, two models have been proposed to recognize and anticipate gestures online. All proposals were validated through several experiments whose results were compared to several baselines. In this sense, three main datasets were used: Montalbano, for gestures captured by only one camera; IS-Gesture, for gestures captured in a multi-camera environment; and Acticipate, for action anticipation. The results achieved with the gesture recognition models were the best for the Montalbano set when considering works that use only RGB images. Even when compared to multimodal models, based on CNN 3D, the results are among the best, just slightly behind (less than 1%) two multimodal proposals. In the task of anticipating actions, the accuracy of recognition and anticipation obtained when using the dataset Acticipate were the best ones achieved so far. Finally, considering the models that aim to recognize and anticipate gestures online, the proposed model that works with only one camera has also achieved results among the best in literature for the Montalbano dataset. In relation to IS-Gesture, which represents the most complex challenge due to the multi-camera environment, the average accuracy of recognition and anticipation of gestures was considered satisfactory, with clear indications of where improvements should be made to achieve better results. Regarding the execution time, the proposed models were all able to provide information for an application that requires a frame rate of up to 10 FPS. Thus, it is possible to use such models in an interactive application in real time, in an environment with one or several cameras. In summary, all the proposals have shown to be very promising, obtaining results that go beyond the main related works that address the previously mentioned datasets. | |
| dc.description.resumo | Esta tese tem como objetivo investigar e propor mecanismos de reconhecimento e antecipação de gestos dinâmicos e ações baseando-se apenas em visão computacional. Trs propostas objetivaram o reconhecimento de gestos: Star RGB- uma representação de movimento que condensa os frames de um vídeo em uma imagem RGB; Star iRGB- uma versão iterativa da Star RGB que pode ser usada por modelos de aprendizagem de natureza sequencial; e Star iRGBhand- um modelo iterativo para o reconhecimento de gestos que utiliza a forma das mãos como contexto. Para a antecipação de ações, foram apresentados modelos bayesianos, baseados em redes neurais recorrentes, que usam informações de contexto para diminuir a ambiguidade entre movimentos semelhantes, além de um limiar sobre a incerteza epistmica estimada como mecanismo de tomada de decisão quanto ao momento da antecipação. Nesse contexto, foram propostos dois modelos para reconhecer e antecipar gestos de forma online. Todas as propostas foram validadas por meio de diversos experimentos cujos resultados foram comparados a vários baselines. Nesse sentido, foram utilizados tr s conjuntos de dados principais: o Montalbano, para os gestos capturados por apenas uma câmera; o IS-Gesture, para gestos capturados em um ambiente multicâmeras; e o Acticipate, para a antecipação de ações. Os resultados alcançados com os modelos para reconhecimento de gestos foram os melhores para o conjunto Montalbano quando se consideram os trabalhos que utilizam apenas imagens RGB. Mesmo quando comparados aos modelos multimodais, baseados em CNN 3D, os resultados estão entre os melhores, ficando levemente atrás (menos de 1%) de apenas duas propostas multimodais. Na tarefa de antecipação de ações, as acurácias de reconhecimento e antecipação obtidas sobre o Acticipate são as melhores alcançadas nesse conjunto de dados até o presente momento. Finalmente, considerando os modelos que objetivam reconhecer e antecipar os gestos de modo online, para o Montalbano, o modelo proposto também conseguiu resultados entre os melhores da literatura. Já em relação ao IS-Gesture, o qual representa o desafio de maior complexidade devido ao ambiente multicâmeras, as acurácias médias de reconhecimento e antecipação dos gestos foram consideradas satisfatórias, havendo ainda indícios claros de onde devem ser realizadas melhorias para se atingir melhores resultados. Quanto ao tempo de execução, os modelos propostos mostraram-se viáveis para fornecer informações para uma aplicação que demanda uma taxa de atualização de até 10 FPS. Assim, é possível a utilização de tais modelos em uma aplicação interacional em tempo real, em um ambiente com uma ou várias câmeras. Em resumo, todas as propostas mostraram-se bem promissoras, além de obterem resultados que ultrapassam os principais trabalhos da literatura que abordam os conjuntos de dados anteriormente mencionados. | |
| dc.description.sponsorship | Fundação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
| dc.format | Text | |
| dc.identifier.uri | http://repositorio.ufes.br/handle/10/15284 | |
| dc.language | por | |
| dc.publisher | Universidade Federal do Espírito Santo | |
| dc.publisher.country | BR | |
| dc.publisher.course | Doutorado em Engenharia Elétrica | |
| dc.publisher.department | Centro Tecnológico | |
| dc.publisher.initials | UFES | |
| dc.publisher.program | Programa de Pós-Graduação em Engenharia Elétrica | |
| dc.rights | open access | |
| dc.subject | Reconhecimento de gestos dinâmicos | |
| dc.subject | Antecipação de ações | |
| dc.subject | Interação humano-máquina | |
| dc.subject | Redes neurais profundas | |
| dc.subject | Visão computacional | |
| dc.subject.br-rjbn | subject.br-rjbn | |
| dc.subject.cnpq | Engenharia Elétrica | |
| dc.title | Sistema de reconhecimento de gestos e ações em tempo real baseado em visão computacional | |
| dc.type | doctoralThesis |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- ClebesonCanutodosSantos-2020-tese.pdf
- Tamanho:
- 12.13 MB
- Formato:
- Adobe Portable Document Format
- Descrição: