Human action recognition based on spatiotemporal features from videos

Silva, Murilo Varges da

Human action recognition based on spatiotemporal features from videos

Arquivos

silva_mv_human.pdf(23.61 MB)

Data

2020-12-22

Autores

Silva, Murilo Varges da

Editor

Universidade Federal de São Carlos (UFSCAR)

Resumo

Atualmente, existe uma alta demanda para o desenvolvimento de novas técnicas de reconhecimento automático de padrões em vídeos, como por exemplo para o reconhecimento automático de ações humanas, demanda essa motivada pelos avanços nas tecnologias de produção, armazenamento, transmissão e compartilhamento de vídeos, tais avanços desencadearam a produção de um grande volume de vídeos que para serem úteis necessitam de tratamento automatizado. Dentre as principais aplicações do reconhecimento de ações humanas em vídeos, destacam-se: vigilância em locais públicos, detecção de quedas de idosos em suas residências, automação em lojas com sistema de checkout sem atendentes, detecção de ações de pedestres por parte de veículos autônomos, detecção de conteúdo inadequado postado na internet, como violência ou pornografia, etc. O reconhecimento automático de ações em vídeos é uma tarefa desafiadora, pois para se obter boas taxas de acurácia é necessário trabalhar com informações espaciais (por exemplo, formas encontradas em um único quadro do vídeo) e informações temporais (por exemplo, padrões de movimentos encontrados entre os quadros do vídeo). Nesta tese são propostos novos métodos para reconhecimento automático de ações humanas a partir de informações espaço-temporais extraídas de vídeos. Inicialmente, foram avaliadas diferentes arquiteturas de Redes Neurais de Convolução 3D (3D CNN - Convolutional Neural Networks) no contexto de detecção de pornografia em vídeos. Após, foram propostos novos métodos para o reconhecimento de ações humanas baseados em informações espaço-temporais extraídas de poses 2D. O uso de poses 2D se mostrou uma estratégia promissora, pois exige um custo computacional menor se comparado com técnicas que utilizam aprendizado de máquina em profundidade, além disso ao se utilizar poses 2D ao invés das imagens brutas pode-se preservar a privacidade das pessoas e dos ambientes onde as câmeras de vídeos estão instaladas. O método proposto, apresentou taxas de acurácia compatíveis com o estado-da-arte nas bases de dados públicas em que os experimentos foram realizados.

URI

https://repositorio.ufscar.br/handle/ufscar/13976

Coleções

Teses e Dissertações dos Servidores

Página do item completo