Human action recognition based on spatiotemporal features from videos
Arquivos
Data
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Resumo
Atualmente, existe uma alta demanda para o desenvolvimento de novas técnicas de reconhecimento automático de padrões em vídeos, como por exemplo para o reconhecimento automático de ações humanas, demanda essa motivada pelos avanços nas tecnologias de produção, armazenamento, transmissão e compartilhamento de vídeos, tais avanços desencadearam a produção de um grande volume de vídeos que para serem úteis necessitam de tratamento automatizado. Dentre as principais aplicações do reconhecimento de ações humanas em vídeos, destacam-se: vigilância em locais públicos, detecção de quedas de idosos em suas residências, automação em lojas com sistema de checkout sem atendentes, detecção de ações de pedestres por parte de veículos autônomos, detecção de conteúdo inadequado postado na internet, como violência ou pornografia, etc. O reconhecimento automático de ações em vídeos é uma tarefa desafiadora, pois para se obter boas taxas de acurácia é necessário trabalhar com informações espaciais (por exemplo, formas encontradas em um único quadro do vídeo) e informações temporais (por exemplo, padrões de movimentos encontrados entre os quadros do vídeo). Nesta tese são propostos novos métodos para reconhecimento automático de ações humanas a partir de informações espaço-temporais extraídas de vídeos. Inicialmente, foram avaliadas diferentes arquiteturas de Redes Neurais de Convolução 3D (3D CNN - Convolutional Neural Networks) no contexto de detecção de pornografia em vídeos. Após, foram propostos novos métodos para o reconhecimento de ações humanas baseados em informações espaço-temporais extraídas de poses 2D. O uso de poses 2D se mostrou uma estratégia promissora, pois exige um custo computacional menor se comparado com técnicas que utilizam aprendizado de máquina em profundidade, além disso ao se utilizar poses 2D ao invés das imagens brutas pode-se preservar a privacidade das pessoas e dos ambientes onde as câmeras de vídeos estão instaladas. O método proposto, apresentou taxas de acurácia compatíveis com o estado-da-arte nas bases de dados públicas em que os experimentos foram realizados.