Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF

Data
2017-12-15
Título da Revista
ISSN da Revista
Título de Volume
Editor
Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP)

Resumo

O movimento de dados abertos vem sendo consolidado nos últimos anos para definir requisitos para promover uso, a reutilização e redistribuição dos dados por qualquer um e para qualquer propósito. Em vários países de todo o mundo, a área governamental vem tomando frente neste movimento com iniciativas de divulgar informações de transparência atendendo aos requisitos de dados abertos com apoio das legislações específicas. O problema é que o atendimento dos requisitos de dados abertos é algo que demanda tempo e preparação dos agentes públicos. Com isso, tem-se informações sendo divulgadas, e não dados, o que compromete os benefícios pretendidos. Um dos principais formatos preferidos é o Portable Document Format (PDF), indicado somente para leitura humana. Este trabalho objetiva implementar uma infraestrutura composta de Application Programming Interfaces (APIs) para extração de dados tabulares e convertê-los em formatos compatíveis com dados abertos. O sistema está limitado a algumas deficiências das bibliotecas utilizadas, porém, permite conversão e alimentação de uma base colaborativa por meio de múltiplas plataformas. Com os resultados deste trabalho, a comunidade poderá utilizar as interfaces disponibilizadas para utilização por outros sistemas sem limitações de linguagens e tecnologias.


Descrição
Palavras-chave
Citação