Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF

dc.contributor.advisorCorrêa, Andreiwid Sheffer
dc.contributor.authorRozado, Arthur Pereira
dc.date.accessioned2024-03-15T15:34:08Z
dc.date.available2024-03-15T15:34:08Z
dc.date.issued2017-12-15
dc.description.abstractO movimento de dados abertos vem sendo consolidado nos últimos anos para definir requisitos para promover uso, a reutilização e redistribuição dos dados por qualquer um e para qualquer propósito. Em vários países de todo o mundo, a área governamental vem tomando frente neste movimento com iniciativas de divulgar informações de transparência atendendo aos requisitos de dados abertos com apoio das legislações específicas. O problema é que o atendimento dos requisitos de dados abertos é algo que demanda tempo e preparação dos agentes públicos. Com isso, tem-se informações sendo divulgadas, e não dados, o que compromete os benefícios pretendidos. Um dos principais formatos preferidos é o Portable Document Format (PDF), indicado somente para leitura humana. Este trabalho objetiva implementar uma infraestrutura composta de Application Programming Interfaces (APIs) para extração de dados tabulares e convertê-los em formatos compatíveis com dados abertos. O sistema está limitado a algumas deficiências das bibliotecas utilizadas, porém, permite conversão e alimentação de uma base colaborativa por meio de múltiplas plataformas. Com os resultados deste trabalho, a comunidade poderá utilizar as interfaces disponibilizadas para utilização por outros sistemas sem limitações de linguagens e tecnologias.
dc.description.abstract2The movement of open data has been consolidated in the last years to define require ments to promote of data’s use, reuse and redistribution by any and for any purpose. The government area has taken up this move with initiatives to disseminate transparency information in response to open data requirements with the support of specific legislation. The problem is that meeting the requirements of open data is something that demands public agents’ time and preparation. So we have information being disclosed, not data, which compromises the intended benefits. One of the main formats is the Portable Document Format (PDF), which is indicated only for human reading. This work aims to implement an infrastructure composed of Application Programming Interfaces (APIs) for extracting tabular data and converting them into formats compatible with open data. The system is limited to some shortcomings presents in the libraries that were used, but it allows conversion and feeding of a collaborative base through multiple platforms. With the results of this work, the community will be able to use the interfaces available for use by other systems without limitations of languages and technologies.
dc.format.mimetypeapplication/pdf
dc.identifier.bibliographicCitationROZADO, Arthur Pereira. Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF. 2017. 38 f. Trabalho de Conclusão de Curso (Graduação)- Tecnologia em Análise e Desenvolvimento de Sistemas, Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Campinas, 2017
dc.identifier.urihttps://repositorio.ifsp.edu.br/handle/123456789/714
dc.publisherInstituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP)
dc.publisher.campiCAMPINAS
dc.rightsAttribution-NonCommercial-ShareAlike 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/br/
dc.subject.keywordsDados abertos
dc.subject.keywordsTabula
dc.subject.keywordsCSV
dc.titleImplementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF
dc.title.alternativeImplementation of API infrastructure for extracting tabular data from PDF documents
dc.typeTrabalhos de Conclusão de Curso de Graduação
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
rozado_ap_implementação.pdf
Tamanho:
1.65 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.92 KB
Formato:
Item-specific license agreed upon to submission
Descrição: