Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF

Rozado, Arthur Pereira

Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF

dc.contributor.advisor	Corrêa, Andreiwid Sheffer
dc.contributor.author	Rozado, Arthur Pereira
dc.date.accessioned	2024-03-15T15:34:08Z
dc.date.available	2024-03-15T15:34:08Z
dc.date.issued	2017-12-15
dc.description.abstract	O movimento de dados abertos vem sendo consolidado nos últimos anos para definir requisitos para promover uso, a reutilização e redistribuição dos dados por qualquer um e para qualquer propósito. Em vários países de todo o mundo, a área governamental vem tomando frente neste movimento com iniciativas de divulgar informações de transparência atendendo aos requisitos de dados abertos com apoio das legislações específicas. O problema é que o atendimento dos requisitos de dados abertos é algo que demanda tempo e preparação dos agentes públicos. Com isso, tem-se informações sendo divulgadas, e não dados, o que compromete os benefícios pretendidos. Um dos principais formatos preferidos é o Portable Document Format (PDF), indicado somente para leitura humana. Este trabalho objetiva implementar uma infraestrutura composta de Application Programming Interfaces (APIs) para extração de dados tabulares e convertê-los em formatos compatíveis com dados abertos. O sistema está limitado a algumas deficiências das bibliotecas utilizadas, porém, permite conversão e alimentação de uma base colaborativa por meio de múltiplas plataformas. Com os resultados deste trabalho, a comunidade poderá utilizar as interfaces disponibilizadas para utilização por outros sistemas sem limitações de linguagens e tecnologias.
dc.description.abstract2	The movement of open data has been consolidated in the last years to define require ments to promote of data’s use, reuse and redistribution by any and for any purpose. The government area has taken up this move with initiatives to disseminate transparency information in response to open data requirements with the support of specific legislation. The problem is that meeting the requirements of open data is something that demands public agents’ time and preparation. So we have information being disclosed, not data, which compromises the intended benefits. One of the main formats is the Portable Document Format (PDF), which is indicated only for human reading. This work aims to implement an infrastructure composed of Application Programming Interfaces (APIs) for extracting tabular data and converting them into formats compatible with open data. The system is limited to some shortcomings presents in the libraries that were used, but it allows conversion and feeding of a collaborative base through multiple platforms. With the results of this work, the community will be able to use the interfaces available for use by other systems without limitations of languages and technologies.
dc.format.mimetype	application/pdf
dc.identifier.bibliographicCitation	ROZADO, Arthur Pereira. Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF. 2017. 38 f. Trabalho de Conclusão de Curso (Graduação)- Tecnologia em Análise e Desenvolvimento de Sistemas, Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Campinas, 2017
dc.identifier.uri	https://repositorio.ifsp.edu.br/handle/123456789/714
dc.publisher	Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP)
dc.publisher.campi	CAMPINAS
dc.rights	Attribution-NonCommercial-ShareAlike 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/br/
dc.subject.keywords	Dados abertos
dc.subject.keywords	Tabula
dc.subject.keywords	CSV
dc.title	Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF
dc.title.alternative	Implementation of API infrastructure for extracting tabular data from PDF documents
dc.type	Trabalhos de Conclusão de Curso de Graduação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: rozado_ap_implementação.pdf
Tamanho:: 1.65 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.92 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Tecnologia em Análise e Desenvolvimento de Sistemas