Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF
dc.contributor.advisor | Corrêa, Andreiwid Sheffer | |
dc.contributor.author | Rozado, Arthur Pereira | |
dc.date.accessioned | 2024-03-15T15:34:08Z | |
dc.date.available | 2024-03-15T15:34:08Z | |
dc.date.issued | 2017-12-15 | |
dc.description.abstract | O movimento de dados abertos vem sendo consolidado nos últimos anos para definir requisitos para promover uso, a reutilização e redistribuição dos dados por qualquer um e para qualquer propósito. Em vários países de todo o mundo, a área governamental vem tomando frente neste movimento com iniciativas de divulgar informações de transparência atendendo aos requisitos de dados abertos com apoio das legislações específicas. O problema é que o atendimento dos requisitos de dados abertos é algo que demanda tempo e preparação dos agentes públicos. Com isso, tem-se informações sendo divulgadas, e não dados, o que compromete os benefícios pretendidos. Um dos principais formatos preferidos é o Portable Document Format (PDF), indicado somente para leitura humana. Este trabalho objetiva implementar uma infraestrutura composta de Application Programming Interfaces (APIs) para extração de dados tabulares e convertê-los em formatos compatíveis com dados abertos. O sistema está limitado a algumas deficiências das bibliotecas utilizadas, porém, permite conversão e alimentação de uma base colaborativa por meio de múltiplas plataformas. Com os resultados deste trabalho, a comunidade poderá utilizar as interfaces disponibilizadas para utilização por outros sistemas sem limitações de linguagens e tecnologias. | |
dc.description.abstract2 | The movement of open data has been consolidated in the last years to define require ments to promote of data’s use, reuse and redistribution by any and for any purpose. The government area has taken up this move with initiatives to disseminate transparency information in response to open data requirements with the support of specific legislation. The problem is that meeting the requirements of open data is something that demands public agents’ time and preparation. So we have information being disclosed, not data, which compromises the intended benefits. One of the main formats is the Portable Document Format (PDF), which is indicated only for human reading. This work aims to implement an infrastructure composed of Application Programming Interfaces (APIs) for extracting tabular data and converting them into formats compatible with open data. The system is limited to some shortcomings presents in the libraries that were used, but it allows conversion and feeding of a collaborative base through multiple platforms. With the results of this work, the community will be able to use the interfaces available for use by other systems without limitations of languages and technologies. | |
dc.format.mimetype | application/pdf | |
dc.identifier.bibliographicCitation | ROZADO, Arthur Pereira. Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF. 2017. 38 f. Trabalho de Conclusão de Curso (Graduação)- Tecnologia em Análise e Desenvolvimento de Sistemas, Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Campinas, 2017 | |
dc.identifier.uri | https://repositorio.ifsp.edu.br/handle/123456789/714 | |
dc.publisher | Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP) | |
dc.publisher.campi | CAMPINAS | |
dc.rights | Attribution-NonCommercial-ShareAlike 3.0 Brazil | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/br/ | |
dc.subject.keywords | Dados abertos | |
dc.subject.keywords | Tabula | |
dc.subject.keywords | CSV | |
dc.title | Implementação de infraestrutura de API para extração de dados tabulares a partir de documentos PDF | |
dc.title.alternative | Implementation of API infrastructure for extracting tabular data from PDF documents | |
dc.type | Trabalhos de Conclusão de Curso de Graduação |