Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados
dc.contributor.advisor | Martins, Samuel Botter | |
dc.contributor.author | Leal, Deive Audieres | |
dc.contributor.referee | Fernandes, Danilo Douradinho | |
dc.contributor.referee | Pedrosa, Bianca Maria | |
dc.date.accessioned | 2024-11-12T17:51:32Z | |
dc.date.available | 2024-11-12T17:51:32Z | |
dc.date.issued | 2021-11-11 | |
dc.description.abstract | O presente trabalho tem o propósito de realizar o desenvolvimento de pipeline de dados tendo como foco a disponibilização desses para análises das ciências humanas a partir da observação de ferramentais que possibilitam a implementação desses fluxos de dados. Parte-se da premissa que todas as ferramentas e ambiente devem ser de código aberto ou com disponibilização de versão em código aberto, assim como espera-se que o ambiente final de disponibilização dos dados seja de Big Data, para tanto utiliza-se o Hadoop e Hive para armazenamento e interface para a manipulação dos dados. Utiliza-se o modelo de Extração, Carregamento e Transformação, ELT, para caracterizar as tarefas a serem realizadas e o sistema de camadas baseado em delta lake é utilizado para armazenamento. Os pipelines foram construídos com Pentaho Data Integration e Airflow com Python utilizando dados públicos brasileiros em três diferentes cenários de extração de dados. O objetivo deste trabalho é diminuir a distância entre as áreas de estudo, criando possibilidades de conectar questões a respostas mais precisas disponíveis nas fontes de dados. | |
dc.description.abstract2 | This current work aims at producing the development in data pipeline and the main goal here is to support human science analysis observing tool which make available their implementation. It is based on the premise that every tool and environment must be open source or with an open-source version available and expecting that the final environment of data availability is like Big Data, consequently using Hadoop and Hive to store and do interface for data manipulation. The model of Extract, Load, Transform, ELT, is used to feature the tasks that will be done, and delta lake layers system is used to storage. The pipelines were developed with Pentaho Data Integration and Airflow with Python using Brazilian public data in three different scenarios of data extraction. The goal of this work is to lessen the distance between the areas of studying, creating possibilities for connecting questions to more accurate answers available in data sources. | |
dc.format.mimetype | application/pdf | |
dc.identifier.bibliographicCitation | LEAL, Deive Audieres. Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados. Campinas, SP, 2021. 50 f. Trabalho de conclusão de curso (Graduação) - Tecnologia em Análise e Desenvolvimento de Sistemas, Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Campinas, 2021 | |
dc.identifier.uri | https://repositorio.ifsp.edu.br/handle/123456789/1725 | |
dc.publisher | Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP) | |
dc.publisher.campi | CAMPINAS | |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
dc.subject.keywords | Processamento de dados | |
dc.subject.keywords | Big data | |
dc.subject.keywords | Engenharia - processamento de dados | |
dc.subject.keywords | Software livre | |
dc.title | Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados | |
dc.title.alternative | Pentaho, Airflow and Python: evaluation of tools for data pipeline creation | |
dc.type | Trabalhos de Conclusão de Curso de Graduação |