Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados

dc.contributor.advisorMartins, Samuel Botter
dc.contributor.authorLeal, Deive Audieres
dc.contributor.refereeFernandes, Danilo Douradinho
dc.contributor.refereePedrosa, Bianca Maria
dc.date.accessioned2024-11-12T17:51:32Z
dc.date.available2024-11-12T17:51:32Z
dc.date.issued2021-11-11
dc.description.abstractO presente trabalho tem o propósito de realizar o desenvolvimento de pipeline de dados tendo como foco a disponibilização desses para análises das ciências humanas a partir da observação de ferramentais que possibilitam a implementação desses fluxos de dados. Parte-se da premissa que todas as ferramentas e ambiente devem ser de código aberto ou com disponibilização de versão em código aberto, assim como espera-se que o ambiente final de disponibilização dos dados seja de Big Data, para tanto utiliza-se o Hadoop e Hive para armazenamento e interface para a manipulação dos dados. Utiliza-se o modelo de Extração, Carregamento e Transformação, ELT, para caracterizar as tarefas a serem realizadas e o sistema de camadas baseado em delta lake é utilizado para armazenamento. Os pipelines foram construídos com Pentaho Data Integration e Airflow com Python utilizando dados públicos brasileiros em três diferentes cenários de extração de dados. O objetivo deste trabalho é diminuir a distância entre as áreas de estudo, criando possibilidades de conectar questões a respostas mais precisas disponíveis nas fontes de dados.
dc.description.abstract2This current work aims at producing the development in data pipeline and the main goal here is to support human science analysis observing tool which make available their implementation. It is based on the premise that every tool and environment must be open source or with an open-source version available and expecting that the final environment of data availability is like Big Data, consequently using Hadoop and Hive to store and do interface for data manipulation. The model of Extract, Load, Transform, ELT, is used to feature the tasks that will be done, and delta lake layers system is used to storage. The pipelines were developed with Pentaho Data Integration and Airflow with Python using Brazilian public data in three different scenarios of data extraction. The goal of this work is to lessen the distance between the areas of studying, creating possibilities for connecting questions to more accurate answers available in data sources.
dc.format.mimetypeapplication/pdf
dc.identifier.bibliographicCitationLEAL, Deive Audieres. Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados. Campinas, SP, 2021. 50 f. Trabalho de conclusão de curso (Graduação) - Tecnologia em Análise e Desenvolvimento de Sistemas, Instituto Federal de Educação, Ciência e Tecnologia de São Paulo, Campus Campinas, 2021
dc.identifier.urihttps://repositorio.ifsp.edu.br/handle/123456789/1725
dc.publisherInstituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP)
dc.publisher.campiCAMPINAS
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject.keywordsProcessamento de dados
dc.subject.keywordsBig data
dc.subject.keywordsEngenharia - processamento de dados
dc.subject.keywordsSoftware livre
dc.titlePentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados
dc.title.alternativePentaho, Airflow and Python: evaluation of tools for data pipeline creation
dc.typeTrabalhos de Conclusão de Curso de Graduação
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
leal_da_pentaho.pdf
Tamanho:
2.09 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.92 KB
Formato:
Item-specific license agreed upon to submission
Descrição: