Pentaho, Airflow e Python: avaliação de ferramentas para criação de pipeline de dados

Data
2021-11-11
Título da Revista
ISSN da Revista
Título de Volume
Editor
Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP)

Resumo

O presente trabalho tem o propósito de realizar o desenvolvimento de pipeline de dados tendo como foco a disponibilização desses para análises das ciências humanas a partir da observação de ferramentais que possibilitam a implementação desses fluxos de dados. Parte-se da premissa que todas as ferramentas e ambiente devem ser de código aberto ou com disponibilização de versão em código aberto, assim como espera-se que o ambiente final de disponibilização dos dados seja de Big Data, para tanto utiliza-se o Hadoop e Hive para armazenamento e interface para a manipulação dos dados. Utiliza-se o modelo de Extração, Carregamento e Transformação, ELT, para caracterizar as tarefas a serem realizadas e o sistema de camadas baseado em delta lake é utilizado para armazenamento. Os pipelines foram construídos com Pentaho Data Integration e Airflow com Python utilizando dados públicos brasileiros em três diferentes cenários de extração de dados. O objetivo deste trabalho é diminuir a distância entre as áreas de estudo, criando possibilidades de conectar questões a respostas mais precisas disponíveis nas fontes de dados.


Descrição
Palavras-chave
Citação