ETL na Nuvem

ETL na Nuvem

ETL na Nuvem é o serviço consultivo da Paralelo CS que auxilia empresas a gerenciar todos seus processos de ETLs na Nuvem ou On Premise executá-los de forma escalável a fim de garantir a disponibilidade do dados no tempo certo para que o usuário final possa consumir.

Auxiliamos as empresas a levarem seus pipeline de dados para Nuvem da Google e assim aumentar sua capacidade de processamento, trabalhando de forma paralela, distribuída e escalável, provendo também a redução de custos de infra estrutura e licenciamento.

Recomendamos a utilização de duas tecnilogias que se completa: Google Cloud Composer e Google Cloud Dataflow.

Saiba mais sobre ETL na Nuvem!

ETL na Nuvem

Google Cloud Plataform é o serviço de Nuvem pública oferecida pela Google e escolhida e aconselhada como plataforma de Cloud pela Paralelo CS para empresas que pensam em Big Data, Analytics e Machine Learning.

A Paralelo CS é uma empresa que nasceu para auxiliar outras empresas a se tornarem Data Driven. Nosso core sempre foi trabalhar com dados. Desde sua extração, transformação, carga e análises. Devido a essa nossa experiência, encontramos no Google Cloud Plataform, todas as ferramentas necessárias para fornecer um robusto e confiável serviço de ETL na nuvem.

ETL na Nuvem é a capacidade de gerenciar todos seus processos de ETL e executá-los de forma a garantir que o dado esteja disponível no tempo certo para que o usuário final possa consumir.

Com esse propósito recomendamos a utilização de duas tecnilogias que se completam. O Google Cloud Composer e Google Cloud Dataflow.

 

ETL na Nuvem

Cloud Composer (Apache Airflow)

O Google Cloud Composer é um serviço de orquestração de fluxos de trabalho (ETLs) totalmente gerenciado pelo Google Cloud Plataform. O Google Cloud Composer é uma implementação da solução open source (de código aberto) Apache Airflow, administrada pela Apache Software Foundation.

O Google Cloud Composer é um grande gerenciador de ETLs. Ele permite criar, agendar, monitorar pipelines tanto na nuvem quanto on premise (Data centers local).

Cloud Composer (Apache Airflow)

Gerenciamento de Dependências

Google Cloud Composer (Apache Airflow) possibilita um excelente controle de dependência entre seus pipelines. Ele utiliza o conceito de DAGs (Directed acyclic graph), ou do português, gráficos acíclicos dirigidos onde conduz o fluxo de trabalho de forma a não ter loop back, ou seja, não ter volta.

Com a capacidade de gerenciar pipeline na Nuvem e On Premise, a abordagem de DAGs se torna ainda mais poderosa. Apache Airflow conduz seus ETLs de início ao fim e sem ter qualquer loop de volta.

Gerenciamento de Dependências

Monitoramento

Google Cloud Composer (Apache Airflow) amplia sua capacidade de monitorar e gerenciar seus processos de ETLs. Por meio de uma interface gráfica bem amigável, é possível ter uma visão completa de todos metadados dos seus pipelines de dados.

O Google Cloud Composer permite ter uma visão bem completa de cada etapa dentro de cada pipeline. Dessa forma é fácil diagnosticar qual etapa está levando mais tempo para concluir e assim otimiza-lá para que seu pipeline conclua no tempo esperado.

 

Dags

Monitoramento

Cloud Dataflow (Apache Beam)

O Google Cloud Dataflow é um serviço de ETL (Extração, Transformação e Carga de dados) totalmente gerenciado pelo Google Cloud Plataform. O Dataflow é uma implementação do Google para a solução open source do Apache Beam administrada pela Apache Software Foundation.

Google Cloud Dataflow possui capacidades únicas de transformar e aprimorar dados nos modos de streaming (tempo real) e em batch (dados históricos) com a mesma confiabilidade e em um mesmo pipeline de dados, ou seja, em um mesmo processamento.

Além disso, o Google Cloud Platform fonece o Google Cloud Dataflow de forma serveless, ou seja, totalmente gerenciado, sem a necessidade de você se preocupar com aquisição de servidores e configurações.

O Google Cloud Dataflow consegue escalar facilmente adicionando novos workers e adequar seus recursos computacionais à demanda necessária.

Você não precisa mais adicionar diversas soluções complexas para conseguir processos streaming e batch ao mesmo tempo. Confie essa demanda ao Google Cloud Dataflow.

Cloud Dataflow (Apache Beam)

Batch e Streaming unificado

O Cloud Dataflow (Apache Beam) é uma solução open source (de código aberto) que possui uma forma unificada de trabalhar com pipeline de dados de streaming e batch de forma paralela e distrbuída.

Por meio de um dos SDKs do Apache Beam, é possível criar complexos pipeline de dados e contar com a capacidade serverless do Google Cloud Platform para executar seus processos de ETL (Extração, Transformação e Carga de dados) de forma paralela, distrbuída e esclável.

O Apache Beam tem como objetivo fornecer portabilidade aos seus usuários. O código executado pelo Google Cloud Dataflow pode também ser executado por outros "Runners" como: Apache Apex, Apache FlinkApache Spark. Dessa forma você não fica preso a um determinado fornecedor de nuvem.

 

dataflow streaming e batch

Batch e Streaming unificado

Cloud Composer e Cloud Dataflow

Recomendamos fortemente a utilização do Cloud Composer e Cloud Dataflow juntos no seu universo de ETL.

Ambos possuem características únicas que juntas fornecem confiabilidade dos seus processos de ETL.

Google Cloud Composer é o responsável por orquestrar, criar, agendar e monitorar todos os fluxos de trabalhos, sendo eles na Nuvem ou On Premise.

Google Cloud Dataflow se encarregará de executar os pipeline de dados de forma paralela, distribída e escalável, tanto para análises em tempo real (streaming), quanto para análises de dados históricos (batch).

E tudo isso sem a necessidade de adquirir licença de software, pois ambos são open sources e você pagará apenas pelos recursos que utilizar.

Cloud Composer e Cloud Dataflow

Casos de Uso: Data Warehouse e Data Lake

Google Cloud Dataflow e Google Cloud Composer são ideais para empresas que estão buscando criar Data Lakes e/ou Data Warehouses.

Google Cloud Composer consegue facilmente acompanhar os inúmeros processos de ETL necessários para criação de Data Lake e Data Warehouse, assim como controlar suas dependências. Dessa forma você cria uma robusta cadeia de processos totalmente gerenciados, sendo eles na Nuvem ou On Premise.

Google Cloud Dataflow além da capacidade de processar dados de streaming e batch de forma paralela e distribuída, ele possui diversos conectores built-in para extrair dados de sua origem, processar e disponibilizar em seu Data Lake e Data Warehouse.

 

Diagrama Dataflow

Casos de Uso: Data Warehouse e Data Lake

Casos de Uso: IoT

O grande desafio de IoT é como utilizar os recursos tecnológicos para processar dados sem fim (streaming), de alta frequência e unir com dados existentes (batch) para melhor contextualizar a informação.

Google Cloud Dataflow com sua poderosa capacidade de processar streaming (tempo real) e batch (dados históricos) de forma unificada e em um mesmo pipeline, se torna uma tecnologia ideal para trabalhar com cargas de trabalho de IoT (Internet das Coisas).

Além disso, o Cloud Dataflow consegue paralelizar processamento e escalar seus recursos computacionais para atender as altas demandas.

Casos de Uso: IoT

Casos de Uso: Machine Learning

Google Cloud Dataflow é ideal para empresas que estão aderindo e criando seus modelos de Machine Learning e utilizando-os em ambiente de produção. Google Cloud Dataflow contribui desde o treinamento do modelo até a utilização em produção.

Com sua capacidade de processar dados de forma paralela, distribuída e escalável, Google Cloud Dataflow se torna um grande alinhado ao Cientista de Dados com a tarefa de pré processamento.

Modelos de Machine Learning em Tempo Real necessitam de ferramentas que consigam processar dados em streaming e batch para assim performar predições.  Google Cloud Dataflow é a solução ideal para esse cenário.

Dataflow Machine Learning Real Time

 

 

Saiba mais informações em nosso ebook de Modelagem de dados IOT na indústria 4.0 

Casos de Uso: Machine Learning

Fique por dentro de nossas novidades

Inscreva-se chevron_right