Sobre o Projeto

Conheça a visão, estrutura e objetivos desta jornada de aprendizado em engenharia de dados.

Visão Geral da Arquitetura

Este projeto foi desenvolvido para proporcionar uma experiência prática e completa em engenharia de dados, utilizando tecnologias modernas e altamente valorizadas no mercado. A arquitetura do projeto é baseada no ecossistema Google Cloud Platform (GCP), com foco em serviços serverless e data warehousing.

Componentes Principais:

Esta arquitetura representa um pipeline de dados moderno, escalável e econômico, ideal para aprendizado e projetos pessoais.

Casos de Uso Práticos

O projeto inclui três casos de uso reais, cada um explorando diferentes aspectos da engenharia de dados:

1. Monitor de Mercado de Criptomoedas em Tempo Real

Utilizando a API CoinGecko, este caso de uso coleta dados de preços, volumes e capitalização de mercado das principais criptomoedas a cada 5 minutos, armazenando um histórico incremental no BigQuery e visualizando tendências e movimentos atípicos no Looker Studio.

2. Histórico de Escuta Pessoal do Spotify

Conectando-se à API do Spotify, este caso de uso extrai seu histórico de músicas recentemente tocadas, armazena no BigQuery e cria visualizações sobre seus hábitos de escuta, artistas favoritos e padrões de consumo musical.

3. Painel de Filmes em Alta (Trending Movies)

Utilizando a API do TMDB (The Movie Database), este caso de uso monitora diariamente quais filmes estão em tendência, armazenando dados de popularidade, avaliações e informações básicas para análise de tendências no setor cinematográfico.

Cada caso de uso foi escolhido para demonstrar diferentes aspectos da engenharia de dados, desde coleta em tempo real até análise de tendências e comportamento do usuário.

Objetivos de Aprendizado

Ao completar este projeto, você desenvolverá competências essenciais para ingressar no mercado de dados:

Mais importante, você aprenderá a pensar como um engenheiro de dados, identificando fontes de dados, planejando pipelines eficientes e transformando dados brutos em informações valiosas.

Estrutura do Projeto

O projeto está organizado em fases sequenciais, cada uma construindo sobre o conhecimento adquirido na anterior:

  1. Setup Inicial: Configuração do ambiente GCP e habilitação das APIs necessárias.
  2. Ingestão (Extract): Desenvolvimento de funções Python para extrair dados das APIs.
  3. Staging & Load: Configuração do BigQuery e carregamento dos dados brutos.
  4. Transform (ELT): Criação de views e tabelas finais com SQL para análise.
  5. Visualização: Desenvolvimento de dashboards no Looker Studio.
  6. Orquestração: Automação do pipeline com Cloud Functions e Cloud Scheduler.
  7. Documentação: Criação de README e documentação do projeto.
  8. Apresentação: Preparação de material para compartilhar e demonstrar o projeto.

Para cada fase, fornecemos tutoriais detalhados e um checklist interativo para acompanhar seu progresso.

Diferencial do Projeto

O que torna esta jornada especial é seu foco prático e orientado a resultados:

Este não é apenas mais um curso teórico - é uma jornada prática que resultará em um portfólio real e habilidades aplicáveis imediatamente no mercado de trabalho.