Visão Geral da Arquitetura
Este projeto foi desenvolvido para proporcionar uma experiência prática e completa em engenharia de dados, utilizando tecnologias modernas e altamente valorizadas no mercado. A arquitetura do projeto é baseada no ecossistema Google Cloud Platform (GCP), com foco em serviços serverless e data warehousing.
Componentes Principais:
- APIs Externas: CoinGecko (criptomoedas), Spotify (histórico de escuta), TMDB (filmes em alta)
- ETL/ELT: Funções Python sem servidor (Cloud Functions v2) acionadas por Cloud Scheduler
- Armazenamento: BigQuery Sandbox (free tier - 10 GB armazenamento, 1 TB consultas/mês)
- Visualização: Looker Studio conectado diretamente ao BigQuery
Esta arquitetura representa um pipeline de dados moderno, escalável e econômico, ideal para aprendizado e projetos pessoais.
Casos de Uso Práticos
O projeto inclui três casos de uso reais, cada um explorando diferentes aspectos da engenharia de dados:
1. Monitor de Mercado de Criptomoedas em Tempo Real
Utilizando a API CoinGecko, este caso de uso coleta dados de preços, volumes e capitalização de mercado das principais criptomoedas a cada 5 minutos, armazenando um histórico incremental no BigQuery e visualizando tendências e movimentos atípicos no Looker Studio.
2. Histórico de Escuta Pessoal do Spotify
Conectando-se à API do Spotify, este caso de uso extrai seu histórico de músicas recentemente tocadas, armazena no BigQuery e cria visualizações sobre seus hábitos de escuta, artistas favoritos e padrões de consumo musical.
3. Painel de Filmes em Alta (Trending Movies)
Utilizando a API do TMDB (The Movie Database), este caso de uso monitora diariamente quais filmes estão em tendência, armazenando dados de popularidade, avaliações e informações básicas para análise de tendências no setor cinematográfico.
Cada caso de uso foi escolhido para demonstrar diferentes aspectos da engenharia de dados, desde coleta em tempo real até análise de tendências e comportamento do usuário.
Objetivos de Aprendizado
Ao completar este projeto, você desenvolverá competências essenciais para ingressar no mercado de dados:
- Fundamentos de APIs: Compreender como APIs funcionam, autenticação, limites de taxa, paginação e tratamento de erros.
- Python para Dados: Utilizar bibliotecas como requests, json e pandas para manipulação de dados.
- Google Cloud Platform: Configurar e utilizar serviços como BigQuery, Cloud Functions e Cloud Scheduler.
- SQL Analítico: Escrever consultas SQL para transformar, agregar e analisar dados no BigQuery.
- Visualização de Dados: Criar dashboards interativos e informativos com Looker Studio.
- Boas Práticas: Organização de código, versionamento, documentação e automação de processos.
Mais importante, você aprenderá a pensar como um engenheiro de dados, identificando fontes de dados, planejando pipelines eficientes e transformando dados brutos em informações valiosas.
Estrutura do Projeto
O projeto está organizado em fases sequenciais, cada uma construindo sobre o conhecimento adquirido na anterior:
- Setup Inicial: Configuração do ambiente GCP e habilitação das APIs necessárias.
- Ingestão (Extract): Desenvolvimento de funções Python para extrair dados das APIs.
- Staging & Load: Configuração do BigQuery e carregamento dos dados brutos.
- Transform (ELT): Criação de views e tabelas finais com SQL para análise.
- Visualização: Desenvolvimento de dashboards no Looker Studio.
- Orquestração: Automação do pipeline com Cloud Functions e Cloud Scheduler.
- Documentação: Criação de README e documentação do projeto.
- Apresentação: Preparação de material para compartilhar e demonstrar o projeto.
Para cada fase, fornecemos tutoriais detalhados e um checklist interativo para acompanhar seu progresso.
Diferencial do Projeto
O que torna esta jornada especial é seu foco prático e orientado a resultados:
- Projetos Reais: Você não apenas aprende conceitos, mas constrói pipelines funcionais com dados reais.
- Portfólio Pronto: Ao final, você terá projetos completos para mostrar a recrutadores e incluir no GitHub.
- Stack Moderna: Foco em tecnologias atuais e altamente demandadas pelo mercado.
- Custo Zero: Utilização apenas dos níveis gratuitos (free tier) dos serviços GCP.
- Tutoriais Detalhados: Explicações passo a passo, pensadas para iniciantes na área.
Este não é apenas mais um curso teórico - é uma jornada prática que resultará em um portfólio real e habilidades aplicáveis imediatamente no mercado de trabalho.