Skip to content

Códigos, plataformas, ferramentas e processos em alta;

Notifications You must be signed in to change notification settings

annamatias/dataengineer

Repository files navigation

Repositório de Data Engineering 📊🚀

Bem-vindo ao meu repositório de Engenharia de Dados! Este é um espaço dedicado ao armazenamento e à organização dos meus estudos, projetos e experimentações nas diversas disciplinas da área de dados. A missão deste repositório é consolidar e centralizar conhecimentos fundamentais e avançados, documentando minha trajetória e ajudando outros profissionais que desejam aprofundar seus conhecimentos em Engenharia de Dados.

Objetivos do Repositório 🎯

  • Centralizar conhecimentos e práticas em Engenharia de Dados.
  • Documentar aprendizados e projetos em um portfólio organizado.
  • Disponibilizar exemplos e implementações que possam ser úteis para outros profissionais e para meu próprio aprendizado contínuo.

Tópicos Abrangidos 📚

Este repositório contém estudos, códigos e documentação em várias áreas de Engenharia de Dados, incluindo (mas não se limitando a):

  • Orquestração de Dados:

    • Apache Airflow: automação de pipelines de dados.
    • Google Cloud Composer: orquestração de dados na GCP.
  • Cloud Computing e Armazenamento:

    • AWS: S3, Redis, Athena, Lambda, entre outros serviços para armazenamento e processamento.
    • GCP: Storage, Dataflow.
    • Azure: Azure Data Lake, Azure Databricks.
  • Processamento de Dados em Larga Escala:

    • Apache Spark: processamento em cluster e PySpark.
    • Big Data e Data Lakes.
  • Python para Data Engineering:

    • Test-Driven Development (TDD) em pipelines de dados.
    • Manipulação de dados e integração com frameworks de dados.
  • Modelagem de Dados:

    • Estruturação de dados transacionais e analíticos.
    • Data Warehouses e Data Lakes.
    • Data Mesh: implementação e governança em plataformas de dados distribuídas.
  • Governança de Dados:

    • Boas práticas de governança e compliance.
    • Documentação e linhagem de dados.
  • Monitoração e Visualização de Dados:

    • Grafana e outras ferramentas para monitoramento de pipelines.
    • Dashboards e relatórios para visualização de insights.
  • Otimização de Performance e Custo:

    • Técnicas para otimizar consultas e pipelines.
    • Estratégias de redução de custos em serviços de nuvem.
  • Streaming de Dados:

    • Processamento em tempo real com Apache Kafka e Spark Streaming.
  • Data Governance e Data Platforms:

    • Estratégias de governança em plataformas de dados.
    • Arquitetura de Data Platform e boas práticas.

Próximos Passos 🧭

Expandir exemplos de uso de Airflow com AWS, GCP e Azure.

Incluir novas abordagens de Data Mesh e arquiteturas de Data Platform.

Adicionar boas práticas de segurança e governança em pipelines de dados.

Autor

Anna Karoliny | Mentora, Professora, Desenvolvedora e Engenheira de Dados LinkedIn

Releases

No releases published

Packages

No packages published