Bem-vindo ao meu repositório de Engenharia de Dados! Este é um espaço dedicado ao armazenamento e à organização dos meus estudos, projetos e experimentações nas diversas disciplinas da área de dados. A missão deste repositório é consolidar e centralizar conhecimentos fundamentais e avançados, documentando minha trajetória e ajudando outros profissionais que desejam aprofundar seus conhecimentos em Engenharia de Dados.
- Centralizar conhecimentos e práticas em Engenharia de Dados.
- Documentar aprendizados e projetos em um portfólio organizado.
- Disponibilizar exemplos e implementações que possam ser úteis para outros profissionais e para meu próprio aprendizado contínuo.
Este repositório contém estudos, códigos e documentação em várias áreas de Engenharia de Dados, incluindo (mas não se limitando a):
-
Orquestração de Dados:
- Apache Airflow: automação de pipelines de dados.
- Google Cloud Composer: orquestração de dados na GCP.
-
Cloud Computing e Armazenamento:
- AWS: S3, Redis, Athena, Lambda, entre outros serviços para armazenamento e processamento.
- GCP: Storage, Dataflow.
- Azure: Azure Data Lake, Azure Databricks.
-
Processamento de Dados em Larga Escala:
- Apache Spark: processamento em cluster e PySpark.
- Big Data e Data Lakes.
-
Python para Data Engineering:
- Test-Driven Development (TDD) em pipelines de dados.
- Manipulação de dados e integração com frameworks de dados.
-
Modelagem de Dados:
- Estruturação de dados transacionais e analíticos.
- Data Warehouses e Data Lakes.
- Data Mesh: implementação e governança em plataformas de dados distribuídas.
-
Governança de Dados:
- Boas práticas de governança e compliance.
- Documentação e linhagem de dados.
-
Monitoração e Visualização de Dados:
- Grafana e outras ferramentas para monitoramento de pipelines.
- Dashboards e relatórios para visualização de insights.
-
Otimização de Performance e Custo:
- Técnicas para otimizar consultas e pipelines.
- Estratégias de redução de custos em serviços de nuvem.
-
Streaming de Dados:
- Processamento em tempo real com Apache Kafka e Spark Streaming.
-
Data Governance e Data Platforms:
- Estratégias de governança em plataformas de dados.
- Arquitetura de Data Platform e boas práticas.
Expandir exemplos de uso de Airflow com AWS, GCP e Azure.
Incluir novas abordagens de Data Mesh e arquiteturas de Data Platform.
Adicionar boas práticas de segurança e governança em pipelines de dados.
Anna Karoliny | Mentora, Professora, Desenvolvedora e Engenheira de Dados LinkedIn