Desenvolver pipelines de média complexidade que sejam escaláveis e eficientes, tanto em termos de processamento quanto de custos.
Participar ativamente na definição da arquitetura de dados, projetando e implementado arquiteturas de dados mais robustas e complexas, utilizando tecnologias avançadas e plataformas de nuvem.
Manter e monitorar sistemas de dados em produção, resolvendo incidentes com rapidez e prevenindo problemas futuros através da implementação de medidas proativas.
Garantir que as melhores práticas de engenharia de dados estejam sendo seguidas.
Desafios
Otimizar pipelines de dados para lidar com volumes crescentes de dados sem comprometer a performance.
Melhorar a performance de sistemas e processos de dados existentes, identificando gargalos e implementando soluções mais eficientes
Garantir que a arquitetura de dados suporte a crescente demanda de dados, sendo ao mesmo tempo flexíveis e seguras.
Balancear diferentes soluções tecnológicas, como data lakes, data warehouses, bancos de dados relacionais e não relacionais, para criar uma infraestrutura de dados coesa e eficiente.
Desenvolver processos de validação e monitoramento de dados, para assegurar que as informações estejam corretas e prontas para uso pelas equipes de análise e ciência de dados.
Criar e manter processos automatizados para garantir a qualidade e a consistência dos dados em toda a organização.
Lidar com múltiplas demandas simultâneas e priorizar tarefas de acordo com o impacto no negócio, desenvolvendo habilidades de gestão de tempo.
Requisitos
Graduação Completa
Experiência em cloud (GCP, AWS e Azure), preferencialmente GCP
Experiência com linguagens de programação Python e SQL
Experiência com Ferramentas de ingestão de dados Apache Airflow, Kafka e frameworks de processamento distribuído
Experiência com Airflow, Composer e plataformas de Big Data (Spark, Kafka)
Familiaridade com práticas DevOps CI e CD, Cloud (GCP, AWS, OCI), BigQuery, Python/Scala