Pular para conteúdo

Arquitetura da Solução

A arquitetura da plataforma Gov Hub BR foi elaborada para promover modularidade, escalabilidade e adoção de tecnologias de código aberto, assegurando flexibilidade adaptativa às demandas específicas de diferentes órgãos públicos, sem comprometer os requisitos de governança e qualidade de dados.


Visão Geral

O design adota o paradigma Lakehouse, estruturado em três camadas de processamento de dados:

Fontes de dados (APIs)
Apache Airflow (orquestração e extração)
DBT (transformação e modelagem)
PostgreSQL (armazenamento em Bronze, Silver e Gold)
Apache Superset (visualização e relatórios)

Componentes Principais

Apache Airflow

Disponibiliza orquestração robusta de fluxos de trabalho (ETL) por meio de Grafos Acíclicos Dirigidos (DAGs), coordenando a extração automatizada de dados brutos a partir das APIs governamentais, com registro de dependências e monitoramento em tempo real.

DBT (Data Build Tool)

Responsável pela aplicação de transformações programáticas em SQL, modelagem de dados e geração de artefatos nas camadas Silver e Gold. Facilita versionamento, testes automatizados e documentação contínua dos modelos.

Astronomer Cosmos

Extensão que integra nativamente o DBT ao Airflow, habilitando a execução orquestrada de modelos DBT dentro das DAGs e simplificando a gestão de dependências entre tarefas de transformação.

PostgreSQL

Serviço de armazenamento relacional configurado como um Data Warehouse, organizado em três domínios:

  • Bronze: repositório de dados brutos, sem alterações.
  • Silver: dados limpos, validados e normalizados para análises exploratórias.
  • Gold: dados agregados e estruturados conforme regras de negócio específicas.

Apache Superset

Ferramenta de business intelligence que consome a camada Gold, permitindo a construção de painéis interativos e relatórios analíticos parametrizáveis, promovendo a disseminação de insights corporativos.


Organização em Camadas

  • Bronze: preservação integral dos registros originais, garantindo auditabilidade.
  • Silver: normalização, enriquecimento e unificação de conjuntos de dados.
  • Gold: consolidação final e aplicação de lógica de negócio para suporte à tomada de decisão.

Flexibilidade e Escalabilidade

A pilha pode ser executada localmente via Docker Compose para validações iniciais, e dimensionada para ambientes de produção em nuvem, incluindo:

  • Execução distribuída do Airflow em Kubernetes ou CeleryExecutor.
  • Substituição de PostgreSQL por soluções analíticas escaláveis (Redshift, Snowflake, BigQuery).
  • Otimizações de cache e materializações no Superset para grandes volumes de dados.

Para maior detalhamento do processo de extração, transformação e carga de dados, consulte a seção Integração de Dados.