Dashboard
Visão geral da infraestrutura ·
Serviços online
6
↑ todos operacionais
Camadas de dados
5
raw → bronze → silver → gold → ml
Armazenamento
MinIO
bucket: datalake
Query engine
Trino
v435 · catálogo Hive
Pipeline de dados
Ingestão
Airflow
Orquestração
FastAPI
API REST
▶
Armazenamento
MinIO
Object storage
PostgreSQL
Metastore · App DB
▶
Catálogo
Hive
Metastore
▶
Processamento
Trino
Query engine
▶
Consumo
Superset
Dashboards
API
Integração ext.
Atividade recente
agora
Portal iniciado · autenticação local ativa
portal
hoje
FastAPI implantada · endpoint
/api/query disponívelfastapi
hoje
TLS configurado · dl-angel.rfa.eti.br via Let's Encrypt
nginx
hoje
Buckets criados · raw / bronze / silver / gold / ml-artifacts
minio
hoje
Hive Metastore inicializado · PostgreSQL schema criado
hive
Pipeline de Dados
Fluxo completo de ingestão, armazenamento, processamento e consumo
📥
RAW
Dados brutos, sem transformação. Fonte da verdade.
🥉
BRONZE
Limpeza básica, parsing, deduplicação.
🥈
SILVER
Dados conformados, joins, regras de negócio.
🥇
GOLD
Agregações prontas para consumo e dashboards.
🤖
ML
Features, modelos, artefatos de ML.
Fluxo detalhado
Ingestão
🌀
Airflow DAGs
Agendamento e orquestração de pipelines
⬡
FastAPI
Ingestão via REST · /api/query
↓
Storage
🗄
MinIO · bucket datalake
raw / bronze / silver / gold / ml-artifacts
🐘
PostgreSQL
Airflow DB · App data
↓
Catálogo
🐝
Hive Metastore
Gerencia schemas e tabelas · PostgreSQL backend · porta 9083
↓
Query
⚡
Trino 435
SQL distribuído · catálogo Hive · lê diretamente do MinIO via S3A · Parquet
↓
Consumo
📊
Superset
BI · dashboards · não instalado ainda
🔌
FastAPI /query
Consumo programático via REST
Serviços
Todos os componentes da infraestrutura
online
Apache Airflow
Orquestrador de pipelines de dados. Agendamento, monitoramento e execução de DAGs com LocalExecutor.
Abrir Airflow →
online
Trino
Query engine SQL distribuído. Consulta dados no MinIO via catálogo Hive. Suporte a Parquet, ORC, Avro.
Abrir Trino UI →
online
MinIO
Object storage compatível com S3. Armazena dados em camadas raw, bronze, silver, gold e ml-artifacts.
Abrir Console →
online
FastAPI
API REST do datalake. Endpoints para executar queries Trino, listar schemas/tabelas e buckets MinIO. Auth via X-API-Key.
Abrir Swagger →
pendente
Apache Superset
Plataforma de BI e visualização. Conecta ao Trino para criar dashboards interativos e explorar dados das camadas gold.
Instalar Superset →
online
PostgreSQL
Banco relacional central. Armazena metadados do Hive Metastore, estado do Airflow e dados de aplicação.
Acesso interno apenas
Camadas de Dados
Arquitetura medallion · raw → bronze → silver → gold → ml
📥
RAW
s3a://datalake/raw/
Dados brutos como chegam da fonte. Sem transformação. Imutável — funciona como fonte da verdade e permite reprocessamento completo. Arquivos podem ser CSV, JSON, XML, binários, etc.
↓ Airflow DAG · limpeza e parsing
🥉
BRONZE
s3a://datalake/bronze/
Limpeza básica: tipagem, deduplicação, parsing de datas. Formato Parquet, particionado por data. Ainda contém todas as colunas originais. Tabelas registradas no Hive Metastore.
↓ Trino/Airflow · regras de negócio
🥈
SILVER
s3a://datalake/silver/
Dados conformados com regras de negócio aplicadas. Joins entre entidades, enriquecimento, validações. Modelo dimensional começa aqui. Pronto para análise exploratória via Trino.
↓ Trino · agregações e KPIs
🥇
GOLD
s3a://datalake/gold/
Agregações e KPIs prontos para consumo. Alimenta Superset (dashboards), FastAPI (consulta programática) e relatórios. Alta performance de leitura, otimizado para queries analíticas.
↓ Feature engineering · treinamento
🤖
ML ARTIFACTS
s3a://datalake/ml-artifacts/ · s3a://datalake/models/
Feature stores, datasets de treinamento, modelos serializados e artefatos de experimentos. Integração futura com MLflow para rastreamento de experimentos e registry de modelos.