Datalake
Portal

Serviços online
6
↑ todos operacionais
Camadas de dados
5
raw → bronze → silver → gold → ml
Armazenamento
MinIO
bucket: datalake
Query engine
Trino
v435 · catálogo Hive
Pipeline de dados
Ingestão
🌀
Airflow
Orquestração
FastAPI
API REST
Armazenamento
🗄
MinIO
Object storage
🐘
PostgreSQL
Metastore · App DB
Catálogo
🐝
Hive
Metastore
Processamento
Trino
Query engine
Consumo
📊
Superset
Dashboards
🔌
API
Integração ext.
Atividade recente
agora
Portal iniciado · autenticação local ativa
portal
hoje
FastAPI implantada · endpoint /api/query disponível
fastapi
hoje
TLS configurado · dl-angel.rfa.eti.br via Let's Encrypt
nginx
hoje
Buckets criados · raw / bronze / silver / gold / ml-artifacts
minio
hoje
Hive Metastore inicializado · PostgreSQL schema criado
hive
📥
RAW
Dados brutos, sem transformação. Fonte da verdade.
🥉
BRONZE
Limpeza básica, parsing, deduplicação.
🥈
SILVER
Dados conformados, joins, regras de negócio.
🥇
GOLD
Agregações prontas para consumo e dashboards.
🤖
ML
Features, modelos, artefatos de ML.
Fluxo detalhado
Ingestão
🌀
Airflow DAGs
Agendamento e orquestração de pipelines
FastAPI
Ingestão via REST · /api/query
Storage
🗄
MinIO · bucket datalake
raw / bronze / silver / gold / ml-artifacts
🐘
PostgreSQL
Airflow DB · App data
Catálogo
🐝
Hive Metastore
Gerencia schemas e tabelas · PostgreSQL backend · porta 9083
Query
Trino 435
SQL distribuído · catálogo Hive · lê diretamente do MinIO via S3A · Parquet
Consumo
📊
Superset
BI · dashboards · não instalado ainda
🔌
FastAPI /query
Consumo programático via REST
🌀
online
Apache Airflow
Orquestrador de pipelines de dados. Agendamento, monitoramento e execução de DAGs com LocalExecutor.
v2.9.3 LocalExecutor PostgreSQL
online
Trino
Query engine SQL distribuído. Consulta dados no MinIO via catálogo Hive. Suporte a Parquet, ORC, Avro.
v435 Hive catalog Parquet S3A
🗄
online
MinIO
Object storage compatível com S3. Armazena dados em camadas raw, bronze, silver, gold e ml-artifacts.
S3-compatible bucket: datalake porta 9000/9001
online
FastAPI
API REST do datalake. Endpoints para executar queries Trino, listar schemas/tabelas e buckets MinIO. Auth via X-API-Key.
v2.0.0 X-API-Key /api/query Swagger
📊
pendente
Apache Superset
Plataforma de BI e visualização. Conecta ao Trino para criar dashboards interativos e explorar dados das camadas gold.
não instalado conecta Trino dashboards
🐘
online
PostgreSQL
Banco relacional central. Armazena metadados do Hive Metastore, estado do Airflow e dados de aplicação.
v15 db: datalake db: metastore porta interna
📥
RAW
s3a://datalake/raw/
Dados brutos como chegam da fonte. Sem transformação. Imutável — funciona como fonte da verdade e permite reprocessamento completo. Arquivos podem ser CSV, JSON, XML, binários, etc.
Airflow DAG · limpeza e parsing
🥉
BRONZE
s3a://datalake/bronze/
Limpeza básica: tipagem, deduplicação, parsing de datas. Formato Parquet, particionado por data. Ainda contém todas as colunas originais. Tabelas registradas no Hive Metastore.
Trino/Airflow · regras de negócio
🥈
SILVER
s3a://datalake/silver/
Dados conformados com regras de negócio aplicadas. Joins entre entidades, enriquecimento, validações. Modelo dimensional começa aqui. Pronto para análise exploratória via Trino.
Trino · agregações e KPIs
🥇
GOLD
s3a://datalake/gold/
Agregações e KPIs prontos para consumo. Alimenta Superset (dashboards), FastAPI (consulta programática) e relatórios. Alta performance de leitura, otimizado para queries analíticas.
Feature engineering · treinamento
🤖
ML ARTIFACTS
s3a://datalake/ml-artifacts/ · s3a://datalake/models/
Feature stores, datasets de treinamento, modelos serializados e artefatos de experimentos. Integração futura com MLflow para rastreamento de experimentos e registry de modelos.