A plataforma completa de operações LLM
Tudo que o OpenTracy entrega -- do gateway unificado à destilação de modelos. Sem marketing. Capacidades reais, arquitetura real.
Gateway Unificado
Uma API compatível com OpenAI que roteia para 13 provedores e 70+ modelos. Mude uma linha de código para começar.
- API compatível com OpenAI -- substituição direta, mesmo SDK, mesmo formato
- 13 provedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
- 70+ modelos com precificação automática por token integrada
- Streaming completo para todos os provedores incluindo tradução SSE do Anthropic
- Suporte a visão e multimodal (imagens base64 ou URL)
- Chamadas de ferramentas com tradução de formato entre provedores
import openai
# Just change the base URL — everything else stays the same
client = openai.OpenAI(
base_url="https://api.opentracy.com/v1",
api_key="your-opentracy-key"
)
response = client.chat.completions.create(
model="openai/gpt-4o-mini",
messages=[{"role": "user", "content": "Hello!"}]
)
print(response.choices[0].message.content)Roteamento Inteligente
Direcione requisições para o modelo certo com base em custo, latência, complexidade ou regras personalizadas. Fallbacks automáticos quando provedores caem.
- Classe Router com estratégias: round-robin, menor custo, menor latência, aleatório ponderado
- Roteamento semântico -- classifica a complexidade do prompt, envia simples para modelos baratos, complexos para modelos potentes
- Fallbacks automáticos com cadeias de retry configuráveis (ex. GPT-4o -> Claude -> Gemini)
- Balanceamento de carga entre pools de modelos para cargas de alto throughput
- Engine em Go para roteamento de alta performance com <2ms de overhead
import opentracy as ot
# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
strategy="semantic",
models={
"simple": "openai/gpt-4o-mini",
"complex": "anthropic/claude-sonnet-4-20250514",
},
fallbacks=["google/gemini-2.0-flash"]
)
response = router.completion(
messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")Traces em Tempo Real
Cada requisição registrada com entrada, saída, custo, latência, modelo e contagem de tokens. Consulte milhões de traces instantaneamente.
- Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída
- Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos
- Dashboard em tempo real com filtros, busca e visualização detalhada de traces
- Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição
- Exporte traces para análise offline ou integração com seu pipeline de dados
Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída
Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos
Dashboard em tempo real com filtros, busca e visualização detalhada de traces
Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição
Inteligência de Custos
Precificação automática por token para cada modelo. Veja exatamente para onde vai seu dinheiro e quanto o roteamento inteligente economiza.
- Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)
- Custo anexado a cada resposta -- sem adivinhação ou cálculo manual
- Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente
- Cálculo de economia líquida com projeções mensais
- Detalhamento de custos por modelo, por provedor, por período
- Alertas de orçamento e detecção de anomalias para picos inesperados
Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)
Custo anexado a cada resposta -- sem adivinhação ou cálculo manual
Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente
Cálculo de economia líquida com projeções mensais
Monitoramento de Qualidade
7 agentes autônomos de IA escaneiam continuamente seu tráfego de produção. Detecte problemas antes dos seus usuários.
- Cluster Labeler -- agrupa prompts por domínio automaticamente
- Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato
- Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais
- Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente
- Detecção heurística: respostas incompletas, frases de recusa, picos de latência, anomalias de custo
- Detecção de alucinações baseada em LLM com score de confiança (0-1)
Cluster Labeler -- agrupa prompts por domínio automaticamente
Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato
Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais
Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente
Avaliações
LLM-as-Judge para comparação pareada e pontuação individual. Acompanhe a qualidade entre atualizações de modelo com métricas reais.
- Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção
- Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis
- RouterEvaluator: avalie decisões de roteamento contra respostas em cache
- Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória
- Avaliação específica por domínio com métricas de qualidade sugeridas por IA
- Acompanhe a qualidade ao longo do tempo entre atualizações de modelo e mudanças de roteamento
Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção
Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis
RouterEvaluator: avalie decisões de roteamento contra respostas em cache
Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória
Destilação de Modelos (Pipeline BOND)
Treine modelos menores, mais rápidos e mais baratos com seus dados de produção. Pipeline completo do modelo professor ao LoRA implantado.
- Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF
- Extração automática de dados de treinamento a partir de traces de produção
- Geração de pares de preferência para alinhamento DPO/RLHF
- Aumento de dataset golden para benchmarks de avaliação
- Seus modelos -- sem vendor lock-in, implante onde quiser
- Eval Generator cria datasets de avaliação a partir de dados reais de produção
Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF
Extração automática de dados de treinamento a partir de traces de produção
Geração de pares de preferência para alinhamento DPO/RLHF
Aumento de dataset golden para benchmarks de avaliação
Clustering de Prompts
Descoberta automática de domínios a partir do seu tráfego de produção. Entenda o que seus usuários perguntam e como cada domínio performa.
- Descoberta automática de domínios a partir de padrões de tráfego de produção
- Clustering KMeans + mapa aprendido para agrupar prompts similares
- Similaridade baseada em embeddings usando sentence transformers
- Métricas de qualidade e análise de custo por cluster
- Detecção de drift quando padrões de tráfego mudam inesperadamente
- Merge Checker sugere consolidação de clusters para reduzir ruído
Descoberta automática de domínios a partir de padrões de tráfego de produção
Clustering KMeans + mapa aprendido para agrupar prompts similares
Similaridade baseada em embeddings usando sentence transformers
Métricas de qualidade e análise de custo por cluster
Implantação
Stack completo com Docker. Self-host com licença MIT ou use a nuvem gerenciada. Pronto para produção desde o primeiro dia.
- Deploy completo com Docker: ClickHouse + engine Go + API Python + UI React
- Opção de self-host com licença MIT -- seus dados ficam na sua infraestrutura
- Engine em Go para roteamento de alta performance (<2ms de overhead por requisição)
- SDK Python: pip install opentracy
- Drop-in do SDK OpenAI: só mude base_url para sua instância OpenTracy
# Install the SDK
pip install opentracy
# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -dPronto para assumir o controle do seu stack LLM?
Código aberto, self-hostável, licença MIT. Comece em 5 minutos.