A plataforma completa de operações LLM

Tudo que o OpenTracy entrega -- do gateway unificado à destilação de modelos. Sem marketing. Capacidades reais, arquitetura real.

Gateway Unificado

Uma API compatível com OpenAI que roteia para 13 provedores e 70+ modelos. Mude uma linha de código para começar.

API compatível com OpenAI -- substituição direta, mesmo SDK, mesmo formato
13 provedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
70+ modelos com precificação automática por token integrada
Streaming completo para todos os provedores incluindo tradução SSE do Anthropic
Suporte a visão e multimodal (imagens base64 ou URL)
Chamadas de ferramentas com tradução de formato entre provedores

python

import openai

# Just change the base URL — everything else stays the same
client = openai.OpenAI(
    base_url="https://api.opentracy.com/v1",
    api_key="your-opentracy-key"
)

response = client.chat.completions.create(
    model="openai/gpt-4o-mini",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

Roteamento Inteligente

Direcione requisições para o modelo certo com base em custo, latência, complexidade ou regras personalizadas. Fallbacks automáticos quando provedores caem.

Classe Router com estratégias: round-robin, menor custo, menor latência, aleatório ponderado
Roteamento semântico -- classifica a complexidade do prompt, envia simples para modelos baratos, complexos para modelos potentes
Fallbacks automáticos com cadeias de retry configuráveis (ex. GPT-4o -> Claude -> Gemini)
Balanceamento de carga entre pools de modelos para cargas de alto throughput
Engine em Go para roteamento de alta performance com <2ms de overhead

python

import opentracy as ot

# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
    strategy="semantic",
    models={
        "simple": "openai/gpt-4o-mini",
        "complex": "anthropic/claude-sonnet-4-20250514",
    },
    fallbacks=["google/gemini-2.0-flash"]
)

response = router.completion(
    messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")

Traces em Tempo Real

Cada requisição registrada com entrada, saída, custo, latência, modelo e contagem de tokens. Consulte milhões de traces instantaneamente.

Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída
Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos
Dashboard em tempo real com filtros, busca e visualização detalhada de traces
Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição
Exporte traces para análise offline ou integração com seu pipeline de dados

Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída

Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos

Dashboard em tempo real com filtros, busca e visualização detalhada de traces

Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição

Inteligência de Custos

Precificação automática por token para cada modelo. Veja exatamente para onde vai seu dinheiro e quanto o roteamento inteligente economiza.

Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)
Custo anexado a cada resposta -- sem adivinhação ou cálculo manual
Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente
Cálculo de economia líquida com projeções mensais
Detalhamento de custos por modelo, por provedor, por período
Alertas de orçamento e detecção de anomalias para picos inesperados

Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)

Custo anexado a cada resposta -- sem adivinhação ou cálculo manual

Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente

Cálculo de economia líquida com projeções mensais

Monitoramento de Qualidade

7 agentes autônomos de IA escaneiam continuamente seu tráfego de produção. Detecte problemas antes dos seus usuários.

Cluster Labeler -- agrupa prompts por domínio automaticamente
Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato
Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais
Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente
Detecção heurística: respostas incompletas, frases de recusa, picos de latência, anomalias de custo
Detecção de alucinações baseada em LLM com score de confiança (0-1)

Cluster Labeler -- agrupa prompts por domínio automaticamente

Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato

Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais

Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente

Avaliações

LLM-as-Judge para comparação pareada e pontuação individual. Acompanhe a qualidade entre atualizações de modelo com métricas reais.

Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção
Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis
RouterEvaluator: avalie decisões de roteamento contra respostas em cache
Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória
Avaliação específica por domínio com métricas de qualidade sugeridas por IA
Acompanhe a qualidade ao longo do tempo entre atualizações de modelo e mudanças de roteamento

Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção

Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis

RouterEvaluator: avalie decisões de roteamento contra respostas em cache

Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória

Destilação de Modelos (Pipeline BOND)

Treine modelos menores, mais rápidos e mais baratos com seus dados de produção. Pipeline completo do modelo professor ao LoRA implantado.

Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF
Extração automática de dados de treinamento a partir de traces de produção
Geração de pares de preferência para alinhamento DPO/RLHF
Aumento de dataset golden para benchmarks de avaliação
Seus modelos -- sem vendor lock-in, implante onde quiser
Eval Generator cria datasets de avaliação a partir de dados reais de produção

Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF

Extração automática de dados de treinamento a partir de traces de produção

Geração de pares de preferência para alinhamento DPO/RLHF

Aumento de dataset golden para benchmarks de avaliação

Clustering de Prompts

Descoberta automática de domínios a partir do seu tráfego de produção. Entenda o que seus usuários perguntam e como cada domínio performa.

Descoberta automática de domínios a partir de padrões de tráfego de produção
Clustering KMeans + mapa aprendido para agrupar prompts similares
Similaridade baseada em embeddings usando sentence transformers
Métricas de qualidade e análise de custo por cluster
Detecção de drift quando padrões de tráfego mudam inesperadamente
Merge Checker sugere consolidação de clusters para reduzir ruído

Descoberta automática de domínios a partir de padrões de tráfego de produção

Clustering KMeans + mapa aprendido para agrupar prompts similares

Similaridade baseada em embeddings usando sentence transformers

Métricas de qualidade e análise de custo por cluster

Implantação

Stack completo com Docker. Self-host com licença MIT ou use a nuvem gerenciada. Pronto para produção desde o primeiro dia.

Deploy completo com Docker: ClickHouse + engine Go + API Python + UI React
Opção de self-host com licença MIT -- seus dados ficam na sua infraestrutura
Engine em Go para roteamento de alta performance (<2ms de overhead por requisição)
SDK Python: pip install opentracy
Drop-in do SDK OpenAI: só mude base_url para sua instância OpenTracy

python

# Install the SDK
pip install opentracy

# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -d

Pronto para assumir o controle do seu stack LLM?

Código aberto, self-hostável, licença MIT. Comece em 5 minutos.

Começar grátis Ver no GitHub