A plataforma completa de operações LLM

Tudo que o OpenTracy entrega -- do gateway unificado à destilação de modelos. Sem marketing. Capacidades reais, arquitetura real.

Gateway Unificado

Uma API compatível com OpenAI que roteia para 13 provedores e 70+ modelos. Mude uma linha de código para começar.

  • API compatível com OpenAI -- substituição direta, mesmo SDK, mesmo formato
  • 13 provedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
  • 70+ modelos com precificação automática por token integrada
  • Streaming completo para todos os provedores incluindo tradução SSE do Anthropic
  • Suporte a visão e multimodal (imagens base64 ou URL)
  • Chamadas de ferramentas com tradução de formato entre provedores
python
import openai

# Just change the base URL — everything else stays the same
client = openai.OpenAI(
    base_url="https://api.opentracy.com/v1",
    api_key="your-opentracy-key"
)

response = client.chat.completions.create(
    model="openai/gpt-4o-mini",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

Roteamento Inteligente

Direcione requisições para o modelo certo com base em custo, latência, complexidade ou regras personalizadas. Fallbacks automáticos quando provedores caem.

  • Classe Router com estratégias: round-robin, menor custo, menor latência, aleatório ponderado
  • Roteamento semântico -- classifica a complexidade do prompt, envia simples para modelos baratos, complexos para modelos potentes
  • Fallbacks automáticos com cadeias de retry configuráveis (ex. GPT-4o -> Claude -> Gemini)
  • Balanceamento de carga entre pools de modelos para cargas de alto throughput
  • Engine em Go para roteamento de alta performance com <2ms de overhead
python
import opentracy as ot

# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
    strategy="semantic",
    models={
        "simple": "openai/gpt-4o-mini",
        "complex": "anthropic/claude-sonnet-4-20250514",
    },
    fallbacks=["google/gemini-2.0-flash"]
)

response = router.completion(
    messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")

Traces em Tempo Real

Cada requisição registrada com entrada, saída, custo, latência, modelo e contagem de tokens. Consulte milhões de traces instantaneamente.

  • Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída
  • Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos
  • Dashboard em tempo real com filtros, busca e visualização detalhada de traces
  • Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição
  • Exporte traces para análise offline ou integração com seu pipeline de dados
01

Registro completo: mensagens de entrada, saída, custo, latência, modelo, tokens entrada/saída

02

Backend de analytics no ClickHouse -- consulte milhões de traces em milissegundos

03

Dashboard em tempo real com filtros, busca e visualização detalhada de traces

04

Estatísticas por modelo: latência P50/P95/P99, taxas de erro, custo por requisição

Inteligência de Custos

Precificação automática por token para cada modelo. Veja exatamente para onde vai seu dinheiro e quanto o roteamento inteligente economiza.

  • Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)
  • Custo anexado a cada resposta -- sem adivinhação ou cálculo manual
  • Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente
  • Cálculo de economia líquida com projeções mensais
  • Detalhamento de custos por modelo, por provedor, por período
  • Alertas de orçamento e detecção de anomalias para picos inesperados
01

Precificação automática por token para 70+ modelos (banco de dados de preços atualizado continuamente)

02

Custo anexado a cada resposta -- sem adivinhação ou cálculo manual

03

Comparação baseline vs real: veja o que você pagaria com o modelo mais caro vs roteamento inteligente

04

Cálculo de economia líquida com projeções mensais

Monitoramento de Qualidade

7 agentes autônomos de IA escaneiam continuamente seu tráfego de produção. Detecte problemas antes dos seus usuários.

  • Cluster Labeler -- agrupa prompts por domínio automaticamente
  • Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato
  • Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais
  • Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente
  • Detecção heurística: respostas incompletas, frases de recusa, picos de latência, anomalias de custo
  • Detecção de alucinações baseada em LLM com score de confiança (0-1)
01

Cluster Labeler -- agrupa prompts por domínio automaticamente

02

Trace Scanner -- detecta alucinações, recusas, vazamentos de PII e problemas de formato

03

Outlier Detector -- sinaliza traces anômalos que desviam dos padrões normais

04

Coherence Scorer -- avalia a qualidade do cluster para garantir comportamento consistente

Avaliações

LLM-as-Judge para comparação pareada e pontuação individual. Acompanhe a qualidade entre atualizações de modelo com métricas reais.

  • Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção
  • Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis
  • RouterEvaluator: avalie decisões de roteamento contra respostas em cache
  • Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória
  • Avaliação específica por domínio com métricas de qualidade sugeridas por IA
  • Acompanhe a qualidade ao longo do tempo entre atualizações de modelo e mudanças de roteamento
01

Comparação pareada: modelo A vs B, escolha o vencedor com seus dados de produção

02

Pontuação individual: avalie respostas de 1-5 com rubricas personalizáveis

03

RouterEvaluator: avalie decisões de roteamento contra respostas em cache

04

Métricas AUROC, curvas de Pareto e cálculos de taxa de vitória

Destilação de Modelos (Pipeline BOND)

Treine modelos menores, mais rápidos e mais baratos com seus dados de produção. Pipeline completo do modelo professor ao LoRA implantado.

  • Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF
  • Extração automática de dados de treinamento a partir de traces de produção
  • Geração de pares de preferência para alinhamento DPO/RLHF
  • Aumento de dataset golden para benchmarks de avaliação
  • Seus modelos -- sem vendor lock-in, implante onde quiser
  • Eval Generator cria datasets de avaliação a partir de dados reais de produção
01

Pipeline: Modelo professor -> Curadoria com LLM-as-Judge -> Treinamento LoRA (Unsloth) -> Exportação GGUF

02

Extração automática de dados de treinamento a partir de traces de produção

03

Geração de pares de preferência para alinhamento DPO/RLHF

04

Aumento de dataset golden para benchmarks de avaliação

Clustering de Prompts

Descoberta automática de domínios a partir do seu tráfego de produção. Entenda o que seus usuários perguntam e como cada domínio performa.

  • Descoberta automática de domínios a partir de padrões de tráfego de produção
  • Clustering KMeans + mapa aprendido para agrupar prompts similares
  • Similaridade baseada em embeddings usando sentence transformers
  • Métricas de qualidade e análise de custo por cluster
  • Detecção de drift quando padrões de tráfego mudam inesperadamente
  • Merge Checker sugere consolidação de clusters para reduzir ruído
01

Descoberta automática de domínios a partir de padrões de tráfego de produção

02

Clustering KMeans + mapa aprendido para agrupar prompts similares

03

Similaridade baseada em embeddings usando sentence transformers

04

Métricas de qualidade e análise de custo por cluster

Implantação

Stack completo com Docker. Self-host com licença MIT ou use a nuvem gerenciada. Pronto para produção desde o primeiro dia.

  • Deploy completo com Docker: ClickHouse + engine Go + API Python + UI React
  • Opção de self-host com licença MIT -- seus dados ficam na sua infraestrutura
  • Engine em Go para roteamento de alta performance (<2ms de overhead por requisição)
  • SDK Python: pip install opentracy
  • Drop-in do SDK OpenAI: só mude base_url para sua instância OpenTracy
python
# Install the SDK
pip install opentracy

# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -d

Pronto para assumir o controle do seu stack LLM?

Código aberto, self-hostável, licença MIT. Comece em 5 minutos.