La plataforma completa de operaciones LLM

Todo lo que OpenTracy entrega -- desde gateway unificado hasta destilación de modelos. Sin marketing. Capacidades reales, arquitectura real.

Gateway Unificado

Una API compatible con OpenAI que rutea a 13 proveedores y 70+ modelos. Cambia una línea de código para empezar.

  • API compatible con OpenAI -- reemplazo directo, mismo SDK, mismo formato
  • 13 proveedores: OpenAI, Anthropic, Google Gemini, Mistral, Groq, DeepSeek, Perplexity, Cerebras, SambaNova, Together, Fireworks, Cohere, AWS Bedrock
  • 70+ modelos con precios automáticos por token integrados
  • Streaming completo para todos los proveedores incluida traducción SSE de Anthropic
  • Soporte de visión y multimodal (imágenes base64 o URL)
  • Llamadas a herramientas con traducción de formato entre proveedores
python
import openai

# Just change the base URL — everything else stays the same
client = openai.OpenAI(
    base_url="https://api.opentracy.com/v1",
    api_key="your-opentracy-key"
)

response = client.chat.completions.create(
    model="openai/gpt-4o-mini",
    messages=[{"role": "user", "content": "Hello!"}]
)

print(response.choices[0].message.content)

Ruteo Inteligente

Dirige solicitudes al modelo correcto según costo, latencia, complejidad o reglas personalizadas. Fallbacks automáticos cuando un proveedor se cae.

  • Clase Router con estrategias: round-robin, menor costo, menor latencia, aleatorio ponderado
  • Ruteo semántico -- clasifica la complejidad del prompt, envía los simples a modelos baratos, los complejos a modelos potentes
  • Fallbacks automáticos con cadenas de reintento configurables (ej. GPT-4o -> Claude -> Gemini)
  • Balanceo de carga entre pools de modelos para cargas de alto rendimiento
  • Motor en Go para ruteo de alto rendimiento con <2ms de overhead
python
import opentracy as ot

# Semantic routing: simple -> cheap, complex -> powerful
router = ot.Router(
    strategy="semantic",
    models={
        "simple": "openai/gpt-4o-mini",
        "complex": "anthropic/claude-sonnet-4-20250514",
    },
    fallbacks=["google/gemini-2.0-flash"]
)

response = router.completion(
    messages=[{"role": "user", "content": prompt}]
)
print(f"Routed to: {response.model}")
print(f"Cost: ${response._cost:.6f}")

Trazas en Tiempo Real

Cada solicitud registrada con entrada, salida, costo, latencia, modelo y conteo de tokens. Consulta millones de trazas al instante.

  • Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida
  • Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos
  • Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas
  • Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud
  • Exporta trazas para análisis offline o integración con tu pipeline de datos
01

Registro completo: mensajes de entrada, salida, costo, latencia, modelo, tokens entrada/salida

02

Backend de analítica en ClickHouse -- consulta millones de trazas en milisegundos

03

Dashboard en tiempo real con filtros, búsqueda y vista detallada de trazas

04

Estadísticas por modelo: latencia P50/P95/P99, tasas de error, costo por solicitud

Inteligencia de Costos

Precios automáticos por token para cada modelo. Mira exactamente a dónde va tu dinero y cuánto te ahorra el ruteo inteligente.

  • Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)
  • Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual
  • Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente
  • Cálculo de ahorro neto con proyecciones mensuales
  • Desglose de costos por modelo, por proveedor, por período de tiempo
  • Alertas de presupuesto y detección de anomalías para picos inesperados
01

Precios automáticos por token para 70+ modelos (base de datos de precios actualizada continuamente)

02

Costo adjunto a cada respuesta -- sin adivinanzas ni cálculo manual

03

Comparación baseline vs real: ve lo que pagarías con el modelo más caro vs ruteo inteligente

04

Cálculo de ahorro neto con proyecciones mensuales

Monitoreo de Calidad

7 agentes autónomos de IA escanean continuamente tu tráfico de producción. Detecta problemas antes que tus usuarios.

  • Cluster Labeler -- agrupa prompts por dominio automáticamente
  • Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato
  • Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales
  • Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente
  • Detección heurística: respuestas incompletas, frases de rechazo, picos de latencia, anomalías de costo
  • Detección de alucinaciones basada en LLM con puntuación de confianza (0-1)
01

Cluster Labeler -- agrupa prompts por dominio automáticamente

02

Trace Scanner -- detecta alucinaciones, rechazos, fugas de PII y problemas de formato

03

Outlier Detector -- señala trazas anómalas que se desvían de los patrones normales

04

Coherence Scorer -- califica la calidad del cluster para asegurar comportamiento consistente

Evaluaciones

LLM-as-Judge para comparación por pares y puntuación individual. Rastrea la calidad entre actualizaciones de modelo con métricas reales.

  • Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción
  • Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables
  • RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché
  • Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria
  • Evaluación específica por dominio con métricas de calidad sugeridas por IA
  • Rastrea la calidad a lo largo del tiempo entre actualizaciones de modelo y cambios de ruteo
01

Comparación por pares: modelo A vs B, elige al ganador con tus datos de producción

02

Puntuación individual: califica respuestas de 1-5 con rúbricas personalizables

03

RouterEvaluator: evalúa decisiones de ruteo contra respuestas en caché

04

Métricas AUROC, curvas de Pareto y cálculos de tasa de victoria

Destilación de Modelos (Pipeline BOND)

Entrena modelos más pequeños, rápidos y baratos con tus datos de producción. Pipeline completo desde modelo profesor hasta LoRA desplegado.

  • Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF
  • Extracción automática de datos de entrenamiento desde trazas de producción
  • Generación de pares de preferencia para alineamiento DPO/RLHF
  • Aumento de dataset dorado para benchmarks de evaluación
  • Tus modelos -- sin vendor lock-in, despliega donde quieras
  • Eval Generator crea datasets de evaluación desde datos reales de producción
01

Pipeline: Modelo profesor -> Curación con LLM-as-Judge -> Entrenamiento LoRA (Unsloth) -> Exportación GGUF

02

Extracción automática de datos de entrenamiento desde trazas de producción

03

Generación de pares de preferencia para alineamiento DPO/RLHF

04

Aumento de dataset dorado para benchmarks de evaluación

Clustering de Prompts

Descubrimiento automático de dominios desde tu tráfico de producción. Entiende qué preguntan tus usuarios y cómo rinde cada dominio.

  • Descubrimiento automático de dominios desde patrones de tráfico de producción
  • Clustering KMeans + mapa aprendido para agrupar prompts similares
  • Similitud basada en embeddings usando sentence transformers
  • Métricas de calidad y análisis de costo por cluster
  • Detección de drift cuando los patrones de tráfico cambian inesperadamente
  • Merge Checker sugiere consolidación de clusters para reducir ruido
01

Descubrimiento automático de dominios desde patrones de tráfico de producción

02

Clustering KMeans + mapa aprendido para agrupar prompts similares

03

Similitud basada en embeddings usando sentence transformers

04

Métricas de calidad y análisis de costo por cluster

Despliegue

Stack completo con Docker. Self-host con licencia MIT o usa la nube administrada. Listo para producción desde el día uno.

  • Deploy completo con Docker: ClickHouse + motor Go + API Python + UI React
  • Opción de self-host con licencia MIT -- tus datos en tu infraestructura
  • Motor en Go para ruteo de alto rendimiento (<2ms de overhead por solicitud)
  • SDK de Python: pip install opentracy
  • Drop-in del SDK de OpenAI: solo cambia base_url a tu instancia de OpenTracy
python
# Install the SDK
pip install opentracy

# Or self-host the full stack
git clone https://github.com/lunar-org-ai/lunar-router.git
cd lunar-router && docker compose up -d

¿Listo para tomar el control de tu stack LLM?

Código abierto, self-hostable, licencia MIT. Empieza en 5 minutos.