AI Customer Support. Que cita la fuente. Sin alucinar.
LLM (GPT-4 / Claude / Llama 3) sobre tu knowledge base — no sobre internet. Cada respuesta cita el documento de origen. Lo que no sabe escala a humano. Ticket-deflection 35-40% a los 30 días, CSAT mantenido en 4.5+/5. Esto no es ChatGPT con prompt fancy. Es RAG productizado.
El servicio, en cuatro frases.
Para los que llegaron desde LinkedIn y solo tienen 30 segundos. Si quieres profundidad, sigue scrolleando.
Tu equipo de soporte responde lo mismo 40 veces al día.
El 60-70% de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan. Esto no es problema de personal. Es problema de deflection.
Construimos un RAG productizado.
Ingestamos tu knowledge base (PDFs, Notion, FAQs, manuales, transcripts WhatsApp) → embeddings → vector store → LLM responde citando documento fuente. Cada respuesta es trazable. Cero «creemos que…».
Stack open-API + vector store self-host.
OpenAI / Anthropic / Llama 3 (eliges) + Pinecone / Weaviate / pgvector. LangChain como pegamento. Si en 2 años cambias provider de LLM, el código se queda contigo. No hay lock-in.
Escalación humana por reglas explícitas.
Si el modelo no encuentra contexto suficiente, escala a humano. Si el cliente lo pide, escala. Si el sentiment es negativo, escala. No es «todo o nada» — es delegación inteligente al humano.
Por qué llegaste aquí.
- 01
El 60-70% de tickets son FAQs repetidos.
«¿Cómo cancelo?», «¿Cuándo llega?», «¿Cómo cambio plan?», «¿Hacen envíos a X?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.
60-70% repetidos - 02
FAQ estático en web no soluciona nada.
Nadie lo lee. Está desactualizado 8 meses. La pregunta exacta nunca está formulada como el cliente la hace.
FAQ muerto - 03
Chatbots tradicionales se rompen.
Manychat / Dialogflow básico solo responden lo que pre-programaste. No escalan. Si tu KB cambia, hay que re-programar.
no escalan - 04
SaaS AI cobra USD 0.99-1.50 por conversación.
Intercom Fin, Zendesk AI, Ada: USD 0.99-1.50/conversación + USD 800-3 000/mes licencia. A 80 tickets/día = USD 3-6k/mes.
USD 3-6k/mes SaaS - 05
ChatGPT custom alucina.
Sin RAG, el LLM responde lo que se le ocurra. Si el cliente pregunta sobre features que no tienes, las inventa. Catástrofe legal/comercial.
riesgo alucinación - 06
Tiempo respuesta 4-18h.
Mientras tu equipo procesa cola, el lead inbound espera. El competidor responde en 30 segundos con bot básico. Tu pierdes la venta.
4-18h espera
Lo que construimos contigo.
No vendemos plantillas — construimos capas finas que comunican lo que ya existe.
Ingestión multi-fuente · PDFs, Notion, FAQs, transcripts
Pipeline ingesta tu knowledge base existente. Chunking inteligente, embeddings, indexación. Re-indexación automática cuando actualizas KB.
LLM responde citando documento fuente
Cada respuesta incluye link/sección al documento. Trazable. El cliente y el equipo soporte ven exactamente de dónde viene la respuesta. Cero «creemos que…».
Escalación a humano con contexto completo
Si el bot no encuentra documento relevante con similarity score > umbral, escala. El humano recibe: pregunta + intentos del bot + documentos consultados. Cero re-trabajo.
Multi-canal · WhatsApp, web widget, email, API
Un solo backend de respuestas consistentes en los 4 canales. Si actualizas un FAQ, se actualiza simultáneamente en todos. Integración Odoo Helpdesk nativa.
Knowledge base flow · 7 pasos de pregunta a respuesta citada
Sigue una pregunta real («¿Cómo cancelo mi suscripción?») desde el chat web hasta la respuesta del bot con cita. 7 pasos. Latencias reales.
- 01
01 · INGEST — KB ingestada en pipeline
PDFs, Notion, FAQs, manuales ingestados. Chunking por secciones (no por tamaño fijo). Metadata: source, section, last_updated.
- 02
02 · EMBED — Vectorización con OpenAI ada-002
Cada chunk convertido a vector 1536-dim. 2-4 ms por chunk. Stored en vector store con metadata referencia.
- 03
03 · STORE — Vector store · pgvector / Pinecone
pgvector para self-host. Pinecone para serverless. Search latency < 50 ms sobre 100k chunks.
- 04
04 · USER PREGUNTA — «¿Cómo cancelo mi suscripción?»
Llega vía WhatsApp / web widget / email / API. Vectorizada en tiempo real. Latencia 20 ms.
- 05
05 · RETRIEVE — Top-K chunks relevantes
Similarity search retorna top 5 chunks con score > 0.85. Si todos < umbral → escalar humano. Latencia 50 ms.
- 06
06 · GENERATE — LLM con contexto + cita
GPT-4 / Claude recibe pregunta + top 5 chunks + instrucción «cita fuente». Genera respuesta con link. Latencia 1.2-2.5 s.
- 07
07 · DELIVER + FEEDBACK — Respuesta al usuario
Usuario recibe respuesta + botón «¿Te ayudó? 👍/👎». Feedback loop entrena el sistema. CSAT tracked.
Cómo está armado.
Ingestion
De dónde viene el conocimientoProcessing
Cómo modelamosStorage + Retrieval
Dónde vive el datoLLM + Surfaces
Cómo se genera y entregaLos números reales.
Métricas observadas en proyectos concretos. Baseline antes vs estado después de la intervención.
«Nuestro equipo de soporte pasó de quemarse en «¿cómo cancelo?» 40 veces al día, a resolver los tickets que de verdad requieren humano. El bot deflecta el 38%, y el CSAT subió de 4.4 a 4.6. El feedback de los clientes: «al menos esta vez me responden en 30 segundos».»
Tres preguntas reales — y mis respuestas honestas.
¿En qué se diferencia de un chatbot conversacional tradicional?
Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.
¿Cómo evita alucinaciones?
Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección).
¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?
Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38% deflection, CSAT mantenido en 4.6/5.
Qué entregamos, sin sorpresas.
- Ingestión de knowledge base (PDFs · Notion · FAQs · transcripts · manuales)
- Pipeline embeddings + vector store (Pinecone / Weaviate / pgvector)
- LLM responde citando documento fuente · cero alucinaciones
- Escalación a humano cuando el bot no sabe (con contexto completo)
- Multi-canal: WhatsApp · web widget · email · API
- Integración Odoo Helpdesk (o Zendesk · Freshdesk · Intercom)
- Dashboard de métricas: deflection rate · CSAT · tiempo respuesta · accuracy
- Sistema de feedback (thumbs up/down) para mejora continua
- Pipeline de re-indexación cuando knowledge base se actualiza
- Hypercare 30 días + capacitación al equipo soporte
El proceso en 5 pasos.
- 01
Auditoría knowledge base (1 sem)
Inventario de fuentes existentes (PDFs, Notion, FAQs, transcripts). Gap analysis: qué está documentado vs qué responde el equipo de memoria. Decisión de stack LLM (GPT-4 / Claude / Llama 3).
- 02
Pipeline RAG (2–3 sem)
Ingestión + embeddings + vector store. LLM responde con citas. Sistema de escalación a humano. Pruebas con 200–500 tickets históricos.
- 03
Integración canales (1–2 sem)
WhatsApp · web widget · email · API. Integración Odoo Helpdesk. Routing reglas: bot resuelve / bot escala. Dashboard métricas en Metabase.
- 04
Validación + capacitación (1 sem)
Pruebas con tickets reales en producción shadow mode. Capacitación al equipo soporte para revisar respuestas y dar feedback. Ajustes finales.
- 05
Go-live + hypercare 30 días
Lanzamiento gradual (10 % → 50 % → 100 % de tickets). Medición deflection + CSAT. Ongoing USD 300–900/mes para iteración + re-indexación + ajustes.
Tu equipo de soporte responde lo mismo 40 veces al día
El 60–70 % de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. «¿Cómo cancelo?», «¿Cuándo llega mi pedido?», «¿Cómo cambio de plan?», «¿Hacen envíos a [ciudad]?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.
Esto no es problema de personal. Es problema de deflection. Y el FAQ estático en tu web no soluciona nada: nadie lo lee, está desactualizado 8 meses, y la pregunta exacta nunca está formulada como el cliente la hace.
RAG productizado · cita la fuente · sin alucinar
Ingestamos tu knowledge base (PDFs · Notion · FAQs · manuales · transcripts WhatsApp histórico) → embeddings → vector store → LLM responde citando el documento fuente. Cada respuesta es trazable. Cero «creemos que…».
KB (Notion·PDFs·FAQs) → Embeddings → Vector store (pgvector/Pinecone)
↓
USER PREGUNTA → Retrieve top-K docs → LLM (GPT-4/Claude/Llama 3)
↓
RESPUESTA + cita fuente
↓
[thumbs up/down → feedback loop]
[si no sabe → escala humano con contexto]
Multi-canal · un solo backend
WhatsApp (con el stack de WhatsApp Automation si ya lo tienes) · web widget · email · API. Un solo backend de respuestas consistentes en todos los canales. Si actualizas un FAQ, se actualiza en los 4 canales simultáneamente.
Diferencia con SaaS «AI chatbot»
Las plataformas SaaS (Intercom Fin, Zendesk AI, Ada) cobran USD 0.99–1.50 por conversación + USD 800–3 000/mes de licencia. A 80 tickets/día = USD 3 000–6 000/mes solo en conversaciones. Aquí: USD 5–16k setup + USD 300–900/mes ongoing. Y el código queda contigo.
Único en LATAM productizado: 0 Gold Partners Odoo LATAM ofrecen RAG-over-knowledge-base como servicio empaquetado. Casi todos venden chatbot de reglas que no escala.
Resultados típicos
- Ticket-deflection a 30 días: 35–40 %
- CSAT mantenido o mejorado (vs baseline humano): 4.5–4.7 / 5
- Alucinaciones detectadas en producción: 0 % (por diseño, RAG cita fuente)
- Tiempo respuesta promedio: 4–18h → < 30 seg en tickets deflectados
- Tickets complejos que llegan al humano: +40 % más calidad (ya pre-calificados)
- Payback típico: 3–6 meses
Preguntas que recibo cada semana.
¿En qué se diferencia de un chatbot conversacional tradicional?
Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.
¿Cómo evita alucinaciones?
Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección). El usuario y el equipo soporte ven exactamente de dónde viene la respuesta.
¿GPT-4 / Claude / Llama 3 — cuál?
Depende. GPT-4 / Claude para español LATAM neutro y alta accuracy (mejor calidad, mayor costo). Llama 3 para volumen alto y autohosting (menor costo, accuracy 90 % de GPT-4). Lo decidimos según tu volumen + sensibilidad de datos.
¿Datos del cliente quedan en OpenAI / Anthropic?
Depende del proveedor. OpenAI API con opt-out NO usa tus datos para training. Anthropic API también. Si compliance es crítico (salud · finanzas · datos sensibles), usamos Llama 3 self-hosted en tu infra. Lo definimos en la primera llamada.
¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?
Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38 % deflection, CSAT mantenido en 4.6/5.
¿Te suena familiar? Hablemos.
Empezamos siempre con una llamada de 30 minutos. Sin formularios largos — agenda directa.