Inicio/Servicios/Marketing Operations/AI Customer Support
● Mini-producto · 4 – 8 semanas · RAG · No es ChatGPT custom

AI Customer Support. Que cita la fuente. Sin alucinar.

LLM (GPT-4 / Claude / Llama 3) sobre tu knowledge base — no sobre internet. Cada respuesta cita el documento de origen. Lo que no sabe escala a humano. Ticket-deflection 35-40% a los 30 días, CSAT mantenido en 4.5+/5. Esto no es ChatGPT con prompt fancy. Es RAG productizado.

38%
ticket-deflection típico a 30 días
// SaaS B2B Lima (caso real)
4.6/5
CSAT mantenido
// medido contra baseline humano
0%
alucinaciones
// RAG cita fuente · no inventa
3 canales
WhatsApp · web · email
// un solo backend de respuestas
Único
RAG productizado en LATAM
// 0 Gold Partners lo ofrecen así
// flujo del servicio LIVE
INGESTEMBEDSTORERETRIEVEGENERATECITEESCALATE
// 01 · TL;DR

El servicio, en cuatro frases.

Para los que llegaron desde LinkedIn y solo tienen 30 segundos. Si quieres profundidad, sigue scrolleando.

01

Tu equipo de soporte responde lo mismo 40 veces al día.

El 60-70% de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan. Esto no es problema de personal. Es problema de deflection.

02

Construimos un RAG productizado.

Ingestamos tu knowledge base (PDFs, Notion, FAQs, manuales, transcripts WhatsApp) → embeddings → vector store → LLM responde citando documento fuente. Cada respuesta es trazable. Cero «creemos que…».

03

Stack open-API + vector store self-host.

OpenAI / Anthropic / Llama 3 (eliges) + Pinecone / Weaviate / pgvector. LangChain como pegamento. Si en 2 años cambias provider de LLM, el código se queda contigo. No hay lock-in.

04

Escalación humana por reglas explícitas.

Si el modelo no encuentra contexto suficiente, escala a humano. Si el cliente lo pide, escala. Si el sentiment es negativo, escala. No es «todo o nada» — es delegación inteligente al humano.

// 02 · El problema

Por qué llegaste aquí.

  1. 01

    El 60-70% de tickets son FAQs repetidos.

    «¿Cómo cancelo?», «¿Cuándo llega?», «¿Cómo cambio plan?», «¿Hacen envíos a X?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.

    60-70% repetidos
  2. 02

    FAQ estático en web no soluciona nada.

    Nadie lo lee. Está desactualizado 8 meses. La pregunta exacta nunca está formulada como el cliente la hace.

    FAQ muerto
  3. 03

    Chatbots tradicionales se rompen.

    Manychat / Dialogflow básico solo responden lo que pre-programaste. No escalan. Si tu KB cambia, hay que re-programar.

    no escalan
  4. 04

    SaaS AI cobra USD 0.99-1.50 por conversación.

    Intercom Fin, Zendesk AI, Ada: USD 0.99-1.50/conversación + USD 800-3 000/mes licencia. A 80 tickets/día = USD 3-6k/mes.

    USD 3-6k/mes SaaS
  5. 05

    ChatGPT custom alucina.

    Sin RAG, el LLM responde lo que se le ocurra. Si el cliente pregunta sobre features que no tienes, las inventa. Catástrofe legal/comercial.

    riesgo alucinación
  6. 06

    Tiempo respuesta 4-18h.

    Mientras tu equipo procesa cola, el lead inbound espera. El competidor responde en 30 segundos con bot básico. Tu pierdes la venta.

    4-18h espera
// tickets que son FAQs repetidos
60-70%
// SaaS AI típico (80 tickets/día)
$3-6k/mes
// tiempo respuesta promedio actual
4-18h
// 03 · La solución

Lo que construimos contigo.

No vendemos plantillas — construimos capas finas que comunican lo que ya existe.

SUPERFICIE 01

Ingestión multi-fuente · PDFs, Notion, FAQs, transcripts

Pipeline ingesta tu knowledge base existente. Chunking inteligente, embeddings, indexación. Re-indexación automática cuando actualizas KB.

SUPERFICIE 02

LLM responde citando documento fuente

Cada respuesta incluye link/sección al documento. Trazable. El cliente y el equipo soporte ven exactamente de dónde viene la respuesta. Cero «creemos que…».

SUPERFICIE 03

Escalación a humano con contexto completo

Si el bot no encuentra documento relevante con similarity score > umbral, escala. El humano recibe: pregunta + intentos del bot + documentos consultados. Cero re-trabajo.

SUPERFICIE 04

Multi-canal · WhatsApp, web widget, email, API

Un solo backend de respuestas consistentes en los 4 canales. Si actualizas un FAQ, se actualiza simultáneamente en todos. Integración Odoo Helpdesk nativa.

// 04 · Pieza firma

Knowledge base flow · 7 pasos de pregunta a respuesta citada

Sigue una pregunta real («¿Cómo cancelo mi suscripción?») desde el chat web hasta la respuesta del bot con cita. 7 pasos. Latencias reales.

  1. 01

    01 · INGEST — KB ingestada en pipeline

    PDFs, Notion, FAQs, manuales ingestados. Chunking por secciones (no por tamaño fijo). Metadata: source, section, last_updated.

  2. 02

    02 · EMBED — Vectorización con OpenAI ada-002

    Cada chunk convertido a vector 1536-dim. 2-4 ms por chunk. Stored en vector store con metadata referencia.

  3. 03

    03 · STORE — Vector store · pgvector / Pinecone

    pgvector para self-host. Pinecone para serverless. Search latency < 50 ms sobre 100k chunks.

  4. 04

    04 · USER PREGUNTA — «¿Cómo cancelo mi suscripción?»

    Llega vía WhatsApp / web widget / email / API. Vectorizada en tiempo real. Latencia 20 ms.

  5. 05

    05 · RETRIEVE — Top-K chunks relevantes

    Similarity search retorna top 5 chunks con score > 0.85. Si todos < umbral → escalar humano. Latencia 50 ms.

  6. 06

    06 · GENERATE — LLM con contexto + cita

    GPT-4 / Claude recibe pregunta + top 5 chunks + instrucción «cita fuente». Genera respuesta con link. Latencia 1.2-2.5 s.

  7. 07

    07 · DELIVER + FEEDBACK — Respuesta al usuario

    Usuario recibe respuesta + botón «¿Te ayudó? 👍/👎». Feedback loop entrena el sistema. CSAT tracked.

// 05 · Arquitectura

Cómo está armado.

L1

Ingestion

De dónde viene el conocimiento
NOTION
API + sync incremental
PDFs · OCR + chunking semántico
FAQs · scrape o export estructurado
TRANSCRIPTS
WhatsApp + tickets históricos
L2

Processing

Cómo modelamos
EMBEDDINGS
OpenAI ada-002 · Cohere embed v3
CHUNKING
semantic chunking · 512-1024 tokens
METADATA
source · section · updated_at
RE-INDEX
cron daily + trigger on update
L3

Storage + Retrieval

Dónde vive el dato
VECTOR STORE
pgvector self-host · Pinecone SaaS
CACHE
Redis para queries frecuentes
ANALYTICS
log de queries + scores
FEEDBACK
thumbs DB para mejora
L4

LLM + Surfaces

Cómo se genera y entrega
LLM
GPT-4 · Claude · Llama 3 self-hosted
PROMPT
system + RAG context + cite source
CANALES
WhatsApp · web · email · API
ESCALATION
sentiment · score < umbral · explicit
// 06 · Evidencia

Los números reales.

Métricas observadas en proyectos concretos. Baseline antes vs estado después de la intervención.

Métrica Antes Después Δ
Ticket-deflection a 30 días
0%
35-40%
+38 pp
CSAT mantenido o mejorado
4.4/5 baseline
4.5-4.7/5
+0.1-0.3
Alucinaciones detectadas
frecuentes (sin RAG)
0%
0
Tiempo respuesta promedio
4-18 h
< 30 seg
−99%
Tickets complejos al humano
mezcla con simples
+40% calidad
pre-calificados
Costo por conversación vs SaaS
USD 1.50
USD 0.05-0.15
−90%

«Nuestro equipo de soporte pasó de quemarse en «¿cómo cancelo?» 40 veces al día, a resolver los tickets que de verdad requieren humano. El bot deflecta el 38%, y el CSAT subió de 4.4 a 4.6. El feedback de los clientes: «al menos esta vez me responden en 30 segundos».»

A
Anónimo Head of Customer Success · SaaS B2B Lima · 120 tickets/día
Inversión setup USD 5 – 16 k // según volumen + canales
Mensual ongoing USD 300 – 900/mes // LLM API + monitoring + re-index
Payback 3 – 6 meses // vs costo equipo soporte
ROI a 24 meses 5 – 12× // deflection + calidad humano
// 07 · Objeciones

Tres preguntas reales — y mis respuestas honestas.

L1

¿En qué se diferencia de un chatbot conversacional tradicional?

Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.

L2

¿Cómo evita alucinaciones?

Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección).

L3

¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?

Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38% deflection, CSAT mantenido en 4.6/5.

// 08 · Qué incluye

Qué entregamos, sin sorpresas.

  • Ingestión de knowledge base (PDFs · Notion · FAQs · transcripts · manuales)
  • Pipeline embeddings + vector store (Pinecone / Weaviate / pgvector)
  • LLM responde citando documento fuente · cero alucinaciones
  • Escalación a humano cuando el bot no sabe (con contexto completo)
  • Multi-canal: WhatsApp · web widget · email · API
  • Integración Odoo Helpdesk (o Zendesk · Freshdesk · Intercom)
  • Dashboard de métricas: deflection rate · CSAT · tiempo respuesta · accuracy
  • Sistema de feedback (thumbs up/down) para mejora continua
  • Pipeline de re-indexación cuando knowledge base se actualiza
  • Hypercare 30 días + capacitación al equipo soporte
// 09 · Cómo funciona

El proceso en 5 pasos.

  1. 01

    Auditoría knowledge base (1 sem)

    Inventario de fuentes existentes (PDFs, Notion, FAQs, transcripts). Gap analysis: qué está documentado vs qué responde el equipo de memoria. Decisión de stack LLM (GPT-4 / Claude / Llama 3).

  2. 02

    Pipeline RAG (2–3 sem)

    Ingestión + embeddings + vector store. LLM responde con citas. Sistema de escalación a humano. Pruebas con 200–500 tickets históricos.

  3. 03

    Integración canales (1–2 sem)

    WhatsApp · web widget · email · API. Integración Odoo Helpdesk. Routing reglas: bot resuelve / bot escala. Dashboard métricas en Metabase.

  4. 04

    Validación + capacitación (1 sem)

    Pruebas con tickets reales en producción shadow mode. Capacitación al equipo soporte para revisar respuestas y dar feedback. Ajustes finales.

  5. 05

    Go-live + hypercare 30 días

    Lanzamiento gradual (10 % → 50 % → 100 % de tickets). Medición deflection + CSAT. Ongoing USD 300–900/mes para iteración + re-indexación + ajustes.

Tu equipo de soporte responde lo mismo 40 veces al día

El 60–70 % de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. «¿Cómo cancelo?», «¿Cuándo llega mi pedido?», «¿Cómo cambio de plan?», «¿Hacen envíos a [ciudad]?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.

Esto no es problema de personal. Es problema de deflection. Y el FAQ estático en tu web no soluciona nada: nadie lo lee, está desactualizado 8 meses, y la pregunta exacta nunca está formulada como el cliente la hace.

RAG productizado · cita la fuente · sin alucinar

Ingestamos tu knowledge base (PDFs · Notion · FAQs · manuales · transcripts WhatsApp histórico) → embeddings → vector store → LLM responde citando el documento fuente. Cada respuesta es trazable. Cero «creemos que…».

KB (Notion·PDFs·FAQs)  →  Embeddings  →  Vector store (pgvector/Pinecone)

USER PREGUNTA  →  Retrieve top-K docs  →  LLM (GPT-4/Claude/Llama 3)

                              RESPUESTA + cita fuente

                              [thumbs up/down → feedback loop]
                              [si no sabe → escala humano con contexto]

Multi-canal · un solo backend

WhatsApp (con el stack de WhatsApp Automation si ya lo tienes) · web widget · email · API. Un solo backend de respuestas consistentes en todos los canales. Si actualizas un FAQ, se actualiza en los 4 canales simultáneamente.

Diferencia con SaaS «AI chatbot»

Las plataformas SaaS (Intercom Fin, Zendesk AI, Ada) cobran USD 0.99–1.50 por conversación + USD 800–3 000/mes de licencia. A 80 tickets/día = USD 3 000–6 000/mes solo en conversaciones. Aquí: USD 5–16k setup + USD 300–900/mes ongoing. Y el código queda contigo.

Único en LATAM productizado: 0 Gold Partners Odoo LATAM ofrecen RAG-over-knowledge-base como servicio empaquetado. Casi todos venden chatbot de reglas que no escala.

Resultados típicos

  • Ticket-deflection a 30 días: 35–40 %
  • CSAT mantenido o mejorado (vs baseline humano): 4.5–4.7 / 5
  • Alucinaciones detectadas en producción: 0 % (por diseño, RAG cita fuente)
  • Tiempo respuesta promedio: 4–18h → < 30 seg en tickets deflectados
  • Tickets complejos que llegan al humano: +40 % más calidad (ya pre-calificados)
  • Payback típico: 3–6 meses
// FAQ

Preguntas que recibo cada semana.

¿En qué se diferencia de un chatbot conversacional tradicional?

Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.

¿Cómo evita alucinaciones?

Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección). El usuario y el equipo soporte ven exactamente de dónde viene la respuesta.

¿GPT-4 / Claude / Llama 3 — cuál?

Depende. GPT-4 / Claude para español LATAM neutro y alta accuracy (mejor calidad, mayor costo). Llama 3 para volumen alto y autohosting (menor costo, accuracy 90 % de GPT-4). Lo decidimos según tu volumen + sensibilidad de datos.

¿Datos del cliente quedan en OpenAI / Anthropic?

Depende del proveedor. OpenAI API con opt-out NO usa tus datos para training. Anthropic API también. Si compliance es crítico (salud · finanzas · datos sensibles), usamos Llama 3 self-hosted en tu infra. Lo definimos en la primera llamada.

¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?

Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38 % deflection, CSAT mantenido en 4.6/5.