Inicio/Servicios/Marketing Operations/AI Customer Support

● Mini-producto · 4 – 8 semanas · RAG · No es ChatGPT custom

AI Customer Support. Que cita la fuente. Sin alucinar.

Q: ¿En qué se diferencia de un chatbot conversacional tradicional?

Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.

Q: ¿Cómo evita alucinaciones?

Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección). El usuario y el equipo soporte ven exactamente de dónde viene la respuesta.

LLM (GPT-4 / Claude / Llama 3) sobre tu knowledge base — no sobre internet. Cada respuesta cita el documento de origen. Lo que no sabe escala a humano. Ticket-deflection 35-40% a los 30 días, CSAT mantenido en 4.5+/5. Esto no es ChatGPT con prompt fancy. Es RAG productizado.

Reservar 30 min gratis → Leer el caso →

38%

ticket-deflection típico a 30 días

// SaaS B2B Lima (caso real)

4.6/5

CSAT mantenido

// medido contra baseline humano

alucinaciones

// RAG cita fuente · no inventa

3 canales

WhatsApp · web · email

// un solo backend de respuestas

Único

RAG productizado en LATAM

// 0 Gold Partners lo ofrecen así

// flujo del servicio LIVE

INGESTEMBEDSTORERETRIEVEGENERATECITEESCALATE

// 01 · TL;DR

El servicio, en cuatro frases.

Para los que llegaron desde LinkedIn y solo tienen 30 segundos. Si quieres profundidad, sigue scrolleando.

Tu equipo de soporte responde lo mismo 40 veces al día.

El 60-70% de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan. Esto no es problema de personal. Es problema de deflection.

Construimos un RAG productizado.

Ingestamos tu knowledge base (PDFs, Notion, FAQs, manuales, transcripts WhatsApp) → embeddings → vector store → LLM responde citando documento fuente. Cada respuesta es trazable. Cero «creemos que…».

Stack open-API + vector store self-host.

OpenAI / Anthropic / Llama 3 (eliges) + Pinecone / Weaviate / pgvector. LangChain como pegamento. Si en 2 años cambias provider de LLM, el código se queda contigo. No hay lock-in.

Escalación humana por reglas explícitas.

Si el modelo no encuentra contexto suficiente, escala a humano. Si el cliente lo pide, escala. Si el sentiment es negativo, escala. No es «todo o nada» — es delegación inteligente al humano.

// 02 · El problema

Por qué llegaste aquí.

01
El 60-70% de tickets son FAQs repetidos.

«¿Cómo cancelo?», «¿Cuándo llega?», «¿Cómo cambio plan?», «¿Hacen envíos a X?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.
60-70% repetidos
02
FAQ estático en web no soluciona nada.

Nadie lo lee. Está desactualizado 8 meses. La pregunta exacta nunca está formulada como el cliente la hace.
FAQ muerto
03
Chatbots tradicionales se rompen.

Manychat / Dialogflow básico solo responden lo que pre-programaste. No escalan. Si tu KB cambia, hay que re-programar.
no escalan
04
SaaS AI cobra USD 0.99-1.50 por conversación.

Intercom Fin, Zendesk AI, Ada: USD 0.99-1.50/conversación + USD 800-3 000/mes licencia. A 80 tickets/día = USD 3-6k/mes.
USD 3-6k/mes SaaS
05
ChatGPT custom alucina.

Sin RAG, el LLM responde lo que se le ocurra. Si el cliente pregunta sobre features que no tienes, las inventa. Catástrofe legal/comercial.
riesgo alucinación
06
Tiempo respuesta 4-18h.

Mientras tu equipo procesa cola, el lead inbound espera. El competidor responde en 30 segundos con bot básico. Tu pierdes la venta.
4-18h espera

// tickets que son FAQs repetidos

60-70%

// SaaS AI típico (80 tickets/día)

$3-6k/mes

// tiempo respuesta promedio actual

4-18h

// 03 · La solución

Lo que construimos contigo.

No vendemos plantillas — construimos capas finas que comunican lo que ya existe.

SUPERFICIE 01

Ingestión multi-fuente · PDFs, Notion, FAQs, transcripts

Pipeline ingesta tu knowledge base existente. Chunking inteligente, embeddings, indexación. Re-indexación automática cuando actualizas KB.

SUPERFICIE 02

LLM responde citando documento fuente

Cada respuesta incluye link/sección al documento. Trazable. El cliente y el equipo soporte ven exactamente de dónde viene la respuesta. Cero «creemos que…».

SUPERFICIE 03

Escalación a humano con contexto completo

Si el bot no encuentra documento relevante con similarity score > umbral, escala. El humano recibe: pregunta + intentos del bot + documentos consultados. Cero re-trabajo.

SUPERFICIE 04

Multi-canal · WhatsApp, web widget, email, API

Un solo backend de respuestas consistentes en los 4 canales. Si actualizas un FAQ, se actualiza simultáneamente en todos. Integración Odoo Helpdesk nativa.

// 04 · Pieza firma

Knowledge base flow · 7 pasos de pregunta a respuesta citada

Sigue una pregunta real («¿Cómo cancelo mi suscripción?») desde el chat web hasta la respuesta del bot con cita. 7 pasos. Latencias reales.

01
01 · INGEST — KB ingestada en pipeline

PDFs, Notion, FAQs, manuales ingestados. Chunking por secciones (no por tamaño fijo). Metadata: source, section, last_updated.
02
02 · EMBED — Vectorización con OpenAI ada-002

Cada chunk convertido a vector 1536-dim. 2-4 ms por chunk. Stored en vector store con metadata referencia.
03
03 · STORE — Vector store · pgvector / Pinecone

pgvector para self-host. Pinecone para serverless. Search latency < 50 ms sobre 100k chunks.
04
04 · USER PREGUNTA — «¿Cómo cancelo mi suscripción?»

Llega vía WhatsApp / web widget / email / API. Vectorizada en tiempo real. Latencia 20 ms.
05
05 · RETRIEVE — Top-K chunks relevantes

Similarity search retorna top 5 chunks con score > 0.85. Si todos < umbral → escalar humano. Latencia 50 ms.
06
06 · GENERATE — LLM con contexto + cita

GPT-4 / Claude recibe pregunta + top 5 chunks + instrucción «cita fuente». Genera respuesta con link. Latencia 1.2-2.5 s.
07
07 · DELIVER + FEEDBACK — Respuesta al usuario

Usuario recibe respuesta + botón «¿Te ayudó? 👍/👎». Feedback loop entrena el sistema. CSAT tracked.

// 05 · Arquitectura

Cómo está armado.

Ingestion

De dónde viene el conocimiento

NOTION

API + sync incremental

PDFs · OCR + chunking semántico

FAQs · scrape o export estructurado

TRANSCRIPTS

WhatsApp + tickets históricos

↓

Processing

Cómo modelamos

EMBEDDINGS

OpenAI ada-002 · Cohere embed v3

CHUNKING

semantic chunking · 512-1024 tokens

METADATA

source · section · updated_at

RE-INDEX

cron daily + trigger on update

↓

Storage + Retrieval

Dónde vive el dato

VECTOR STORE

pgvector self-host · Pinecone SaaS

CACHE

Redis para queries frecuentes

ANALYTICS

log de queries + scores

FEEDBACK

thumbs DB para mejora

↓

LLM + Surfaces

Cómo se genera y entrega

LLM

GPT-4 · Claude · Llama 3 self-hosted

PROMPT

system + RAG context + cite source

CANALES

WhatsApp · web · email · API

ESCALATION

sentiment · score < umbral · explicit

// 06 · Evidencia

Los números reales.

Métricas observadas en proyectos concretos. Baseline antes vs estado después de la intervención.

Métrica Antes Después Δ

Ticket-deflection a 30 días

35-40%

+38 pp

CSAT mantenido o mejorado

4.4/5 baseline

4.5-4.7/5

+0.1-0.3

Alucinaciones detectadas

frecuentes (sin RAG)

Tiempo respuesta promedio

4-18 h

< 30 seg

−99%

Tickets complejos al humano

mezcla con simples

+40% calidad

pre-calificados

Costo por conversación vs SaaS

USD 1.50

USD 0.05-0.15

−90%

«Nuestro equipo de soporte pasó de quemarse en «¿cómo cancelo?» 40 veces al día, a resolver los tickets que de verdad requieren humano. El bot deflecta el 38%, y el CSAT subió de 4.4 a 4.6. El feedback de los clientes: «al menos esta vez me responden en 30 segundos».»

Anónimo Head of Customer Success · SaaS B2B Lima · 120 tickets/día

Inversión setup USD 5 – 16 k // según volumen + canales

Mensual ongoing USD 300 – 900/mes // LLM API + monitoring + re-index

Payback 3 – 6 meses // vs costo equipo soporte

ROI a 24 meses 5 – 12× // deflection + calidad humano

// 07 · Objeciones

Tres preguntas reales — y mis respuestas honestas.

¿En qué se diferencia de un chatbot conversacional tradicional?

Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.

¿Cómo evita alucinaciones?

Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección).

¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?

Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38% deflection, CSAT mantenido en 4.6/5.

// 08 · Qué incluye

Qué entregamos, sin sorpresas.

Ingestión de knowledge base (PDFs · Notion · FAQs · transcripts · manuales)
Pipeline embeddings + vector store (Pinecone / Weaviate / pgvector)
LLM responde citando documento fuente · cero alucinaciones
Escalación a humano cuando el bot no sabe (con contexto completo)
Multi-canal: WhatsApp · web widget · email · API
Integración Odoo Helpdesk (o Zendesk · Freshdesk · Intercom)
Dashboard de métricas: deflection rate · CSAT · tiempo respuesta · accuracy
Sistema de feedback (thumbs up/down) para mejora continua
Pipeline de re-indexación cuando knowledge base se actualiza
Hypercare 30 días + capacitación al equipo soporte

// 09 · Cómo funciona

El proceso en 5 pasos.

01

Auditoría knowledge base (1 sem)

Inventario de fuentes existentes (PDFs, Notion, FAQs, transcripts). Gap analysis: qué está documentado vs qué responde el equipo de memoria. Decisión de stack LLM (GPT-4 / Claude / Llama 3).
02

Pipeline RAG (2–3 sem)

Ingestión + embeddings + vector store. LLM responde con citas. Sistema de escalación a humano. Pruebas con 200–500 tickets históricos.
03

Integración canales (1–2 sem)

WhatsApp · web widget · email · API. Integración Odoo Helpdesk. Routing reglas: bot resuelve / bot escala. Dashboard métricas en Metabase.
04

Validación + capacitación (1 sem)

Pruebas con tickets reales en producción shadow mode. Capacitación al equipo soporte para revisar respuestas y dar feedback. Ajustes finales.
05

Go-live + hypercare 30 días

Lanzamiento gradual (10 % → 50 % → 100 % de tickets). Medición deflection + CSAT. Ongoing USD 300–900/mes para iteración + re-indexación + ajustes.

Tu equipo de soporte responde lo mismo 40 veces al día

El 60–70 % de los tickets de PYME SaaS / e-commerce son repeticiones de FAQs ya documentados. «¿Cómo cancelo?», «¿Cuándo llega mi pedido?», «¿Cómo cambio de plan?», «¿Hacen envíos a [ciudad]?». Tu equipo se quema en preguntas resueltas — y los tickets complejos esperan.

Esto no es problema de personal. Es problema de deflection. Y el FAQ estático en tu web no soluciona nada: nadie lo lee, está desactualizado 8 meses, y la pregunta exacta nunca está formulada como el cliente la hace.

RAG productizado · cita la fuente · sin alucinar

Ingestamos tu knowledge base (PDFs · Notion · FAQs · manuales · transcripts WhatsApp histórico) → embeddings → vector store → LLM responde citando el documento fuente. Cada respuesta es trazable. Cero «creemos que…».

KB (Notion·PDFs·FAQs)  →  Embeddings  →  Vector store (pgvector/Pinecone)
                                              ↓
USER PREGUNTA  →  Retrieve top-K docs  →  LLM (GPT-4/Claude/Llama 3)
                                              ↓
                              RESPUESTA + cita fuente
                                              ↓
                              [thumbs up/down → feedback loop]
                              [si no sabe → escala humano con contexto]

Multi-canal · un solo backend

WhatsApp (con el stack de WhatsApp Automation si ya lo tienes) · web widget · email · API. Un solo backend de respuestas consistentes en todos los canales. Si actualizas un FAQ, se actualiza en los 4 canales simultáneamente.

Diferencia con SaaS «AI chatbot»

Las plataformas SaaS (Intercom Fin, Zendesk AI, Ada) cobran USD 0.99–1.50 por conversación + USD 800–3 000/mes de licencia. A 80 tickets/día = USD 3 000–6 000/mes solo en conversaciones. Aquí: USD 5–16k setup + USD 300–900/mes ongoing. Y el código queda contigo.

Único en LATAM productizado: 0 Gold Partners Odoo LATAM ofrecen RAG-over-knowledge-base como servicio empaquetado. Casi todos venden chatbot de reglas que no escala.

Resultados típicos

Ticket-deflection a 30 días: 35–40 %
CSAT mantenido o mejorado (vs baseline humano): 4.5–4.7 / 5
Alucinaciones detectadas en producción: 0 % (por diseño, RAG cita fuente)
Tiempo respuesta promedio: 4–18h → < 30 seg en tickets deflectados
Tickets complejos que llegan al humano: +40 % más calidad (ya pre-calificados)
Payback típico: 3–6 meses

// FAQ

Preguntas que recibo cada semana.

¿En qué se diferencia de un chatbot conversacional tradicional?

Los chatbots de reglas (Manychat, Dialogflow básico) responden solo lo que pre-programaste. No escalan. RAG ingesta tu knowledge base completa y responde dinámicamente, citando documentos. Si tu base cambia, las respuestas cambian sin re-programar.

¿Cómo evita alucinaciones?

Por diseño: el LLM solo responde si encuentra documento relevante con similarity score > umbral. Si no encuentra, escala a humano. Cada respuesta incluye la cita del documento fuente (link / sección). El usuario y el equipo soporte ven exactamente de dónde viene la respuesta.

¿GPT-4 / Claude / Llama 3 — cuál?

Depende. GPT-4 / Claude para español LATAM neutro y alta accuracy (mejor calidad, mayor costo). Llama 3 para volumen alto y autohosting (menor costo, accuracy 90 % de GPT-4). Lo decidimos según tu volumen + sensibilidad de datos.

¿Datos del cliente quedan en OpenAI / Anthropic?

Depende del proveedor. OpenAI API con opt-out NO usa tus datos para training. Anthropic API también. Si compliance es crítico (salud · finanzas · datos sensibles), usamos Llama 3 self-hosted en tu infra. Lo definimos en la primera llamada.

¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?

Por eso tracking de CSAT antes y después es central. Si CSAT baja de 4.5/5, ajustamos el umbral de escalación (más agresivo). El sistema aprende de los thumbs up/down. Anchor case: SaaS Lima — 38 % deflection, CSAT mantenido en 4.6/5.

// Siguientes pasos

¿Te suena familiar? Hablemos.

Empezamos siempre con una llamada de 30 minutos. Sin formularios largos — agenda directa.

SIGUIENTE PASO

Reservar una llamada de 30 min

Para founders, COO, CFO y directores con Odoo o ops en producción. Sin venta, sin pitch.

Agendar →

Mini-producto

AI Customer Support. Que cita la fuente. Sin alucinar.

El servicio, en cuatro frases.

Tu equipo de soporte responde lo mismo 40 veces al día.

Construimos un RAG productizado.

Stack open-API + vector store self-host.

Escalación humana por reglas explícitas.

Por qué llegaste aquí.

El 60-70% de tickets son FAQs repetidos.

FAQ estático en web no soluciona nada.

Chatbots tradicionales se rompen.

SaaS AI cobra USD 0.99-1.50 por conversación.

ChatGPT custom alucina.

Tiempo respuesta 4-18h.

Lo que construimos contigo.

Ingestión multi-fuente · PDFs, Notion, FAQs, transcripts

LLM responde citando documento fuente

Escalación a humano con contexto completo

Multi-canal · WhatsApp, web widget, email, API

Knowledge base flow · 7 pasos de pregunta a respuesta citada

01 · INGEST — KB ingestada en pipeline

02 · EMBED — Vectorización con OpenAI ada-002

03 · STORE — Vector store · pgvector / Pinecone

04 · USER PREGUNTA — «¿Cómo cancelo mi suscripción?»

05 · RETRIEVE — Top-K chunks relevantes

06 · GENERATE — LLM con contexto + cita

07 · DELIVER + FEEDBACK — Respuesta al usuario

Cómo está armado.

Ingestion

Processing

Storage + Retrieval

LLM + Surfaces

Los números reales.

Tres preguntas reales — y mis respuestas honestas.

¿En qué se diferencia de un chatbot conversacional tradicional?

¿Cómo evita alucinaciones?

¿Y si el bot empieza a deflectionar tickets que sí necesitaban humano?

Qué entregamos, sin sorpresas.

El proceso en 5 pasos.

Auditoría knowledge base (1 sem)

Pipeline RAG (2–3 sem)

Integración canales (1–2 sem)

Validación + capacitación (1 sem)

Go-live + hypercare 30 días

Tu equipo de soporte responde lo mismo 40 veces al día

RAG productizado · cita la fuente · sin alucinar

Multi-canal · un solo backend

Diferencia con SaaS «AI chatbot»

Resultados típicos

Preguntas que recibo cada semana.

¿Te suena familiar? Hablemos.

Reservar una llamada de 30 min

WhatsApp Automation · si necesitas ventas, no soporte

Email Automation · para activar tu base

Implementación Odoo · si no tienes CRM/helpdesk