PageIndex: la alternativa al RAG para chatbots de documentos
El enfoque tradicional RAG falla con documentos estructurados por el chunking y la similitud vectorial. PageIndex propone navegar el documento con un árbol de razonamiento, sin embeddings ni bases vectoriales, y ofrece mayor precisión y transparencia.
Introducción
La mayoría de chatbots documentales hoy se construyen con RAG: trocean archivos, generan embeddings y recuperan fragmentos por similitud vectorial. En demos funciona, pero en uso real aparecen fallos frecuentes: respuestas perdidas, contexto incorrecto y poca trazabilidad. PageIndex propone un cambio de paradigma: en lugar de “buscar” por similitud, “navega” el documento como lo haría un experto humano. Este artículo explica por qué y cómo, y qué implicaciones tiene para equipos y organizaciones en Latinoamérica.
El problema con el RAG tradicional
El pipeline clásico de RAG suele seguir estos pasos: dividir el documento en chunks, crear embeddings de cada chunk, guardar vectores en una base de datos vectorial y recuperar por similitud cuando llega una consulta. Aunque elegante, este flujo presenta varias debilidades reales:
-
Chunking arbitrario que destruye contexto: los cortes por tamaño no respetan la estructura del documento. Tablas, notas al pie o cláusulas pueden quedar partidas entre chunks, y la información necesaria puede dispersarse.
-
Similitud no es lo mismo que relevancia: la búsqueda por coseno identifica texto que «suena» parecido a la pregunta, pero el lenguaje jurídico o técnico suele responder con referencias o títulos distintos (p. ej. “Sección 14.3 — Disolución del Contrato”), lo que reduce la probabilidad de coincidir por vectores.
-
Caja negra en la recuperación: el sistema devuelve N chunks sin explicar por qué. Para documentos financieros, legales o médicos, la falta de trazabilidad es un problema serio.
-
Escalabilidad y ruido en documentos largos: en manuales o expedientes extensos, el volumen de chunks introduce ruido y hace difícil localizar secciones concretas.
Estas fallas no son marginales: son los problemas que los equipos de IA en empresas enfrentan a diario, especialmente cuando la precisión y la auditoría son críticas.
¿Qué es PageIndex?
PageIndex, desarrollado por VectifyAI y publicado como proyecto open source, propone una respuesta distinta: construir un índice razonado del documento —un árbol de navegación— y usar LLMs para decidir dónde buscar, no para medir similitud matemática.
En esencia, PageIndex genera una “tabla de contenidos inteligente” para cada documento. Esa estructura jerárquica (razoning tree) contiene nodos que representan secciones, subsecciones y fragmentos, y cada nodo tiene:
- Un título que describe la sección.
- Un resumen breve generado por IA que explica el contenido.
Ese índice se construye una vez al cargar el documento y luego se utiliza para dirigir las búsquedas de forma explícita.
Cómo funciona: navegación y extracción
PageIndex sigue un flujo de dos pasos cuando llega una pregunta:
-
Búsqueda en el árbol (navegación): se envía la pregunta al LLM junto con los títulos y resúmenes del árbol (no el texto completo). El LLM actúa como un lector experto: evalúa qué ramas del árbol son más prometedoras y devuelve una lista de nodos seleccionados, junto con la explicación de por qué eligió esos nodos. Aquí hay transparencia: usted puede ver la razón detrás de la selección.
-
Generación de respuesta (extracción): PageIndex recupera el texto completo solo de los nodos señalados y lo entrega al LLM para que redacte la respuesta final, citando el contenido real del documento.
No hay embeddings, no hay búsquedas por vectores, no hay base de datos vectorial. Son dos llamadas al LLM y una lógica de navegación basada en la estructura del documento.
Fase de construcción del árbol
La creación del árbol es crítica. El sistema procesa el documento y crea la jerarquía de nodos con títulos y resúmenes. Esa operación puede incluir metadatos (página, sección, marcador) para facilitar referencias precisas. El árbol es el índice razonado que reemplaza a los miles de chunks sin sentido.
Una vez generado, este índice permite búsquedas mucho más dirigidas: en vez de revisar todo el texto, el LLM revisa el índice y selecciona las partes relevantes como lo haría un humano mirando una tabla de contenidos.
Por qué supera al chunking
-
Conserva la estructura: al indexar secciones reales, no fragmentos arbitrarios, se evita partir tablas, cláusulas o ejemplos.
-
Razonamiento sobre similitud: el LLM decide dónde mirar basándose en títulos y resúmenes, lo que corresponde al método humano de localizar información.
-
Trazabilidad y auditoría: cada respuesta está ligada a nodos concretos del árbol, así que es claro de dónde proviene la información.
-
Menos ruido en documentos largos: en manuales extensos, la navegación por secciones reduce la cantidad de texto irrelevante que se entrega al modelo.
Resultados reportados
En comparativas con tareas complejas de preguntas y respuestas sobre documentos, PageIndex ha mostrado mejoras significativas respecto al RAG tradicional; el artículo original reporta que puede alcanzar hasta 98.7% de precisión en ciertos benchmarks de Q&A documental. Es importante evaluar estos números en su propio dominio y con sus propios datos.
Para qué es especialmente útil
PageIndex destaca en escenarios donde la estructura y la trazabilidad importan:
- Contratos y documentación legal, donde hay referencias por secciones.
- Informes financieros y auditorías, que exigen transparencia en la fuente.
- Manuales técnicos y normativas con capítulos y subcapítulos extensos.
- Expedientes y registros con alta longitud y referencias cruzadas.
Para organizaciones en Latinoamérica, esto implica aplicaciones en cumplimiento regulatorio, revisiones contractuales en despachos legales y soporte técnico sobre documentación de productos o normas locales.
Consideraciones prácticas
-
Integración: PageIndex es open source y puede integrarse con LLMs comerciales o privados según la arquitectura de su organización.
-
Costos: el enfoque requiere llamadas al LLM para navegación y para generación final; conviene medir costos frente a la reducción en consultas manuales y mejora de precisión.
-
Calidad del árbol: la utilidad depende de la calidad de títulos y resúmenes generados. Documentos con estructura pobre pueden necesitar preprocesamiento o etiquetado adicional.
-
Gobernanza y seguridad: la transparencia del método facilita auditorías, pero los equipos deben definir políticas de acceso y control sobre los modelos usados.
Conclusión
PageIndex es una propuesta práctica y poderosa para reemplazar la lógica basada en embeddings en chatbots documentales. Al imitar cómo un humano navega un documento —primero ubicando la sección, luego leyendo el pasaje relevante— mejora precisión, reduce ruido y ofrece trazabilidad. Para empresas y gobiernos en Latinoamérica que trabajan con contratos, normativas o manuales técnicos, representa una alternativa a evaluar seriamente, especialmente cuando la exactitud y la explicabilidad son prioridades.
Si su organización enfrenta problemas de respuestas erróneas o falta de transparencia con soluciones RAG, PageIndex merece un piloto: estructura el conocimiento del documento en un índice razonado y deja que el LLM razone dónde buscar, no que confíe únicamente en la similitud matemática.
Fuente original: Analytics Vidhya