IA generativa y Bedrock para consultas regulatorias

El problema: consultas regulatorias cada vez más complejas

Los equipos de Finanzas (FinTech) de Amazon gestionan consultas regulatorias que provienen de distintas autoridades y jurisdicciones. Cada consulta puede exigir formatos, plazos y niveles de detalle distintos, y su resolución implica revisar documentación histórica, extraer datos relevantes y compilar respuestas ajustadas a marcos regulatorios.

Con el aumento en la frecuencia de estas solicitudes y la complejidad del negocio, el enfoque manual dejó de ser escalable. Las principales dificultades identificadas fueron:

Fragmentación del conocimiento y dificultad para recuperar información relevante a partir de miles de documentos en formatos variados (PDF, PPT, Word, CSV) y con terminología específica de dominio.
Necesidad de mantener contexto en conversaciones multi-turno donde interacciones previas influyen en respuestas posteriores.
Falta de visibilidad sobre por qué un modelo generó cierta respuesta, imprescindible para detectar alucinaciones, identificar fuentes desactualizadas y cumplir principios de IA responsable.

Enfoque técnico: RAG y arquitectura basada en Bedrock

Para enfrentar estos retos, el equipo construyó una solución inteligente de respuesta regulatoria que combina Retrieval Augmented Generation (RAG) con servicios gestionados de AWS. Los componentes clave son:

Amazon Bedrock Knowledge Bases para gestionar los repositorios de conocimiento específicos de cada equipo.
Amazon OpenSearch Serverless para el almacenamiento vectorial de embeddings.
Modelos conversacionales de alto rendimiento (por ejemplo, Claude Sonnet 4.5) a través de la Converse Stream API para interacciones en tiempo real.
Amazon DynamoDB para persistir el historial de conversaciones y mantener estado entre sesiones.
Amazon Lambda y API Gateway como capa de orquestación y procesamiento de documentos.
Observabilidad con OpenTelemetry y una instancia autocontenida de Langfuse para monitoreo continuo.

Cada equipo mantiene su propia knowledge base dedicada, alimentada con sus documentos y material de referencia. Esta separación facilita cumplimiento y control de acceso, a la vez que optimiza la relevancia de las búsquedas.

Flujo de ingestión automatizado

Un elemento central es el pipeline automático que convierte documentos cargados por usuarios en vectores búsquedas. El flujo general es:

El usuario sube documentos desde la aplicación cliente.
La aplicación solicita a Amazon API Gateway la generación de una URL prefirmada en S3 mediante una Lambda de ingestión.
El cliente usa la URL prefirmada para subir el documento a S3.
Tras la subida, se activa otra Lambda a través de API Gateway que inicia el procesamiento del archivo: conversión de formatos, manejo de ingestión concurrente y extracción de contenido.

Amazon Bedrock Data Automation (BDA) se encarga de extraer contenido multimodal (texto, imágenes, tablas, gráficos) sin necesidad de preprocesar manualmente estos elementos. Luego, Bedrock fragmenta el contenido aplicando una estrategia de chunking jerárquico y genera embeddings con Amazon Titan Text Embeddings. Los vectores resultantes se indexan en OpenSearch Serverless.

El chunking jerárquico construye relaciones padre-hijo que reflejan la estructura seccional de documentos financieros: fragmentos pequeños permiten recuperaciones precisas, mientras que los chunks padres proveen contexto suficiente para respuestas coherentes.

Conversaciones con contexto y manejo de estado

Las interacciones con la plataforma son conversacionales y pueden implicar múltiples turnos. Para mantener coherencia:

Se usa la Converse Stream API con Claude Sonnet 4.5 para generar respuestas en tiempo real, apoyadas por la información recuperada desde las knowledge bases.
DynamoDB almacena el historial y el estado de la conversación, de modo que las respuestas posteriores consideren el contexto de interacciones previas.
La arquitectura evita el cacheo de respuestas de LLM y resultados intermedios, dado que las consultas regulatorias son altamente contextuales y presentan baja probabilidad de reutilización exacta.

Observabilidad y mejora continua

La solución incorpora trazabilidad en tres frentes: el proceso de recuperación de documentos, las decisiones del modelo y la interacción del usuario. OpenTelemetry captura métricas y trazas, mientras que Langfuse (autohospedado) facilita el análisis de sesiones, la identificación de causas de error y la detección de alucinaciones o referencias a normativas desactualizadas.

Esta visibilidad es esencial para asegurar cumplimiento regulatorio y para mantener la precisión del sistema frente a cambios en modelos, prompts o en el corpus documental.

Beneficios operativos y consideraciones para organizaciones en América Latina

Aunque el caso proviene de Amazon, la solución ilustra patrones relevantes para instituciones financieras y empresas reguladas en América Latina:

Escalabilidad: automatizar la ingestión y el indexado de documentos permite procesar grandes volúmenes sin multiplicar equipos humanos.
Trazabilidad: mantener el rastro de fuentes y decisiones del modelo facilita auditorías internas y externas.
Control de contextos locales: al permitir knowledge bases por equipo o por jurisdicción, organizaciones que operan en varios países pueden segregar contenidos según requisitos locales.
Reducción de riesgo: la observabilidad ayuda a detectar respuestas problemáticas antes de que se conviertan en incumplimientos regulatorios.

Al implementar una arquitectura similar en la región, conviene evaluar aspectos de gobernanza de datos, residencias de información y políticas de acceso que respeten las normativas locales de protección de datos.

Recomendaciones prácticas para adopción

Crear knowledge bases por dominio o por jurisdicción para mantener claridad en fuentes y responsabilidades.
Implementar un pipeline de ingestión automático que soporte formatos multimodales y permita actualizaciones frecuentes del corpus.
Mantener el historial de conversaciones y la trazabilidad de recuperaciones para facilitar auditorías.
Priorizar observabilidad desde el inicio: instrumentar trazas y métricas para detectar drift y alucinaciones.
Evitar el cacheo agresivo de respuestas en entornos regulatorios donde el contexto y la actualidad de las fuentes son críticos.

Conclusión

La solución desarrollada por Amazon Finance demuestra que combinar knowledge bases en Amazon Bedrock, almacenamiento vectorial en OpenSearch Serverless y modelos conversacionales gestionados permite transformar la gestión de consultas regulatorias. El enfoque RAG reduce la fragmentación del conocimiento, mantiene el contexto en conversaciones complejas y aporta la trazabilidad necesaria para cumplir con estándares de responsabilidad en IA. Para organizaciones en América Latina que enfrentan marcos regulatorios múltiples y documentación dispersa, este patrón técnico ofrece un camino replicable para aumentar eficiencia y reducir riesgos operativos sin sacrificar gobernanza ni transparencia.