Por qué la IA de Google falla al deletrear

Un fallo que llama la atención

Recientemente la función informativa impulsada por IA en el buscador de Google mostró fallas que parecían más de broma que de un producto de primera línea: según el propio sistema, la palabra “Google” tendría dos letras “P”; el recuento de letras en “poop” apareció como “exactamente 1 ‘r’”; “journalism” fue reportada con dos “d” y escrita como “j-o-u-r-n-a-d-i-s-m”; y el apellido del presidente de EE. UU. fue identificado con una sola “P” pero escrito como “t-r-p-u-m”.

Google declaró a TechCrunch que “contar dentro de las palabras ha sido un desafío conocido para los LLM y estamos trabajando para corregir este problema en particular”. Pero estas equivocaciones no son aisladas: en despliegues anteriores de las “AI Overviews”, el sistema llegó a citar artículos satíricos de The Onion y publicaciones de Reddit, además de recomendar comportamientos peligrosos o absurdos, como comer piedras o poner pegamento en la pizza. Hace poco se corrigió otro incidente en el que buscar “disregard” devolvía una respuesta estilo asistente: “Understood. Let me know whenever you have a new prompt or question!” en vez de una definición.

¿Por qué ocurren errores tan básicos?

La explicación técnica no está en mala ortografía per se, sino en cómo están diseñados los modelos de lenguaje grandes (LLMs). A diferencia de un humano que procesa texto como secuencias de letras y palabras conscientes de su ortografía, muchos LLMs trabajan con una arquitectura basada en “transformers” que convierte el texto en tokens. Un token puede ser una palabra completa, un fragmento, una sílaba o incluso una letra, dependiendo del tokenizador usado.

El investigador Matthew Guzdial explicó a TechCrunch que estos modelos traducen el texto a una codificación: cuando ven la palabra “the” tienen una representación para eso, pero no “conocen” las letras “T”, “H”, “E” por separado. En la práctica, eso significa que los LLMs no “leen” letra por letra como lo haría una persona, sino que manipulan vectores numéricos que representan unidades de significado de diversa granularidad.

Sheridan Feucht, estudiante de doctorado en interpretabilidad de LLMs, comentó que es difícil definir qué debería ser exactamente un “token” y que, aun si expertos humanos acordaran un vocabulario perfecto de tokens, los modelos probablemente seguirían “aglutinando” unidades de texto de formas útiles para su entrenamiento. En resumen: no existe un tokenizador perfecto y esa “fuzziness” contribuye a errores como los de contar letras.

Implicaciones prácticas para empresas y tomadores de decisión

Para quienes en América Latina están evaluando integrar herramientas de búsqueda o asistentes conversacionales impulsados por LLMs, estos errores son un recordatorio importante: la utilidad de estos modelos no reside en deletrear correctamente, sino en generar respuestas coherentes, resumir información y automatizar tareas. Sin embargo, las respuestas con errores evidentes minan la confianza del usuario y pueden tener consecuencias reales cuando se usan para decisiones críticas, generación de contenido público o atención al cliente.

Algunas situaciones donde conviene extremar precauciones:

Contenidos regulatorios, legales o de salud: la verificación humana es imprescindible. Errores triviales pueden esconder malinterpretaciones mayores.
Resúmenes de noticias o hechos sensibles: la mezcla de fuentes satíricas o no verificadas puede propagar información errónea.
Integraciones en productos B2C: la percepción del producto se ve afectada si los usuarios encuentran fallas obvias.

Cómo mitigar los riesgos hoy

A corto plazo, hay varias prácticas que las organizaciones pueden adoptar para reducir el impacto de estas limitaciones:

Validación humana: mantener revisores humanos en bucles de producción para outputs críticos.
Checks automáticos: añadir pruebas simples como validadores ortográficos, contadores de caracteres y reglas de consistencia antes de mostrar resultados al usuario.
Transparencia al usuario: indicar cuándo una respuesta es generada por IA y sugerir verificación adicional para contenidos sensibles.
Uso híbrido de modelos: combinar LLMs con herramientas especializadas (por ejemplo, motores lingüísticos orientados a ortografía o correctores) para tareas que requieran precisión en la forma.

Para los equipos técnicos, también es útil experimentar con distintos tokenizadores y pipelines de post-procesamiento para reducir errores relacionados con fragmentación de tokens.

¿Es este un problema solucionable o inherente?

Investigadores no son muy optimistas respecto a una solución única que elimine por completo este tipo de fallos. La naturaleza del procesamiento por tokens implica ambigüedad sobre qué constituye la unidad lingüística “correcta”. Además, los modelos tienden a encontrar sus propias formas de representar y agrupar texto durante el entrenamiento.

Dicho esto, muchas organizaciones y equipos de investigación trabajan en mitigaciones: mejoras en tokenizadores, supervisión adicional, capas de verificación y reglas heurísticas que corrigen las salidas cuando se detectan anomalías simples (como contar letras). Pero es importante no esperar una corrección milagrosa que convierta un LLM en un lector humano detallista en todos los aspectos.

Conclusión: AI potente, pero imperfecta

Los incidentes con la IA de Google son una buena ilustración de que la capacidad sorprendente de los LLMs para generar texto y resolver problemas complejos convive con limitaciones básicas. Para los responsables de producto y líderes en América Latina, la lección es clara: adopten IA con ambición, pero con controles. Verificar, instrumentar y comunicar las limitaciones no solo protege a los usuarios, sino que también preserva la credibilidad de la organización.

En lugar de desestimar la tecnología por estos tropiezos, conviene incorporarla de manera responsable: aprovechar sus ventajas para automatizar y potenciar procesos, mientras se ponen barreras que eviten que errores simples erosionen la confianza del público.