Perfilar usuarios con LLMs a partir de comentarios públicos

El experimento: de comentarios públicos a perfiles

El 21 de marzo de 2026, un desarrollador compartió un ejercicio sencillo y algo inquietante: tomar los últimos 1,000 comentarios de un usuario en Hacker News, pegarlos en un modelo de lenguaje y pedirle que “perfilará” a esa persona. Obtener esos comentarios es trivial gracias a la API de Algolia para Hacker News, que permite listar comentarios por fecha y filtrar por autor (por ejemplo, la consulta https://hn.algolia.com/api/v1/search_by_date?tags=comment,author_simonw&hitsPerPage=1000 devuelve los comentarios recientes del autor simonw). La API responde con cabeceras CORS abiertas, lo que facilita accederla desde cualquier página web o herramienta local.

Con esa materia prima —el texto de mil interacciones públicas— el autor del experimento usó ChatGPT y después Claude (mencionando Claude Opus 4.6) para generar perfiles. El resultado: un retrato sorprendentemente coherente sobre la identidad profesional, intereses técnicos, estilo de trabajo y preocupaciones de seguridad del autor. Todo ello sin recurrir a datos privados, solo a lo que la persona ya había escrito públicamente.

Qué tipo de información puede extraer un LLM

A partir de miles de comentarios el modelo sintetiza patrones repetidos: identidad profesional (por ejemplo, desarrollador independiente, autor de proyectos open source), temas técnicos recurrentes (SQLite, WebAssembly, sandboxing), posturas públicas sobre IA y seguridad, hábitos de trabajo (uso intensivo de agentes, desarrollo desde el móvil), e incluso detalles personales que se exponen en discusiones públicas (intereses, lugar de residencia, hobbies). En el experimento se obtuvo un perfil detallado que incluyó tanto tesis profesionales como rasgos de personalidad y pasatiempos.

El ejemplo ilustra dos puntos clave: primero, que los modelos son buenos resumiendo y categorizando texto; segundo, que cuando las personas comparten consistentemente detalles públicos, esos trazos pueden ser reconstruidos y presentados de forma compacta y persuasiva.

Por qué esto resulta inquietante (y relevante para profesionales en la región)

Para tomadores de decisión y profesionales en América Latina estas conclusiones tienen implicancias prácticas:

Visibilidad pública vs. privacidad. Muchos desarrolladores y gestores comparten enlaces, blogs y opiniones en foros técnicos sin considerar que esa huella textual puede ser agregada por terceros y analizada con LLMs.
Riesgos para reputación y seguridad. Un perfil automatizado puede ser útil (contratación, networking) pero también puede facilitar doxxing, campañas de manipulación o ataques dirigidos si se combina con otras fuentes de datos.
Diferencias regulatorias y culturales. En América Latina existen marcos regulatorios y sensibilidades distintas sobre datos y privacidad; que algo sea público no implica que su profilado automatizado sea social o legalmente aceptado en todos los contextos.

Riesgos técnicos que el experimento subraya

El autor del experimento ya había advertido sobre vectores de riesgo relacionados con agentes y modelos: acuñó términos como prompt injection y la “triple letal” (acceso a datos privados + exposición a entrada no confiable + capacidad de actuar). Además, menciona preocupaciones específicas sobre proyectos de agentes automatizados (por ejemplo, OpenClaw/Clawdbot) y la posibilidad de ataques basados en inyecciones de prompt o abuso de permisos. Aunque reconoce que los ataques de alto perfil que predecía no han ocurrido todavía, insiste en que el riesgo es real y merece atención.

Usos legítimos y beneficios

No todo en el experimento es negativo. Los mismos mecanismos que permiten perfilar pueden usarse para comprender audiencias, mejorar documentación técnica, identificar expertos en un área o acelerar procesos de due diligence. El autor del experimento, por ejemplo, usa asistentes y agentes como multiplicadores de productividad: su tesis es que los LLM no reemplazan programadores sino que amplifican la experiencia existente. También destaca que buenas prácticas de ingeniería (tests, documentación, CI/CD) son críticas y hacen que el uso de agentes sea más seguro y efectivo.

Qué podemos aprender y qué medidas recomendar

Sin inventar soluciones mágicas, hay pasos prácticos que profesionales y organizaciones pueden considerar:

Revisar qué información se comparte públicamente y reconocer que texto disperso en foros y blogs puede ser agregado y analizado por terceros usando LLMs.
Mantener transparencia: si ustedes son perfiles públicos, consideren tener una página de divulgaciones y enlaces controlados que aclaren afiliaciones y métodos de monetización (como lo hace el autor del experimento).
Adoptar prácticas de seguridad en proyectos que integren agentes: minimizar privilegios, revisar qué datos pueden consumir esos agentes y monitorizar acciones automatizadas.
Concienciación interna: entrenar equipos sobre prompt injection, exposición de datos y la necesidad de controles humanos en flujos agenticos.

Reflexión final: una frontera ética y práctica

El ejercicio descrito es a la vez útil y ligeramente distópico: demuestra la eficiencia de los LLM para resumir identidades a partir de actividad pública, y al mismo tiempo obliga a replantear cómo entendemos la privacidad en la era de modelos capaces de agregar y hacer sentido de grandes volúmenes de texto. Para la comunidad tecnológica latinoamericana, la lección no es cerrar puertas al uso de IA, sino avanzar con conciencia: proteger datos sensibles, pulir prácticas de ingeniería y dialogar sobre normas de uso aceptable cuando herramientas poderosas pueden convertir fragmentos públicos en perfiles detallados.

El experimento también recuerda algo práctico: muchas de las vulnerabilidades y malas decisiones tecnológicas provienen de la normalización de desviaciones respecto a buenas prácticas. Mantener tests, documentación y revisiones humanas no es solo una cuestión de calidad, sino de seguridad y responsabilidad en un ecosistema donde las máquinas resumen nuestras voces y pueden actuar en nuestro nombre.