Skip to content

Medir tu visibilidad en IA: lo que las herramientas te cuentan y lo que no

Cuando quieres saber cómo estás posicionando en Google, abres Search Console. Los datos no son perfectos, pero son reales: impresiones, clics, posición media.  Hay un índice detrás, una lógica documentada, señales que puedes trabajar.

Con la visibilidad en IA no funciona así.

Llevo un tiempo trabajando con esto y la conclusión honesta es que medir GEO es genuinamente difícil, no porque falten herramientas, sino porque el problema es estructural.

Los modelos de lenguaje no son deterministas: la misma pregunta, lanzada dos veces seguidas, puede generar respuestas distintas.

No hay un índice que consultar. No hay una posición estable que rastrear.

Lo que cualquier herramienta puede ofrecerte es una muestra de algo que cambia constantemente.

Eso no significa que no haya nada útil que medir. Significa que antes de interpretar cualquier dato, necesitas entender exactamente qué estás viendo y qué se está quedando fuera del informe.

El problema que nadie te explica bien

Cuando posicionas en Google, compites por un sitio en un índice. El índice existe, Google lo actualiza, y aunque el algoritmo sea opaco, hay una lógica relativamente estable detrás. Puedes perder posiciones, pero si estabas en el puesto 4 ayer, hoy no apareces en el 40 sin que algo haya cambiado.

En un modelo de lenguaje no hay índice. Hay pesos, patrones aprendidos durante el entrenamiento, y en muchos casos una capa de recuperación en tiempo real que mezcla ese conocimiento con fuentes externas.

El resultado es que el modelo no «tiene» una respuesta almacenada para cada pregunta: la genera cada vez. Y cada vez puede ser distinta.

Esto no es un bug. Es cómo funcionan estos sistemas por diseño.

El problema para la medición es evidente: si la respuesta cambia entre consultas, ¿qué estás midiendo exactamente cuando una herramienta te dice que «apareces» en ChatGPT? Estás midiendo lo que pasó en ese prompt concreto, en ese momento concreto, con esa configuración concreta del modelo.

Nada garantiza que la siguiente consulta, lanzada un minuto después, devuelva el mismo resultado.

Los números que deberías conocer antes de medir nada

Antes de confiar en cualquier informe de visibilidad en IA, conviene tener claro lo que la investigación más reciente dice sobre la volatilidad de estos sistemas.

Solo el 30% de las marcas mantiene visibilidad de una respuesta a la siguiente cuando se lanza el mismo prompt. Si repites la misma pregunta cinco veces seguidas, ese porcentaje cae al 20%. Es decir, ocho de cada diez marcas no aparecen de forma consistente ni en cinco consultas consecutivas con el mismo texto.

 

Gráfica sobre la volatilidad de la visibilidad en IA al repetir el mismo prompt.

El problema se multiplica cuando cruzas plataformas. El solapamiento de citas entre modelos distintos (lo que te menciona ChatGPT versus lo que te menciona Gemini o Perplexity) es de apenas el 11%. Tres herramientas distintas, misma pregunta, resultados casi completamente diferentes.

Diagrama de solapamiento entre ChatGPT, Gemini y Perplexity que muestra un 11% de coincidencia de citas entre modelos.

Guárdate estos números porque son el contexto que necesitas cada vez que alguien te enseñe un dashboard de visibilidad en IA.

No para descartar los datos, sino para hacer las preguntas correctas: ¿cuántas veces se lanzó ese prompt? ¿En qué modelo? ¿Con qué frecuencia se actualiza? Sin esa información, el porcentaje que ves no significa gran cosa.

Lo que ves en las Herramientas de medición (y lo que no ves)

Herramientas como Semrush o Dinorank han incorporado seguimiento de visibilidad en IA y lo presentan de forma clara: un prompt, varios modelos, y un resultado que indica si tu marca aparece o no. La interfaz es amigable y el dato parece concreto.

El mecanismo detrás es sencillo de entender: la herramienta lanza un prompt predefinido a cada modelo, captura la respuesta, y registra si tu marca aparece mencionada. Repite ese proceso periódicamente y te muestra la evolución.

Lo que ves: si apareciste o no en ese prompt concreto, en ese modelo concreto, en el momento en que la herramienta hizo la consulta.

Lo que no ves: cuántas veces lanzaron el prompt antes de registrar el resultado, si probaron variantes de la misma pregunta, qué pasaría si lo lanzaran de nuevo ahora mismo, y si ese prompt es representativo de cómo busca realmente tu cliente.

Esto no convierte estas herramientas en inútiles. Sirven para detectar tendencias cuando se miran en horizontal, a lo largo del tiempo, con suficientes datos acumulados.

El problema aparece cuando se trata un dato puntual como una verdad estable.

Si en un informe aparece que tu visibilidad en ChatGPT es del 67%, la pregunta que deberías hacer no es «¿cómo la subo al 80%?» sino «¿qué hay detrás de ese número exactamente?»

La única fuente de datos fiable que existe ahora mismo: Bing WMT

En febrero de 2026 Microsoft lanzó en preview pública el panel AI Performance dentro de Bing Webmaster Tools. Es el primer dato de primera mano que existe para medir visibilidad en IA, y la diferencia con las herramientas de terceros es estructural: no es una estimación basada en muestras, es lo que realmente está pasando en Copilot.

Lo que ofrece el panel son cuatro métricas principales: total de citas, páginas citadas de media, URLs referenciadas con más frecuencia, y lo más valioso de todo, las «grounding queries».

 

Panel AI Performance de Bing Webmaster Tools mostrando 39,4 millones de citas totales y 20.100 páginas citadas de media en contoso.com

 

Estas son las preguntas exactas que los usuarios están haciendo en Copilot y que están provocando que tu contenido sea citado en la respuesta. Es el equivalente directo a las queries de Search Console, pero para IA generativa.

La diferencia con cualquier herramienta de terceros es que aquí no hay prompt inventado por nadie. Son consultas reales de usuarios reales, y Microsoft te está diciendo directamente qué preguntas llevan a Copilot a citarte.

Eso tiene un valor estratégico enorme: no solo sabes si apareces, sino por qué apareces y en qué contexto.

En abril de 2026 Microsoft anunció cuatro funciones adicionales que ampliarán el panel: citation share, etiquetas de intención de las grounding queries, clasificación temática y recomendaciones específicas de GEO. Estas todavía no están activas, pero la dirección es clara: Bing está construyendo para GEO lo que Google construyó para SEO con Search Console hace años.

Si tienes un sitio verificado en Bing Webmaster Tools, activa el panel y empieza a recoger datos ya.

Aunque Bing tenga menos cuota de mercado que Google en España, es la única fuente fiable que existe ahora mismo y los datos que acumules ahora tendrán valor cuando esto madure.

Lo que ninguna herramienta te dice: memoria vs. retrieval

Hay una distinción que ninguna herramienta de terceros resuelve y que cambia completamente lo que puedes hacer con los datos: cuando un LLM te cita, puede estar haciéndolo desde su conocimiento interno (lo que aprendió durante el entrenamiento) o buscando en la web en tiempo real.

Si es lo primero, no hay nada que optimizar a corto plazo porque depende del próximo ciclo de entrenamiento del modelo.

Si es lo segundo, sí puedes trabajar el contenido para mejorar esa citación. Bing WMT es la única fuente que resuelve esto parcialmente: al reportar solo citaciones visibles en respuestas reales de Copilot, sabes que fue retrieval, no memoria interna.

Natzir Turrado documenta este problema en profundidad si quieres profundizar en la parte técnica.

Google AI Overviews: la caja negra que nadie quiere nombrar

Si Bing ha dado un paso claro hacia la transparencia con su panel AI Performance, Google va en la dirección contraria, al menos por ahora.

AI Overviews existe, genera tráfico, y cualquiera que use Google en España lo ve cada vez más.

El problema es que no hay un panel equivalente al de Bing donde puedas ver cuándo te citan, en qué preguntas, o con qué frecuencia.

Search Console refleja algo del tráfico procedente de AI Overviews, pero de forma parcial y sin el detalle de las queries que lo generan.

Esto deja a Google en una posición incómoda para cualquier profesional que intente medir GEO de forma seria: es el motor con más cuota de mercado en España, probablemente el que más impacto tiene en el negocio de tus clientes, y a la vez el que menos datos te da para trabajar con él.

La única forma de saber si estás apareciendo en AI Overviews es buscarlo manualmente o usar las herramientas de terceros que, como hemos visto, tienen sus propios problemas de fiabilidad.

Puede que Google publique algo equivalente al panel de Bing en los próximos meses.

Pero hasta entonces, es la laguna más grande que tiene cualquier estrategia de medición GEO.

Ilustración estilo Pixar de un consultor SEO investigando una caja negra de Google AI Overviews con una lupa y una linterna.

Entonces, ¿cómo mido esto con cabeza?

La respuesta honesta es que medir GEO a día de hoy requiere asumir que no vas a tener una foto completa, y trabajar bien con lo que sí existe.

Lo primero es activar Bing Webmaster Tools si no lo tienes ya y verificar todos tus sitios. El panel AI Performance es la única fuente de datos de primera mano disponible ahora mismo.

No te va a dar toda la verdad, pero lo que te da es real. Si tu sitio tiene suficiente volumen de citas en Copilot, las grounding queries te van a decir exactamente en qué preguntas estás siendo relevante para la IA, y eso tiene valor estratégico directo.

Lo segundo es usar las herramientas de terceros como lo que son: indicadores de tendencia, no fotografías de la realidad.

Si Semrush o Dinorank te muestran que tu visibilidad sube mes a mes, eso es una señal útil.

Si te dan un porcentaje exacto para una semana concreta, tómatelo con distancia.

Lo tercero, y esto es lo que menos se dice, es que el mejor trabajo de GEO que puedes hacer ahora mismo no es técnico sino editorial. Los modelos citan fuentes que son claras, estructuradas, con autoridad demostrada y que responden bien a preguntas concretas.

Eso es buen SEO de toda la vida aplicado con una capa nueva encima.

Si tu contenido no está funcionando en Google, tampoco va a funcionar en Copilot ni en ChatGPT.

La medición en GEO va a mejorar.

Bing ya está construyendo en esa dirección y Google acabará siguiendo (o debería).

Mientras tanto, el profesional que entiende las limitaciones de los datos disponibles y sabe interpretarlos en contexto tiene una ventaja real sobre el que confunde una muestra con una certeza.

Si quieres trabajar la visibilidad en IA con una metodología seria, en consultoría GEO puedes ver cómo lo enfocamos.