La actualización de spam de Google ahora llega a las respuestas de IA. Hacer cumplir la ley es difícil

- Advertisement -spot_img

Google comenzó a implementar la actualización de spam de junio, la segunda del año. Aplica políticas documentadas de spam, y una de esas políticas ahora cubre más terreno que antes.

Las reglas de spam de Google tratan los intentos de “manipular respuestas generativas de IA” en la Búsqueda como una violación, y esa es una de las políticas que aplica la actualización.

Una preimpresión de Cornell Tech recogida por 404 Media explica por qué la política es más difícil de hacer cumplir de lo que implica su redacción. Las páginas de la comunidad en las que se apoyan los agentes de investigación de IA también pueden contener comentarios de terceros, y un comentario puede generar una recomendación que el autor nunca escribió.

Por lo tanto, lo que Google etiqueta como spam viaja a través de la misma recuperación de la que dependen estos agentes. Y las investigaciones encuentran que todas las defensas obvias tienen desventajas.

Cualquiera que intente impulsar una marca hacia respuestas generadas por IA debe saber que la línea entre optimización y spam se está volviendo a trazar.

Lo que está en juego

El seguimiento del Modo AI realizado por SE Ranking encontró que Google señala cada vez más sus propias propiedades, con autocitas de hasta aproximadamente una quinta parte de las citas del Modo AI en su último informe.

Con más citas apuntando a Google y menos a sitios web externos, la necesidad de fabricar uno aumenta en consecuencia.

Ya ha comenzado a formarse un mercado gris, y los autores de Cornell señalan que los especialistas en marketing están ocupados probando formas de impulsar las respuestas generadas por la IA.

Mientras tanto, las empresas no tienen los datos que necesitan para ver qué está sucediendo. Como se indicó en nuestra cobertura anterior de la búsqueda de agentes, ningún panel le dice a un sitio si llegó a una respuesta de IA, fue citado en un informe generado o fue pasado por alto.

Leer  Dirigirse a spam, no a los canales de reacción

El resultado es una infracción que Google puede identificar pero que el sitio involucrado a menudo no puede ver.

Lo que encontró la investigación

El documento, titulado “Los agentes de investigación profunda pueden ser envenenados a través de contenido generado por el usuario”, que no ha sido revisado por pares, investiga un punto débil en la forma en que las herramientas de investigación de IA recopilan sus fuentes. Estas herramientas responden a una pregunta lanzando un lote de subconsultas relacionadas, seleccionando las páginas que siguen apareciendo y elaborando un informe con citas.

El análisis reveló que las mismas páginas de la comunidad aparecían repetidamente en esas subconsultas. Dentro de un solo grupo de temas, una página generada por el usuario apareció en hasta el 48% de las consultas, y las plataformas generadas por el usuario representaron entre el 17% y el 23% de cada URL recuperada. Modifique una de esas páginas recurrentes y el cambio puede afectar los informes de un tema completo.

Los autores descubrieron que aproximadamente 13 palabras de texto colocado en una página recurrente eran suficientes para insertar la entidad elegida por un atacante en el informe terminado en el 38% al 51% de las sesiones que recuperaron la página.

Distribuya el mismo texto en un puñado de páginas y la cifra aumentará del 42% al 62%. Incluso escondido dentro de una página completa, donde representaba menos del 4% de lo que leía el agente, el texto plantado todavía aparecía entre el 30% y el 53% de las sesiones.

Tres agentes de investigación de código abierto realizaron las pruebas, STORM, Co-STORM y OmniThink, todos ejecutados en una simulación de modo que no se tocó nada en la web en vivo.

Leer  Hubspot y Tiktok anuncian la asociación para la generación de leads B2B

Donde la aplicación de la ley es difícil

Google puede etiquetar la manipulación de respuestas de IA como spam y actuar en función de lo que detecte. Atraparlo es la parte difícil. El texto plantado se lee como un consejo real y se encuentra en las mismas páginas que las herramientas siempre iban a leer, por lo que diferenciarlo de una publicación normal es el principal problema.

El equipo de investigación buscó una defensa contra el texto plantado, pero no encontró ninguna. Intentaron eliminar las fuentes generadas por los usuarios, examinarlas con un modelo de lenguaje antes de usarlas y revisar el informe final en busca de afirmaciones que no se sostenían.

Ninguno de los tres detuvo el ataque sin empeorar los resultados para el usuario. Si eliminas las fuentes generadas por el usuario, perderás los detalles de la comunidad que hacen que valga la pena usar las herramientas de búsqueda de IA.

Las herramientas que utiliza la mayoría de la gente quedan fuera de esa prueba. ChatGPT Deep Research y Gemini Deep Research realizaron una recuperación que los investigadores no pudieron envenenar sin cruzar una línea ética, por lo que solo midieron los hábitos de citación. Gemini se apoyó en contenido generado por el usuario el 12,1% del tiempo, lo que los autores llaman un indicio de exposición, no un resultado probado. La herramienta de OpenAI lo alcanzó mucho menos.

Por qué esto es importante para los profesionales de la búsqueda

Las medidas que pueden ayudar a impulsar una marca hacia las respuestas de IA son similares a las tácticas de manipulación que Google llama “spam”, como colocar menciones en los sitios que leen estas herramientas. No sabemos dónde cae la línea de Google entre obtener una mención y una mención de ingeniería.

Leer  Actualizaciones de Google Merchant Center: cambios para vendedores en línea

Para el comercio electrónico y las marcas locales, el peligro viene en la otra dirección.

Los casos de prueba fueron las cosas comunes que la gente pregunta, como a qué servicio llamar, qué producto comprar y dónde comer. Un rival o un estafador puede incluir un nombre desconocido en esas respuestas, justo al lado de las opciones legítimas, y la marca que está siendo eliminada nunca lo sabrá.

Para los editores de noticias y las marcas más grandes, la preocupación es la confianza en la respuesta a la que llega su nombre. Una cita de una herramienta de inteligencia artificial se considera una victoria, pero una cita solo refleja lo que la herramienta obtuvo, no si esa página era correcta, y la respuesta puede orientarse por el contenido que la marca nunca escribió.

No hay una solución clara para todo esto. La visibilidad de la IA se ha convertido en una superficie que usted monitorea activamente, no solo un canal que optimiza pasivamente.

Mirando hacia el futuro

Los autores calificaron la manipulación generada por el usuario como un problema abierto que ninguna plataforma puede solucionar por sí sola. Reddit ha señalado su lucha de larga data contra la manipulación coordinada, y Google ha agregado etiquetas de contexto a algunos materiales de Reddit en AI Overviews. Ninguno de los dos toca la concentración de recuperación que señala el documento.

Google no ha indicado cómo pretende imponer la manipulación de la IA generativa, ya sea a través de una actualización dedicada o mediante su sistema SpamBrain y revisiones manuales en las que se basa para la mayoría de las infracciones.

Por ahora, la política considera que el comportamiento está fuera de los límites y la verificación de las respuestas de la IA aún corresponde a quien las lee.

Más recursos:


Imagen destacada: animar-ja-ane/Shutterstock

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares