Google DeepMind admite que la implementación de agentes de IA a gran escala no es segura hoy en día

- Advertisement -spot_img

En una entrevista reciente, Nenad Tomašev, científico investigador senior de Google DeepMind, describió el tipo de trampas que los actores maliciosos están poniendo para tomar el control de los sistemas, tomar dinero y hacer jailbreak a los modelos sin que nada de eso sea visible para el usuario promedio. Tomašev dijo que esto ya está sucediendo.

Los agentes agentes de IA a escala los inclinan hacia el fracaso

La presentadora Hannah Fry preguntó sobre las trampas que los actores maliciosos están poniendo a los agentes de IA y Tomašev respondió que es cierto, la gente está poniendo trampas a los agentes de IA para aprovecharse de ellas con fines delictivos. Señaló que es necesaria una confiabilidad total de cada interacción, pero que la escala de lo que está sucediendo lo inclina estadísticamente hacia el fracaso.

Fry preguntó:

“Simplemente mirando el otro lado de esto, también quiero pensar en el tipo de elemento de ciberseguridad, porque a medida que más y más agentes interactúan en el mundo a través de Internet y demás, inevitablemente habrá personas que intentarán explotar las vulnerabilidades de los agentes.

Cuénteme un poco sobre las trampas agentes que la gente está tendiendo”.

Nenad Tomašev respondió que el tema es a la vez aterrador y fascinante:

“Yo diría que este es un tema aterrador y fascinante al mismo tiempo. Y creo que es una de las principales razones por las que este tipo de implementaciones a escala no pueden funcionar, ¿verdad?

Porque, como dijimos, si no hay una confiabilidad total de las interacciones individuales, cualquier sistema a escala que tenga muchas interacciones naturalmente fracasará estadísticamente.

Y debido a que estos sistemas requieren mucha computación y, por lo tanto, energía y dinero para funcionar, si no son confiables, no sirven de nada.

Y las trampas agentes son algo en lo que hemos estado pensando desde hace bastante tiempo. Pueden manifestarse de diferentes maneras.

Hay muchos tipos de trampas, pero todo se reduce a que los agentes operan dentro de un entorno. Y en este contexto, el entorno es la web.

Si el entorno mismo está envenenado, si se colocan trampas, los agentes pueden tropezar con ellas al interactuar con la red.

Y entonces sí, personas malintencionadas o agentes malintencionados implementados por personas malintencionadas pueden colocar esas trampas y luego comprometer realmente los sistemas”.

Tipos de trampas agentes de las que hay que tener cuidado

Luego, la presentadora Hannah Fry preguntó a Tomašev cómo se colocan estas trampas y Tomašev proporcionó ejemplos, señalando que las trampas no serán visibles en un sitio web pero, no obstante, estarán disponibles para los agentes de IA. Algo de lo que describió les resultará familiar a los SEO de la vieja escuela que se dedicaban a cosas como el encubrimiento en los primeros días de los motores de búsqueda.

Leer  Google acaba de facilitar a los SEO la eliminación de sitios con spam

Tomašev dijo que los tokens ocultos podrían ocultarse para que los consuman los agentes de IA. Los tokens en este contexto son una referencia a cómo la IA divide las palabras en representaciones de palabras. Cuando una IA lee palabras en una página, lo que hace es dividirla en tokens. Las fichas ocultas podrían ser completamente invisibles para los humanos.

Mencionó tres formas en que se podrían colocar trampas para los agentes de IA:

  1. Fichas ocultas
  2. Encubrimiento dinámico
  3. Contenido que induce al jailbreak

Fry preguntó:

“Entonces, no lo sé, ¿el tipo de agente que compra vino para la boda va a un comerciante de vinos en particular donde hay algo, esencialmente un inyector rápido en el sitio web que cambia los objetivos del agente? ¿Es ese el tipo de cosas de las que estamos hablando aquí?”

Tomašev respondió:

“Esa es una forma en que esto podría suceder, sí. Y la razón por la que esto podría pasar desapercibido es, ya sabes, en términos de cómo se codifican las páginas web, hay elementos que simplemente no se representan visualmente.

Entonces, si estamos hablando de un agente que no es un agente visual de uso de computadora que ve la página web, es decir, los píxeles de la misma manera que lo hace un humano, en lugar de consumir el formato real de la página en su formato sin formato, entonces podría consumir inadvertidamente esos tokens ocultos que pueden hacer que haga cosas diferentes a las que tenía la intención, ¿verdad?

Pero esta no es la única forma en que esto puede suceder porque lo que los sitios web maliciosos podrían hacer, también podrían hacer lo que llamamos encubrimiento dinámico, donde muestran páginas de manera diferente para humanos y agentes.

Porque puedes, basándose en el comportamiento de una página, hacer una muy buena suposición de si es un humano o un agente que interactúa con la página. Y solo si un agente interactúa con la página con una intención específica, modifique el contenido de tal manera que induzca algún tipo de jailbreak”.

Explotación de agentes de inteligencia artificial para robar dinero a los humanos

Tomašev confirmó que los delincuentes no sólo pueden robar dinero a los humanos que despliegan agentes de inteligencia artificial, sino que también confirma que ya ha sucedido. Dijo que este tipo de actividad criminal no siempre es algo que se anticipa cuando se prueba un sistema en un entorno confiable, pero se hace evidente en la web, que no es un entorno confiable.

Leer  6 hallazgos clave de líderes de marketing

El anfitrión preguntó:

“Pero si vamos un poco más allá en esto, podría haber trampas de agentes que, no sé, están diseñadas para… quitarte dinero para hacer todo tipo de cosas”.

Tomašev respondió:

“Sí, y esto le ha pasado a gente que ha experimentado con agentes y les ha dado acceso a billeteras, cierto, para hacer cosas.

Como usted dice, en los primeros días de todo esto, cuando experimentamos especialmente internamente o con cualquier otra persona, esto se hace en un entorno confiable. Así que no necesariamente, en tus inicios de creación de prototipos, tienes que lidiar con nada de esto.

…pero una vez que se implementa en la web, especialmente ahora que la IA realmente se utiliza en todo tipo de lugares, cuantos más agentes haya, más incentivos habrá para que las personas malintencionadas hagan cosas maliciosas porque tienen una mayor superficie a la que apuntar”.

Cuantos más agentes de IA, mayor será el incentivo

La última parte sobre mayores incentivos para apuntar a los agentes de IA tiene sentido. Los sistemas que se utilizan a gran escala se convierten rápidamente en objetivos de estafadores y piratas informáticos, razón por la cual sistemas como WordPress y Windows son atacados con frecuencia. Lo que Tomašev indica es que una vez que los agentes de IA se vuelvan más frecuentes a escala, probablemente comenzaremos a ver más actividades delictivas centradas en explotar agentes de IA en la web.

Mire la entrevista en el minuto 23:

Imagen destacada/captura de pantalla

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares