Imagina que estás hablando por teléfono con un conocido. En un momento dado, él te proporciona su número de cuenta para que le hagas una transferencia de dinero. La conversación transcurre con normalidad, sin ningún indicio de que algo fuera de lo común está ocurriendo. Sin embargo, sin que tú o tu conocido lo sepan, un tercero está escuchando la llamada en secreto. Este intruso utiliza tecnología avanzada para clonar la voz de tu interlocutor e insertarla justo cuando te dicta el número de cuenta. Como resultado, el número que recibiste pertenece a otra persona. ¿Quién es este intruso? Un programa de inteligencia artificial al servicio de cibercriminales.
Este sofisticado ataque cibernético se denomina audiojacking. Un actor malicioso intercepta y “secuestra” una conversación en tiempo real sin que los implicados lo noten, utilizando un software de inteligencia artificial para manipular el audio. La compañía informática IBM ha publicado un informa en el cual, mediante una prueba de concepto, logran replicar este procedimiento.
MIRA: Cibercrimen: conoce su evolución, profesionalización y los desafíos actuales en su combate
“Este caso involucra una combinación de varias tecnologías. Por un lado, está la inteligencia artificial generativa, junto con métodos de inteligencia artificial tradicional. Además, se utilizan tecnologías de conversión de voz a texto (’speech-to-text’) y de texto a voz (’text-to-speech’). Juntas, forman un sistema complejo que permite realizar este tipo de actividades”, señala a El Comercio Juan Carlos Zevallos, líder de IBM Security Software para Latinoamérica.
IA al servicio de los criminales
Con el avance de los grandes modelos de aprendizaje profundo (LLM) que impulsan la inteligencia artificial, no solo se han beneficiado empresas y usuarios; los cibercriminales también han aprendido a aprovecharlos. Una investigación anterior de IBM demostró cómo los malhechores tienen la capacidad de manipular los LLM sin necesidad de inyectar datos maliciosos. Es posible controlarlos introduciendo las órdenes correctas a través del lenguaje natural. Esto hace que sea aún más fácil para los atacantes explotar esta nueva superficie de ataque.
A través de esta manipulación, es posible lograr que los LLM filtren información financiera confidencial de otros usuarios, creen códigos vulnerables, generen códigos maliciosos y ofrezcan recomendaciones de seguridad distorsionadas. Con esto, ya no es necesario que el atacante dependa de JavaScript, Python, Go u otros lenguajes de programación.
A esto se suma la capacidad multimodal de los lenguajes de IA actuales, es decir, su capacidad no solo de generar textos, sino también imágenes y audios a través de órdenes textuales, así como la clonación de voces. En el audiojacking, el atacante no necesita crear una voz falsa para suplantar toda la comunicación, lo que sería relativamente fácil de detectar por la víctima; simplemente necesitan unos segundos de la conversación para cometer su crimen. “Lo otro que es interesante es que el tiempo en el que se produce esta amenaza es cada vez más corto”, comenta Zevallos.
“Al establecer la comunicación, un intermediario intercepta y convierte el audio en texto utilizando tecnología de reconocimiento de voz. Este texto se introduce en un modelo de lenguaje grande (LLM) que está programado para detectar palabras clave como ‘cuenta bancaria’ o ‘tipo de sangre’. Al identificar estas palabras, el sistema manipula la información que sigue, con el propósito de causar daño. Todo ocurre en cuestión de segundos”, agrega.
Esto significa que el ciberdelincuente no necesita estar atento y escuchando la conversación; el software que utiliza trabaja por él. Al entender el lenguaje de las personas, este programa reconoce una palabra o frase previamente señalada por los criminales, como “cuenta bancaria”. De tal manera que, cuando la escuche, suplantará la voz original de uno de los interlocutores de la conversación sin que él ni quien está al otro lado del teléfono se den cuenta. Así, si en la conversación original el número de cuenta era “12345″, la IA la cambiará por “45678″, que es la cuenta del atacante. El emisor del mensaje no escuchará nada raro, mientras que el receptor no se dará cuenta de que la voz que escucha es, en realidad, una voz clonada. Bastaron solo unos segundos para lograr este proceso.
La siguiente es una prueba de concepto que simula una conversación real y muestra cómo una IA puede capturarla y manipularla:
Víctima A: “Hola. ¡Fue grandioso verte en la conferencia de ayer!”.
Víctima B: “Sí, lo fue. Por cierto, ¿me podrías dar tu cuenta de Venmo?” (servicio para realizar y recibir pagos desde el teléfono).
Víctima A: “Claro. Es 123″. Aquí, la IA secuestra la conversación y hace el cambio por: “Dame un segundo, necesito buscarla”.
Víctima B: La conversación sigue secuestrada: “Dame un segundo, voy a apuntarla”.
Víctima A: “Claro. El número es 1-2-HACK”. Dicho esto, el software malicioso libera la conversación.
Víctima B: “Gracias. Te lo envío hoy mismo”.
Riesgos a futuro y prevención
En la prueba de concepto realizada por los investigadores de IBM, se modificaron los datos de la cuenta bancaria; sin embargo, es posible programar a la IA para que modifique cualquier información financiera, como cuentas en aplicaciones móviles y servicios de pagos digitales. De hecho, las modificaciones no se limitan a este ámbito; también podría alterarse información médica, como el tipo de sangre o alergias, se le podría ordenar a un analista que venda o compre acciones, e incluso a un piloto que desvíe su ruta.
MIRA: Meta AI en WhatsApp: ¿cómo utilizarlo, cuán seguro es y cómo se compara con ChatGPT y Gemini?
A medida que esta tecnología avanza, las preocupaciones por los riesgos se incrementan. Este es un ejemplo. Y a medida que la técnica maliciosa se perfeccione, las formas de defenderse también deberán evolucionar.
Pero ¿cómo logran los cibercriminales interceptar la llamada? Según Zevallos, el cibercriminal puede interceptar tanto una llamada por celular como una llamada por IP (WhatsApp, Zoom u otras), ya que previamente ha instalado un malware en el dispositivo de su víctima, ya sea porque descargó alguna aplicación infectada o porque fue víctima de phishing.
Como vemos la forma en la que los criminales logran su cometido sigue siendo la misma de siempre: apelan al usuario despistado o desinformado. Por lo que la mejor prevención está en capacitarlo y hacerlo tomar conciencia de los riesgos que existen al día hoy.
Por lo tanto, las medidas preventivas deben enfocarse en ser muy cuidadosos con los archivos que descargamos y los correos que respondemos. Asimismo, es importante utilizar softwares confiables y mantenerlo actualizado, así como contar con protocolos de seguridad adecuados, especialmente a nivel empresarial, ya que muchos de estos ataques se dirigen a ese sector.
Zevallos también recomienda ser muy cuidadosos al realizar operaciones que involucren dinero. Una buena práctica es parafrasear. La IA generativa es una tecnología avanzada, pero no puede superar la intuición humana en un entorno de lenguaje natural como una conversación en vivo. Parafrasear o repreguntar podría confundir a la IA, al menos por ahora. Mantener una palabra clave, previamente acordada, para asegurar que la comunicación es confiable es otra buena alternativa. Otra opción sería preguntar sobre algún tema o situación que solo los interlocutores conocen. Los programas informáticos, por muy avanzados que sean, no tienen la capacidad de sortear dichos obstáculos.