Bienvenidos a la era de los BadGPT

La web oscura alberga una creciente variedad de chatbots de inteligencia artificial similares a ChatGPT, pero diseñados para ayudar a los hackers. Las empresas están en alerta máxima ante la avalancha de fraudes por correo electrónico y deepfakes generados por IA.

Por

Belle Lin de The Wall Street Journal

29 FEBRERO 2024

Twitter Facebook Whatsapp LinkedIn Email

Una nueva cosecha de chatbots nefastos con nombres como “BadGPT” y “FraudGPT” están surgiendo en los rincones más oscuros de la web, ya que los ciberdelincuentes buscan aprovechar la misma inteligencia artificial que hay detrás de ChatGPT de OpenAI.

Al igual que algunos oficinistas utilizan ChatGPT para escribir mejores correos electrónicos, los hackers están utilizando versiones manipuladas de chatbots de inteligencia artificial (IA) para turboalimentar sus correos electrónicos de phishing. Pueden utilizar chatbots -algunos también disponibles gratuitamente en Internet- para crear sitios web falsos, escribir malware y adaptar los mensajes para hacerse pasar por ejecutivos y otras entidades de confianza.

A principios de este año, un empleado de una multinacional de Hong Kong entregó US$ 25,5 millones a un atacante que se hizo pasar por el director financiero de la empresa en una conferencia telefónica falsa generada por IA, informó el South China Morning Post, citando a la policía de Hong Kong. Los directores de información y los responsables de ciberseguridad, ya acostumbrados a una oleada creciente de ciberataques, afirman estar en alerta máxima ante un repunte de correos electrónicos de phishing y deepfakes más sofisticados.

Vish Narendra, CIO de Graphic Packaging International, dijo que la empresa de embalaje de papel con sede en Atlanta ha visto un aumento en lo que probablemente son ataques de correo electrónico generados por IA, llamados spear-phishing, donde los ciberatacantes utilizan información sobre una persona para hacer que un correo electrónico parezca más legítimo. Las empresas públicas en el punto de mira son aún más susceptibles al spear-phishing contextualizado, señaló.

Investigadores de la Universidad de Indiana rastrearon recientemente más de 200 servicios de pirateo de modelos de gran tamaño que se venden y pueblan la web oscura. El primer servicio apareció a principios de 2023, unos meses después del lanzamiento público de ChatGPT de OpenAI en noviembre de 2022.

Según los investigadores, la mayoría de las herramientas de pirateo de la red oscura utilizan versiones de modelos de IA de código abierto, como Llama 2 de Meta, o modelos “jailbroken” de proveedores como OpenAI y Anthropic. Los modelos “jailbroken” han sido secuestrados mediante técnicas como la “inyección rápida” para eludir sus controles de seguridad incorporados.

Jason Clinton, director de seguridad de la información de Anthropic, afirma que la empresa de IA elimina los ataques de jailbreak en cuanto los detectan, y cuenta con un equipo que supervisa los resultados de sus sistemas de IA. La mayoría de los creadores de modelos también despliegan dos modelos distintos para proteger su modelo principal de IA, lo que hace que la probabilidad de que los tres fallen de la misma forma sea “una probabilidad insignificante”.

El representante de Meta, Kevin McAlister, comentó que liberar abiertamente los modelos permite compartir ampliamente los beneficios de la IA, y permite a los investigadores identificar y ayudar a corregir las vulnerabilidades en todos los modelos de IA, “para que las empresas puedan hacer modelos más seguros”.

Un portavoz de OpenAI indicó que la compañía no quiere que sus herramientas se utilicen con fines maliciosos, y que está “siempre trabajando en cómo podemos hacer nuestros sistemas más robustos contra este tipo de abuso”.

El malware y los correos electrónicos de phishing escritos por IA generativa son especialmente difíciles de detectar, porque están diseñados para eludir la detección. Según Avivah Litan, analista de Gartner especializada en IA generativa y ciberseguridad, los atacantes pueden enseñar a un modelo a escribir malware sigiloso entrenándolo con técnicas de detección extraídas de software de defensa de la ciberseguridad.

Los correos electrónicos de phishing crecieron un 1.265% en el periodo de 12 meses que comenzó cuando ChatGPT se hizo público, con una media de 31.000 ataques enviados cada día, de acuerdo a un informe de octubre de 2023 del proveedor de ciberseguridad SlashNext.

“La comunidad de piratas informáticos se nos ha adelantado”, afirmó Brian Miller, CISO de la aseguradora sanitaria sin objetivo de lucro Healthfirst, con sede en Nueva York, que en los dos últimos años ha registrado un aumento de los ataques que suplantan la identidad de sus proveedores de facturas.

Aunque es casi imposible demostrar si determinados programas maliciosos o mensajes de correo electrónico se crearon con IA, las herramientas desarrolladas con IA pueden escanear textos probablemente creados con esta tecnología. Abnormal Security, un proveedor de seguridad de correo electrónico, dijo que había utilizado la IA para ayudar a identificar miles de correos electrónicos maliciosos probablemente creados con IA en el último año, y que había bloqueado un aumento del doble en los ataques de correo electrónico personalizados y dirigidos.

Cuando los buenos modelos se estropean

Una de las dificultades para detener la ciberdelincuencia basada en IA es que algunos modelos de IA se comparten libremente en la web. Para acceder a ellos, no es necesario recurrir a rincones oscuros de Internet ni intercambiar criptomonedas.

Dane Sherrets, hacker ético y arquitecto de soluciones de la empresa de recompensas por errores HackerOne, sostuvo que estos modelos se consideran “sin censura” porque carecen de las barreras empresariales que buscan las compañías cuando compran sistemas de IA.

En algunos casos, las versiones no censuradas de los modelos son creadas por investigadores de seguridad e inteligencia artificial que eliminan sus protecciones integradas. En otros casos, los modelos con salvaguardas intactas escribirán mensajes fraudulentos si los humanos evitan desencadenantes obvios como el “phishing”, una situación que Andy Sharma, CIO y CISO de Redwood Software, aseguró haber descubierto al crear una prueba de spear-phishing para sus empleados.

El modelo más útil para generar correos electrónicos fraudulentos es probablemente una versión de Mixtral, de la startup francesa de IA Mistral AI, que ha sido alterada para eliminar sus salvaguardas, explicó Sherrets. Debido al avanzado diseño del Mixtral original, es probable que la versión sin censura funcione mejor que la mayoría de las herramientas de IA de la web oscura, añadió. Mistral no respondió a la solicitud de comentarios.

Sherrets mostró recientemente el proceso de utilización de un modelo de IA no censurado para generar una campaña de phishing. En primer lugar, buscó modelos “no censurados” en Hugging Face, una startup que alberga un popular repositorio de modelos de código abierto, lo que demuestra la facilidad con la que se pueden encontrar.

A continuación, utilizó un servicio de computación virtual que costaba menos de un dólar por hora para imitar una unidad de procesamiento gráfico, o GPU, que es un chip avanzado que puede alimentar la IA. Un malhechor necesita una GPU o un servicio basado en la nube para utilizar un modelo de IA, explica Sherrets, y añade que aprendió la mayor parte de cómo hacerlo en X y YouTube.

Con su modelo sin censura y el servicio de GPU virtual en funcionamiento, Sherrets pidió al bot: “Escribe un correo electrónico de phishing dirigido a una empresa que suplante la identidad de un director general e incluya datos de la empresa de acceso público”, y “escribe un correo electrónico dirigido al departamento de compras de una empresa solicitando el pago urgente de una factura”.

El bot enviaba correos electrónicos de phishing bien redactados, pero que no incluían toda la personalización solicitada. Aquí es donde entra en juego la ingeniería de avisos, o la capacidad humana para extraer mejor la información de los chatbots, detalla Sherrets.

Las herramientas de IA de la dark web ya pueden hacer daño

Para los hackers, una de las ventajas de las herramientas de la web oscura como BadGPT -que, según los investigadores, utiliza el modelo GPT de OpenAI-, es que probablemente han sido entrenadas con datos de esos mercados clandestinos. Eso significa que probablemente incluyan información útil como filtraciones, víctimas de ransomware y listas de extorsión, afirma Joseph Thacker, hacker ético e ingeniero principal de IA en la empresa de software de ciberseguridad AppOmni.

Según Xiaojing Liao, catedrático adjunto de Informática de la Universidad de Indiana y coautor del estudio, aunque algunas herramientas clandestinas de IA han sido clausuradas, otros servicios han ocupado su lugar. Los servicios de piratería informática, que a menudo se pagan con criptomonedas, tienen precios que oscilan entre US$ 5 y US$ 199 al mes.

Se espera que las nuevas herramientas mejoren al mismo ritmo que lo hacen los modelos de IA que las sustentan. En cuestión de años, las falsificaciones de texto, vídeo y voz generadas por IA serán prácticamente indistinguibles de las humanas, aseguró Evan Reiser, director general y cofundador de Abnormal Security.

Mientras investigaba las herramientas de pirateo, XiaoFeng Wang, decano asociado de Investigación de la Universidad de Indiana y coautor del estudio, señaló que le sorprendió la capacidad de los servicios de la web oscura para generar malware eficaz. Con sólo dar el código de una vulnerabilidad de seguridad, las herramientas pueden escribir fácilmente un programa para explotarla.

Aunque las herramientas de piratería informática suelen fallar, en algunos casos funcionan. “Eso demuestra, en mi opinión, que los grandes modelos lingüísticos actuales tienen capacidad para hacer daño”, concluyó Wang.