Portada » La visión por computadora y el aprendizaje profundo brindan nuevas formas de detectar amenazas cibernéticas
Tecnología

La visión por computadora y el aprendizaje profundo brindan nuevas formas de detectar amenazas cibernéticas

La visión por computadora y el aprendizaje profundo brindan nuevas formas de detectar amenazas cibernéticas

El creciente interés en el aprendizaje profundo durante la última década ha sido provocado por la capacidad probada de las redes neuronales en tareas de visión por computadora. Si entrena una red neuronal con suficientes imágenes etiquetadas de perros y gatos, podrá encontrar patrones recurrentes en cada categoría y clasificar imágenes invisibles con una precisión decente.

¿Qué más se puede hacer con un clasificador de imágenes?

En 2019, un grupo de investigadores de ciberseguridad se preguntó si podrían tratar la detección de amenazas a la seguridad como un problema de clasificación de imágenes. Su intuición demostró estar bien ubicada y pudieron crear un modelo de aprendizaje automático capaz de detectar malware basado en imágenes creadas a partir del contenido de los archivos de la aplicación. Un año después, se utilizó la misma técnica para desarrollar un sistema de aprendizaje automático que detecta sitios de phishing.

La combinación de visualización binaria y aprendizaje automático es una técnica poderosa que puede proporcionar nuevas soluciones a problemas antiguos. Se muestra prometedor en ciberseguridad, pero también se puede aplicar a otros dominios.

Detección de malware con aprendizaje profundo

La forma tradicional de detectar malware es buscar archivos en busca de firmas conocidas de cargas útiles maliciosas. Los detectores de malware mantienen una base de datos de definiciones de virus que incluyen secuencias de código de operación o fragmentos de código y buscan nuevos archivos para detectar la presencia de estas firmas. Desafortunadamente, los desarrolladores de malware pueden eludir fácilmente estos métodos de detección mediante el uso de diferentes técnicas, como la ocultación de su código o el uso de técnicas de polimorfismo para transformar su código en tiempo de ejecución.

Las herramientas de análisis dinámico intentan detectar comportamientos maliciosos durante el tiempo de ejecución, pero son lentas y requieren la configuración de un entorno de pruebas para probar programas sospechosos.

En los últimos años, los investigadores también han probado varias técnicas de aprendizaje automático para detectar malware. Estos modelos de AA han avanzado en algunos de los desafíos de detección de malware, incluida la ofuscación del código. Pero presentan nuevos desafíos, incluida la necesidad de aprender muchas funciones y un entorno virtual para analizar muestras de destino.

La visualización binaria puede redefinir la detección de malware, convirtiéndola en un problema de visión por computadora. En esta metodología, los archivos se ejecutan utilizando algoritmos que transforman valores binarios y ASCII en códigos de color.

En un artículo publicado en 2019, investigadores de la Universidad de Plymouth y la Universidad del Peloponeso demostraron que cuando se visualizan archivos benignos y maliciosos con este método, surgen nuevos patrones que separan los archivos maliciosos de los seguros. Estas diferencias habrían pasado desapercibidas con los métodos clásicos de detección de malware.

Arriba: cuando se visualiza el contenido de los archivos binarios, surgen patrones que separan el malware de los archivos seguros.

Según el artículo, “los archivos maliciosos suelen incluir caracteres ASCII de varias categorías, presentando una imagen en color, mientras que los archivos benignos tienen una imagen y distribución de valores más limpia”.

Cuando tiene estos patrones detectables, puede entrenar una red neuronal artificial para distinguir entre archivos maliciosos y seguros. Los investigadores crearon un conjunto de datos de archivos binarios vistos que incluían archivos tanto benignos como malignos. El conjunto de datos contenía una variedad de cargas útiles maliciosas (virus, gusanos, troyanos, rootkits, etc.) y tipos de archivos (.exe, .doc, .pdf, .txt, etc.).

Luego, los investigadores utilizaron las imágenes para entrenar una red neuronal clasificadora. La arquitectura que utilizaron es la red neuronal incremental autoorganizada (SOINN), que es rápida y especialmente buena para manejar datos ruidosos. También utilizaron una técnica de preprocesamiento de imágenes para reducir las imágenes binarias en vectores de recursos de 1024 dimensiones, lo que hace que sea mucho más fácil y eficiente desde el punto de vista computacional aprender patrones en los datos de entrada.

Arriba: Arquitectura del sistema de aprendizaje profundo que detecta malware desde una vista binaria.

La red neuronal resultante fue lo suficientemente eficiente como para calcular un conjunto de datos de entrenamiento con 4000 muestras en 15 segundos en una estación de trabajo personal con un procesador Intel Core i5.

Los experimentos de los investigadores demostraron que el modelo de aprendizaje profundo era especialmente bueno para detectar malware en archivos .doc y .pdf, que son el medio preferido para los ataques de ransomware. Los investigadores sugirieron que el rendimiento del modelo podría mejorarse si se ajustara para tomar el tipo de archivo como una de sus dimensiones de aprendizaje. En general, el algoritmo logró una tasa de detección promedio de alrededor del 74 por ciento.

Detección de sitios de phishing de aprendizaje profundo

Los ataques de phishing se están convirtiendo en un problema creciente para organizaciones e individuos. Muchos ataques de phishing engañan a las víctimas para que hagan clic en un enlace a un sitio web malicioso que se hace pasar por un servicio legítimo, donde terminan ingresando información confidencial como credenciales o información financiera.

Los enfoques tradicionales para detectar sitios de phishing giran en torno a la inclusión de dominios maliciosos en listas negras o de dominios seguros en listas blancas. El primer método pierde nuevos sitios de phishing hasta que alguien es víctima, y ​​el segundo es muy restrictivo y requiere grandes esfuerzos para proporcionar acceso a todos los dominios seguros.

Otros métodos de detección se basan en la heurística. Estos métodos son más precisos que las listas negras, pero aún no proporcionan una detección óptima.

En 2020, un grupo de investigadores de la Universidad de Plymouth y la Universidad de Portsmouth utilizó la visualización binaria y el aprendizaje profundo para desarrollar un nuevo método para detectar sitios de phishing.

La técnica utiliza bibliotecas de visualización binaria para transformar el código fuente y el marcado del sitio en valores de color.

Como es el caso de los archivos de aplicaciones benignos y malignos, cuando se visualizan sitios web, surgen patrones únicos que separan los sitios web seguros de los maliciosos. Los investigadores escribieron: “El sitio legítimo tiene un valor RGB más detallado porque se construiría a partir de caracteres adicionales de licencias, hipervínculos y formularios de entrada de datos detallados. Si bien la contraparte de phishing generalmente contiene una única referencia CSS o ninguna, varias imágenes en lugar de formularios y un solo formulario de inicio de sesión sin secuencias de comandos de seguridad. Esto crearía una cadena de entrada más pequeña cuando se raspa. “

El siguiente ejemplo muestra la representación visual del código de inicio de sesión legítimo de PayPal en comparación con un sitio falso de phishing de PayPal.

Los investigadores crearon un conjunto de datos de imágenes que representa código de sitios web legítimos y maliciosos y lo utilizaron para entrenar un modelo de aprendizaje automático de clasificación.

La arquitectura que utilizaron es MobileNet, una red neuronal convolucional (CNN) liviana que está optimizada para ejecutarse en dispositivos de usuario en lugar de servidores en la nube de alta capacidad. Las CNN son especialmente adecuadas para tareas de visión por computadora, incluida la clasificación de imágenes y la detección de objetos.

Una vez entrenado, el modelo se conecta a una herramienta de detección de phishing. Cuando el usuario se encuentra con un nuevo sitio web, primero comprueba si la URL está incluida en su base de datos de dominios maliciosos. Si se trata de un dominio nuevo, se transforma mediante el algoritmo de visualización y se ejecuta por la red neuronal para comprobar si tiene los patrones de sitios web maliciosos. Esta arquitectura de dos pasos garantiza que el sistema utilice la velocidad de las bases de datos incluidas en la lista negra y la detección inteligente de la técnica de detección de phishing basada en redes neuronales.

Los experimentos de los investigadores demostraron que la técnica puede detectar sitios de phishing con una precisión del 94 por ciento. “El uso de técnicas de representación visual le permite obtener información sobre las diferencias estructurales entre las páginas legítimas y de phishing. A partir de nuestros resultados experimentales iniciales, el método parece prometedor y puede detectar rápidamente al atacante de phishing con alta precisión. Además, el método aprende de las clasificaciones incorrectas y mejora su eficiencia ”, escribieron los investigadores.

Arriba: Arquitectura del sistema de aprendizaje profundo que detecta sitios de phishing mediante visualización binaria

Recientemente hablé con Stavros Shiaeles, profesor de ciberseguridad en la Universidad de Portsmouth y coautor de ambos artículos. Según Shiaeles, los investigadores ahora están preparando la técnica para su adopción en aplicaciones del mundo real.

Shiaeles también está explorando el uso de visualización binaria y aprendizaje automático para detectar tráfico de malware en redes de IoT.

A medida que el aprendizaje automático continúe progresando, proporcionará a los científicos nuevas herramientas para enfrentar los desafíos de la ciberseguridad. La visualización binaria muestra que, con mucha creatividad y rigor, podemos encontrar nuevas soluciones a viejos problemas.

Esta historia apareció originalmente en Bdtechtalks.com. Copyright 2021

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)

Añadir comentario

Haz clic para publicar un comentario