Aprendizaje no supervisado para la detección de anomalías

El presente y el futuro de nuestra economía pasa por los datos. Entornos cada vez más conectados, medios de producción más flexibles, automatización de procesos… En este contexto, la identificación de anomalías de forma rápida y fiable puede suponer una ventaja competitiva importante.

En este artículo te explicamos cómo la aplicación de inteligencia artificial (IA) y aprendizaje no supervisado en la detección de anomalías puede ayudar a empresas e industrias de diversos sectores.

¿A qué llamamos “anomalía”?

La RAE define anomalía como una desviación de una regla o un defecto de funcionamiento. Esa es la esencia de una anomalía, algo que no resulta como se espera en base a la información conocida.

Podemos entender mejor qué es una anomalía pensando en aplicaciones concretas. Por ejemplo, una anomalía en un proceso fiscal podría ser indicio de un fraude. O si pensamos en producción industrial el estudio de anomalías podría mostrar cuándo es necesario realizar un mantenimiento de la maquinaria, reduciendo costes por mantenimientos no necesarios.

La enorme y creciente cantidad de datos que tenemos hoy en día en cualquier actividad permite que podamos usar inteligencia artificial y algoritmos de aprendizaje no supervisado para analizarlos, reconocerlos y buscar patrones que permitan detectar anomalías.

Aprendizaje no supervisado anomalías

Aprendizaje no supervisado. ¿Qué es y por qué es tan interesante?

Al hablar de algoritmos de aprendizaje automático hay diferentes aproximaciones que pueden realizarse en función de los datos de partida. En algunos casos nuestro modelo de datos puede tener etiquetas previamente conocidas, es decir, los datos tendrán variables objetivo conocidas que nos permitirán entrenar nuestros modelos.

Expresando esto de forma matemática: conoceríamos las variables de entrada (x) y la de salida (Y), por lo que tendríamos información para aprender la función que relaciona ambas, siendo Y = f(x). Con esta información de partida podemos entrenar a nuestro modelo para predecir la salida (Y) cuando se tengan nuevos datos de entrada (x). Esto es lo que se conoce como aprendizaje supervisado.

¿Cuál es el problema? Que en el mundo real la mayoría de las veces los datos que manejamos no tienen etiquetas predefinidas. Es decir, no vamos a conocer la “Y” de nuestra función, solo las variables de entrada “x”. Por lo tanto, será necesario que el modelo de aprendizaje automático pueda analizar los datos, clasificarlos y encontrar por sí mismo alguna característica que pueda utilizarse para predecir la salida de nuevos datos. En esto consiste el aprendizaje no supervisado.

El aprendizaje automático no supervisado es una de las principales ramas dentro del aprendizaje automático y tiene multitud de aplicaciones. Una de las más importantes es la detección de anomalías: identificación de los patrones normales existentes dentro de una muestra de datos para después detectar anomalías (outlayers) en base a las propias características naturales del grupo de datos.

Tipos de problemas donde se aplica aprendizaje no supervisado

Las aplicaciones de aprendizaje no supervisado pueden dividirse en dos grandes ramas: agrupación y asociación.

Asociación: se busca descubrir y aprender reglas representativas dentro del conjunto de datos, como por ejemplo que los clientes que compran el producto A tienden también a comprar el producto B.

Agrupación: en las aplicaciones de agrupación (clustering) se busca conocer las agrupaciones inherentes en los datos, como por ejemplo diferenciar segmentos de clientes en base a su comportamiento de compra.

Los algoritmos de aprendizaje no supervisado se pueden aplicar en multitud de campos y son especialmente útiles para la detección de anomalías. Uno de los algoritmos más comunes es el Density Based Scan Clustering (DBSCAN).

Density Based Scan Clustering (DBSCAN)

El DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es un algoritmo muy útil en la identificación de ruido en los datos. La lógica de este algoritmo se basa en identificar una serie de puntos centrales en base a los puntos vecinos que tenga cada dato dentro de un radio definido. Esos “vecindarios” de datos conformarán grupos, de forma que los datos que queden fuera de ellos se identificarán como ruido.

La principal ventaja de este algoritmo es que él mismo especifica el número de grupos existentes y los puede agrupar en formas y tamaños muy diversos. Esto lo convierte en un algoritmo muy útil para trabajar datos con ruido y valores atípicos.

Aprendizaje no supervisado anomalías

Isolation Forest

Otro algoritmo típico para la detección de anomalías es el Isolation Forest. La lógica que sigue es diferente a otros métodos conocidos y gira en torno a la idea de que los puntos anormales dentro de los conjuntos de datos son más fáciles de separar (isolate) que los puntos normales. Para lograr esto, el algoritmo genera particiones del conjunto de datos seleccionando un atributo de forma aleatoria, después toma un valor también aleatorio de ese atributo y divide la muestra en dos partes, agrupando los que están por encima y por debajo de dicho valor. Estas operaciones se repiten hasta que todas las observaciones quedan aisladas.

La principal diferenciación de este algoritmo es que requiere menos capacidad de procesamiento que otros métodos, lo que le hace especialmente indicado para grandes conjuntos de datos (datos de alta dimensión).

Aplicaciones del aprendizaje no supervisado y detección de anomalías

Detección de anomalías en industria

La industria es uno de los sectores donde este tipo de algoritmos tiene una mayor aplicación. Uno de los usos más comunes es el control de calidad, donde pueden ayudar a reprogramar los ordenadores industriales para la producción de nuevos ítems. También pueden ayudar a optimizar cadenas de suministro detectando donde se producen anomalías en tiempos muertos, así como muchos otros usos como el análisis de comportamiento de compras de clientes, gestión de inventarios, etc.

Detección de anomalías en otros sectores

El ámbito sanitario es uno de los sectores en los que más se está aplicando la inteligencia artificial. Existen muchos trabajos de diagnóstico y monitorización de pacientes que pueden analizarse mediante detección de anomalías, como por ejemplo la detección de planes de tratamiento erróneos en base a series de datos de radioterapia. También tiene un interesante uso en epidemiología, donde permite detectar la aparición de mutaciones de patógenos en base a la respuesta que los pacientes tienen a los tratamientos.

En el sector financiero, uno de los principales usos de la detección de anomalías es descubrir fraudes en pagos electrónicos. También es interesante su aplicación para la detección de solvencia al otorgar créditos, la predicción de bancarrotas o sus diversas aplicaciones para optimizar las inversiones en bolsa.

Centum: expertos en Smart Factory

En Centum desarrollamos proyectos y ofrecemos soluciones de Industria 4.0 (Industria Conectada), optimizando los procesos mediante el uso de algoritmos de Big Data e Inteligencia Artificial. Si deseas más información sobre nuestros servicios ponte en contacto con nosotros.


Share on facebook
Share on twitter
Share on linkedin
Centum

Centum

Artículo propiedad de CENTUM Solutions, S.L

¿Quieres saber más? Contacta con nosotros

Somos digitales, y por eso sabemos el valor que tiene una conversación entre dos personas. Por favor, si te ha quedado alguna duda, tienes alguna sugerencia o simplemente quieres hablar con nosotros, contáctanos por cualquiera de los canales que te ofrecemos. Tienes nuestro compromiso de que no vamos a usar tu información para mandarte SPAM, nos gusta tan poco como a ti.
NEWSLETTER

¿Quieres conocer las últimas novedades? Suscríbete.

¿Te gustaría ser el primero en saber lo que está pasando en el sector? En nuestra newsletter lo descubrirás todo.

 

Loading