Estamos inmersos en una revolución tecnológica en la que el análisis de datos ha tomado protagonismo. Las noticias sobre Big Data, Internet of Things, Inteligencia Artificial y Analítica Predictiva están a la orden del día. ¿Pero qué teorías matemáticas son las que sustentan estos tecnicismos? Este artículo pretende ser una guía divulgativa para entender la matemática que hay detrás de todo esto, explicando un tipo concreto de aplicación en el que convergen todos ellos: el mantenimiento predictivo.
El mantenimiento predictivo consiste en la aplicación de distintas técnicas para pronosticar el futuro fallo de un componente de una máquina, de tal forma que dicho componente pueda reemplazarse justo antes de que falle. De esta forma, el tiempo muerto del equipo se minimiza, el tiempo de vida del componente se maximiza y las piezas se compran en el momento necesario eliminando stocks de piezas que acaban quedando obsoletas.
Podemos dividir las técnicas de mantenimiento predictivo en varios niveles. El técnico especializado que chequea la máquina y prevé que la pieza va a fallar está haciendo mantenimiento predictivo. El siguiente nivel consistiría en hacer que ese técnico realizara inspecciones periódicas para mejorar su criterio a la hora de prever posibles fallos en las piezas. Un nivel más se conseguiría poniendo sensores que envíen una alerta cuando las piezas se salgan de ciertos baremos previamente establecidos. El cuarto y último nivel consistiría en la aplicación de técnicas de analítica avanzada que utilicen los datos emitidos por los sensores para la detección temprana de anomalías que permitan detectar fallos en los distintos componentes.
Este último nivel entra dentro de la digitialización de la industria, denominada industria 4.0 o cuarta revolución industrial, y ha sido proclamado como la aplicación más revolucionaria del Internet de las cosas (IoT), definida como la conexión digital de objetos para crear sistemas inteligentes. La gran cantidad de datos que producen los sensores hace que el mantenimiento predictivo entre dentro del también denominado Big Data, definido como el análisis y procesamiento de grandes cantidades de datos. Con esto quiero ilustrar que el mantenimiento predictivo está en el centro de la innovación tecnológica actual, estando implícitamente incluido en el top 10 de tendencias tecnológicas estratégicas de la revista Gartner del 2018.
Implantación de un sistema de mantenimiento predictivo inteligente
¿Pero cómo se implanta un sistema de mantenimiento predictivo inteligente? Los datos son el motor del mantenimiento predictivo, con lo que deben ser recogidos y estructurados mediante una tecnología capaz de recolectar, analizar y procesar grandes cantidades de datos. Como hemos comentado antes, dada la cantidad de mediciones que realizan los sensores suelen ser tecnologías Big Data.
Es fundamental que los datos sean suficientemente representativos de los eventos que se quieren analizar. Por ejemplo, si se quiere prever el fallo de un determinado componente, los datos tienen que contener mediciones de los sensores relacionados con él en fallos anteriores. Así pues, si la empresa no tiene un sistema adecuado de recolección de datos, lo primero es pensar qué eventos o respuestas se quiere obtener de los mismos, colocar sensores en los sitios adecuados que realicen una continua medición e instalar una plataforma Big Data para su posterior procesamiento.
Análisis de negocio
Una vez recolectada la suficiente cantidad de datos es cuando entra en juego la analítica. Como en todo proyecto, lo primero es la comprensión del negocio para conocer sus necesidades, su situación actual y sus expectativas. Es importante que durante el análisis queden resueltos los siguientes objetivos:
- Objetivos de negocio: ¿qué es lo que ha llevado a plantear este problema? ¿Qué objetivos se pretenden conseguir? ¿Cómo podemos medir el éxito del proyecto? Un objetivo de negocio en este caso puede ser saber qué componentes van a fallar en los próximos N días. El éxito del proyecto podría ser reducir los fallos en las piezas un X% (ya que sabiendo este dato con antelación podemos cambiar la pieza antes de que falle).
- Análisis de la situación actual: ¿se dispone de todos los datos necesarios para abordar el proyecto? ¿Qué datos se guardan sobre cada componente? ¿Con qué frecuencia se actualizan dichos datos? ¿Quiénes son las personas clave para poder acceder a ellos? ¿Existe ya algún patrón identificado de comportamiento por el que se sepa que el componente falla?
- Determinar las metas del análisis de datos: la tarea consiste en traducir los objetivos de negocio en metas del análisis de datos. Por ejemplo en el caso de querer saber qué componentes van a fallar en los próximos N días, una primera meta podría ser determinar qué características de los sensores hacen que el componente falle, con la meta posterior de determinar el tiempo que tarda en fallar el componente una vez se producen dichas condiciones. Dando un paso más se podría establecer la meta de saber qué acciones y en qué momento se aplican de cara a reducir los tiempos en los que la máquina está parada.
Comprensión y tratamiento de datos
Con los objetivos de negocio claros, es hora de empezar a entender los datos. Para ello es necesario tener un fuerte conocimiento funcional sobre ellos. Por eso en esta primera etapa el contacto con el equipo de mantenimiento y el equipo técnico e informático es crucial. ¿Qué es exactamente lo que mide cada sensor? ¿Por qué hay datos de determinados sensores que no están informados en algún instante de tiempo? ¿Qué significan los estados de este sensor? ¿Dónde están los datos y cómo se relacionan? ¿Cuáles son las variables desde el punto de vista funcional que afectan al estudio que queremos hacer?
En este momento es cuando llega la parte del estudio en la que se va a ir la mayor parte del tiempo del proyecto. La comprensión, selección, integración, limpieza y construcción de datos que hacen que se puedan aplicar a ellos técnicas matemáticas que den respuesta a los objetivos de negocio.
Cuando una analista de datos se presenta ante un problema de mantenimiento predictivo normalmente se encuentra con un montón de ficheros que contienen del orden de centenas de variables y millones de datos. Uno de los pasos principales es entonces centralizar y ordenar los datos necesarios incluyéndolos en una única tabla. Esta tabla contendrá datos de uno o más aparatos dependiendo del estudio que se quiera llevar a cabo. Las columnas o variables corresponderán a cada uno de los sensores a tener en cuenta. Una fila será la medición de todos los sensores en un instante en el tiempo.
En esta fase se intentan entender matemáticamente los datos viendo por una parte cómo se distribuye cada variable y por otra cómo se relacionan las variables entre sí. En mantenimiento predictivo este punto tiene la dificultad añadida de que son problemas que normalmente tienen muchas variables y muchísimos datos, lo que hace difícil tener una visión general de los mismos. Gráficos útiles en este sentido suelen ser aquellos que dan información sobre datos agrupados tales como los diagramas de barras, de cajas o mapas de calor. Todas estas técnicas de visualización y análisis de lo que ha pasado entran dentro del ámbito de la analítica descriptiva o Business Intelligence, que hasta hace relativamente poco era la única analítica de datos que las empresas aplicaban para respaldar sus decisiones.
¿Para qué queremos entender matemáticamente las mediciones de cada sensor y las relaciones simples entre ellos? Lo primero es que el análisis descriptivo puede dar una intuición clara de cuales son algunos factores que hacen que una máquina o un componente falle. De esta forma, se puede tener una primera aproximación de qué variables son importantes para encontrar respuesta a los objetivos planteados, qué forma tienen estas variables y qué transformaciones necesitan de cara a poder aplicar un modelo de predicción u otro.
En el caso del mantenimiento predictivo, el número de sensores, y por tanto de variables, suele ser excesivamente alto y en general no es suficiente la reducción de variables que se hace después de entender los datos funcional y analíticamente. Para estos casos se suele aplicar una técnica matemática llamada «Análisis de Componentes Principales», que intenta representar el conjunto de datos mediante nuevas variables. Aquí, la analista decide el número óptimo de nuevas variables a tener en cuenta en función de la variabilidad que representan en el conjunto inicial, es decir se intenta que las nuevas variables representen al máximo las variaciones que se dan en los datos originales.
Técnicas de Modelización
Llegó el momento de dar respuesta a los objetivos del análisis de datos. La analítica predictiva se define como la aplicación de modelos matemáticos para estimar aquellos datos de negocio que son desconocidos o inciertos. Estas técnicas buscan patrones, tendencias o modelos en los datos pasados que puedan predecir la probabilidad de eventos futuros.
Un modelo matemático en el ámbito de la analítica predictiva es un conjunto de transformaciones o funciones que aplican a los datos de entrada y que los transforman en en un valor de la variable respuesta. Por verlo de una forma simple podríamos intuir que el hecho de que una pieza pueda fallar en los próximos 10 días depende directamente de los incrementos de temperatura por encima de los 100 grados que ha tenido a lo largo de su vida útil. Podríamos tener un modelo entonces cuya respuesta fuera «sí» si el sensor correspondiente ha detectado más de 10 incrementos de temperatura desde que se instaló la pieza y «no» en otro caso. Estaríamos hablando de un modelo de árbol de decisión.
Según el tipo de objetivo de negocio se aplicarán un tipo de técnicas u otras. En el ámbito del mantenimiento predictivo se identifican cuatro grandes grupos de modelos matemáticos:
- Modelos de clasificación: se usan cuando existe una variable estado (es decir, cuyo valor está dentro de un conjunto finito de posibilidades) que queremos predecir o explicar. Entran dentro de este grupo los modelos que responden a preguntas del tipo: ¿fallará este componente en los próximos N días?. Estos modelos buscan patrones que han dado lugar a fallos en el pasado (datos históricos medidos en los sensores junto con un histórico de fallos) para poder prever futuros errores en las máquinas.
- Modelos de regresión: los modelos de regresión permiten predecir el valor de una variable continua (es decir una variable que puede tomar infinitos valores) en función de otras variables. Como en el punto anterior, aprende de las relaciones de las variables en el pasado infiriendo que esas relaciones se conservarán en el futuro. Dentro de este grupo entraría el análisis del tiempo de vida restante de un componente (RUL).
- Modelos de segmentación: estos tipos de modelos agrupan datos con características similares en clústeres, de manera que los datos que forman parte de un mismo clúster tienen características semejantes, mientras que los clústeres entre sí tienen características lo más dispares posibles. Entra dentro de este grupo la detección de anomalías, identificándolas bien porque son muy distantes al centro del clúster al que pertenecen, o porque se identifica un clúster a la que todas pertenecen. No son realmente modelos predictivos, se denominan modelos de aprendizaje no supervisado.
- Modelos de análisis de supervivencia: esta técnica es capaz de predecir el tiempo que tarda en ocurrir un determinado suceso. En el ámbito del mantenimiento predictivo se usa para predecir la probabilidad de fallo a lo largo del tiempo según las características del componente.
Una vez determinado el tipo de modelización a usar, habrá que elegir el modelo concreto que se va a aplicar y cómo se va a parametrizar dicho modelo. Cada grupo identificado tendrá una serie de modelos que aplican distintas técnicas para intentar dar respuesta al problema planteado. Así por ejemplo, dentro de los modelos de clasificación nos encontramos los modelos de árboles de decisión, máquinas de vector soporte, redes neuronales y otros muchos más.
Dependiendo de la naturaleza de los datos habrá modelos que den una respuesta más precisa a los objetivos planteados en el análisis de datos. Para elegir el modelo y la parametrización con la que vamos a realizar la previsión se prueban varios modelos sobre los datos con varias parametrizaciones y se elige aquel que tenga una precisión mayor. Si no hay ninguno que llegue a una precisión razonable, nos planteamos si hace falta hacer alguna transformación más en los datos o incluir algún dato más con el que no hayamos contado.
Los modelos se ajustan en base a los datos a los que estén aplicando. Por ejemplo, los nodos y los puntos de corte de un árbol de decisión dependerán de los datos que hayan sido usados para ajustarlo. En los modelos predictivos, si usáramos todos los datos de los que disponemos para ajustar un modelo podría darse el caso que se encontrara un modelo que predijera muy bien los datos históricos pero que al aplicarse a datos futuros su precisión fuera mala. Por esta razón estos modelos se ajustan con un subconjunto de los datos (normalmente el 80%) llamados datos de entrenamiento y su precisión se mide usando la parte de los datos con los que no ha sido entrenado, llamados datos de validación. A veces se usa un tercer subconjunto para mejorar la parametrización del modelo, llamado datos de test.
¿Cómo podemos valorar la precisión de la respuesta? Una vez más el tipo de modelo determina las medidas que evalúan la calidad de la solución. Por ejemplo en los modelos de clasificación y regresión, al tener la respuesta de la variable buscada en los datos, se evalúa lo cerca que ha estado la respuesta del modelo de la respuesta real. Si estamos buscando respuesta al fallo del componente en los próximos 10 días, podemos aplicar el modelo a los datos que ya tenemos, es decir, a los datos de validación y ver si la respuesta ha sido correcta o no. Acumulando las veces que nuestro modelo acierta y falla podremos evaluar qué modelo y qué parámetros dan la respuesta más alineada con los objetivos de negocio.
Queda por saber qué hacemos con el modelo parametrizado que hemos demostrado que es el que mejor da respuesta a los objetivos de negocio. Como hemos explicado anteriormente, un modelo es una serie de transformaciones que se aplican a los datos de entrada transformándolos en la variable de respuesta. Aplicando entonces este modelo a los datos venideros generados por los sensores, podremos prever qué pasará en el futuro.
El flujo del proyecto
Tal y como hemos contado, el proceso de realización de un proyecto de mantenimiento predictivo se puede ver como una escalera en la que vas subiendo peldaños hasta llegar a la cima, sin mirar atrás. Nada más lejos de la realidad, el flujo del proyecto es un vaivén que va desde la modelización a la comprensión de datos, para volver a modelizar mejorando la precisión de la respuesta. La interacción con negocio y los equipos de mantenimiento es también constante, ya que éstos tienen la experiencia e información capaces de contrastar las respuestas del modelo y aportar nuevos datos que ayuden al modelo a dar una mayor precisión en ellas.
Al igual que la ejecución del proyecto, la vida de una herramienta de previsión está en continuo movimiento. Una vez se hallan en los datos las respuestas requeridas y se actúa en consecuencia, los nuevos datos recogidos darán nuevas respuestas o nos harán plantearnos nuevas preguntas y el proceso empieza de nuevo.