Industria Metalmecánica

TECNOLOGÍA DIGITAL 40 A continuación, ese conjunto de datos será procesado por PySpark en su modalidad Streaming. Esta librería se encarga de procesar y analizar datos por lotes con el uso de DataFrames (una estructura similar a una tabla que contiene filas y columnas). Asimismo, para comparar las lecturas actuales contra las lecturas históricas de la máquina se ha utilizado un dataset que contiene el conjunto de variables histórico. De esta manera, ha sido posible monitorizar el estado actual de cada variable. En cuanto al almacenamiento y persistencia de datos, se ha escogido InfluxDB como base de datos no relacional. Los datos de series de tiempo se almacenarán en una tabla y estarán ordenados por marcas de tiempo. Por su parte, el componente encargado de la visualización de los datos será Grafana. Este componente hará consultas a InfluxDB y representará los resultados en un cuadro de mandos (Dashboard) por medio de paneles. Así, los trabajadores de la fábrica podrán interpretar esos valores de una manera más intuitiva. Los resultados se presentan en dos tipos de paneles: gráficos e indicadores (gauges). En la figura 5 se muestra un ejemplo del primero, con algunos valores de carga capturados en tiempo real. También se observan varios indicadores que muestran la capacidad de carga de cada eje de la máquina en un momento determinado. Método de detección de anomalíasoutliers En su estado actual, esta plataforma detecta los valores atípicos que se producen en tiempo real para cualquiera de las variables monitorizadas. Para ello, se utiliza el rango intercuartil (IQR), un método conocido para encontrar valores atípicos en distribuciones de datos continuas. El IQR detectará como anomalías (outliers) los valores que caigan fuera de los límites dados para cada variable. Por consiguiente, tiene que entrenarse con algunos datos históricos. En este caso, se ha empleado un conjunto de datos históricos que contiene los registros de diferentes pruebas de fabricación realizadas en la THR 16 durante un periodo de dos años. Los datos fueron capturados con una frecuencia de 1 segundo y contienen las variables mencionadas en el apartado 2. La figura 6 muestra los cálculos generales del IQR: basándose en datos de entrada, el IQR calcula un rango que consiste en la diferencia entre el primer (Q1) y el tercer cuartil (Q3) para cada variable. Los límites (inferior y superior) de cada variable se utilizan para detectar outliers para cada nuevo dato que llega. En otras palabras, cada vez que PySpark recibe un lote de variables desde el servidor OPC se comparará con los límites extraídos del conjunto de datos que contiene los datos históricos. Así, los valores actuales que estén más allá del límite inferior o Figura 5. los datos se muestran de forma directa y cercana a la interpretación. Figura 6: Medidas estadísticas del Boxplot.

RkJQdWJsaXNoZXIy Njg1MjYx