METALMECÁNICA 345

IA, VISIÓN ARTIFICIAL, REALIDAD AUMENTADA 80 variables de entrada. En el caso de la atmósfera explosiva, es posible realizar la toma de datos en un sistema aislado fuera de la ATEX, una vez el modelo está entrenado se puede utilizar dentro de la ATEX. El objetivo de esta fase es obtener tantos datos y con tanta variedad como sea posible para nutrir fuertemente al modelo. Es vital, sin embargo, tener en cuenta que este proceso se ejecuta dentro de un entorno productivo, y que se deben asegurar los mecanismos y técnicas que permitan interferir lo menos posible en el proceso de fabricación. LIMPIEZA, ANÁLISIS Y ENTRENAMIENTO La limpieza de datos es un paso crítico en cualquier proceso de aprendizaje automático, ya que los datos a menudo vienen con errores, inconsistencias o directamente falta alguno. Estos problemas pueden sesgar los resultados y llevar a conclusiones incorrectas si no se tratan adecuadamente. La limpieza puede incluir la eliminación de duplicados, la corrección de errores, la imputación de valores que falten, la normalización de datos y la detección y eliminación de outliers (valores que se alejan demasiado de la forma natural de los datos, como puede verse en la ilustración). Este proceso también puede implicar la conversión de tipos de datos, como convertir datos categóricos en numéricos, y la manipulación de fechas y textos para que sean más manejables para los algoritmos de apren- dizaje automático. El análisis de los datos es el siguiente paso, y es esencial para entender las características de los datos y cómo se relacionan entre sí. Esto puede incluir la visualización de los datos para entender mejor su distribución y relaciones, el análisis estadístico para comprender las características clave y la correlación entre diferentes variables. Además, el análisis de los datos puede ayudar a identificar características importantes para el modelo de aprendizaje automático, permitiendo una reducción de la dimensión y una mejora del rendimiento del modelo. Finalmente, el entrenamiento del modelo es el proceso por el cual un algoritmo de aprendizaje automático aprende de los datos. Durante esta fase, el algoritmo utiliza los datos de entrada e intenta predecir la salida deseada, ajustando sus parámetros para minimizar la diferencia entre la predicción y la salida real. Este proceso será diferente dependiendo de la naturaleza de los datos y de los algoritmos de aprendizaje automático elegidos. A través del entrenamiento, el modelo aprende las complejidades y patrones subyacentes en los datos, lo que le permite hacer predicciones precisas sobre nuevos datos en el futuro. EVALUACIÓN DE RESULTADOS La evaluación de los resultados en un proceso de entrenamiento de aprendizaje automático es esencial para determinar si el modelo que se está desarrollando es efectivo y confiable. Esto implica evaluar el rendimiento del modelo con respecto a un conjunto de datos de prueba, que son datos que el modelo no ha visto durante su fase de entrenamiento. Se utilizan varias métricas de rendimiento, como la precisión, el recall, la F1-score, el error cuadrático medio (RMSE), o el área bajo la curva ROC (AUC-ROC), entre otros, dependiendo del tipo de problema que se esté resolviendo (clasificación, regresión, etc.). La evaluación de los resultados también se puede realizar durante el proceso de entrenamiento. Esta práctica se conoce como validación cruzada y se utiliza para evitar el sobreajuste, que ocurre cuando un modelo aprende ‘demasiado bien’ los datos de entrenamiento y luego tiene un rendimiento pobre en los datos de prueba. La validación cruzada implica dividir el conjunto de datos en varios subconjuntos o ‘pliegues’, y luego entrenar y evaluar el modelo varias veces, utilizando cada vez un pliegue diferente como conjunto de prueba. Es importante recordar que los resultados de la evaluación deben guiar la elección de las técnicas de aprendizaje automático y la selección de los parámetros del modelo. Un modelo puede tener un rendimiento excepcional en el conjunto de datos de entrenamiento, pero si se comporta mal en los datos de prueba, es proIlustración 6. Ilustración de un outlier. Fuente: probabilidadyestadstica.net.

RkJQdWJsaXNoZXIy Njg1MjYx