POSTCOSECHA 65 internos como pardeamiento de la pulpa (36) y golpes (55). A la hora de sumar los distintos tipos de características, hay que tener en cuenta que algunos nísperos contenían más de un tipo de daño. En total, las frutas se dividieron en los cinco tipos que muestra la figura 1. Los daños internos resultaban evidentes al pelar la fruta, por ello, en la fruta intacta se podían intuir cuando se inspeccionaba con detalle, aunque pasaban desapercibidos en una inspección rutinaria. Sistema hiperespectral Las imágenes hiperespectrales se obtuvieron por una cámara (CoolSNAP ES, Photometrics, AZ, EE.UU.), acoplada a dos f iltros sintonizables de cristal líquido (Varispec VIS-07 y NIR-07, Cambridge Research & Instrumentation, Inc., MA, EE.UU.). La cámara se configuró para adquirir imágenes con un tamaño de 1392 x 1040 píxeles y una resolución espacial de 0,14 mm / píxel a 60 longitudes de onda diferentes cada 10 nm, en el rango espectral de trabajo de 450 nm a 1040 nm. La escena se iluminó por la luz indirecta de doce lámparas halógenas de 37 W (Eurostar IR Halogen MR16. Ushio America, Inc., CA, EE.UU.), alimentadas por corriente continua (12 V) y dispuestas equidistantes entre sí dentro de un difusor hemisférico de aluminio pintado en blanco mate. Análisis de las imágenes Tras la captura de las imágenes, se corrigió la reflectancia relativa utilizando imágenes de la referencia blanca y negra. Se seleccionaron regiones de interés (ROI) en las imágenes, correspondientes a piel y pulpa sana y a cada uno de los defectos estudiados, extrayendo el espectro de cada uno de los píxeles de cada ROI. Así, se obtuvieron un total de 22140 espectros correspondientes a píxeles de las siguientes clases: piel y pulpa sana (7733), mancha púrpura (1738), rameado (478), golpes (5871) y pardeamiento de la pulpa (6320). Los datos se ordenaron en una matriz, de forma que las variables predictoras (X) fueron los espectros obtenidos (60 longitudes de onda de 450 nm a 1040 nm) mientras que las variables objetivo (Y) fueron las clases predefinidas de fruta sana y distintos tipos de daño. Las matrices de datos obtenidas se usaron de entrada a los dos métodos de aprendizaje utilizados, RF y XGBoost. Análisis de los datos Los métodos en análisis se programaron R versión 3.6.3 (https:// www.r-project.org), utilizando el paquete mlr (Machine Learning) versión 2.17.1 (https: //mlr.mlr-org.com). Los espectros obtenidos se dividieron aleatoriamente en un conjunto de entrenamiento de 15497 muestras (70%) y un conjunto de prueba independiente de 6643 muestras (30%). Para corregir o minimizar ruido o efectos no deseados debidos al proceso de captura de imágenes, se aplicaron determinadas técnicas de preprocesamiento. Las utilizadas en este trabajo fueron variable normal estándar (SNV), media móvil + SNV (movav + SNV), suavizado Savitzky Golay + SNV (SG + SNV), primera derivada + SNV (1D + SNV), segunda derivada + SNV (2D + SNV) y derivada del segmento Gap + SNV (GapD + SNV). Los datos de la reflectancia capturada (RAW) también se utilizaron para construir los modelos. Posteriormente, se probaron y compararon los dos algoritmos de aprendizaje automático, RF y XGBoost, para clasificar los píxeles de las imágenes de las frutas en una de las clases predefinidas. Cada método requiere un entrenamiento y una optimización de algunos parámetros para lo que se utilizaron las muestras del conjunto de entrenamiento. La selección de los parámetros óptimos para cada clasificador se realizó utilizando 200 modelos aleatorios y el método de Monte Carlo. Para comprobar la eficacia de los algoritmos de aprendizaje se realizaron tres ensayos bajo supuestos diferentes. En el primer enfoque, las muestras se clasificaron solo en dos clases, sano o defecto. En el segundo enfoque, además de fruta sana se separaron los defectos entre externos (rameado y mancha púrpura) o defectos de la pulpa (golpes y pardeamiento de la pulpa). En el tercer enfoque, el níspero sano y cada uno de los cuatro defectos se consideraron por separado, haciendo un total de cinco clases. Todos los modelos se validaron utilizando el conjunto de entrenamiento de muestras mediante validación cruzada (3-fold CV) con 10 repeticiones. Los resultados obtenidos se presentaron como matrices de confusión. Para el enfoque I, como la clasificación era binaria, el rendimiento de todos los modelos se expresó en términos del área bajo la curva ROC (AUC). Una curva ROC (Receiver Operating Characteristic) es una representación gráfica que ilustra la relación entre la sensibilidad (capacidad para detectar los píxeles que corresponden con verdaderos defectos) y la especificidad (capacidad para detectar los realmente sanos) de un clasificador para diferentes valores de umbral. Un valor de 1 significa un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). Para los enfoques II y III, el rendimiento de todos los modelos se expresó en términos de porcentaje de éxito de la clasificación. Un defecto se consideraba presente si tenía un área superior al 10% del área total de fruta. Una vez seleccionado el mejor modelo, se expresaron los datos de clasificación mediante matrices de confusión. RESULTADOS Enfoque I El objetivo de este primer enfoque fue observar la capacidad de estos modelos para detectar cualquier daño en la fruta, es decir, separar las muestras sanas de aquellas que presentan cualquier tipo de defecto. La figura 2 muestra la gráfica AUC
RkJQdWJsaXNoZXIy Njg1MjYx