La precisión lograda en todos los casos fue alta, con más del 95,9% de los píxeles clasificados correctamente, lo que llevó a una clasificación correcta del 100% de las frutas con daño

Uso de imagen hiperespectral y técnicas de aprendizaje automático para detectar y discriminar defectos en níspero D.O.P. Callosa d’En Sarrià

Sandra Munera^1,3, Salvador Castillo-Gironés¹, Marina López-Chulia¹, Juan Gómez-Sanchís², Nuria Aleixos³, Sergio Cubero¹, Esteban Soler⁴, José Blasco¹

¹Centro de Agroingeniería, Instituto Valenciano de Investigaciones Agrarias (IVIA), Ctra. Moncada-Náquera Km 4.5, 46113, Moncada (Valencia), España.

²Departamento de Ingeniería Electrónica, Universitat de València, Av. Universitat, s/n, 46100, Burjassot (Valencia), España.

³Departamento de Ingeniería Gráfica, Universitat Politècnica de València, Camino de Vera, s/n, 46022, Valencia, España.

⁴Cooperativa de Callosa d’en Sarrià. Partida Micleta, s/n. 03510 Callosa d’en Sarrià, Alicante, España.

20/03/2023

El níspero (Eriobotrya japonica L.) es una fruta importante para la economía de algunas regiones de España, pero es muy susceptible a daños mecánicos y trastornos fisiológicos. Este hecho deprecia su valor e impide su exportación. Por ello, en este trabajo se utilizaron imágenes hiperespectrales en el espectro visible e infrarrojo cercano para detectar y discriminar entre algunos de los defectos externos e internos más comunes del níspero cv. ‘Algerie’. Se han evaluado dos algoritmos de aprendizaje automático (Machine Learning) como Random Forest y XGBoost, para distinguir entre frutas sanas y con cuatro tipos de defectos, de acuerdo con tres enfoques. En el primero, los píxeles de la fruta se clasificaron en dos clases, sanos o con daño, con una tasa de éxito del 97,5 %. En el segundo, se consideraron los daños internos (invisibles) y externos por separado, logrando una tasa de éxito del 96,7 %. Por último, se consideró cada tipo de defecto por separado, es decir, mancha púrpura, golpes, rameado y pardeamiento de la pulpa, con una tasa de identificación correcta del 95,9 %. Los resultados indicaron que XGBoost fue el mejor método en todos los casos.

Introducción

El níspero es una fruta con excelente cualidades organolépticas y nutricionales. Destaca particularmente en su contenido de vitamina A y es una buena fuente de potasio, fósforo y, en menor medida, magnesio y calcio. Es también apreciada por su sabor dulce con toques ácidos y su facilidad de pelado. España es el principal productor de níspero (Eriobotrya japonica L.) de la región mediterránea y el principal exportador del mundo (Besada et al., 2017). El interés por esta fruta en nuestro país radica en que el grueso de su producción se concentra en un corto período de tiempo (de mediados a finales de abril), cuando hay poca competencia con otras frutas en el mercado. En la Comunitat Valenciana, la producción se centra en la variedad ‘Algerie’, que representa más del 80% de la cosecha total.

Se trata de una fruta delicada, de piel fina que se puede dañar fácilmente. El viento provoca que las hojas y las ramas rocen su piel y aparezcan marcas marrones que deprecian su valor comercial. En algunas regiones productoras de España, principalmente en Callosa d'en Sarrià (Alicante), el cultivo está protegido por mallas para evitar este tipo de daños, mientras se controla la humedad y la temperatura (Soler et al., 2007). Además, es propenso a la aparición de manchas marrones tanto en la piel como en la pulpa debido a golpes o daños mecánicos provocados durante la cosecha o el manejo poscosecha (Cañete et al., 2015). El níspero también es sensible a sufrir trastornos fisiológicos. Algunos ejemplos son el conocido como mancha púrpura, provocado por deshidrataciones de la piel debidas a cambios en el contenido de agua en la pulpa durante el desarrollo de la fruta (Gariglio et al., 2008) o el llamado “tomatito”, un pardeamiento interno que se puede deber a la exposición a altas temperaturas antes o después de la cosecha o a un almacenamiento prolongado.

Debido a la susceptibilidad a recibir daños durante su manejo, la inspección de la calidad postcosecha del níspero se realiza tradicionalmente de manera visual y manual por operadores experimentados, de acuerdo con unos estándares de calidad establecidos. Esta calidad se basa en clasificar la fruta por tamaños y por la presencia y apariencia de daños o defectos en la piel. Sin embargo, la diferenciación e identificación de la gravedad de los daños y, en especial, la imposibilidad de detectar de daños internos o no visibles, hacen que la evaluación de la calidad tenga un componente de subjetividad.

Algunos de estos inconvenientes se pueden prevenir utilizando sistemas de inspección automática basada en visión artificial (Cubero et al., 2011). En la actualidad, existen sistemas de visión que utilizan cámaras de color y son capaces de detectar propiedades externas como calibre, forma, color o presencia de daños externos. Estos sistemas se vienen aplicando con éxito para evaluar la calidad y clasificar diferentes frutas, entre las que destacan los cítricos. Una de las principales ventajas es su gran velocidad, por el contrario, no pueden detectar daños invisibles al estar desarrollados para imitar al ojo humano.

Existen otras tecnologías basadas en imágenes que son capaces de obtener información del interior del producto. Por ejemplo, los sistemas de resonancia magnética de imágenes o de rayos X nos proporcionan imágenes del interior de los cuerpos, proporcionando información sobre la existencia de diferentes tipos de tejidos, cavidades, semillas, etc. pero son caros, complejos y requieren instalaciones especiales. Una alternativa que está cobrando fuerza para obtener información sobre algunas propiedades internas en la industria agroalimentaria es la imagen hiperespectral (Lorente et al., 2012). Esta tecnología captura un elevado número de imágenes monocromáticas en longitudes de onda consecutivas en regiones específicas (visibles y no visibles) del espectro electromagnético.

Este tipo de imagen proporciona información espectral en las regiones del visible e infrarrojo cercano, que se puede asociar a determinados compuestos bioquímicos. Además, permite visualizar esta información de manera espacial, lo que permite ver la distribución de las propiedades o daños medidos. De esta forma, de cada píxel en la imagen se obtiene el espectro de la fruta en ese punto. Una de sus mayores ventajas es que permiten la inspección más allá de las capacidades del ojo humano, pudiendo detectar daños o defectos utilizando invisibles al ojo humano (Blasco et al., 2020; Munera et al., 2016 y 2018).

Ahora bien, este tipo de imágenes genera mucha información, parte de la cual es redundante o está correlacionada. Cada longitud de onda representa una variable que ofrece determinada información del problema, pero, normalmente, imágenes capturadas en dos longitudes de onda muy próximas contendrán información similar. Para un análisis correcto de las imágenes, es necesario aplicar técnicas estadísticas multivariantes, algunos de los más utilizados son el análisis de componentes principales (PCA) o el de mínimos cuadrados parciales (PLS). Sin embargo, los métodos basados en aprendizaje automático o “Machine Learning” son apropiados y muy prometedores para extraer información de las imágenes hiperespectrales debido a su alta precisión en los problemas de clasificación. Este es el caso de los métodos Random Forest (RF) y Extreme Gradient Boosting (XGBoost). RF se basa la combinación de un conjunto de árboles de decisión. Los árboles de decisión son un tipo de algoritmos de aprendizaje supervisado que divide (ramifica) el espacio de predictores (variables independientes) en regiones distintas y no solapadas. Esta técnica crea distintos árboles que ven distintas porciones de los datos, lo que hace que cada uno se entrene con muestras de datos diferentes para un mismo problema. Al combinar sus resultados, unos errores se compensan con otros y se obtiene una predicción que generaliza (Heras 2020). Por otro lado, XGBoost es uno de los algoritmos supervisados de aprendizaje que más se usan en la actualidad. Generan múltiples modelos de predicción “débiles” secuencialmente, de forma que cada uno toma los resultados del modelo anterior para generar un modelo más “fuerte”, con mejor poder predictivo y mayor estabilidad en sus resultados.

El Instituto valenciano de Investigaciones Agrarias (IVIA) lidera una colaboración con la Universitat de Valencia, la Universitat Politècnica de València y la Cooperativa Agrícola de Callosa d'en Sarrià para investigar métodos automatizables y no destructivos garantizar la calidad del níspero en poscosecha, capaces de detectar e identificar defectos en níspero, especialmente no visibles, evitando que nísperos de menor calidad lleguen al mercado. Este trabajo describe los primeros pasos dados para alcanzar este objetivo a través del análisis de la fruta mediante imágenes hiperespectrales y sistemas de aprendizaje automático.

Fruta utilizada y captura y análisis de las imágenes

Nísperos

Para la realización de este estudio se utilizaron un total de 134 nísperos cv. ‘Algerie’ con madurez comercial, proporcionados por la Cooperativa Agrícola de Callosa d'en Sarrià (Alicante). Algunas de las frutas no contenían daños apreciables (77) mientras que otras presentaban diferentes defectos externos como rameados (17) y mancha púrpura (26), y daños internos como pardeamiento de la pulpa (36) y golpes (55). A la hora de sumar los distintos tipos de características, hay que tener en cuenta que algunos nísperos contenían más de un tipo de daño. En total, las frutas se dividieron en los cinco tipos que muestra la figura 1. Los daños internos resultaban evidentes al pelar la fruta, por ello, en la fruta intacta se podían intuir cuando se inspeccionaba con detalle, aunque pasaban desapercibidos en una inspección rutinaria.

Figura 1. Ejemplo de tipo de frutas bajo estudio. Defectos internos: pardeamiento interno de la pulpa (a) y golpe (b), defectos externos: rameado (c) y mancha purpura (d), fruta sana (e). La fila superior muestras las frutas intactas mientras que la fila inferior muestra las mismas frutas una vez peladas.

Sistema hiperespectral

Las imágenes hiperespectrales se obtuvieron por una cámara (CoolSNAP ES, Photometrics, AZ, EE.UU.), acoplada a dos filtros sintonizables de cristal líquido (Varispec VIS-07 y NIR-07, Cambridge Research & Instrumentation, Inc., MA, EE.UU.). La cámara se configuró para adquirir imágenes con un tamaño de 1392 × 1040 píxeles y una resolución espacial de 0,14 mm / píxel a 60 longitudes de onda diferentes cada 10 nm, en el rango espectral de trabajo de 450 nm a 1040 nm. La escena se iluminó por la luz indirecta de doce lámparas halógenas de 37 W (Eurostar IR Halogen MR16. Ushio America, Inc., CA, EE.UU.), alimentadas por corriente continua (12 V) y dispuestas equidistantes entre sí dentro de un difusor hemisférico de aluminio pintado en blanco mate.

Análisis de las imágenes

Tras la captura de las imágenes, se corrigió la reflectancia relativa utilizando imágenes de la referencia blanca y negra. Se seleccionaron regiones de interés (ROI) en las imágenes, correspondientes a piel y pulpa sana y a cada uno de los defectos estudiados, extrayendo el espectro de cada uno de los píxeles de cada ROI. Así, se obtuvieron un total de 22140 espectros correspondientes a píxeles de las siguientes clases: piel y pulpa sana (7733), mancha púrpura (1738), rameado (478), golpes (5871) y pardeamiento de la pulpa (6320). Los datos se ordenaron en una matriz, de forma que las variables predictoras (X) fueron los espectros obtenidos (60 longitudes de onda de 450 nm a 1040 nm) mientras que las variables objetivo (Y) fueron las clases predefinidas de fruta sana y distintos tipos de daño. Las matrices de datos obtenidas se usaron de entrada a los dos métodos de aprendizaje utilizados, RF y XGBoost.

Análisis de los datos

Los métodos en análisis se programaron R versión 3.6.3 (https://www.r-project.org), utilizando el paquete mlr (Machine Learning) versión 2.17.1 (https: //mlr.mlr-org.com). Los espectros obtenidos se dividieron aleatoriamente en un conjunto de entrenamiento de 15497 muestras (70%) y un conjunto de prueba independiente de 6643 muestras (30%). Para corregir o minimizar ruido o efectos no deseados debidos al proceso de captura de imágenes, se aplicaron determinadas técnicas de preprocesamiento. Las utilizadas en este trabajo fueron variable normal estándar (SNV), media móvil + SNV (movav + SNV), suavizado Savitzky Golay + SNV (SG + SNV), primera derivada + SNV (1D + SNV), segunda derivada + SNV (2D + SNV) y derivada del segmento Gap + SNV (GapD + SNV). Los datos de la reflectancia capturada (RAW) también se utilizaron para construir los modelos.

Posteriormente, se probaron y compararon los dos algoritmos de aprendizaje automático, RF y XGBoost, para clasificar los píxeles de las imágenes de las frutas en una de las clases predefinidas. Cada método requiere un entrenamiento y una optimización de algunos parámetros para lo que se utilizaron las muestras del conjunto de entrenamiento. La selección de los parámetros óptimos para cada clasificador se realizó utilizando 200 modelos aleatorios y el método de Monte Carlo. Para comprobar la eficacia de los algoritmos de aprendizaje se realizaron tres ensayos bajo supuestos diferentes. En el primer enfoque, las muestras se clasificaron solo en dos clases, sano o defecto. En el segundo enfoque, además de fruta sana se separaron los defectos entre externos (rameado y mancha púrpura) o defectos de la pulpa (golpes y pardeamiento de la pulpa). En el tercer enfoque, el níspero sano y cada uno de los cuatro defectos se consideraron por separado, haciendo un total de cinco clases.

Todos los modelos se validaron utilizando el conjunto de entrenamiento de muestras mediante validación cruzada (3-fold CV) con 10 repeticiones. Los resultados obtenidos se presentaron como matrices de confusión. Para el enfoque I, como la clasificación era binaria, el rendimiento de todos los modelos se expresó en términos del área bajo la curva ROC (AUC). Una curva ROC (Receiver Operating Characteristic) es una representación gráfica que ilustra la relación entre la sensibilidad (capacidad para detectar los píxeles que corresponden con verdaderos defectos) y la especificidad (capacidad para detectar los realmente sanos) de un clasificador para diferentes valores de umbral. Un valor de 1 significa un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). Para los enfoques II y III, el rendimiento de todos los modelos se expresó en términos de porcentaje de éxito de la clasificación. Un defecto se consideraba presente si tenía un área superior al 10% del área total de fruta. Una vez seleccionado el mejor modelo, se expresaron los datos de clasificación mediante matrices de confusión.

Resultados

Enfoque I

El objetivo de este primer enfoque fue observar la capacidad de estos modelos para detectar cualquier daño en la fruta, es decir, separar las muestras sanas de aquellas que presentan cualquier tipo de defecto. La figura 2 muestra la gráfica AUC obtenido para todas las técnicas de preprocesamiento y los dos clasificadores. Ambos métodos de aprendizaje automático lograron detectar la fruta dañada de manera similar, llegando a una tasa de clasificación muy alta en algunos casos. En general, XGBoost logró un mejor rendimiento que RF. Además, el mejor resultado se obtuvo utilizando los datos sin preprocesar (RAW).

Figura 2. Evolución del AUC frente al método de preprocesado de los espectros para RF y XGBoost en el enfoque I.

La tabla 1 muestra los resultados obtenidos mediante una validación cruzada y sobre un conjunto externo de muestras, utilizando la combinación de XGBoost y los datos sin preprocesar. La validación cruzada mostró un rendimiento cercano al 100% de precisión. El rendimiento del modelo también fue bueno para el conjunto de validación externa, pero la precisión cayó al 92,0% para las muestras sanas y al 98,8% para las muestras con daño. Por lo tanto, la precisión total se redujo ligeramente del 99,9% al 97,5%.

Tabla 1. Resultados de la clasificación para el enfoque I usando XGBoost y los espectros sin preprocesar, usando el conjunto de prueba independiente. Datos expresados en %.

Enfoque II

Recordemos que este enfoque presentaba tres clases, fruta sana, fruta con daños de la piel (externos) y fruta con daños de la pulpa (internos). La figura 3 muestra la precisión de los dos clasificadores para cada preprocesado. Ambos clasificadores aún presentaron resultados similares, siendo la precisión mayor del 90,0% excepto cuando se utilizaron derivadas en el preprocesamiento de los datos. En este caso, XGBoost obtuvo la mayor precisión en todos los casos, siendo el mejor resultado usando los datos en sin preprocesar, al igual que en el enfoque anterior. Así, la mejor combinación para clasificar las muestras entre las tres clases fue también XGBoost y los datos sin preprocesar.

Figura 3. Evolución de la precisión frente al método de preprocesado de los espectros para RF y XGBoost en el enfoque II.

La Tabla 2 muestra los resultados de la validación interna y externa con el set de validación. Los resultados de la validación cruzada también mostraron un buen rendimiento con una precisión de casi el 100% para las tres clases, como en el primer enfoque. Cuando se introdujo el conjunto de muestras de validación externa en el modelo, el rendimiento también fue bueno, pero la precisión disminuyó al 95,5% en las muestras sanas, al 93,1% en los defectos externos y 98,0% en los defectos internos. Por lo tanto, la tasa de precisión total se redujo del 99,9% al 96,7%. El modelo clasificó mejor los defectos internos que los externos y aquellas frutas sanas mal clasificadas, se consideraron como con daños internos.

Tabla 2. Resultados de la clasificación para el enfoque II usando XGBoost y los espectros sin preprocesar, usando el conjunto de prueba independiente. Datos expresados en %.

Enfoque III

Este enfoque incluía la detección de la fruta sana y de cada uno de los daños estudiados individualmente. Como muestra la Figura 4, los dos clasificadores continuaron presentando resultados similares con una precisión superior a 90 % excepto cuando se usaron derivadas en el preprocesado. Sin embargo, XGBoost obtuvo una vez más la mayor precisión en todos los casos y de igual manera utilizando los datos sin preprocesar.

Figura 4. Evolución de la precisión frente al método de preprocesado de los espectros para RF y XGBoost en el enfoque III.

La tabla 3 muestra los resultados de la validación cruzada y del conjunto de validación externa, utilizando la combinación de XGBoost y datos sin preprocesar. Los resultados de la validación interna también mostraron una buena precisión como en el caso de los enfoques I y II, con alrededor del 99,9% de las muestras correctamente clasificadas. Cuando se introdujo el conjunto externo de validación en el modelo, el rendimiento disminuyó a una precisión general del 95,9%, pero en todos los casos superior al 92%. Las tasas más altas de clasificación errónea se observaron principalmente entre golpe y mancha púrpura, pero también entre el pardeamiento de la pulpa y la fruta sana probablemente debido a los casos más leves o por confusión con una piel algo más oscura. La Figura 5 muestra el resultado de la segmentación de imágenes de nísperos con los diferentes defectos estudiados y clasificados utilizando este enfoque.

Tabla 3. Resultados de la clasificación para el enfoque III usando XGBoost y los espectros sin preprocesar, usando el conjunto de prueba independiente. Datos expresados en %.

Discusión

XGBoost fue el mejor método de clasificación en todos los casos, especialmente cuando se utilizó con los datos sin ningún preprocesado. La precisión lograda en todos los casos fue alta, con más del 95,9% de los píxeles clasificados correctamente, lo que llevó a una clasificación correcta del 100% de las frutas con daño. El mejor resultado se logró para la clasificación binaria entre muestras sanas y con daño (enfoque I) con una precisión global del 97,5%, alcanzando una tasa de éxito del 98,8% en la detección de píxeles pertenecientes a cualquier defecto. Aunque es el caso más sencillo, la precisión también fue alta para los otros enfoques. Es de destacar que no hubo confusión entre piel sana y cualquier defecto externo, lo que indica que los clasificadores funcionaron bien con defectos visibles. La confusión entre la piel sana y los defectos internos se debió principalmente al pardeamiento interno de la pulpa, que probablemente pudiera confundir un oscurecimiento de la piel.

Los resultados de este estudio se han obtenido utilizando el espectro completo y aunque fueron buenos, la investigación futura debe centrarse en realizar una selección adecuada de longitudes de onda óptimas para agilizar la discriminación entre las frutas sanas y los diferentes defectos.

Figura 5. Imágenes originales y segmentadas de frutas sanas y con los diferentes defectos estudiados.

Conclusiones

En este trabajo se ha evaluado el uso de imágenes hiperespectrales en combinación con técnicas basadas en aprendizaje automático para detectar y discriminar defectos habituales en el níspero cv. ‘Algerie’, como mancha púrpura, rameado, golpes o pardeamiento de la pulpa. Se evaluaron dos algoritmos, RF y XGBoost, y diferentes preprocesados de los espectros para discriminar entre frutas sanas y defectuosas de acuerdo con tres enfoques: en el enfoque I, el mejor resultado se obtuvo utilizando XGBoost y los datos sin ningún procesamiento previo. Los píxeles de la fruta se clasificaron como sanos o defectuosos con una precisión del 97,5 %. En el enfoque II, el mejor resultado también se obtuvo utilizando XGBoost y los datos sin ningún tratamiento previo. Los píxeles de la fruta se clasificaron como sano, defecto interno o externo con una precisión del 96,7 %. Nuevamente, para el enfoque III, el mejor resultado se obtuvo usando XGBoost y los datos sin ningún procesamiento previo. Los píxeles de la fruta se clasificaron como sanos, mancha purpura, rameado, golpe o pardeamiento de la pulpa con una precisión del 95,9%. Finalmente, los resultados obtenidos por los mejores modelos pudieron ser visualizados en la superficie de la fruta. Estos resultados indican el potencial de la tecnología propuesta como una herramienta prometedora para evaluar la calidad del níspero.

BIBLIOGRAFÍA

Blasco J, Pérez-Marín D, Díaz R, Aleixos N (2020) Tecnologías ópticas para la inspección no destructiva del producto en poscosecha. Horticultura 348, 42-46

Cañete, M.L., Hueso, J., Pinillos V. & Cuevas, J. (2015) Ripening degree at harvest affects bruising susceptibility and fruit sensorial traits of loquat (Eriobotrya japonica Lindl.). Scientia Horticulturae 187, 102–107.

Cubero, S., Aleixos, N., Moltó, E., Gómez-Sanchis, J. & Blasco, J. (2011). Advances in Machine Vision Applications for Automatic Inspection and Quality Evaluation of Fruits and Vegetables. Food and Bioprocess Technology 4, 487-504.

Gariglio, N., Reig, C., Agustí, M. Manuel Agustí (2008) Assimilate partitioning between the flesh and the rind is responsible for purple spot in loquat fruit. Journal of Horticultural Science and Biotechnology 83, 37-42

Heras J.M. (2020) Random Forest (Bosque Aleatorio): combinando árboles. https://www.iartificial.net/random-forest-bosque-aleatorio (Accedido el 22 de febrero de 2023).

Lorente, D., Aleixos, N., Gómez-Sanchis, J., Cubero, S., García-Navarrete, O.L., Blasco, J. (2012). Recent advances and applications of hyperspectral imaging for fruit and vegetable quality assessment. Food and Bioprocess Technology 5, 1121-1142.

Munera, S., Besada, C., Cubero, S., Gil, R., Aleixos, N., Salvador, A., Blasco, J. (2016) Análisis de la distribución de la astringencia en caqui ‘rojo brillante’ usando imagen hiperespectral. Phytoma 282, 14-16.

Munera, S., Amigo, J.M., Aleixos, A., Talens, P., Cubero, S., Blasco, J. (2018) identificación de variedades de nectarina con apariencia similar y diferente sabor mediante imagen hiperespectral Agrícola Vergel, 414, 354-358

Soler, E., Martínez-Calvo, J., Llácer, G., Badenes, M.L., (2007). Loquat in Spain: Production and Marketing. Acta Horticulturae 750, 45-48.

AGRADECIMIENTOS

Este trabajo se ha cofinanciado por los proyectos GVA-PROMETEO CIPROM/2021/014, PID2019-107347RR-C31, -C32 y -C33 / AEI / 10.13039/501100011033, GVA-IVIA 52204 y la UE a través del Programa FEDER de la CV 2014-2020. Salvador Castillo agradece el contrato predoctoral MICIN-AEI PRE2020-094491 cofinanciado por el FSE. Los autores agradecen a Nísperos Ruchey por proporcionar soporte técnico y los nísperos utilizados en este estudio.