Todas las parcelas están situadas en el norte de España, en las provincias de Álava/Araba y Burgos, y las variedades de patata analizadas fueron Lucinda y Monalisa

Clasificación de las parcelas de patata del norte de España según su rendimiento utilizando datos de Sentinel-2

Uribeetxebarria, A.^1*, Carrasco, A.², Aranguren, M.^1,2, Legorburu, J.², Castellón, A.¹, Aizpurua, A.¹

1) NEIKER-Basque Institute for Agricultural Research and Development, Berreaga 1, 48160 Derio, Biscay, Spain

2) UDAPA, Pol. Ind. de Júndiz, Paduleta 1, 01015 Vitoria-Gasteiz, Araba, Spain

*auribeetxebarria@neiker.eus

25/03/2024

La patata (Solanum tuberosum L.) es un cultivo agrícola relevante en el País Vasco. La estimación temprana de su rendimiento es interesante para las cooperativas y agricultores porque permite una mejor planificación de futuras estrategias, como puede ser la recepción en el almacén central. Por ello, en este trabajo se indaga sobre la capacidad de utilizar la información auxiliar en combinación con el algoritmo 'Random Forest' (RF), este algoritmo es uno de los más utilizados a la hora de hacer predicciones o clasificaciones.

Introducción

Conocer cómo varía el rendimiento de la patata (Solanum tuberosum L.) de una parcela a otra en distintas campañas es vital para que agricultores y cooperativas planifiquen las estrategias de recepción, almacenamiento y compraventa.

Una vez que se han generado todos los tubérculos (un mes antes de la cosecha), los técnicos realizan muestreos con el fin de estimar el rendimiento. La técnica de muestreo utilizada por los técnicos de la cooperativa es el muestreo aleatorio simple (SRS), en el que se toman unas cuatro o cinco plantas de cada parcela. El SRS es la técnica de muestreo más común en agricultura. Sus principales ventajas son su simplicidad y la facilidad de interpretación de los resultados.

Sin embargo, como no tiene en cuenta la variabilidad de los cultivos, es ineficaz para estimar variables como el rendimiento, que muestran patrones espaciales (Webster y Lark, 2012). Por ello, deben tomarse muchas muestras para que el muestreo sea representativo y en consecuencia, el técnico debe de dedicar mucho tiempo a este fin. Esto se traduce en un gasto económico considerable, ya que cada técnico debe muestrear varias parcelas para hacerse una idea general del rendimiento previsto.

Desde el primer trabajo de Tucker et al. (1980), en el que se identificó la relación entre el NDVI y el rendimiento de grano, se han utilizado varios índices de vegetación (IV) en el seguimiento de cultivos y la predicción del rendimiento. Utilizando métodos estadísticos como la regresión lineal (LR) o el random forest (RF), la información extraída de los IV puede añadirse a modelos empíricos. Los IV proporcionan información sobre la biomasa aérea, esencial para captar la luz necesaria para el crecimiento de los órganos subterráneos (patatas). Los satélites Sentinel-2 (S-2) lanzados por el Programa Copernicus de la ESA (Agencia Espacial Europea) ofrecen una combinación única de alta resolución espacial (hasta 10 x 10 metros) y un tiempo de revisita de cinco días (Drusch et al., 2012). Sin embargo, la presencia de nubes limita la utilidad de este tipo de imágenes (Meraner et al., 2020).

A diferencia de lo que ocurre en los cereales (trigo, cebada) o los viñedos, donde los monitores de rendimiento son bastante comunes, su uso en patata no es habitual. Por ejemplo, en la zona donde se realizó el estudio no hay monitores de rendimiento de patatas. En consecuencia, no es posible obtener información de producción de alta resolución, que pueda utilizarse para entrenar y validar modelos para una estimación precisa del rendimiento. Una opción para superar este problema es el uso de un algoritmo de clasificación supervisado, como RF, que permita clasificar las parcelas de patata en función de su rendimiento medio. El uso de información auxiliar podría permitir clasificar las parcelas antes del muestreo, ayudando a los técnicos a diseñar estrategias de muestreo más eficientes que permitirían reducir el tiempo dedicado al muestreo.

Los algoritmos lineales han dado peores resultados que los no lineales a la hora de analizar datos agrológicos, ya que existen relaciones no lineales entre las propiedades del suelo, topográficas y el rendimiento (Abbas et al., 2020). RF tiene algunas características interesantes para este tipo de trabajos, ya que el sobreentrenamiento es difícil, permite trabajar con más variables que datos y permite conocer la importancia de cada variable.

Por lo tanto, este trabajo tiene como objetivo evaluar el potencial que tiene la información auxiliar derivada de S-2, y del LiDAR aerotransportado para clasificar parcelas de patata en función de su rendimiento utilizando el algoritmo RF a lo largo de cuatro campañas.

Materiales y métodos

Área de estudio

El área de estudio se compone de 173 parcelas de patata, que cubren una superficie de 566 ha. El rendimiento se midió en cuatro campañas. En 2018, se midieron 53 parcelas de patata, mientras que, en los años 2019 y 2020, se recopiló información de 32 parcelas. Finalmente, en 2021 se obtuvieron medidas de 56 parcelas (Figura 1). Todas las parcelas están situadas en el norte de España, en las provincias de Álava/Araba y Burgos. Las variedades de patata analizadas fueron Lucinda y Monalisa, predominando esta última en proporción de 2/3.

Figura 1. Localización del área de estudio y parcelas muestreadas cada campaña.

Las imágenes S-2 sin nubes correspondientes a cada campaña se descargaron de la plataforma Copernicus (https//scihub.copernicus.eu/). Las imágenes cubren las principales etapas del desarrollo de la patata. Dependiendo de la nubosidad el número de imágenes disponibles varía de un año a otro, de 12 en 2018 a 9 en 2021.

Las imágenes descargadas tenían el nivel de procesamiento 2A. Por lo tanto, ya estaban corregidas a nivel de la superficie terrestre. A partir de estas imágenes se calcularon nueve IVs con 10 m de resolución espacial combinando diferentes bandas del espectro visible (R, G, B), infrarrojo cercano (NIR) y el borde rojo (RE) siguiendo las fórmulas de https//www.indexdatabase.de/. La Tabla 1 muestra los índices utilizados. Adicionalmente se calculó el índice específico de Productividad de la Patata (PPI) siguiendo las indicaciones de Gómez et al. (2021).

Tabla 1. Índices vegetativos, abreviatura y fórmula de los índices utilizados y calculados en el estudio.

Modelo digital de elevación

Se obtuvo un modelo digital de elevación (MDE) con una resolución espacial de cinco metros a partir de información basada en un vuelo LiDAR realizado en 2016. Esta información está disponible en Geoeuskadi (https//www.geo.euskadi.eus/inicio/). A partir de este MDE se calcularon tres variables; elevación, pendiente y radiación potencial media de la parcela Los análisis se realizaron con el programa ArcMap 10.8 (ESRI, Redlands, CA, EE UU).

Análisis estadístico y empleo de algoritmos

Los datos se analizaron campaña a campaña para comprobar si la metodología utilizada era robusta. Antes de introducir los datos en el modelo, se procedió a su depuración, mediante técnicas convencionales. Para la clasificación del rendimiento se utilizaron varios tipos de algoritmos. Por un lado, se utilizó el algoritmo no supervisado 'k-means' con el fin de agrupar las parcelas según su rendimiento. El principal inconveniente de este algoritmo es la necesidad de que el usuario determine el número de clases. Para abordar este paso de manera objetiva, se empleó la función 'nbClust' de R, que utiliza 23 algoritmos diferentes para decidir el número óptimo de clases. Estos algoritmos proponen el número óptimo de clases basándose en criterios internos, y la opción más respaldada por votación popular se considera la mejor.

Una vez clasificadas las parcelas en función de su producción, se realizó una prueba 't' de Student para comprobar si los grupos creados mostraban diferencias significativas. Posteriormente, y una vez clasificadas las parcelas en función de su producción, se utilizó el algoritmo supervisado RF (Ho, 1995) para intentar determinar si era posible predecir a qué grupo pertenecía cada parcela utilizando las variables auxiliares. RF se alimentó con unas 100 variables auxiliares. El 80% de los datos fue utilizado para entrenar el modelo, mientras que el 20% restante se destinó a la validación. Como hay pocas parcelas para el proceso de entrenamiento y validación, se calcularon 1000 RF para cada campaña, seleccionando aleatoriamente el campo utilizado para el entrenamiento y la validación. Por lo tanto, los resultados muestran la media y la desviación estándar (DE) obtenidas a partir de estos 1000 RF. La métrica utilizada para cuantificar el porcentaje de aciertos fue la tasa de éxito (TE), es decir, la coincidencia de aciertos respecto al número total de predicciones.

Teniendo en cuenta estos resultados, los agricultores podrían saber aproximadamente diez días antes del muestreo y 40 antes de la cosecha, con una probabilidad del 65-77%, qué parcelas producirán más y cuáles producirán menos

Resultados

Rendimiento y clasificación por grupos

En la Tabla 2 se muestra el rendimiento medio y la DE de cada campaña. Entre 2018 y 2020, la producción media no mostró diferencias y osciló entre 32,9 y 35,2 t ha^-1, mientras que en la campaña 2021 fue significativamente superior, 48,8 t ha^-1.

Tabla 2. Rendimiento medio y DE de cuatro campañas (2018-2021). Letras diferentes en la columna HSD Tuckey indican diferencias significativas en el rendimiento. Nº clases más votado muestra en cuantas clases hay que dividir el conjunto de datos. Votos Nº clases muestra cuantas veces ha sido seleccionada cada clase.

Según la función NbCluster, la opción más votada para 2018 y 2020 fue clasificar las parcelas en dos grupos (Tabla 2). Con cinco votos, dividir el conjunto de datos en dos o tres grupos fue la opción más votada para la campaña 2019. Sin embargo, en 2021, con siete votos, la opción de clasificar las parcelas en cuatro grupos fue la más votada. No obstante, la segunda opción más votada con seis votos fue la de dividir el conjunto de datos en dos grupos. En base a estos resultados, y para simplificar la gestión, todos los años se dividieron en dos clases, alta y baja producción.

La Tabla 3 muestra la producción media y la DE de las parcelas tras su clasificación en alto y bajo rendimiento. Tal y como se detalla en el apartado de materiales y métodos, para cada año se realizó una prueba 't' para verificar si existían diferencias entre los campos clasificados. En todos ellos, la diferencia fue significativa (p<0,001). Para las campañas 2018, 2019 y 2020, la producción media de las parcelas clasificadas como de baja producción fue de unas 27 t ha^-1, mientras que la producción de las parcelas de alta producción fue de unas 40 t ha^-1. Sin embargo, para el año 2021, la producción media de las parcelas de baja producción fue de 40,7 t ha^-1 y, de 63,4 t ha^-1 para las parcelas de alta producción (Tabla 3). Comparando la variabilidad de los datos antes y después de clasificar las parcelas, la DE de los datos disminuyó un 43% una vez realizada la clasificación de las parcelas.

Tabla 3. Media y DE de los rendimientos de las parcelas tras la agrupación con 'K-means' y valor P. AR, parcelas de bajo rendimiento y BR parcelas de alto rendimiento.

La Tabla 4 presenta los resultados medios de acierto de cinco modelos diferentes. En el modelo uno se introdujeron todas las variables, mientras que en los demás modelos se introdujo una selección de ocho variables. Estas variables se seleccionaron entre las que más contribuían al modelo 1. Los modelos 2, 3, 4 y 5 obtuvieron mejores resultados que el modelo generalista (modelo 1). Entre los cinco modelos con mejores resultados para cada año (resaltados en negrita), los peores resultados se obtuvieron para el año 2019 con una tasa de acierto media del 65%. En cambio, con un porcentaje de aciertos del 77%, los mejores resultados correspondieron al año 2021.

Tabla 4. Tasa de acierto (TE) de cada modelo y desviación estándar (DE) obtenida al ejecutar 1000 RF con diferentes conjuntos de datos de entrenamiento y validación. Los mejores resultados se destacan en negrita.

Importancia de las variables

La Tabla 5 muestra las cinco variables que más contribuyeron cada año para el modelo con los mejores resultados (modelo resaltado en negrita en la Tabla 4). Los IV obtenidos entre el 15 de junio y el 15 de julio resultaron ser las variables más influyentes en general. Sin embargo, los IVs GLI y el GNDVI obtenidos el 8 de junio de 2019 y el 5 de junio de 2020, respectivamente, fueron excepciones a esta tendencia. El IV denominado PPI se identificó como la única variable que apareció como una de las variables más contribuyentes para todos los años. Entre las variables más significativas, la elevación media de las parcelas en 2018 resultó ser la única variable que no era un IV.

Tabla 5. Cinco variables que más contribuyen al rendimiento del modelo que obtuvo los mejores resultados cada año. Las variables están ordenadas de izquierda a derecha en orden descendente de importancia.

Discusión

La adición de datos de la campaña 2021, en la que la producción fue significativamente mayor, aumentó la variabilidad del conjunto de datos. La tasa de éxito de RF no varió sustancialmente entre campañas, por lo que se desprende que la metodología propuesta en el artículo es suficientemente robusta. Sorprendentemente, y a pesar de que la opción más votada fuese dividir el conjunto de datos del 2019 en dos clases (Tabla 1), la poca variabilidad de los datos puede dificultar la clasificación correcta de las parcelas en su clase correspondiente (Li et al., 2015)

El uso del algoritmo RF reveló las variables más influyentes en el modelo, destacando la fuerte influencia de los IV captados entre mediados de junio y julio. Las excepciones observadas para los IV GLI y GNDVI implican que sería aconsejable incorporar los datos de todo el mes de junio para garantizar la capacidad predictiva del modelo. Además, el hallazgo de que la altura media de las parcelas en 2018 fue un predictor importante pone de relieve el valor de incluir otro tipo de variables en los modelos predictivos. Teniendo en cuenta estos resultados, los agricultores podrían saber aproximadamente diez días antes del muestreo y 40 antes de la cosecha, con una probabilidad del 65-77%, qué parcelas producirán más y cuáles producirán menos. Este estudio se realizó 'a posteriori', pero una vez comprobada la robustez de la metodología y seleccionadas las variables más relevantes, se puede ejecutar el algoritmo RF para estimar si el rendimiento de la parcela será alto o bajo en la campaña en curso.

Conclusión

Los IV derivados de imágenes S-2, combinados con datos topográficos, fueron usados para entrenar modelos de RF para clasificar las parcelas según su productividad. El modelo resultante mostró una precisión de clasificación de aproximadamente el 70%. Una preselección de variables mejora la eficacia del algoritmo, ya que garantiza que en cada árbol sólo se utilicen variables que contribuyen al modelo. Aunque las variables cambian de campaña a campaña, las fechas en las que los IV más contribuyen se mantienen y en general corresponden al periodo comprendido entre comienzo de junio y mediados de julio. El índice específico PPI fue uno de los que más contribuyó al modelo en todas las temporadas.

Agradecimientos

El presente trabajo se ha realizado en el marco de la colaboración entre NEIKER y la cooperativa UDAPA como parte del proyecto NEKADI-GO financiado por el Departamento de Desarrollo Económico, Sostenibilidad y Medio Ambiente del Gobierno Vasco.

Referencias bibliográficas

Abbas, F., Afzaal, H., Farooque, A.A., Tang, S., 2020. Crop Yield Prediction through Proximal Sensing and Machine Learning Algorithms. Agronomy 10, 1046. https//doi.org/10.3390/agronomy10071046

Drusch, M., Del Bello, U., Carlier, S., Colin, O., Fernandez, V., Gascon, F., et al., 2012. Sentinel-2 ESA’s Optical High-Resolution Mission for GMES Operational Services. Remote Sensing of Environment 120, 25–36. https//doi.org/10.1016/j.rse.2011.11.026

Geoeuskadi (https//www.geo.euskadi.eus/inicio/) on 25/01/2024

Gómez, D., Salvador, P., Sanz, J., Casanova, J.L., 2021. New spectral indicator Potato Productivity Index based on Sentinel-2 data to improve potato yield prediction a machine learning approach. International Journal of Remote Sensing 42, 3426– 3444. https//doi.org/10.1080/01431161.2020.1871102

Ho, T.K., 1995. Random decision forests. Proceedings of 3rd International Conference on Document Analysis and Recognition. Montreal, QC, Canada, 1995, pp. 278-282 vol.1, doi: 10.1109/ICDAR.1995.598994

Li, H., Chung, F.L., Wanga, S., 2015. A SVM based classification method for homogeneous data. Applied Soft Computing. 36, 228–235. https://doi.org/10.1016/j.asoc.2015.07.027

Meraner, A., Ebel, P., Zhu, X.X., Schmitt, M., 2020. Cloud removal in Sentinel-2 imagery using a deep residual neural network and SAR-optical data fusion. ISPRS Journal of Photogrammetry and Remote Sensing 166, 333–346. https//doi.org/10.1016/j.isprsjprs.2020.05.013.

Tucker, C.J., Holben, B.N., Elgin, J.H., McMurtrey, J.E., 1980. Relationship of spectral data to grain yield variation. Photogrammetric Engineering and Remote Sensing 46, 657–666

Webster, R., & Lark, M., 2012. Field Sampling for Environmental Science and Management (1st ed.). Routledge. https://doi.org/10.4324/9780203128640