
Vol. 12/ Núm. 3 2025 pág. 3773
https://doi.org/10.69639/arandu.v12i3.1591
Identificación de patrones de desempeño agronómico en el
cultivo de arroz mediante un enfoque multivariante de
aprendizaje automático no supervisado
Identification of agronomic performance patterns in rice cultivation using a multivariate
unsupervised machine learning approach
Carlos Arturo Carvajal Chávez
ccarvajal@uagraria.edu.ec
https://orcid.org/0000-0002-2781-6953
Universidad Agraria Del Ecuador
Johanna Elisabeth Duchimaza Supliguicha
jduchimaza@uagraria.edu.ec
https://orcid.org/0000-0002-9662-2212
Universidad Agraria Del Ecuador
Erik Rolando Cedeño Anchundia
ecedennoa2@unemi.edu.ec
https://orcid.org/0000-0003-4986-7652
Universidad Estatal De Milagro
Artículo recibido: 18 agosto 2025 - Aceptado para publicación: 28 septiembre 2025
Conflictos de intereses: Ninguno que declarar.
RESUMEN
El arroz (Oryza sativa L.) constituye un cultivo esencial para la seguridad alimentaria mundial, al
aportar alrededor del 21 % de la ingesta calórica diaria y sostener la dieta de más de dos tercios
de la población global. No obstante, su productividad se ve amenazada por factores bióticos como
enfermedades fúngicas (Rhizoctonia solani), plagas, y abióticos asociados al cambio climático,
tales como sequías, inundaciones y salinidad de los suelos. Estas limitaciones, sumadas a la
dependencia de agroquímicos, evidencian la necesidad de innovar en la evaluación del desempeño
agronómico. Los métodos tradicionales, basados en análisis univariantes, muestran restricciones
para capturar la complejidad de las interacciones genéticas, ambientales y de manejo. Frente a
ello, las técnicas multivariantes y el aprendizaje automático no supervisado representan
herramientas robustas para identificar patrones ocultos y clasificar genotipos en función de
rendimiento, resistencia y eficiencia. En este estudio, se aplicaron análisis de componentes
principales (PCA), biplots y clusterización en datos de germinación y desarrollo inicial de arroz
en la provincia del Guayas, Ecuador. Los resultados mostraron correlaciones significativas entre
variables fisiológicas y tres clústeres diferenciados de desempeño. Se confirma así que el uso de
enfoques no supervisados constituye una estrategia eficaz para la selección y mejoramiento del
arroz en escenarios de sostenibilidad y seguridad alimentaria.
Palabras clave: oryza sativa, desempeño agronómico, seguridad alimentaria, aprendizaje
automático, clusterización

Vol. 12/ Núm. 3 2025 pág. 3774
ABSTRACT
Rice (Oryza sativa L.) constitutes an essential crop for global food security, contributing around
21% of daily caloric intake and sustaining the diet of more than two-thirds of the world’s
population. However, its productivity is threatened by biotic factors such as fungal diseases
(Rhizoctonia solani), pests, and abiotic factors associated with climate change, including
droughts, floods, and soil salinity. These limitations, combined with the dependence on
agrochemicals, highlight the need to innovate in the evaluation of agronomic performance.
Traditional methods, based on univariate analyses, show limitations in capturing the complexity
of genetic, environmental, and management interactions. In contrast, multivariate techniques and
unsupervised machine learning represent robust tools to identify hidden patterns and classify
genotypes according to yield, resistance, and efficiency. In this study, principal component
analysis (PCA), biplots, and clustering were applied to germination and early development data
of rice in the province of Guayas, Ecuador. The results showed significant correlations among
physiological variables and three differentiated clusters of performance. This confirms that the
use of unsupervised approaches constitutes an effective strategy for rice selection and
improvement in scenarios of sustainability and food security.
Keywords: Oryza sativa, agronomic performance, food security, machine learning,
clustering
Todo el contenido de la Revista Científica Internacional Arandu UTIC publicado en este sitio está disponible bajo
licencia Creative Commons Atribution 4.0 International.

Vol. 12/ Núm. 3 2025 pág. 3775
INTRODUCCIÓN
El arroz (Oryza sativa L.) constituye uno de los cultivos más importantes a nivel mundial,
no solo por su relevancia en la dieta de millones de personas, sino también por su rol estratégico
en la seguridad alimentaria y en el desarrollo económico de numerosos países productores. Se
estima que más de dos tercios de la población global dependen del arroz como alimento básico,
siendo responsable de aproximadamente el 21 % de la ingesta calórica diaria en el mundo [1]. Su
importancia es aún más evidente en Asia y África, donde el consumo per cápita lo posiciona como
el principal componente de la dieta, mientras que en América Latina cumple un rol
complementario, pero igualmente crucial en la nutrición de millones de familias. Esta centralidad
ha convertido al arroz en un cultivo de interés estratégico para alcanzar los Objetivos de
Desarrollo Sostenible (ODS), en particular los relacionados con hambre cero, seguridad
alimentaria y producción sostenible [2].
A pesar de su relevancia, la productividad del arroz enfrenta desafíos crecientes. Factores
bióticos, como el ataque de hongos patógenos entre ellos Rhizoctonia solani, causante del sheath
blight, limitan severamente el rendimiento en zonas productivas críticas de Asia. De igual manera,
los estreses abióticos vinculados al cambio climático, como sequías, inundaciones y variabilidad
de temperaturas, amenazan la estabilidad de los sistemas de cultivo y ponen en riesgo los medios
de vida de pequeños productores. Estas condiciones adversas se suman a la necesidad urgente de
reducir el uso de agroquímicos, promover una agricultura sostenible y aumentar la resiliencia del
cultivo mediante variedades mejoradas, capaces de adaptarse a entornos productivos cada vez
más complejos [3,4].
Tradicionalmente, la mejora del desempeño agronómico del arroz ha dependido de
metodologías convencionales de análisis experimental y comparaciones univariantes, las cuales,
si bien útiles en contextos específicos, presentan limitaciones para capturar la complejidad de la
interacción entre factores genéticos, ambientales y de manejo [5]. Estos enfoques tradicionales
tienden a centrarse en pocas variables, lo que dificulta la identificación de patrones ocultos y
reduce la capacidad predictiva en entornos heterogéneos. En consecuencia, se genera un vacío
metodológico en la capacidad de anticipar el rendimiento del cultivo bajo escenarios de estrés
múltiple, lo cual restringe la eficiencia en la toma de decisiones agronómicas.
Ante este panorama, la incorporación de metodologías multivariantes y técnicas de
aprendizaje automático emerge como una alternativa innovadora y poderosa. En particular, el
machine learning no supervisado se presenta como una herramienta clave para descubrir
relaciones ocultas en grandes volúmenes de datos sin necesidad de etiquetas previas, permitiendo
identificar patrones y agrupar genotipos de acuerdo con su desempeño agronómico global. El uso
de estas herramientas ha mostrado avances significativos en otras áreas de la biotecnología y la

Vol. 12/ Núm. 3 2025 pág. 3776
producción agrícola, evidenciando su potencial para transformar los enfoques de selección,
evaluación y clasificación de cultivares de arroz.
De esta forma, el estudio de identificación de patrones de desempeño agronómico mediante
un enfoque multivariante de aprendizaje automático no supervisado se justifica como una
contribución innovadora en el campo de la agronomía, en tanto que ofrece una visión más integral
y predictiva del cultivo. La integración de indicadores como rendimiento de grano, resistencia a
plagas y enfermedades, y eficiencia en el uso de nutrientes y agua, constituye un marco analítico
capaz de orientar nuevas estrategias de manejo y de mejoramiento genético [1]. Este enfoque,
además, responde a la necesidad global de generar soluciones que aseguren la sostenibilidad de
la producción de arroz, garantizando su papel como cultivo esencial para la seguridad alimentaria
en el futuro cercano.
Importancia del arroz en la seguridad alimentaria
El arroz (Oryza sativa L.) es uno de los principales cultivos que sustentan la alimentación
global, al aportar una fracción significativa de calorías a más de dos tercios de la población
mundial. Su centralidad en la dieta lo convierte en un pilar de la seguridad alimentaria,
especialmente en Asia, donde constituye la base nutricional cotidiana. En África y América Latina
también ocupa un lugar destacado en los sistemas alimentarios, siendo fundamental para
comunidades rurales que dependen de su producción y consumo [6].
Más allá de su función como alimento, el arroz sostiene economías nacionales y locales.
La mayoría de su producción proviene de pequeños agricultores, cuyo sustento depende
directamente del cultivo [7]. En este sentido, la estabilidad de la producción arrocera está
directamente vinculada a la reducción de la pobreza, la mejora del bienestar rural y el
cumplimiento de los Objetivos de Desarrollo Sostenible relacionados con hambre cero y
producción sostenible [8].
El aprovechamiento de sus subproductos refuerza su relevancia. Residuos como la paja o
la cascarilla se han utilizado para la producción de biofertilizantes, energía renovable y materiales
con valor agregado, lo que amplía el impacto económico y ambiental del arroz en contextos de
innovación agroindustrial [9]. Así, la importancia del arroz en la seguridad alimentaria radica no
solo en su aporte calórico, sino también en su capacidad para sostener comunidades y dinamizar
cadenas de valor diversificadas.
Retos actuales en la mejora de desempeño agronómico
Los sistemas de cultivo de arroz enfrentan un conjunto de desafíos que condicionan su
sostenibilidad. Entre ellos se encuentran las enfermedades, como el sheath blight causado por
Rhizoctonia solani, que en países asiáticos representa una seria amenaza para la productividad
[10]. A ello se suma el impacto de plagas y la baja disponibilidad de variedades resistentes, lo que
obliga a utilizar agroquímicos que generan dependencia económica y riesgos ambientales [11].

Vol. 12/ Núm. 3 2025 pág. 3777
El cambio climático ha intensificado los problemas de estrés abiótico: sequías,
inundaciones, variabilidad térmica y salinidad creciente en suelos costeros se han convertido en
factores que limitan los rendimientos y reducen la resiliencia de los cultivos [12]. La degradación
de suelos, la disminución de recursos hídricos y la presión por producir arroz con mayor calidad
nutricional plantean retos adicionales para la investigación agronómica [13].
Superar estos desafíos requiere enfoques integrales. No basta con seleccionar genotipos de
alto rendimiento, sino que es necesario avanzar en la obtención de variedades capaces de resistir
condiciones adversas y de adaptarse a nuevos contextos ambientales [14]. En este sentido, la
innovación tecnológica y el uso de metodologías analíticas avanzadas se perfilan como respuestas
estratégicas a los retos actuales en la mejora del desempeño agronómico del arroz.
Limitaciones de análisis tradicionales
Los métodos convencionales de evaluación agronómica han estado basados en
comparaciones univariantes, pruebas de campo y análisis estadísticos básicos. Aunque han
permitido identificar diferencias entre variedades, presentan limitaciones para capturar la
complejidad de las interacciones entre factores genéticos, ambientales y de manejo [15].
Estos enfoques no logran modelar adecuadamente las relaciones no lineales entre variables
como biomasa, contenido de clorofila, resistencia a plagas y rendimiento, las cuales interactúan
de manera dinámica en diferentes entornos productivos [16]. Además, la baja capacidad predictiva
de los modelos tradicionales impide anticipar el desempeño del cultivo en condiciones distintas a
las observadas en campo [17].
Otra limitación es que los métodos clásicos no integran información de diferentes escalas
(molecular, fisiológica y productiva), lo que restringe la comprensión integral del desempeño
agronómico. Así, se genera un vacío en la posibilidad de tomar decisiones estratégicas para
programas de mejoramiento genético y manejo agronómico [18]. Esta insuficiencia justifica el
paso hacia metodologías multivariantes y la adopción de enfoques computacionales más robustos.
Justificación del uso de machine learning no supervisado
El aprendizaje automático no supervisado constituye una alternativa metodológica
innovadora para superar las limitaciones señaladas. A diferencia de los métodos tradicionales,
permite identificar patrones ocultos en grandes volúmenes de datos sin necesidad de contar con
etiquetas previas [19]. Esto es especialmente relevante en la agricultura, donde la interacción entre
genotipo, ambiente y manejo genera bases de datos complejas y de alta dimensionalidad.
Herramientas como el análisis de conglomerados, los mapas autoorganizados y la
reducción de dimensionalidad permiten agrupar genotipos de arroz según características
comunes, facilitando la clasificación en función de su desempeño integral [20]. Esta capacidad de
reconocer estructuras latentes ofrece ventajas tanto en investigación básica como en la toma de
decisiones aplicada en campo.

Vol. 12/ Núm. 3 2025 pág. 3778
Asimismo, el uso de machine learning no supervisado fomenta la generación de nuevas
hipótesis, pues la identificación de grupos de variedades con comportamientos similares puede
orientar programas de mejoramiento hacia objetivos específicos, como la tolerancia a sequía o la
eficiencia en el uso de nutrientes [21]. En consecuencia, esta metodología no solo amplía la
comprensión científica, sino que también fortalece la innovación en sistemas de producción de
arroz.
Desempeño agronómico (rendimiento, resistencia, eficiencia)
El desempeño agronómico del arroz se explica por la interacción de múltiples variables. El
rendimiento de grano sigue siendo el indicador principal, pero debe evaluarse junto con la
resistencia a plagas y enfermedades, dado que la estabilidad productiva depende de la capacidad
de las variedades para enfrentar estreses bióticos [22].
Otro componente esencial es la eficiencia en el uso de recursos, en particular agua y
nutrientes, cada vez más limitados en contextos de presión climática y ambiental [23]. La
investigación reciente también ha subrayado la importancia de factores fisiológicos, como la
calidad de la semilla y la capacidad de adaptación a estreses múltiples, como determinantes del
desempeño integral [24].
El análisis multivariante permite integrar estas dimensiones para construir perfiles robustos
de desempeño, que clasifican genotipos de acuerdo con su resiliencia y potencial productivo [25].
En este marco, el uso de técnicas de machine learning no supervisado se posiciona como una
herramienta esencial para identificar patrones que fortalezcan el rendimiento, la resistencia y la
eficiencia del arroz, garantizando así su papel estratégico en la seguridad alimentaria global [26].
Análisis de componente principales
El análisis de componente principales en sus siglas en ingles PCA corresponde a un método
de análisis factorial de aprendizaje automático no supervisado [27]. [28]y [29] define al proceso
de obtención de los componentes principales como la extracción de los componentes ortogonales
y descartando a través de esparsificación las variable irrelevantes, además. [30] menciona que el
método PCA permite reducir la dimensionalidad del conjunto de variables evaluadas,
concentrando la mayor varianza en nuevas variables independientes denominada Factores o
componentes principales.
1. PC 1 = β11X1 + β12X2 + … + β1nXn
2. PC 2 = β21X1 + β22X2 + … + β2nXn
3. PCn = βn1X1 + βn2X2 + … + βnnXn
Para seleccionar los componentes o factores [31] sugiere que el procedimiento estándar
para aplicar el método PCA requiere en primer lugar obtenido más de un componente, luego los
componente a seleccionar al menos concentren el 10% de la varianza y por último se debe de
obtener en la varianza acumulada al menos un 60%.
(1)

Vol. 12/ Núm. 3 2025 pág. 3779
Técnica de análisis biplot
El biplot es una representación gráfica de una matriz NXM, donde las filas representan
individuos y las columnas representan variables [32]. Su estructura gráfica permite analizar datos
que involucran más de una variable [33]. En el análisis multivariante, se reduce la dimensión de
un conjunto de datos de N individuos y M variables proyectando los datos sobre un espacio
ajustado denominado Euclidiano. Según [34], el biplot proporciona una herramienta funcional
que puede representar el resultado de un análisis de componentes principales, mostrando valores
y productos estadísticos como distancias entre unidades de datos y sus correspondientes
agrupaciones, así como la varianza explicada y las correlaciones entre variables o entre
individuos.
Por ejemplo, en una representación de 2 dimensiones en la Figura 1 se muestra con círculos
de color naranja a los individuos o filas, y las líneas de color azul que inician desde el origen y
terminan en punta de flecha representan a las variables o columnas.
Figura 1
Gráfico Biplot
La Figura 1, las gráficas (a) y (b), los ejes de los planos representan los componentes que
tienen mayor representatividad para los individuos y variables, basándose en los resultados de un
PCA. En la gráfica (a), cada vector representa una variable del estudio y su interpretación gráfica
muestra el grado de correlación entre ellas. Por ejemplo, para las variables V1 y V3, la correlación
es fuerte porque el ángulo entre los vectores es agudo, lo que indica una mayor correlación
positiva. Cuanto más corto sea el ángulo, mayor será la correlación entre las variables. Si el ángulo
entre dos variables es de 90°, como en el caso de V1 y V2, su correlación es nula. Por otro lado,
cuando el ángulo es obtuso, como en el caso de V4 y V1, la correlación es inversa.
En la gráfica (b), el ángulo formado por el vector proyectado hacia los ejes proporciona
información sobre cuál componente tiene una mayor correlación con la variable. Además, el
ángulo formado por la proyección desde el individuo hacia una vector muestra cuál variable tiene
una mayor correlación con ese individuo.
Análisis por clusterización
En estudios experimentales agronómicos que involucran múltiples variables fisiológicas y
de crecimiento, como en el caso del establecimiento inicial del cultivo de arroz, resulta
fundamental identificar patrones de comportamiento que no siempre son evidentes mediante
V1
V2
V3
V4
Ind1
Ind2
VInd2
(a) (b)

Vol. 12/ Núm. 3 2025 pág. 3780
análisis univariantes. En este contexto, el análisis de clúster constituye una herramienta estadística
adecuada para agrupar observaciones en función de su similitud multivariada, sin requerir
información previa sobre la estructura de los datos.
La elección de este método se justifica por la necesidad de clasificar objetivamente los
genotipos o tratamientos evaluados según su desempeño combinado en variables como los días
para la aparición de radícula (V1), días para aparición de cotiledón (V2), dimensión de radícula
(V3) y dimensión de cotiledón (V4). Dado que estas variables reflejan distintos aspectos del vigor
y el establecimiento temprano de las plántulas, el análisis de clúster permite descubrir perfiles
fisiológicos diferenciados que pueden orientar decisiones experimentales, de selección o de
manejo.
Además, el análisis de conglomerados es especialmente útil en estudios exploratorios
donde no existe una hipótesis previa sobre la cantidad o tipo de grupos esperados [35], lo que lo
convierte en una técnica apropiada dentro del enfoque de aprendizaje automático no supervisado.
Al basarse en distancias multivariadas y criterios de similitud interna, este análisis permite reducir
la complejidad del conjunto de datos y generar una representación estructurada de las
observaciones, facilitando su interpretación desde el punto de vista agronómico.
Para [36], el uso del análisis de clúster complementa el análisis de componentes principales
(PCA), validando la existencia de agrupamientos consistentes entre observaciones y permitiendo
la identificación de patrones de desempeño agronómico diferenciados. Esta combinación
metodológica refuerza la robustez del enfoque multivariante adoptado y contribuye a una
clasificación más precisa de los tratamientos según su comportamiento fisiológico inicial.
El presente trabajo busca responder la siguiente pregunta ¿Qué patrones de desempeño
agronómico pueden identificarse en el cultivo de arroz utilizando métodos multivariantes de
aprendizaje automático no supervisado? y platemos la siguiente hipótesis:
H1: El uso de técnicas multivariantes de aprendizaje automático no supervisado permite
identificar patrones diferenciados en el desempeño agronómico del arroz, que facilitan la
clasificación de genotipos o tratamientos según sus características de rendimiento, resistencia y
eficiencia en el uso de recursos.
Por lo tanto, el cultivo de arroz constituye uno de los pilares fundamentales de la seguridad
alimentaria en América Latina y a nivel mundial, lo que ha motivado numerosos estudios
orientados a optimizar su rendimiento y adaptabilidad, mostrando un interés creciente en la
identificación de factores que influyen en el desempeño agronómico del arroz, tales como la
productividad, la resistencia a condiciones de estrés biótico y abiótico, y la eficiencia en el uso de
nutrientes y agua. Sin embargo, la mayoría de los enfoques tradicionales se basan en metodologías
univariantes o en comparaciones directas entre tratamientos, lo que limita la capacidad de capturar
la complejidad multivariada inherente a los sistemas agrícolas.

Vol. 12/ Núm. 3 2025 pág. 3781
En este contexto, las técnicas de aprendizaje automático no supervisado, como el análisis
de componentes principales (PCA) y los algoritmos de clustering, ofrecen herramientas robustas
para descubrir patrones ocultos en grandes volúmenes de datos agronómicos. Estas metodologías
permiten integrar simultáneamente múltiples variables y clasificarlas en grupos coherentes que
reflejan la variabilidad real de los genotipos o tratamientos de arroz. La evidencia bibliográfica
analizada refuerza la necesidad de aplicar enfoques de este tipo, dado que varios estudios reportan
la dificultad de predecir el rendimiento agrícola únicamente con modelos convencionales.
Así, la hipótesis planteada se justifica en la convergencia de dos elementos: por un lado, la
creciente disponibilidad de datos experimentales detallados sobre el arroz y, por otro, la capacidad
del aprendizaje automático no supervisado para procesar dichos datos de manera más eficiente y
objetiva. La identificación de patrones diferenciados en el desempeño agronómico no solo
contribuye a una mejor clasificación de los genotipos, sino que también genera información
estratégica para programas de mejoramiento genético y manejo agronómico, alineándose con las
tendencias actuales de digitalización y análisis de datos en la agricultura.
METODOLOGÍA
Conjunto de dato
Los datos analizados fueron tomados de un diseño experimental explicativo diseñado para
determinar la relación causal entre los tratamientos aplicados y el crecimiento vegetativo del
cultivo. El estudio se realizó en una unidad agrícola de la región del Programa Interamericano del
Estado Daulé, Provincia del Guayas, Ecuador, en condiciones de invernadero en su fase de
germinación y desarrollo de la plántula, siendo la zona la principal productora de arroz en la
región. La variedad utilizada fue Oryza sativa L. SFL 011, seleccionada por su representatividad
en las prácticas agrícolas locales y su amplio uso comercial. El experimento empleó un diseño
completamente aleatorizado (DCA) con cuatro tratamientos diferentes Ver Tabla 1, cada uno con
cuatro réplicas tuvieron 50 réplicas, para un total de 200 unidades experimentales y las variables
medidas son descritas en la Tabla 2.
Tabla 1
Tratamientos definidos para el experimento
Tratamiento Descripción
T1 Producto a base de Trichoderma
T2 Sepa nativa Trichoderma
T3 Producto industrializado con funcionalidad de estimular en la fase
de germinación
T4 Testigo