
Vol. 12/ Núm. 3 2025 pág. 3123
https://doi.org/10.69639/arandu.v12i3.1543
Modelos de inteligencia artificial generativa y grandes
modelos de lenguaje(LLM): Análisis sistemático basado en
metodología PRISMA de evolución, rendimiento y
aplicaciones (2020-2025)
Generative artificial intelligence models and large language models(LLM): Systematic
analysis based on PRISMA methodology of evolution, performance and applications
(2020-2025)
Rodrigo Aryan Hernández García
rodrhernandez@uv.mx
https://orcid.org/0000-0002-2299-5366
Universidad Veracruzana
México
Cesar Augusto Mejia Gracia
cemejia@uv.mx
https://orcid.org/0000-0001-8874-0473
Universidad Veracruzana
México
Vicente Josue Aguilera Rueda
vaguilera@uv.mx
https://orcid.org/0000-0002-1952-7860
Universidad Veracruzana
México
Carlos Francisco Domínguez Domínguez
cardominguez@uv.mx
https://orcid.org/0000-0001-7113-4063
Universidad Veracruzana
México
Luis Enrique Corona Morales
lucorona@uv.mx
https://orcid.org/0009-0003-7643-1739
Universidad Veracruzana
México
Artículo recibido: 18 agosto 2025 - Aceptado para publicación: 28 septiembre 2025
Conflictos de intereses: Ninguno que declarar.
RESUMEN
El presente trabajo presenta un análisis sistemático basado en metodología PRISMA que
examina 89 estudios primarios y 20 fuentes de alta calidad sobre Inteligencia Artificial
Generativa (IAGen) y los grandes modelos del lenguaje (LLM, Large Language Models),
publicados entre 2020-2025. La revisión identifica más de 50 LLMs existentes y documenta
aplicaciones en 10 dominios críticos, estableciendo un marco de evaluación destinado a orientar

Vol. 12/ Núm. 3 2025 pág. 3124
futuras investigaciones. Los hallazgos revelan que GPT-4 (88.7% MMLU), Claude 3.5 Sonnet,
y los modelos emergentes de razonamiento como DeepSeek-R1 lideran el rendimiento actual,
siendo aplicados principalmente en atención sanitaria (94.4% de estudios), educación, desarrollo
de software, e investigación científica. Los resultados demuestran mejoras significativas de
eficiencia: 40% reducción en tiempo de documentación clínica, 35% incremento en
productividad de desarrollo de software, y 58% reducción en tiempo de revisiones sistemáticas.
El sector evoluciona aceleradamente hacia capacidades de razonamiento especializado, con
modelos como DeepSeek-R1 alcanzando 97.3% en MATH-500, multimodalidad nativa que
permite procesamiento integrado de texto, imagen, audio y video, y democratización mediante
modelos de código abierto competitivos como LLaMA-4. Los desafíos persistentes incluyen
alucinaciones (15-25% de resultados), sesgo cultural documentado, y necesidad urgente de
marcos éticos estandarizados para aplicaciones críticas que requieren garantías de seguridad.
Palabras clave: grandes modelos de lenguaje, inteligencia artificial generativa,
transformers, evaluación de modelos, análisis sistemático
ABSTRACT
This study presents a systematic analysis based on PRISMA methodology examining 89
primary studies and 20 high-quality sources on Generative Artificial Intelligence (GAI) and
Large Language Models (LLMs) published between 2020-2025. The review identifies over 50
existing LLMs and documents applications across 10 critical domains, establishing an
evaluation framework intended to guide future research. Findings reveal that GPT-4 (88.7%
MMLU), Claude 3.5 Sonnet, and emerging reasoning models such as DeepSeek-R1 lead current
performance, being primarily applied in healthcare (94.4% of studies), education, software
development, and scientific research. Results demonstrate significant efficiency improvements:
40% reduction in clinical documentation time, 35% increase in software development
productivity, and 58% reduction in systematic review time. The sector is rapidly evolving
toward specialized reasoning capabilities, with models like DeepSeek-R1 achieving 97.3% on
MATH-500, native multimodality enabling integrated processing of text, image, audio, and
video, and democratization through competitive open-source models like LLaMA-4. Persistent
challenges include hallucinations (15-25% of outputs), documented cultural bias, and urgent
need for standardized ethical frameworks for critical applications requiring safety guarantees.
Keywords: large language models, generative artificial intelligence, transformers, model
evaluation, systematic analysis
Todo el contenido de la Revista Científica Internacional Arandu UTIC publicado en este sitio está disponible bajo
licencia Creative Commons Atribution 4.0 International.

Vol. 12/ Núm. 3 2025 pág. 3125
INTRODUCCIÓN
La aparición de ChatGPT en el mes de noviembre del 2022 marcó un punto de inflexión
tecnológico cuya magnitud trasciende a las revoluciones digitales previas, alcanzando 100
millones de usuarios en apenas 60 días y catalizando una transformación acelerada en múltiples
sectores económicos y académicos a escala global. Mientras que Internet (7 años) y los
smartphones (5 años) requirieron períodos significativos para lograr adopción masiva, los
modelos de IA generativas han demostrado velocidades de penetración sin precedentes, con un
crecimiento del mercado global proyectado de entre $2.6 billones y $4.4 billones USD anuales a
la economía global, comparado con el PIB total del Reino Unido de $3.1 billones en 2021
(McKinsey Global Institute, 2023).
Este fenómeno representa más que una innovación tecnológica, está redefiniendo las
fronteras entre capacidades humanas y automatización inteligente, exigiendo marcos de análisis
rigurosos que permitan comprender las implicaciones científicas, económicas y sociales. La
progresión técnica desde el modelo Transformer original (Vaswani et al., 2017) hasta los
contemporáneos revela una secuencia de avances cualitativos que desafían proyecciones lineales
de mejora tecnológica, y apuntan a lo exponencial.
A pesar del impacto y la documentación al respecto de la IAGen, la literatura científica
carece de síntesis comprehensivas que integren desarrollos técnicos, métricas de rendimiento
estandarizadas, y análisis de impacto sectorial mediante metodologías de revisión sistemática
rigurosas. Esta fragmentación del conocimiento limita la capacidad de investigadores,
responsables de políticas, y profesionales para tomar decisiones fundamentadas empíricamente
sobre adopción, regulación, e inversión en IA generativa.
Este análisis sistemático basado en metodología PRISMA tiene como objetivo principal
mapear exhaustivamente el ecosistema actual de los distintos modelos de IA generativa,
establecer benchmarks de rendimiento comparativo fundamentados en evidencia empírica, e
identificar tendencias críticas destinadas a orientar investigación futura y políticas de
implementación responsable.
Fundamentos
Modelo Transformer
El modelo Transformer, establecido por Vaswani et al. (2017), constituye el fundamento
teórico que sustenta prácticamente a todas las Inteligencias Artificiales Generativas
contemporáneas. La innovación central reside en el mecanismo de auto-atención que permite
análisis simultáneo de secuencias completas, superando limitaciones fundamentales de modelos
recurrentes previos.
El mecanismo de atención escalado (Scaled Dot-Product Attention) se define
matemáticamente como:

Vol. 12/ Núm. 3 2025 pág. 3126
Attention(Q, K, V) = softmax(QK^T / √d_k)V
• Q es el vector de consulta
• K es el vector clave
• V es el vector de valores
• T es la operación de transposición
• Softmax es la función softmax que se utiliza en redes neuronales.
Transformer posibilita la captura simultánea de relaciones tanto locales como globales
dentro de las secuencias, facilitando así la comprensión de dependencias a largo alcance que
anteriormente resultaban inmanejables en las primeras redes neuronales.
Evolución hacia multimodalidad nativa
Las primeras aplicaciones de IAGen solo permitían trabajar datos en forma de texto, y
generaba salidas en el mismo, sin embargo, los LLMS que son multimodales nativos como
GPT-4V y Gemini procesan texto, imágenes, audio, y video a través de un marco de trabajo
unificado desde “las capas de entrada”(inputs layer). Esta integración posibilita capacidades
emergentes como razonamiento visual y comprensión temporal de video, mostrando 34% mayor
precisión en tareas de razonamiento transmodal comparado con aproximaciones basadas en solo
texto.
MATERIALES Y MÉTODOS
La búsqueda sistemática se ejecutó en seis bases de datos prioritarias: Scopus, Web of
Science/Clarivate, Springer, IEEE Xplore, ACM Digital Library, y Nature Portfolio,
complementadas por bases de datos regionales SciELO, Redalyc, y Latindex destinadas a
capturar perspectivas en español y contextos latinoamericanos.
Términos de búsqueda: Se utilizaron combinaciones booleanas de ("large language
models" OR "LLM" OR "generative artificial intelligence" OR "ChatGPT" OR "GPT-4" OR
"BERT") AND ("evaluation" OR "performance" OR "implementation" OR "application") con
filtros temporales 2020-2025 y restricciones de calidad académica.
Criterios de inclusión
Artículos de investigación primaria publicados en revistas indexadas Q1 o Q2, con DOI
válido, metodología clara, y enfoque directo en modelos LLM o IA generativa. Se incluyeron
estudios empíricos, revisiones sistemáticas, meta-análisis, y reportes técnicos de instituciones
reconocidas, se consideró únicamente literatura en inglés y español.
Criterios de exclusión
Opiniones editoriales sin datos originales, publicaciones en revistas predatorias, estudios
sin información metodológica suficiente, duplicados, y artículos no relacionados directamente
con LLM o IA generativa, estudios en un idioma distinto al inglés y al español.

Vol. 12/ Núm. 3 2025 pág. 3127
Proceso de selección
El proceso resultó en la identificación inicial de 3,921 registros únicos tras eliminación de
duplicados. Después del cribado (screening) por título y resumen, se evaluaron 309 artículos de
texto completo, resultando 109 estudios incluidos en la síntesis cualitativa y 89 estudios en la
síntesis cuantitativa.
Limitaciones
Primero la rápida evolución del campo puede haber resultado en sesgo de publicación
hacia modelos más recientes. Segundo, la heterogeneidad metodológica entre estudios limitó las
posibilidades de metaanálisis cuantitativo.
RESULTADOS Y DISCUSIÓN
A continuación, se presentan los resultados de la investigación, donde se pueden apreciar
la cantidad de artículos por LLM, así como sus campos de aplicación, posteriormente se
comenta sobre cada tecnología en lo particular.
Tabla 1
Distribución de estudios por tecnología LLM identificada
Tecnología Estudios Porcentaje Detalles específicos
OpenAI GPT series 28 31.5% GPT-4/GPT-4o: 15 estudios (aplicaciones
médicas, educación, desarrollo software)
GPT-3.5/ChatGPT: 13 estudios
(principalmente educación y servicios cliente)
Anthropic Claude
series
18 20.2% Claude 3.5 Sonnet: 11 estudios (análisis legal,
investigación científica)
Claude Opus: 7 estudios (escritura académica,
análisis complejo)
Google/DeepMind 16 18.0% Gemini Pro/Ultra: 9 estudios (multimodalidad,
análisis de datos)
PaLM/Med-PaLM: 7 estudios (aplicaciones
médicas especializadas)
Meta LLaMA series 15 16.9% LLaMA-2/3: 12 estudios (código abierto,
implementaciones locales)
Code Llama: 3 estudios (desarrollo software
especializado)
Modelos
especializados
12 13.5% DeepSeek series: 5 estudios (eficiencia
computacional)
Mistral AI: 4 estudios (modelos europeos)
Otros modelos de código abierto: 3 estudios
Nota: Diseño propio a partir de la recopilación de datos conforme a la metodología.
OpenAI GPT
GPT-4.1 (enero 2025) representa el estado del arte actual en modelos comerciales,
estableciendo nuevos estándares con 1M tokens de contexto expandible y 54.6% precisión en
SWE-bench Verified destinado a resolución de problemas reales de software. GPT-4.1
incorpora mejoras fundamentales en razonamiento paso-a-paso y tasas reducidas de alucinación
mediante técnicas de verificación internas.

Vol. 12/ Núm. 3 2025 pág. 3128
GPT-4o (omni) introduce multimodalidad nativa con procesamiento integrado de texto,
imagen, audio, y video desde capas base. Omni demuestra 88.7% en MMLU, mantiene paridad
con GPT-4 en benchmarks textuales incorporando capacidades transmodales sin degradación de
rendimiento.
Anthropic Claude
Claude 3.7 Sonnet establece nuevo paradigma con capacidades híbridas de razonamiento
instantáneo y extendido, permitiendo conmutación dinámica entre modos según complejidad de
tarea. Logra 70.3% en SWE-bench mediante metodología de razonamiento estructurado que
supera aproximaciones de generación directa.
Claude 3.5 Sonnet mantiene equilibrio óptimo entre capacidad y eficiencia,
estableciéndose como referencia destinada a aplicaciones comerciales que requieren
confiabilidad consistente, exhibe tasas de alucinación reducidas (12% menor que competidores)
y adherencia superior a instrucciones complejas.
Google Gemini
Gemini 2.5 Pro lidera clasificaciones actuales como primer "thinking model" comercial
con “cadena de pensamiento”(“Chain-of-Thought “) integrada nativamente. Ocupa posición #1
en LMArena leaderboard, logrando 63.8% en SWE-bench y soporte nativo destinado a 100+
idiomas con rendimiento casi-nativo en 40+ idiomas prioritarios.
Meta LLaMA
LLaMA 4 (2025) marca avance decisivo en modelos de código abierto con capacidades
multimodales nativas que compiten directamente con GPT-4o. Disponible en configuraciones
8B, 70B, y 405B parámetros, ofrece escalabilidad desde “dispositivos de borde” (“Edge
Devices”) hasta centros de datos empresariales.
LLaMA 3.3 70B demuestra que modelos relativamente compactos pueden lograr
rendimiento competitivo mediante optimizaciones de entrenamiento avanzadas y curación de
datos superior.
DeepSeek series: eficiencia revolucionaria
DeepSeek-R1 (enero 2025) representa avance decisivo en eficiencia de entrenamiento
con 671B parámetros totales (37B activos durante inferencia) logrando 97.3% en MATH-500
con costos de entrenamiento de $5.6M. R1 permite escalabilidad masiva manteniendo costos
operacionales razonables.

Vol. 12/ Núm. 3 2025 pág. 3129
Análisis comparativo de desempeño
Tabla 2
Comparación de Rendimiento en los Benchmarks Principales
Modelo MMLU
(%)
SWE-
bench
Verified
(%)
MATH-
500 (%)
HumanEval
(%)
MedQA
(%)
Capacidades
Especiales
OpenAI o3 90.2 - - - - Razonamiento
avanzado
GPT-4.1 88.7 54.6 52.9 85.0 - Contexto 1M
tokens
GPT-4 86.4 - 52.9 67.0 - Multimodal
integrado
Gemini 2.5
Pro
85.4 63.8 - 99.0 - Thinking model
nativo
Claude 3.7
Sonnet
84.2 70.3 71.1 92.0 - Razonamiento
híbrido
Claude 3.5
Sonnet
- - 71.1 - - Alucinación
reducida
DeepSeek-
R1
- - 97.3 - - Eficiencia
extrema
LLaMA-
3.3 70B
- 31.2 - 67.8 - Código abierto
Med-PaLM
2
- - - - 87.0 Especialización
médica
GPT-3 43.9 - 14.5 29.0 - Referencia
histórica
Nota: Diseño propio a partir de la recopilación de datos conforme a la metodología.
MMLU (Massive Multitask Language Understanding) constituye la métrica fundamental
orientada hacia evaluación de conocimiento académico, abarcando 57 materias desde
matemáticas elementales hasta derecho profesional. Los líderes actuales incluyen OpenAI o3
(90.2%), Gemini 2.5 Pro (85.4%), Claude 3.7 Sonnet (84.2%), junto con GPT-4.1 (88.7%),
representando convergencia en competencias de conocimiento factual entre modelos
comerciales.
SWE-bench Verified establece estándar dorado orientado hacia competencias de
ingeniería de software mediante resolución de problemas reales de GitHub. Claude 3.7 Sonnet
domina con 70.3%, GPT-4.1 alcanza 54.6%, mientras que los de código abierto como LLaMA-
3.3 logran 31.2%.
Métrica MATH evalúa competencias matemáticas desde nivel preparatoria hasta
licenciatura. DeepSeek-R1 establece récord con 97.3% de precisión, superando
significativamente a GPT-4 (52.9%) junto con Claude 3.5 Sonnet (71.1%).

Vol. 12/ Núm. 3 2025 pág. 3130
Mapeo de aplicaciones actuales
Tabla 4
Síntesis de aplicaciones por sector
Sector Estudios Porcentaje Tecnologías
predominantes
Aplicaciones
principales
Resultados
promedio
Salud 26 29.2% Med-PaLM 2,
GPT-4, Claude
3.5
Diagnóstico
asistido,
documentación
clínica,
educación
médica
83-87%
precisión en
benchmarks
médicos
Educación 23 25.8% GPT-4,
ChatGPT,
Claude
Tutoría
personalizada,
generación de
contenido,
evaluación
automática
25-40%
mejora en
engagement
estudiantil
Desarrollo de
Software
21 23.6% GitHub Copilot,
Code Llama,
GPT-4
Generación de
código,
debugging,
documentación
35%
incremento en
productividad
Investigación
Científica
12 13.5% GPT-4, Claude
Opus, modelos
especializados
Revisiones
sistemáticas,
análisis de datos,
hipótesis
58%
reducción en
tiempo de
revisión
Otros
sectores
7 7.9% Diversos Finanzas, legal,
marketing,
manufactura
Variable según
sector
Nota: Diseño propio a partir de la recopilación de datos conforme a la metodología.
Atención médica
La atención sanitaria representa 30% de aplicaciones documentadas en literatura
académica, acompañada de 94.4% de estudios enfocados en chatbots médicos orientados hacia
educación del paciente junto con soporte de decisiones clínicas. Med-PaLM 2 establece
precisión estado-del-arte en métricas médicas (MedQA 87.0%, MedMCQA 72.3%, PubMedQA
79.0%).
Métricas de éxito incluyen: 40% de reducción en tiempo de documentación clínica, 83%
de precisión en extracción de información médica, junto con expansión a través de 29
especialidades médicas. Implementaciones notables incluyen modelos de soporte diagnóstico de
Mayo Clinic junto con chatbots NHS orientados hacia tamizaje preliminar.
Investigación científica
Revisiones sistemáticas automatizadas muestran resultados transformadores: 58%
reducción en carga laboral de tamizaje manual, 68% disminución en errores de extracción de
información, junto con compresión temporal desde 67.3 semanas promedio hasta 2 semanas
orientado hacia revisiones comprehensivas.

Vol. 12/ Núm. 3 2025 pág. 3131
BrainGPT representa avance en predicción científica, superando especialistas humanos en
predicción de resultados experimentales de neurociencia con 78% precisión versus 65% línea de
referencia humana.
Desarrollo de software: transformación industrial
GitHub Copilot reporta 35% incremento en velocidad de programación entre usuarios.
Aplicaciones comprehensivas incluyen generación de código desde lenguaje natural (soportando
200+ lenguajes de programación), refactorización automatizada (45% ahorro de tiempo
reportado), junto con detección y corrección de errores (73% precisión identificando errores
lógicos).
Métricas de adopción empresarial: 78% de desarrolladores encuestados emplean
asistentes de codificación IA regularmente, acompañadas de ganancias de productividad
oscilando 25-40% a través de diferentes tareas de programación.
Educación personalizada junto con democratización
Modelos de tutoría adaptativa demuestran 25-40% mejora en resultados de aprendizaje
mediante algoritmos de personalización que ajustan dificultad junto con ritmo de contenido a
necesidades estudiantiles individuales. Integración GPT-4 de Duolingo muestra 34%
incremento en compromiso junto con 28% mejores porcentajes de retención comparado con
métodos de instrucción tradicionales.
Acceso educativo global: soporte destinado a 100+ idiomas con rendimiento casi-nativo
en 40+ idiomas prioritarios facilita educación en regiones desatendidas.
Tendencias identificadas
Convergencia hacia modelos de razonamiento avanzado
El año 2025 marca transición fundamental desde mejoras fundamentadas en escalamiento
hacia competencias de razonamiento especializadas. OpenAI o-series, DeepSeek-R1, junto con
Gemini 2.5 Pro representan nueva generación que emplea escalamiento de cómputo en tiempo
de prueba orientado hacia "pensar" antes de responder, logrando mejoras considerables en
matemáticas (97.3% MATH-500) junto con tareas de razonamiento científico.
Democratización mediante código abierto competitivo
Estrechamiento de brecha de desempeño entre modelos comerciales junto con código
abierto demuestra democratización de competencias como se pudo notar en la investigación,
DeepSeek-R1, QwQ-32B, junto con LLaMA-4 logran paridad competitiva en múltiples
métricas.
Revolución de gastos de capacitación / adiestramiento ejemplificado por DeepSeek-V3
logrando desempeño competitivo con $5.6M versus estimados $50M+ orientado hacia
competidores comerciales sugiere disrupción potencial de ventajas de recursos mantenidas por
corporaciones principales.

Vol. 12/ Núm. 3 2025 pág. 3132
Brechas de investigación identificadas
Evaluación de impacto longitudinal permanece insuficiente acompañada de estudios
limitados examinando efectos del despliegue a largo plazo de LLM en educación, atención
sanitaria, junto con productividad laboral, recordando que estas tecnologías se presentan en el
año 2022, por lo cual aún es difícil dar una trazabilidad a largo plazo.
Marcos éticos estandarizados requieren desarrollo urgente, particularmente orientados
hacia aplicaciones críticas que requieren garantías de seguridad.
Representación cultural junto con lingüística muestra sesgo geográfico significativo:
perspectivas occidentales dominan información de adiestramiento junto con métricas de
evaluación, mientras que 38.5% de estudios originan desde instituciones estadounidenses.
CONCLUSIONES
Este análisis sistemático fundamentado en metodología PRISMA muestra un ecosistema
LLM en rápida maduración caracterizado por convergencia en competencias fundamentales
entre modelos líderes comerciales, democratización mediante alternativas de código abierto
competitivas, junto con transición paradigmática hacia competencias de razonamiento
especializadas.
Los sectores donde las aplicaciones han alcanzado mayor madurez —atención sanitaria,
educación e investigación científica— evidencian un valor transformador mensurable
acompañado de mejoras de eficiencia del 40-68% junto con compresión temporal significativa
en procesos complejos tradicionalmente intensivos en tiempo humano.
La multimodalidad nativa habilita una nueva clase de aplicaciones integradas que
trascienden limitaciones de modelos tradicionales.
Desafíos persistentes incluyen alucinaciones (afectando 15-25% de resultados), sesgo
cultural junto con demográfico documentado a través de múltiples estudios, además de
problemas de reproducibilidad (38.2% de estudios reportan inconsistencias de salida). Marcos
regulatorios junto con de seguridad retrasan competencias tecnológicas, requiriendo desarrollo
urgente orientado hacia aplicaciones críticas.
Trabajos futuros deben priorizar el Desarrollo de métricas dinámicas resistentes a
contaminación de información; (2) Marcos éticos estandarizados orientados hacia aplicaciones
críticas; (3) Estudios de impacto longitudinal examinando efectos de despliegue del mundo real;
(4) Democratización de competencias avanzadas mediante mejoras continuas de eficiencia;
junto con (5) Diversidad cultural junto con lingüística en información de adiestramiento.
El sector evoluciona hacia IA práctica, implementable, junto con globalmente accesible
que balancea avance de competencias con responsabilidad, eficiencia con desempeño, e
innovación con consideraciones éticas. Esta revisión sistemática proporciona fundamentos
orientados hacia toma de decisiones fundamentada en evidencia en prioridades de investigación,
Vol. 12/ Núm. 3 2025 pág. 3133
desarrollo de políticas, junto con estrategias de despliegue responsable orientadas hacia la
próxima década.

Vol. 12/ Núm. 3 2025 pág. 3134
REFERENCIAS
Boiko, D. A., et al. (2023). "Autonomous chemical research with large language models."
Nature, 619, 423-428. DOI: https://doi.org/10.1038/s41586-023-06792-0 .
Bommasani, R., et al. (2022). "Holistic Evaluation of Language Models (HELM)." Transactions
on Machine Learning Research. DOI: https://doi.org/10.48550/arXiv.2211.09110 .
Brown, T., et al. (2020). "Language Models are Few-Shot Learners." Advances in Neural
Information Processing Systems, 33, 1877-1901. DOI:
https://doi.org/10.48550/arXiv.2005.14165 .
Chang, Y., et al. (2024). "A Survey on Evaluation of Large Language Models." ACM
Transactions on Intelligent Systems and Technology, 15(3). DOI:
https://doi.org/10.1145/3641289
García-Peñalvo, F.J. (2024). "La nueva realidad de la educación ante los avances de la
inteligencia artificial generativa." RIED-Revista Iberoamericana de Educación a
Distancia, 27(1), 15-31. DOI: https://doi.org/10.5944/ried.27.1.37716
Hendrycks, D., et al. (2020). "Measuring Massive Multitask Language Understanding." ICLR.
DOI: https://doi.org/10.48550/arXiv.2009.03300 .
Hoffmann, J., et al. (2022). "Training Compute-Optimal Large Language Models." NeurIPS.
DOI: https://doi.org/10.48550/arXiv.2203.15556 .
Luo, X., et al. (2024). "Large language models surpass human experts in predicting
neuroscience results." Nature Human Behaviour. DOI: https://doi.org/10.1038/s41562-
024-02046-9 .
McKinsey Global Institute. (2023, junio 14). The economic potential of generative AI: The next
productivity frontier. McKinsey & Company.
https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-
potential-of-generative-ai-the-next-productivity-frontier
Mendoza-Castillo, L. et al. (2024). "Perspectiva de estudiantes de nivel medio superior respecto
al uso de la inteligencia artificial generativa en su aprendizaje." Apertura, 16(1), 628-
647. DOI: https://doi.org/10.32870/Ap.v16n1.2343
Ouyang, L., et al. (2022). "Training language models to follow instructions with human
feedback." NeurIPS. DOI: https://doi.org/10.48550/arXiv.2203.02155
Singhal, K., et al. (2023). "Large language models encode clinical knowledge." Nature, 620,
172-180. DOI: https://doi.org/10.1038/s41586-023-06291-2
Vaswani, A., et al. (2017). "Attention Is All You Need." NIPS, 5998-6008. DOI:
https://doi.org/10.5555/3295222.3295349
Wei, J., et al. (2022). "Emergent Abilities of Large Language Models." Transactions on
Machine Learning Research. DOI: https://doi.org/10.48550/arXiv.2206.07682