Comparación de Cinco Modelos de Machine Learning para la Predicción de las Elecciones Presidenciales en Colombia: una Perspectiva con Datos Composicionales
| dc.contributor.advisor | Pineda Ríos, Wilmer Darío | |
| dc.contributor.author | Leal Varón, Paula Andrea | |
| dc.contributor.author | Galeano Ortiz, Germán Andrés | |
| dc.contributor.corporatename | Universidad Santo Tomás | |
| dc.contributor.cvlac | https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001454199 | |
| dc.contributor.cvlac | https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001420586 | |
| dc.contributor.cvlac | https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001882179 | |
| dc.contributor.googlescholar | https://scholar.google.com/citations?user=Id9O7TkAAAAJ&hl=es&oi=ao | |
| dc.contributor.orcid | https://orcid.org/0000-0001-7774-951X | |
| dc.contributor.orcid | https://orcid.org/0000-0002-4306-1159 | |
| dc.date.accessioned | 2025-04-03T19:50:21Z | |
| dc.date.available | 2025-04-03T19:50:21Z | |
| dc.date.issued | 2025-04-02 | |
| dc.description | En los últimos años, numerosas investigaciones han empleado técnicas de machine learning y análisis de datos composicionales en distintos campos de estudio. Sin embargo, su integración en el análisis electoral sigue siendo escasa. Por tal razón, este trabajo integra ambos enfoques aplicando cinco modelos de machine learning: random forest, gradient boosting, support vector machines, k-nearest neighbors, y feedforward neural networks, para predecir los resultados de las elecciones presidenciales en Colombia a nivel municipal, considerando los datos como composicionales. Específicamente, se pronostica la distribución de votos de cada municipio en el espectro ideológico unidimensional Izquierda-Derecha. De esta forma, se busca no solo mejorar la precisión de las predicciones, sino también generar un avance importante en las metodologías aplicadas al análisis electoral. Los modelos se entrenaron con el 70% de los datos de las elecciones presidenciales entre 2002 y 2022, y se evaluó su rendimiento en el 30% restante. Los algoritmos mostraron desempeños similares entre las transformaciones de cada espectro ideológico con porcentajes de variabilidad entre el 56% y 94% en la predicción de la proporción de votos, destacándose el modelo de feedforward neural networks con la transformación log-cociente centrada, que alcanzó los mejores resultados. | |
| dc.description.abstract | In recent years, numerous studies have employed machine learning techniques and compositional data analysis in various fields of study. However, their integration into electoral analysis remains limited. For this reason, this work combines both approaches by applying five machine learning models: random forest, gradient boosting, support vector machines, k-nearest neighbors, and feedforward neural networks, to predict the results of the presidential elections in Colombia at the municipal level, onsidering the data as compositional. Specifically, it forecasts the vote distribution in each municipality along a unidimensional Left-Right ideological spectrum. This approach aims not only to improve prediction accuracy but also to comtribute a significant advancement in methodologies applied to electoral analysis. The models were trained on 70% of the presidential election data from 2002 to 2022 and evaluated on the remaining 30%. The algorithms demonstrated similar performance across transformations of each ideological spectrum, with variability percentages between 56% and 94% in predicting vote proportions, with the feedforward neural networks model using the centered log-ratio transformation achieving the best results. | |
| dc.description.degreelevel | Maestría | spa |
| dc.description.degreename | Magister en Estadística Aplicada | spa |
| dc.format.mimetype | application/pdf | |
| dc.identifier.citation | Leal Varón, P. A. y Galeano Ortiz, G. A. (2025). Comparación de cinco modelos de machine learning para la predicción de las elecciones presidenciales en Colombia: una perspectiva con datos composicionales. [Tesis de Maestría, Universidad Santo Tomás]. Repositorio Institucional. | |
| dc.identifier.instname | instname:Universidad Santo Tomás | spa |
| dc.identifier.reponame | reponame:Repositorio Institucional Universidad Santo Tomás | spa |
| dc.identifier.repourl | repourl:https://repository.usta.edu.co | spa |
| dc.identifier.uri | http://hdl.handle.net/11634/66909 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Santo Tomás | spa |
| dc.publisher.branch | CRAI-USTA Bogotá | |
| dc.publisher.faculty | Facultad de Estadística | spa |
| dc.publisher.program | Maestría Estadística Aplicada | spa |
| dc.relation.references | Aguilar López, J. and Aquino López, M. A. (2015). Modelo de predicción electoral: el caso de la elección municipal 2015 de león de los aldama, guanajuato. Estudios políticos (México), 2015(35):87–101. | |
| dc.relation.references | Aitchison, J. (1982). The statistical analysis of compositional data. Journal of the Royal Statistical Society: Series B (Methodological), 44(2):139–160. | |
| dc.relation.references | Aitchison, J. (1994). Principles of compositional data analysis. Lecture Notes-Monograph Series, pages 73–81. | |
| dc.relation.references | Amat Rodrigo, J. (2020). Árboles de decisión, random forest, gradient boosting y c5.0. https://cienciadedatos.net/documentos/33_arboles_de_prediccion_bagging_random_ forest_boosting#Random_Forest. | |
| dc.relation.references | Andes Universidad, U. (2023). Partidos políticos en colombia: definición, funciones y lista actualizada. https://programas.uniandes.edu.co/blog/partidos-politicos-de-colombia. | |
| dc.relation.references | Arcila-Calderón, C., Ortega-Mohedano, F., Jiménez-Amores, J., and Trullenque, S. (2017). Análisis supervisado de sentimientos políticos en español: clasificación en tiempo real de tweets basada en aprendizaje automático. Profesional de la Información, 26(5):973–982. | |
| dc.relation.references | Atencia, W., Rambal, J., Bustillo, J., et al. (2020). Analizador de tweets asociados a la política y polarización colombiana. | |
| dc.relation.references | Baquero, K. S. M.-P. X. and Rosero, A. B. (2019). Aprendizaje de máquinas para la predicción de elecciones presidenciales en colombia. | |
| dc.relation.references | Barrera, J. A.-T. (2012). Redes neuronales. Universidad de Guadalajara Disponible en: http://www. cucei. udg. mx/sites/default/files/pdf/toral_barrera_jamie_areli. pdf [Visitada en octubre de 2016]. | |
| dc.relation.references | Barrios, A., Montoya, N., and Mancera, C. (2018). Sistema electoral - elecciones generales. Misión de Observación Electoral. | |
| dc.relation.references | Borges, J. A. L., Balam, R. I. N., Gómez, L. R., and Strand, M. P. (2016). The machine learning in the prediction of elections. ReCIBE, 4(2). | |
| dc.relation.references | Cabrera-Tenecela, P. (2021). Revisión bibliográfica del pronóstico electoral a través del big data. South American Research Journal, 1(2):27–35. | |
| dc.relation.references | Campo León, E. and Alcalá Nalvaiz, J. T. (2017). Introducción a las máquinas de vector soporte (svm) en aprendizaje supervisado. Trabajo de Fin de Grado en Matemáticas, Universidad de Zaragoza. Obtenido de https://zaguan. unizar. es/record/59156/files/TAZ-TFG-2016-2057. pdf. | |
| dc.relation.references | Carbonell, D. G. E. (2020). Ärboles de regresión. algunos algoritmos y extensiones a métodos de consenso. https://cienciadedatos.net/documentos/33_arboles_de_prediccion_bagging_random_ forest_boosting#Random_Forest. | |
| dc.relation.references | Castaño-Gómez, I. M. et al. (2019). Modelo predictivo para inferir en el próximo presidente de estado a través de un vocabulario ontológico en twitter. | |
| dc.relation.references | Cerón-Guzmán, J. A. and León-Guzmán, E. (2016). A sentiment analysis system of spanish tweets and its application in colombia 2014 presidential election. In 2016 IEEE international conferences on big data and cloud computing (BDCloud), social computing and networking (socialcom), sustainable computing and communications (sustaincom)(BDCloud-socialcom-sustaincom), volume 2016, pages 250–257. IEEE. | |
| dc.relation.references | Comisión de la Verdad (2023). Las elecciones presidenciales de 1994. https://www.comisiondelaverdad.co/las-elecciones-presidenciales-de-1994. | |
| dc.relation.references | Corona, R. M. and Sánchez, R. M. (2012). Las elecciones presidenciales de 2012 vistas desde twitter. Virtualis, 3(6):30–41. | |
| dc.relation.references | Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine learning, 20:273–297. | |
| dc.relation.references | Cuervo, M. C. and Guerrero, M. A. V. (2019). Predicción electoral usando un modelo híbrido basado en análisis sentimental y seguimiento a encuestas: elecciones presidenciales de colombia. Revista Politécnica, 15(30):94–104. | |
| dc.relation.references | De Colombia, A. C. et al. (1991). Constitución política de Colombia. leyfacil. com. ar. | |
| dc.relation.references | del Tronco Paganelli, J., Flores Ivich, G., and Madrigal Ramírez, A. (2016). La utilidad de las encuestas en la predicción del voto. la segunda vuelta de argentina 2015. Revista mexicana de opinión pública, .(21):73–92. | |
| dc.relation.references | Deltell, L., Claes, F., and Osteso, J. M. (2013). Predicción de tendencia política por twitter: Elecciones andaluzas 2012. Ámbitos. Revista internacional de comunicación, .(22). | |
| dc.relation.references | Efron, B. (1992). Bootstrap methods: another look at the jackknife. In Breakthroughs in statistics: Methodology and distribution, pages 569–593. Springer. | |
| dc.relation.references | Egozcue, J. J., Pawlowsky-Glahn, V., Mateu-Figueras, G., and Barcelo-Vidal, C. (2003). Isometric logratio transformations for compositional data analysis. Mathematical geology, 35(3):279–300. | |
| dc.relation.references | El Khalifi, D. P. (2017). Aplicación del aprendizaje automático en dos casos de política española: Elecciones 26j e independencia de cataluña. University of Huelva & International University of Andalusia. | |
| dc.relation.references | El Mundo (2006). Álvaro uribe, reelegido presidente de colombia con más del 60% de los votos. https://www.elmundo.es/elmundo/2006/05/27/internacional/1148762529.html. | |
| dc.relation.references | El Tiempo (1998). Las elecciones presidenciales de 1994. https://www.eltiempo.com/archivo/documento/MAM- 811673. | |
| dc.relation.references | El Tiempo (2002). Arrollador triunfo de uribe. https://www.eltiempo.com/archivo/documento/MAM- 1315988. | |
| dc.relation.references | Fernández Casal, R. (2020). Svm - máquinas de vectores de soporte. https://rubenfcasal.github. io/aprendizaje_estadistico/svm.html. | |
| dc.relation.references | Fernández Villafañez, S. et al. (2022). Métodos de regresión y clasificación basados en árboles. | |
| dc.relation.references | Fix, E. (1985). Discriminatory analysis: nonparametric discrimination, consistency properties, volume 1. USAF school of Aviation Medicine. | |
| dc.relation.references | Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, pages 1189–1232. | |
| dc.relation.references | Garcia-Moreno, V. E., Alvarez-Caicedo, C. R., and Vásquez-Saenz, N. G. (2021). Análisis de sentimientos en la predicción de resultados de elecciones presidenciales. Revista de investigación de sistemas e informática, 14(1):69–81. | |
| dc.relation.references | García González, A. (2023). Modelado matemático del algoritmo knn (k-nearest neighbors). https://panamahitek.com/modelado-matematico-del-algoritmo-knn-k-nearest-neighbors/. | |
| dc.relation.references | Gechem Sarmiento, C. E. (2009). Los partidos políticos en colombia: entre la realidad y la ficción. | |
| dc.relation.references | Gentilhombre, E. (2023). Espectro político. https://www.elgentilhombre.com/espectro-politico/. | |
| dc.relation.references | González, V. (2019). Una breve historia del machine learning. https://empresas.blogthinkbig.com/ una-breve-historia-del-machine-learning/. | |
| dc.relation.references | González Franco, N., Tecnológico, D., González Serna, J. G., Astiazarán Yépiz, G. J., and Castro Sánchez, N. A. (2019). Las benditas redes sociales: Twitter y las elecciones presidenciales méxico 2018. Congreso Estudiantil de Inteligencia Artificial Aplicada a la Ingeniería y Tecnología, UNAM, FESC. | |
| dc.relation.references | Gómez-Torres, E., Jaimes, R., Hidalgo, O., and Luján-Mora, S. (2018). Influencia de redes sociales en el análisis de sentimiento aplicado a la situación política en ecuador (influence of social networks on the analysis of sentiment applied to the political situation in ecuador). | |
| dc.relation.references | Huet, P. (2023). Qué son las redes neuronales y sus aplicaciones. https://openwebinars.net/blog/queson- las-redes-neuronales-y-sus-aplicaciones/. | |
| dc.relation.references | IBM (2024). ¿qué es el algoritmo de k vecinos más cercanos? https://www.ibm.com/es-es/topics/knn. | |
| dc.relation.references | Isaza, R. L. (2009). Historia resumida del partido liberal colombiano. Bogotá, Colombia: Partido Liberal Colombiano. | |
| dc.relation.references | Jaramillo Guerra, M. C. et al. (2018). Las emociones en la política: el caso de las campañas de los precandidatos de la gran consulta por colombia. B.S. thesis, Universidad de La Sabana. | |
| dc.relation.references | Khan, A., Zhang, H., Boudjellal, N., Ahmad, A., Shang, J., Dai, L., and Hayat, B. (2021). Election prediction on twitter: A systematic mapping study. Complexity, 2021. | |
| dc.relation.references | Liscano Fierro, J. M. (2017). Modelos mixtos para datos composicionales: Una aplicación con resultados electorales en colombia. . | |
| dc.relation.references | Luque Zabala, C. M. (2021). Métodos Bayesianos para caracterizar el comportamiento legislativo del Senado colombiano en el periodo 2010-2014. PhD thesis, Universidad Santo Tomás. | |
| dc.relation.references | López Medel, B. (2019). Estudio de ideología política en redes sociales a través de machine learning. | |
| dc.relation.references | Macias, A. C. R., Cobeña, L. E. S., and Valle, J. E. P. (2021). Análisis de sentimientos de las elecciones públicas del ecuador basado en la red social twitter. Informática y Sistemas: Revista de Tecnologías de la Informática y las Comunicaciones, 5(1):7–16. | |
| dc.relation.references | Makazhanov, A. and Rafiei, D. (2013). Predicting political preference of twitter users. In ., pages 298–305. | |
| dc.relation.references | Mariela Lucina, C. C., David Alejandro, C. S., and Rubén, U.-A. (2023). Elecciones presidenciales en el perú: minería de textos de los editoriales del diario la república. Revista de Comunicación, 22(1):71–87. | |
| dc.relation.references | Marsland, S. (2011). Machine learning: an algorithmic perspective. Chapman and Hall/CRC. | |
| dc.relation.references | Miranda, M. V. (2020). Teorema de aproximación universal: prueba constructiva basada en conjuntos semisimpliciales. | |
| dc.relation.references | Molano, J. O. S. (2014). Elecciones presidenciales en colombia: 2014-2018. Revista de la Facultad de Derecho y Ciencias Políticas, 44(120):11–15. | |
| dc.relation.references | Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press. | |
| dc.relation.references | Orjuela Escobar, L. J. (2022). Quién es quién en el espectro político colombiano. https://cerosetenta. uniandes.edu.co/quien-es-quien-en-el-espectro-politico-colombiano/. | |
| dc.relation.references | Partido Conservador, C. (2021). Manual del conservador. https://www.partidoconservador.com/ wp-content/uploads/2021/04/Manual-del-Conservador-1.pdf. | |
| dc.relation.references | Pawlowsky-Glahn, V., Egozcue, J. J., and Tolosana Delgado, R. (2011). Lecture notes on compositional data analysis. | |
| dc.relation.references | Plata Rincón, C. (2017). Plebiscito por la paz en colombia: análisis estadístico a partir de datos composicionales. | |
| dc.relation.references | Ramírez Vicente, F. (2019). Las matemáticas del machine learning: Redes neuronales (parte i). https://telefonicatech.com/blog/las-matematicas-del-machine-learning-redes-neuronales-parte-i. | |
| dc.relation.references | Roca, P. E.-S. (2021). Sobre las ideologías. https://www.nodulo.org/ec/2021/n194p14.htm. | |
| dc.relation.references | Rodriguez, E. G. (2022). Advances in Machine Learning for Compositional Data. Columbia University. | |
| dc.relation.references | Romero, B. and Montaño, L. (2010). Elecciones presidenciales en colombia 2010. | |
| dc.relation.references | Romero García, M. et al. (2022). La decisión de participar: testando las teorías del comportamiento político en américa mediante técnicas de machine learning. | |
| dc.relation.references | Romero Moreno, F. Y. et al. (2019). Las redes sociales como factor de predicción de resultados electorales en campañas presidenciales. | |
| dc.relation.references | Santander, P., Elórtegui, C., González, C., Allende-Cid, H., and Palma, W. (2017). Redes sociales, inteligencia computacional y predicción electoral: el caso de las primarias presidenciales de chile 2017. Cuadernos. info, 2017(41):41–56. | |
| dc.relation.references | Sánchez Navarro, A. (2021). Uso de twitter durante los últimos días de una campaña electoral. elecciones presidenciales en eeuu 2020. | |
| dc.relation.references | The Carter Center (2022). Informe de la misión de expertos: Elecciones presidenciales de colombia 2022. https://www.cartercenter.org/resources/pdfs/news/peace_publications/election_ reports/colombia-expert-mission-report-2022-spanish.pdf. | |
| dc.relation.references | Tolosana-Delgado, R., Talebi, H., Khodadadzadeh, M., and Van den Boogaart, K. (2019). On machine learning algorithms and compositional data. In Proceedings of the 8th International Workshop on Compositional Data Analysis, Terrassa, Spain, pages 3–8. | |
| dc.relation.references | Triglia, A. (2015). Los ejes políticos (izquierda y derecha). portal psicología y mente. https: //psicologiaymente.com/social/ejes-politicos-izquierda-derecha. | |
| dc.relation.references | Urbina, S. L., Zayas, H. A. V., and López, O. G. T. (2019). Algoritmo random forest para la detección de fallos en redes de computadoras. Serie Científica de la Universidad de las Ciencias Informáticas, 12(8):27–41. | |
| dc.relation.references | Valenzuela Chaparro, H. d. J. (2020). Exploración de métodos en aprendizaje automatizado y su uso en física de altas energías. | |
| dc.relation.references | Zhang, M. and Shi, W. (2019). Systematic comparison of five machine-learning methods in classification and interpolation of soil particle size fractions using different transformed data. Hydrology and Earth System Sciences Discussions, pages 1–39. | |
| dc.rights | Attribution-NonCommercial-NoDerivs 2.5 Colombia | en |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.local | Abierto (Texto Completo) | spa |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | |
| dc.subject.keyword | Presidential elections | |
| dc.subject.keyword | Machine-learning | |
| dc.subject.keyword | Random forest | |
| dc.subject.keyword | Gradient boosting | |
| dc.subject.keyword | Support vector machines | |
| dc.subject.keyword | K-nearest neighbors | |
| dc.subject.keyword | Feedforward neural networks | |
| dc.subject.keyword | compositional data | |
| dc.subject.keyword | Log-ratios | |
| dc.subject.lemb | Estadística Aplicada | |
| dc.subject.lemb | Estadística | |
| dc.subject.lemb | Datos abiertos | |
| dc.subject.proposal | Elecciones precidenciales | |
| dc.subject.proposal | Machine-learning | |
| dc.subject.proposal | Random forest | |
| dc.subject.proposal | Gradient boosting | |
| dc.subject.proposal | Support vector machines | |
| dc.subject.proposal | K-nearest neighbors | |
| dc.subject.proposal | Feedforward neural networks | |
| dc.subject.proposal | Datos composicionales | |
| dc.subject.proposal | Logaritmos de cocientes | |
| dc.title | Comparación de Cinco Modelos de Machine Learning para la Predicción de las Elecciones Presidenciales en Colombia: una Perspectiva con Datos Composicionales | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa | |
| dc.type.drive | info:eu-repo/semantics/masterThesis | |
| dc.type.local | Tesis de maestría | spa |
| dc.type.version | info:eu-repo/semantics/acceptedVersion |
Archivos
Bloque original
1 - 3 de 3
Cargando...
- Nombre:
- 2025LealPaulaGaleanoGermán.pdf
- Tamaño:
- 2.38 MB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- 2025cartadefacultad.pdf
- Tamaño:
- 363.8 KB
- Formato:
- Adobe Portable Document Format
Cargando...
- Nombre:
- 2025cartadederechosdeautor.pdf
- Tamaño:
- 903.41 KB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
Cargando...
- Nombre:
- license.txt
- Tamaño:
- 807 B
- Formato:
- Item-specific license agreed upon to submission
- Descripción:

