Modelos de machine learning para clasificar la cartera en un fondo de pensiones

dc.contributor.advisorCruz Pérez, Edwin Andrés
dc.contributor.advisorPerdomo Charry, Oscar
dc.contributor.authorGil Rubio, Ricardo
dc.contributor.corporatenameUniversidad Santo Tomásspa
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001525346
dc.contributor.googlescholarhttps://scholar.google.com/citations?hl=es&user=e6Oad5sAAAAJ
dc.contributor.orcidhttps://orcid.org/0000-0003-2134-0058
dc.date.accessioned2022-09-22T15:43:07Z
dc.date.available2022-09-22T15:43:07Z
dc.date.issued2022-09-22
dc.descriptionEl presente trabajo tiene como objetivo, a través de la aplicación de diferentes técnicas de Machine Learning y diagnósticos estadísticos e inferenciales, proponer modelos de análisis predictivos que permitan identificar, clasificar y procesar oportunamente cuáles son las empresas que no pagan los aportes de pensión a sus trabajadores afiliados al fondo de pensiones, y así implementar diferentes estrategias de cobro encaminadas a recuperar los dineros adeudados. En el proceso de evaluación de rendimiento de los modelos se logró evidenciar que la técnica Árboles de Decisión presenta excelentes resultados: no requirió estandarización de los datos al lograr un porcentaje de certeza excelente y clasificó de forma rápida y eficiente la variable predictora en una base de datos con un número adecuado de registros. Las demás técnicas mostraron buenos resultados en la clase tipo 0, 3 y 4 con porcentajes superiores al 96,8% tanto en exhaustividad como en medida-F, mientras se redujo el desempeño para las técnicas Regresión Logística 71,8% y Máquinas de Vectores de Soporte 69,2% en exhaustividad y Redes Bayesianas 18,5% en medida-F, lo anterior para la clase tipo 1. En la técnica Redes Bayesianas para la clase tipo 2 se redujo en 24,7% y 29,3% tanto en exhaustividad como en medida-F y Máquinas de Vectores de Soporte en 59,4% para medida-F. Lo anterior se abordo con el tratamiento de clases desbalanceadas y con los algoritmos de refuerzo o conjunto. El desequilibrio de clases es una problema bastante frecuente cuando se trabaja con datos reales; cuando muestras de una o de múltiples clases están sobre representadas en un conjunto de datos. Existen varios ámbitos en los que puede ocurrir, como el filtrado de spam, detección de cáncer, la identificación de fraude o la detección de enfermedades. Las estrategias para tratar el desequilibrio de clases incluyen el muestreo ascendente de la clase minoritaria, el muestreo descendente de la clase mayoritaria y la generación de muestras de entrenamiento sintéticas mediante el algoritmo más utilizado (SMOTE, por sus siglas en Inglés). Una vez evaluados los modelos con la segmentación propuesta se generaron las estrategias que permitieron identificar los mecanismos de gestión de cobro dependiente del tipo de deudor, esto va, desde una visita comercial, gestión de contact center para cobro preventivo o un extracto con información de pagos, para deudores de baja criticidad, pasando por una carta de cobro persuasivo, asesoramiento en los puntos de atención o mensajes de texto para deudores de criticidad media, hasta el proceso de cobro coactivo, embargos y demás medidas para los deudores que son renuentes al pago.spa
dc.description.abstractThe present paper has as objective, the application of different Machine Learning techniques as well as statistical and inferential diagnostics, to propose predictive analysis models that allow to in due time identify, classify and process the companies that are not paying pension contributions to their employees affiliated to the pension fund, and thus to implement different collection strategies to recover contributions owed. In the process of evaluating the performance of the models, it was possible to show that the Decision Trees technique presents excellent results: it did not require standardization of the data by achieving an excellent percentage of certainty and it quickly and efficiently classified the predictor variable in a database with an adequate number of records. The other techniques showed good results in class type 0, 3 and 4 with percentages above 96.8\% both in completeness and in measure-F, while the performance decreased for Logistic Regression 71.8\% and Support Vector Machines 69.2\% in completeness and Bayesian Networks 18.5\% in measure-F, the above for class type 1. In the Bayesian Networks technique for class type 2 it was reduced by 24.7\% and 29.3\% both in completeness and F-measure and Support Vector Machines at 59.4\% for F-measure. This was addressed with the treatment of unbalanced classes and with the reinforcement or ensemble algorithms. Class imbalance is a fairly common problem when working with real data; when samples from one or multiple classes are over represented in a data set. There are several areas in which it can occur, such as spam filtering, cancer detection, fraud identification or disease detection. Strategies to deal with class imbalance include minority class up sampling, majority class down sampling, and generation of synthetic training samples using the most commonly used algorithm (SMOTE). Once the models with the proposed segmentation were evaluated, the strategies were generated that allowed identifying the collection management mechanisms depending on the type of debtor, this ranges from a commercial visit, contact center management for preventive collection or an extract with payment information, for debtors of low criticality, going through a persuasive collection letter, advice at service points or text messages for debtors of medium criticality, to the coercive collection process, embargoes and other measures for debtors who are reluctant to pay.spa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagister en Estadística Aplicadaspa
dc.format.mimetypeapplication/pdf
dc.identifier.citationGil Rubio, R. (2022). Modelos de machine learning para clasificar la cartera en un fondo de pensiones. [Maestría, Universidad Santpo Tomás]. Repositorio institucional.spa
dc.identifier.instnameinstname:Universidad Santo Tomásspa
dc.identifier.reponamereponame:Repositorio Institucional Universidad Santo Tomásspa
dc.identifier.repourlrepourl:https://repository.usta.edu.cospa
dc.identifier.urihttp://hdl.handle.net/11634/47294
dc.language.isospa
dc.publisherUniversidad Santo Tomásspa
dc.publisher.branchCRAI-USTA Bogotáspa
dc.publisher.facultyFacultad de Estadísticaspa
dc.publisher.programMaestría Estadística Aplicadaspa
dc.relation.referencesAgresti, A. (2002). Análisis de datos categóricos. Segunda edición, John Wiley & Sons, Inc., Nueva York. En línea. Recuperado de: http://dx.doi.org/10.1002/0471249688.spa
dc.relation.referencesAlpaydin, E. (2004). Introduction to Machine Learning. The MIT press Cambridge, MA.spa
dc.relation.referencesAmat, J. (2016). Regresión logística simple y múltiple. https://www.cienciadedatos.net/documentos/27- \_regresion\_logistica\_simple\_y\_multiple.spa
dc.relation.referencesAruna, R. \& Nirmala, K. (2013). Construction of Decision Tree: Attribute Selection Measures. International Journal of Advancements in Research & Technology, Volume 2, Issue 4. Recuperado de: http://www.ijoart.org/docs/Construction-of-Decision-Tree--Attribute-Selection-Measures.pdf.spa
dc.relation.referencesBrito, F. \& Artes, R. (2018). Aplicación de árboles de regresión aditiva bayesiana en el desarrollo de modelos de calificación crediticia en Brasil. Producción, 28., https://doi.org/10.1590/0103-6513.20170110.spa
dc.relation.referencesCohen, J. (1960). Un coeficiente de acuerdo con las escalas nominales. Medida educativa y psicológica, 20 (1), pp. 37-46. Doi: 10.1177 / 001316446002000104.spa
dc.relation.referencesColfondos. (2013). Manual del participante, Ley 100 de 1993.En línea. Recuperado de: https://www.colfondos.com.co/dxp/documents/20143/37693/LEY+100+DE+1993.pdf/c2be65aa-08dd-decc-447c-647409ce4f12.spa
dc.relation.referencesInternational Business Machines Corporation (2019). Funcionamiento de SVM. Recuperado de: https://www.ibm.com/docs/es/spss-modeler/SaaS?topic=models-how-svm-works.spa
dc.relation.referencesGarcia, N. (2020).Qué son los árboles de decisión y para que sirven.Recuperado de: https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-sirven/.spa
dc.relation.referencesHusejinovic et al. (2018). Aplicación de algoritmos de aprendizaje automático en la predicción de pagos predeterminados de tarjetas de crédito.Recuperado de: https://www.researchgate.net/publication/328026972-Application-of-Machine- Learning-Algorithms-in-Credit-Card-Default-Payment-Prediction.spa
dc.relation.referencesIronhack (2015). ¿En qué consiste el Machine Learning?. En línea. Recuperado de: https://www.ironhack.com/es/data-analytics/que-es-machine-learning.spa
dc.relation.referencesLópez, R. (2015). Machine Learning con Python. En línea. Recuperado de: https://relopezbriega.github.io/blog/2015/10/10/machine-learning-con-python/.spa
dc.relation.referencesMendoza, J. (2020). XGBoost en Python. En línea. Recuperado de: https://medium.com/@jboscomendoza/tutorial-xgboost-en-python-53e48fc58f73.spa
dc.relation.referencesMüller, A. \& Guido, S. (2017). Introduction to Machine Learning with Python. A Guide for Data Scientists. O'reilly, United States of America.spa
dc.relation.referencesNaviani, (2018).Clasificador AdaBoost en Python. Recuperado de: https://www.datacamp.com/tutorial/adaboost-classifier-python#rdl.spa
dc.relation.referencesNieto, S. (2010). Crédito al Consumo: La estadística aplicada a un problema de riesgo crediticio [Tesis de Maestría]. Universidad Autónoma Metropolitana. Recuperado de: http://mat.izt.uam.mx/mcmai/documentos/tesis/Gen.07-O/Nieto-S-Tesis.pdf.spa
dc.relation.referencesOlarte, N. (8 de abril de 2016). El pequeño dato que puede arruinar su futuro. Revista Semana. En línea. Recuperado de: http://www.finanzaspersonales.co/pensiones-y-cesantias/articulo/que-hacer-cuando-la-empresa-no-hace-aportes-a-pension/59958.Fecha de consulta: noviembre de 2018.spa
dc.relation.referencesOñate (2016). Análisis de la Deserción y Permanencia Académica en la Educación superior Aplicando Minería De Datos. Universidad Nacional de Colombia.spa
dc.relation.referencesParra, F. (2017). Estadística y Machine Learning con R. Rpubs. Recuperado de: https://rpubs.com/PacoParra/293405, Fecha de consulta: noviembre de 2018.spa
dc.relation.referencesRaschka \& Mirjalili (2019). Python Machine Learning. Aprendizaje automático y aprendizaje profundo con Python, scikit-learn y TensorFlow. Marcombo.spa
dc.relation.referencesResolución 2082 de 2016 (2017). Principales cambios o ajustes. Proceso de extracción de conocimiento. Unidad de Gestión Pensional y Parafiscales.spa
dc.relation.referencesRuiz, S. (2016). Algoritmos de clasificación: K-NN, Árboles de decisión simples y múltiples (random forest). En línea. Recuperado de: https://rstudio-pubs-static.s3.amazonaws.com.spa
dc.relation.referencesSancho, F. (2017). Redes Neuronales: una visión superficial. En línea. Recuperado de: http://www.cs.us.es/~fsancho/?e=72.spa
dc.relation.referencesSrinath \& Gururaja (2022). Aprendizaje automático explicable en la identificación de morosos de tarjetas de crédito.Recuperado de: https://www.sciencedirect.com/science/article/pii/S2666285X22000619.spa
dc.relation.referencesStatistical Analysis System (SAS) Institute. (2019). Machine Learning, una expresión de la Inteligencia Artificial. En línea. Recuperado de: https://www.sas.com/content/dam/SAS/es_mx/doc/whitepaper1/109075_0917.pdf.spa
dc.rightsAtribución-NoComercial-SinDerivadas 2.5 Colombia
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.subject.lembEstadísticasspa
dc.subject.lembPensionadosspa
dc.subject.lembTrabajadoresspa
dc.subject.proposalMachine learningspa
dc.subject.proposalregresión logísticaspa
dc.subject.proposalmáquinas de vectores de soporte,spa
dc.subject.proposalárboles de decisiónspa
dc.subject.proposalredes neuronalesspa
dc.subject.proposalredes bayesianasspa
dc.subject.proposalcarteraspa
dc.subject.proposalfondos de pensionesspa
dc.subject.proposal, moraspa
dc.titleModelos de machine learning para clasificar la cartera en un fondo de pensionesspa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.driveinfo:eu-repo/semantics/masterThesis
dc.type.localTesis de maestríaspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersion

Archivos

Bloque original

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
2022ricardogil.pdf
Tamaño:
1.41 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de Grado
Cargando...
Miniatura
Nombre:
Carta Aprobación Facultad.pdf
Tamaño:
128.1 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta aprobación facultad
Cargando...
Miniatura
Nombre:
Carta Derechos de Autor.pdf
Tamaño:
323.93 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta derechos de autor

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
807 B
Formato:
Item-specific license agreed upon to submission
Descripción: