Datos sintéticos: Introducción a técnicas generativas y evaluación de calidad

Cargando...
Miniatura

Autores

Cleves Leguízamo, Diego Andrés

Enlace al recurso

DOI

Google Scholar

Cvlac

gruplac

Descripción Dominio:

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Santo Tomás

Compartir

Documentos PDF

Descripción

El presente trabajo aborda el estudio de datos sintéticos desde su concepción teórica y generación. Se propone la implementación de diversos modelos con el fin de sintetizar datos categóricos y cuantitativos, luego se comparan de acuerdo a su capacidad de enmascarar datos (propensión), sus medidas de semejanza estadística y tiempo de ejecución. Los resultados mostraron que simular variables categóricas con base a reglas, que representan sus dependencias en la realidad es el mejor método para simularlas. No obstante, a las variables numéricas no fue posible sintetizarlas de manera adecuada, los modelos propuestos no capturaron la cópula adecuadamente. A manera de conclusión se indica dónde se fallo y las oportunidades de mejora disponibles.

Abstract

This work studies synthetic data from its theoretical conception to its generation. Several models are implemented to synthesize categorical and numerical data and are compared in terms of data masking capability (propensity), statistical similarity, and execution time. The results indicate that rule-based simulation is the most effective approach for categorical variables, while numerical variables could not be adequately synthesized due to the models’ inability to capture the copula structure. The conclusions discuss the identified limitations and potential improvements.

Idioma

spa

Palabras clave

Citación

Cleves Leguízamo, D. A. (2025). Datos sintéticos: Introducción a técnicas generativas y evaluación de calidad. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional

Licencia Creative Commons

Attribution-NonCommercial-NoDerivs 2.5 Colombia