Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente

Cargando...
Miniatura

Fecha

2024-02-01

Enlace al recurso

DOI

Google Scholar

gruplac

Descripción Dominio:

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Santo Tomás

Compartir

Documentos PDF
Cargando...
Miniatura

Resumen

El propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.

Abstract

The purpose of this document is to highlight the process of creating an automated tool for reviewing and ensuring the quality of data processed by an ETL (Extract, Transform, and Load) system, which is utilized by Banco de Occidente to migrate information from multiple databases to a central database. During this migration process, the data tables are exposed to the risk of corruption due to potential errors in the ETL development. Given the substantial amount of data involved, manually reviewing these tables becomes impractical as they may contain millions of records. In response to this need, the bank's testing team identified the urgency of having a tool to verify the correctness of files before loading them into the destination database. As a solution, a tool was developed using the Python programming language. This tool takes files in .csv format extracted from databases and compares them with data stored in Excel spreadsheets (.xlsx), providing indicators of similarity between both sources. This ensures the integrity of the files once processed. Additionally, the tool offers the option to download a .xlsx file with a boolean table detailing which data has been modified, which is valuable for Quality Control Analysts (QA) when reporting faults in supplied ETLs. In conclusion, a user-friendly interface was successfully developed that meets the established objectives for ensuring the quality of data processed by the ETL. The tool also has significant potential for implementation in other software testing and data migration teams, offering an efficient and reliable solution to ensure data accuracy in similar processes.

Idioma

spa

Palabras clave

Citación

Ahumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.

Licencia Creative Commons

Atribución-NoComercial-SinDerivadas 2.5 Colombia