Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente

dc.contributor.advisorMancera Lagos, Pedro Alejandro
dc.contributor.authorAhumada Campos, Ray Andres
dc.contributor.corporatenameUniversidad Santo Tomásspa
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000068920spa
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0002169554spa
dc.contributor.orcidhttps://orcid.org/0000-0001-8546-5058spa
dc.coverage.campusCRAI-USTA Bogotáspa
dc.date.accessioned2024-02-02T14:04:23Z
dc.date.available2024-02-02T14:04:23Z
dc.date.issued2024-02-01
dc.descriptionEl propósito de este documento es resaltar el proceso de creación de una herramienta automatizada para revisar y asegurar la calidad de los datos procesados por un sistema ETL (Extract, Transform and Load), que es utilizado por el Banco de Occidente para migrar información desde múltiples bases de datos hacia una base de datos central. Durante este proceso de migración, las tablas de datos están expuestas al riesgo de corrupción debido a posibles errores en el desarrollo de la ETL. Dada la cantidad sustancial de datos involucrados, revisar manualmente estas tablas se vuelve impracticable, ya que pueden contener millones de registros. En respuesta a esta necesidad, el equipo de pruebas del banco identificó la urgencia de contar con una herramienta para verificar la corrección de los archivos antes de cargarlos en la base de datos de destino. Como solución, se desarrolló una herramienta utilizando el lenguaje de programación Python. Esta herramienta toma archivos en formato .csv extraídos de las bases de datos y los compara con los datos almacenados en hojas de cálculo de Excel (.xlsx), proporcionando indicadores de similitud entre ambas fuentes. Esto asegura la integridad de los archivos una vez procesados. Además, la herramienta ofrece la opción de descargar un archivo en formato .xlsx con una tabla booleana que detalla qué datos han sido modificados, lo cual es valioso para los Analistas de Control de Calidad (QA) al informar sobre fallos en las ETL suministradas. En conclusión, se logró desarrollar una interfaz gráfica de usuario que cumple con los objetivos establecidos para asegurar la calidad de los datos procesados por la ETL. La herramienta también tiene un potencial significativo para implementarse en otros equipos de pruebas de software y migración de datos, ofreciendo una solución eficiente y confiable para garantizar la exactitud de los datos en procesos similares.spa
dc.description.abstractThe purpose of this document is to highlight the process of creating an automated tool for reviewing and ensuring the quality of data processed by an ETL (Extract, Transform, and Load) system, which is utilized by Banco de Occidente to migrate information from multiple databases to a central database. During this migration process, the data tables are exposed to the risk of corruption due to potential errors in the ETL development. Given the substantial amount of data involved, manually reviewing these tables becomes impractical as they may contain millions of records. In response to this need, the bank's testing team identified the urgency of having a tool to verify the correctness of files before loading them into the destination database. As a solution, a tool was developed using the Python programming language. This tool takes files in .csv format extracted from databases and compares them with data stored in Excel spreadsheets (.xlsx), providing indicators of similarity between both sources. This ensures the integrity of the files once processed. Additionally, the tool offers the option to download a .xlsx file with a boolean table detailing which data has been modified, which is valuable for Quality Control Analysts (QA) when reporting faults in supplied ETLs. In conclusion, a user-friendly interface was successfully developed that meets the established objectives for ensuring the quality of data processed by the ETL. The tool also has significant potential for implementation in other software testing and data migration teams, offering an efficient and reliable solution to ensure data accuracy in similar processes.spa
dc.description.degreelevelPregradospa
dc.description.degreenameIngeniero de Telecomunicacionesspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.citationAhumada Campos, R. A. (2023). Automatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidente. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.spa
dc.identifier.instnameinstname:Universidad Santo Tomásspa
dc.identifier.reponamereponame:Repositorio Institucional Universidad Santo Tomásspa
dc.identifier.repourlrepourl:https://repository.usta.edu.cospa
dc.identifier.urihttp://hdl.handle.net/11634/53911
dc.language.isospaspa
dc.publisherUniversidad Santo Tomásspa
dc.publisher.facultyFacultad de Ingeniería de Telecomunicacionesspa
dc.publisher.programPregrado Ingeniería de Telecomunicacionesspa
dc.relation.referencesAmazon Web Services, Inc. (s.f.). ¿QUÉ ES ETL? - Explicación de extracción, transformación y carga (ETL) - AWS. Recuperado de https://aws.amazon.com/es/what-is/etl/spa
dc.relation.referencesSYDLE. (2021, 9 de abril). Automatización de procesos: ¿cómo funciona? ¿Cuáles son los beneficios? Blog SYDLE. Recuperado de https://www.sydle.com/es/blog/automatizacion-de-procesos-6070ae4c9b901904c4349dcbspa
dc.relation.referencesPowerData - Especialista en Gestión de Datos | MDM | Big Data | Cloud | Data Warehouse. (s.f.). CALIDAD DE Datos. Cómo impulsar tu negocio con los datos. Recuperado de https://www.powerdata.es/calidad-de-datosspa
dc.relation.referencesMicrosoft Learn: Build skills that open doors in your career. (s.f.). USO DE Python para scripting y automatización. Recuperado de https://learn.microsoft.com/es-es/windows/python/scriptingspa
dc.relation.referencesAmazon Web Services, Inc. (s.f.). ¿QUÉ ES Python? - Explicación del lenguaje Python - AWS. Recuperado de https://aws.amazon.com/es/what-is/python/spa
dc.relation.referencesPython documentation. (s.f.). TKINTER – Interface de Python para Tcl/Tk. Recuperado de https://docs.python.org/es/3/library/tkinter.htmlspa
dc.relation.referencesAprende con Alf. (s.f.). LA LIBRERÍA Pandas | Aprende con Alf. Recuperado de https://aprendeconalf.es/docencia/python/manual/pandas/spa
dc.relation.referencesCardellino, F. (2021, 20 de marzo). La guía definitiva del paquete NumPy para computación científica en Python. freeCodeCamp.org. Recuperado de https://www.freecodecamp.org/espanol/news/la-guia-definitiva-del-paquete-numpy-para-computacion-cientifica-en-python/spa
dc.rightsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2spa
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.subject.keywordETLspa
dc.subject.keywordPythonspa
dc.subject.keywordQAspa
dc.subject.keywordCSVspa
dc.subject.keywordTestingspa
dc.subject.keywordSoftwarespa
dc.subject.keywordDataspa
dc.subject.lembIngeniería de Telecomunicacionesspa
dc.subject.lembDatosspa
dc.subject.lembBancospa
dc.subject.lembCalidad-Datosspa
dc.subject.proposalETLspa
dc.subject.proposalPythonspa
dc.subject.proposalQAspa
dc.subject.proposalCSVspa
dc.subject.proposalPruebasspa
dc.subject.proposalSoftwarespa
dc.subject.proposalDatosspa
dc.titleAutomatización de la Revisión de Datos Procesados por una ETL para el Área de Pruebas del Banco de Occidentespa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.driveinfo:eu-repo/semantics/bachelorThesis
dc.type.localTrabajo de gradospa
dc.type.versioninfo:eu-repo/semantics/acceptedVersion

Archivos

Bloque original

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
2024rayahumada.pdf
Tamaño:
1.45 MB
Formato:
Adobe Portable Document Format
Descripción:
Trabajo de grado
Thumbnail USTA
Nombre:
Carta Aprobación Facultad.pdf
Tamaño:
105.67 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta aprobación facultad
Thumbnail USTA
Nombre:
Carta Derechos de Autor.pdf
Tamaño:
943.91 KB
Formato:
Adobe Portable Document Format
Descripción:
Carta derechos de autor

Bloque de licencias

Mostrando 1 - 1 de 1
Thumbnail USTA
Nombre:
license.txt
Tamaño:
807 B
Formato:
Item-specific license agreed upon to submission
Descripción: