Análisis de Temas Utilizando Twitter: Una Aplicación del Modelo LDA al Caso Colombiano

dc.contributor.advisorRincon Gomez, William Arley
dc.contributor.authorDiaz Rubiano, Manuel Alejandro
dc.contributor.corporatenameUniversidad Santo Tomásspa
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000571776&lang=es
dc.contributor.cvlachttps://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0001692491
dc.contributor.googlescholarhttps://scholar.google.com/citations?hl=es&user=5z4hIPgAAAAJ
dc.contributor.orcidhttps://orcid.org/0000-0002-4419-1270
dc.contributor.orcidhttps://orcid.org/0000-0001-9682-8862
dc.date.accessioned2022-02-17T21:50:19Z
dc.date.available2022-02-17T21:50:19Z
dc.date.issued2022-02-17
dc.descriptionEn la actualidad, los avances tecnológicos han logrado que las personas estén cada vez más conectadas entre sí. Las redes sociales han facilitado la comunicación instantánea no solo entre personas que se conocen ya sea por ser amigos, familiares, pareja, sino también entre personas desconocidas que comparten cosas en común, o nada en común. De acuerdo con (Alvino, 2021), Twitter es una de las redes sociales más usadas en el mundo, con más de 322 millones de usuarios ha cifras del mes de julio del año 2021, y se basa en la publicación de microblogs en los cuales las personas publican por escrito principalmente, lo que están pensando en el momento. Es una red social perfecta para aquellas personas que, por su reconocimiento o fama, pueden influir fácilmente con sus opiniones, gracias a su gran número de admiradores o seguidores. Twitter en los últimos años ha diseñado una API la cual permite poder conectarse a la información que cada segundo se produce en su plataforma, de los más de 322 millones de usuarios. Para acceder a esta información, se utilizan 2 lenguajes de programación principales: R y Python. En el actual trabajo, se utiliza la API de Twitter, pues gracias a esta herramienta, se pueden descargar los datos, las opiniones que se están posteando en tiempo real a cada minuto en la red social. Con estos datos, se pueden realizar análisis, por ejemplo, análisis exploratorios sobre las opiniones de las personas, que piensan de las elecciones locales en las ciudades capitales, pues se pueden aplicar diferentes tipos de filtros de ubicación, y obtener datos de ciudades en específico, lo cual se realiza en este trabajo. Con lo anterior, también se usará distintas técnicas de Procesamiento del Lenguaje Natural (NLP), para poder obtener conclusiones correspondientes a los temas de interés, y a través de los hallazgos, obtener resultados. La principal técnica que se usó en el siguiente trabajo corresponde a las técnica de modelado de tópicos, en especial, el modelo LDA (\textit{Latent Dirichlet Allocation} por sus siglas en ingles). La asignación de Dirichlet Latente (LDA) es un modelo estadístico generativo que permite explicar conjuntos de observaciones mediante grupos no observados que explican por qué algunas partes de los datos son similares (Blei et.al 2003). Se puede decir que existen dos clases de modelados de tópicos, que son los modelos de tópicos lineares y los modelos de tópicos probabilísticos. Un ejemplo del modelo lineal es el modelo de Asignación Semántica Latente (LSA) y un ejemplo del modelo probabilístico es el modelo de Asignación de Dirichlet Latente, que es el modelo principal del actual trabajo. Se han desarrollado trabajos similares, el cual uno de ellos es el de Guarnizo, E. \& Monroy, A. (2021), en el cual se trato de inferir la aceptabilidad publica sobre el tema de la jurisdicción especial para la paz, utilizando opiniones sobre este tema en específico, tomado de redes sociales. Estos resultados se pueden implementar en cuestiones de política pública, o de influencia política, teniendo en cuenta el panorama pre electoral que afronta Colombia, y aún más con los sucesos como la pandemia de Covid 19, el Paro Nacional, o el recrudecimiento de la violencia. (Haselmayer & Jenny, 2016)spa
dc.description.abstractAccording to (Alvino, 2021), Twitter is one of the most used social networks in the world, with more than 322 million users has figures for the month of July 2021, and is based on the publication of microblogs in which people mainly publish in writing what they are thinking at the moment. It is a perfect social network for those people who, due to their recognition or fame, can easily influence their opinions, thanks to their large number of fans or followers. Twitter in recent years has designed an API which allows you to connect to the information that is produced every second on its platform, from the more than 322 million users. To access this information, 2 main programming languages are used: R and Python. In the current work, the Twitter API is used, because thanks to this tool, you can download the data, the opinions that are being posted in real time every minute on the social network. With this data, analyzes can be carried out, for example, exploratory analyzes on people's opinions about local elections in capital cities, since different types of location filters can be applied, and data can be obtained from specific cities, which is done in this job. In addition, the classification will be made between whether what users post has a positive or negative feeling. With the above, different Natural Language Processing (NLP) techniques will also be used, in order to obtain conclusions corresponding to the topics of interest, and through the findings, obtain results. The main technique that will be used in the following work corresponds to topic modeling techniques, especially the LDA (\textit{Latent Dirichlet Allocation} model). The Latent Dirichlet Allocation (LDA) is a generative statistical model that allows explaining sets of observations by means of unobserved groups that explain why some parts of the data are similar (Blei et.al 2003). It can be said that there are two kinds of topic modeling, which are linear topic models and probabilistic topic models. An example of the linear model is the Latent Semantic Assignment (LSA) model and an example of the probabilistic model is the Dirichlet Latent Assignment model, which is the main model of real work. Similar works have been developed, one of which is Guarnizo, E. \& Monroy, A. (2021), in which public acceptability on the subject of the special jurisdiction for peace was tried to be inferred, using opinions on this specific topic, taken from social networks. These results can be implemented in matters of public policy, or political influence, taking into account the pre-electoral panorama that Colombia faces, and even more so with events such as the Covid 19 pandemic, the National Strike, or the resurgence of violence. (Haselmayer & Jenny, 2016)eng
dc.description.degreelevelPregradospa
dc.description.degreenameProfesional en estadísticaspa
dc.format.mimetypetext/html
dc.identifier.citationDiaz Rubiano, M. A. (2022). Análisis de Temas Utilizando Twitter: Una Aplicación del Modelo LDA al Caso Colombiano. [Trabajo de Grado, Universidad Santo Tomás]. Repositorio Institucional.spa
dc.identifier.instnameinstname:Universidad Santo Tomásspa
dc.identifier.reponamereponame:Repositorio Institucional Universidad Santo Tomásspa
dc.identifier.repourlrepourl:https://repository.usta.edu.cospa
dc.identifier.urihttp://hdl.handle.net/11634/43303
dc.language.isospa
dc.publisherUniversidad Santo Tomásspa
dc.publisher.branchCRAI-USTA Bogotáspa
dc.publisher.facultyFacultad de estadísticaspa
dc.publisher.programRregrado estadísticaspa
dc.relation.referencesBengfort, B., Bilbro, R. & Ojeda, T. (2018),Applied Text Analysis with Python: EnablingLanguage-Aware Data Products with Machine Learning, O’Reilly Media, Incspa
dc.relation.referencesB ́ecue M ́onica, L. L. (1992), ‘El analisis estadistico de datos textuales. La lectura seg ́un losescolares de ense ̃nanza primaria.’,Anuario de Psicolog ́ıa. Universitat de Barcelona.spa
dc.relation.referencesGolberg, Y. (2017),Neural Network Methods in Natural Language Processing, Morgan &Claypool Publishersspa
dc.relation.referencesGuarnizo, E. & Monroy, A. (2020), Implementaci ́on de un modelo de An ́alisis de sen-timientos con respecto a la JEP basado en miner ́ıa de datos en twitter, Master’sthesis, Universidad Cat ́olica de Colombia, Colombia.spa
dc.relation.referencesHammoe, L. (2018), Detecci ́on de T ́opicos utilizando el modelo LDA, Master’s thesis,Instituto Tecnol ́ogico de Buenos Aires, Argentinaspa
dc.relation.referencesHern ́andez, H. (2020), Integraci ́on de Data Mining sobre noticias para predicci ́on demercados financieros, Master’s thesis, Universidad Polit ́ecnica de Madrid, Espa ̃naspa
dc.relation.referencesIngersoll, G., Morton, T. & Farris, D. (2013),Taming Text: How to Find, Organize, andManipulate It, Manning Publications.spa
dc.relation.referencesJelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y. & Zhao, L. (2019), ‘La-tent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey’,Multimed Tools Appl78spa
dc.relation.referencesKapadia, S. (2019), ‘Topic Modeling in Python: Latent Dirichlet Allocation (LDA)’,towards data sciencespa
dc.relation.referencesKontostathis, A. (2007), ‘Essential Dimensions of Latent Semantic Indexing (LSI)’,De-partment of Mathematics and Computer Science. Ursinus Collegespa
dc.relation.referencesLane, H., Hapke, H. & Howard, C. (2019),Natural Language Processing in Action: Un-derstanding, analyzing, and generating text with Python, Manning Publicationsspa
dc.relation.referencesManning, C. D. & Sch ̈utze, H. (1999),Foundations of Statistical Natural Language Pro-cessing, MIT Pressspa
dc.relation.referencesArley Rincon, W. (2014). Preguntas abiertas en encuestas¿ c ́omo realizar su an ́alisis?Bogot ́aspa
dc.relation.referencesGriffiths, T. (2004). Gibbs Sampling in the Generative Model of Latent Dirichlet Allo-cation. USA.spa
dc.relation.referencesGriffiths, T. a. (2004). Finding Scientific Topics. USA: Proceedings of the National Aca-demy of Sciences of the United States of Americaspa
dc.relation.referenceskedarps. (2019). https://stats.stackexchange.com. Retrieved from https://stats.stackexchange.com/users/148774/kedarpsspa
dc.relation.referencesZvornicanin, E. (2021). When Coherence Score is Good or Bad in Topic Modeling? LosAngeles.spa
dc.relation.referencesPritchard JK, S. M. (2000). Inference of population structure using multilocus genotypedata. In Genetics 155 (pp. 945-959)spa
dc.relation.references0Barrios Arce, J. (26 de julio de 2019). www.juanbarrios.com.Obtenido de https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/spa
dc.relation.referencesDavis, J. (2006). The Relationship Between Precision-Recall and ROC Curves. Madison,WI, USA.spa
dc.relation.referencesGeigle, C. (2017). Inference Methods for Latent Dirichlet Allocation. Illinoisspa
dc.relation.referencesPonweiser, M. (2012). Latent Dirichlet Allocation in R. Vienna.spa
dc.relation.referencesSpeh , J., Muhic , A., Rupnik, J. (2021). Parameter Estimation for the Latent DirichletAllocation. Esloveniaspa
dc.relation.referencesRoder, M., Both, A., Rosner, F., Et.Al. (2014). Evaluating topic coherence measures.Cornell University.spa
dc.relation.referencesAFP. (25 de mayo de 2021). El paro influy ́o en imagen desfavorable de Duque y la Polic ́ıa.Portafoliospa
dc.relation.referencesAhlgren, M. (18 de agosto de 2021). www.websiterating.com. Obtenido de M ́as de 50 es-tad ́ısticas y datos de Twitter: https://www.websiterating.com/es/research/twitter-statisticsspa
dc.relation.referencesAlvino, C. (12 de abril de 2021). Estad ́ısticas de la situaci ́on digital de Colombia en el2020-2021. Obtenido de branch.com.co: https://branch.com.co/marketing-digital/estadisticas-de-la-situacion-digital-de-colombia-en-el-2020-2021/spa
dc.relation.referencesHaselmayer, M., Jenny, M. (2016). Sentiment analysis of political communication: com-bining a dictionary approach with crowdcoding. Springerspa
dc.relation.referencesMainou, R. G. (13 de agosto de 2019). Autoestima, validaci ́on y redes sociales. El Eco-nomista.spa
dc.relation.referencesvalora analitik. (30 de abril de 2021). Desempleo Colombia: marzo con la menor tasa des-de la pandemia. Obtenido de https://www.valoraanalitik.com/2021/04/30/desempleo-colombia-con-la-menor-tasa-desde-la-pandemia/spa
dc.relation.referencesBesancon, R., Rajman, M. (2013). Text Mining: Natural Language techniques and TextMining applications. Swiss Federal Institute of Technology.spa
dc.relation.referencesBlei, D. M., Ng, A. Y., Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal ofMachine Learning Research, 993-1022.spa
dc.relation.referencesDave, M., Sharma, V. (2012). SQL and NoSQL Databases. International Journal ofAdvanced Research in Computer Science and Software Engineering.spa
dc.relation.referencesHart, P., Duda, R. (1973). Pattern Classification and Scene Analysis. John Wiley andSonsspa
dc.relation.referencesKontostathis, A. (2004). Essential Dimensions of Latent Semantic Indexing (LSI). UrsinusCollege.spa
dc.relation.referencesLin, J. (2016). On The Dirichlet Distribution. Queen’s Universityspa
dc.relation.referencesvan Zyl , C. (2018). Frequentist and Bayesian inference: A conceptual primer. New Ideasin Psychology, 44-49.spa
dc.relation.referencesV ́azquez Marcos, J. (2017). Modelado de T ́opicos para perfilado de Blogs. Madrid: UNI-VERSIDAD CARLOS III DE MADRIDspa
dc.rightsCC0 1.0 Universal
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.localAbierto (Texto Completo)spa
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/
dc.subject.keywordN-gramseng
dc.subject.keywordStemmingeng
dc.subject.keywordLemmatizationeng
dc.subject.keywordClustereng
dc.subject.keywordAlgorithmeng
dc.subject.keywordNaive Bayeseng
dc.subject.keywordPython Languageeng
dc.subject.keywordTwittereng
dc.subject.keywordROC Curveeng
dc.subject.keywordConfusion Matrixeng
dc.subject.keywordUnbalanced Data}eng
dc.subject.lembMatriz de Confusión-- Estadísticaspa
dc.subject.lembCurva ROCspa
dc.subject.lembDatos-- No Balanceadosspa
dc.subject.proposalUnigramaspa
dc.subject.proposalBigramaspa
dc.subject.proposalStemmingspa
dc.subject.proposalLematizaciónspa
dc.subject.proposalClusterspa
dc.subject.proposalAlgoritmospa
dc.subject.proposalNaive Bayesspa
dc.subject.proposalLenguaje Pythonspa
dc.subject.proposalTwitterspa
dc.subject.proposalCurva ROCspa
dc.subject.proposalMatriz de Confusiónspa
dc.subject.proposalDatos no Balanceadosspa
dc.titleAnálisis de Temas Utilizando Twitter: Una Aplicación del Modelo LDA al Caso Colombianospa
dc.typebachelor thesis
dc.type.categoryFormación de Recurso Humano para la Ctel: Trabajo de grado de Pregradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.driveinfo:eu-repo/semantics/bachelorThesis
dc.type.localTesis de pregradospa
dc.type.versioninfo:eu-repo/semantics/acceptedVersion

Archivos

Bloque original

Mostrando 1 - 3 de 3
Cargando...
Miniatura
Nombre:
2022manueldiaz
Tamaño:
1.34 MB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
2022cartaaprobaciónfacultad
Tamaño:
198.79 KB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
2022cartaderechosautor
Tamaño:
868.37 KB
Formato:
Adobe Portable Document Format
Descripción:

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
807 B
Formato:
Item-specific license agreed upon to submission
Descripción: