Search and classify topics in a corpus of text using the latent dirichlet allocation model
View/ Open
Descargar
(application/pdf: 631.1Kb)
(application/pdf: 631.1Kb)
Date
2023-01-25Author(s)
Iparraguirre Villanueva, Orlando
Sierra Liñan, Fernando
Herrera Salazar, Jose Luis
Beltozar Clemente, Saul
Pucuhuayla Revatta, Félix
Zapata Paulini, Joselyn
Cabanillas Carbonell, Michael
Metadata
Show full item recordAbstract
This work aims at discovering topics in a text corpus and classifying the most
relevant terms for each of the discovered topics. The process was performed
in four steps: first, document extraction and data processing; second, labeling
and training of the data; third, labeling of the unseen data; and fourth,
evaluation of the model performance. For processing, a total of 10,322
"curriculum" documents related to data science were collected from the web
during 2018-2022. The latent dirichlet allocation (LDA) model was used for
the analysis and structure of the subjects. After processing, 12 themes were
generated, which allowed ranking the most relevant terms to identify the skills
of each of the candidates. This work concludes that candidates interested in
data science must have skills in the following topics: first, they must be
technical, they must have mastery of structured query language, mastery of
programming languages such as R, Python, java, and data management,
among other tools associated with the technology.
Mostrar más
Bibliographic citation
Iparraguirre, O., Sierra, F., Herrera, J. L., Beltozar, S., Pucuhuayla, F., Zapata, J., & Cabanillas, M. (2023). Search and classify topics in a corpus of text using the latent dirichlet allocation model. Indonesian Journal of Electrical Engineering and Computer Science, 30(1), 246-256. http://doi.org/10.11591/ijeecs.v30.i1.pp246-256
Collections
The following license files are associated with this item:
Related items
Showing items related by title, author, creator and subject.
-
La influencia de una red de emprendedores en el desarrollo de las iniciativas emprendedoras registradas en su aplicación web durante el 2016, Lima – Perú
Alvarado Alva, Carolina Elizabeth Antonella (Universidad Privada del Norte, 2018-10-01)EmbargadoRESUMEN La presente investigación tiene como objetivo principal explicar acerca de la influencia que tiene una red de emprendedores sobre el desarrollo de las iniciativas emprendedoras registradas en su aplicación web ... -
Implementación de un plan de mantenimiento predictivo por análisis de vibraciones en equipos rotativos críticos en la central termoeléctrica Santo Domingo de los Olleros
Miranda Salinas, Yerson Rubén (Universidad Privada del Norte, 2020-10-25)Acceso abiertoEn los últimos años el rubro de la energía eléctrica ha crecido su demanda notoriamente creándose nuevas centrales de generación eléctrica en el Perú. Los requerimientos de confiabilidad de los equipos rotativos, en el ... -
La gestión por procesos y la relación con la calidad de servicio al cliente en la dulcería de la cadena de cines Cineplex S. A.
Fernandez Salazar, Johanna Milagros (Universidad Privada del Norte, 2024-07-18)Acceso restringidoLa presente investigación tiene como tema “La gestión por procesos y la relación con la calidad de servicio al cliente en la dulcería de la cadena de cines Cineplex SA.”, la cual tiene como objetivo general determinar la ...