DOI: http://dx.doi.org/10.22201/iibi.24488321xe.2021.89.58419

Algoritmo para el análisis temático de documentos digitales

Luis Roberto Polo Bautista, Karen Vanessa Martínez Acevedo

Resumen


El objetivo del artículo es presentar un algoritmo para asignar áreas temáticas a documentos digitales que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información, con el fin de ser implementado en el desarrollo de vocabularios controlados. La metodología utilizada consistió en aplicar el Reconocimiento Óptico de Caracteres (ROC) y la Asignación Latente de Dirichlet (ALD) como las principales herramientas para el desarrollo de un algoritmo basado en el lenguaje de programación Python, que permite la lectura de archivos con extensión PDF para la obtención de los principales temas del corpus textual. Los resultados de la aplicación del algoritmo demuestran su utilidad en el área de la indización como un sistema para identificar y extraer temas relevantes de un documento específico en formato electrónico, permitiendo la automatización de procesos por parte del profesional de la información. De esta forma, se concluye su uso como desarrollo de puntos de acceso alternativos en función del contenido de los textos.


Palabras clave


Asignación Latente de Dirichlet; Algoritmos; Análisis Temático; Documentos Digitales

Texto completo:

PDF


DOI: http://dx.doi.org/10.22201/iibi.24488321xe.2021.89.58419
Herramientas del artículo
Envíe este artículo por correo electrónico (Inicie sesión)
Enviar un correo electrónico al autor/a (Inicie sesión)
Acerca de los autores/as

Luis Roberto Polo Bautista orcid
Escuela Nacional de Biblioteconomía y Archivonomía, Instituto Politécnico Nacional
México

Estudiante de noveno semestre de la licenciatura en biblioteconomía en la Escuela Nacional de Biblioteconomía y Archivonomía del IPN

Karen Vanessa Martínez Acevedo orcid
Escuela Nacional de Biblioteconomía y Archivonomía, Instituto Politécnico Nacional
México

Estudiante de noveno semestre de la licenciatura en biblioteconomía en la Escuela Nacional de Biblioteconomía y Archivonomía del IPN

FacebookTwitterInstagram

Investigación Bibliotecológica: archivonomía, bibliotecología e información, Vol. 36, No. 90, Enero-Marzo 2022, es una publicación trimestral editada por la Universidad Nacional Autónoma de México, Ciudad Universitaria, Delegación Coyoacán, Ciudad de México, C.P. 04510, a través del Instituto de Investigaciones Bibliotecológicas y de la Información, Circuito Escolar s/n, Torre II de Humanidades, Piso 12, Ciudad Universitaria, Col. Copilco, Del. Coyoacán, Ciudad de México, C.P. 04510, Tel. 56230349 y 56230337, http://rev-ib.unam.mx/ib, correos electrónicos: revista@iibi.unam.mx, drevista@iibi.unam.mx. Editor responsable: Dr. Egbert John Sánchez Vanderkast, Reserva de Derechos al uso Exclusivo No. 04-2017-061519123100-102, ISSN: 2448-8321, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número, Dra. María de Jesús Madera Jaramillo, Instituto de Investigaciones Bibliotecológicas y de la Información, Circuito Escolar s/n, Torre II de Humanidades, Piso 12, Ciudad Universitaria, Col. Copilco, Alcadía Coyoacán, Ciudad de México, C.P. 04510, Tel. 56230337, fecha de la última modificación, diciembre 2021.

Las opiniones expresadas por los autores no necesariamente reflejan la postura del editor de la publicación. Se autoriza la reproducción total o parcial de los textos aquí publicados siempre y cuando se cite la fuente completa y la dirección electrónica de la publicación.


Licencia de Creative Commons


Investigación Bibliotecológica: archivonomía, bibliotecología e información por Universidad Nacional Autónoma de México se distribuye bajo una Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Creado a partir de la obra en http://rev-ib.unam.mx/ib.