Text mining in the classification of digital documents

Biblios: Journal of Librarianship and Information Science

View Publication Info
 
 
Field Value
 
Title Text mining in the classification of digital documents
Mineração de texto em a classificação de documentos digitais
Minería de texto en la clasificación de documentos digitales
 
Creator Contreras Barrera, Marcial
 
Subject Text mining ; Classification ; Automated classifier ; Bibliographic material
Minería de texto ; Clasificación ; Clasificador automatizado ; Material bibliográfico
Mineração de texto ; Classificação ; Classificador automatizado ; Material bibliográfico
 
Description Objective: Develop an automated classifier for the classification of bibliographic material by means of the text mining. Methodology: The text mining is used for the development of the classifier, based on a method of type supervised, conformed by two phases; learning and recognition, in the learning phase, the classifier learns patterns across the analysis of bibliographical records, of the classification Z, belonging to library science, information sciences and information resources, recovered from the database LIBRUNAM, in this phase is obtained the classifier capable of recognizing different subclasses (LC). In the recognition phase the classifier is validated and evaluates across classification tests, for this end bibliographical records of the classification Z are taken randomly, classified by a cataloguer and processed by the automated classifier, in order to obtain the precision of the automated classifier. Results: The application of the text mining achieved the development of the automated classifier, through the method classifying documents supervised type. The precision of the classifier was calculated doing the comparison among the assigned topics manually and automated obtaining 75.70% of precision. Conclusions: The application of text mining facilitated the creation of automated classifier, allowing to obtain useful technology for the classification of bibliographical material with the aim of improving and speed up the process of organizing digital documents.
Objetivo: Desenvolver um classificador automatizado para a classificação de material bibliográfico por meio da mineração de texto. Metodologia: A mineração de texto é empregue para o desenvolvimento do classificador, baseado num método de controle conformado por duas etapas; de aprendizagem e reconhecimento, na etapa de aprendizagem, o classificador aprende padrões através da análise de registros bibliográficos, da classificação Z, da área da biblioteconomia, as ciências da informação e recursos de informação recuperados da base de dados LIBRUNAM , nesta etapa se obtém o classificador com capacidade de reconhecer as diferentes subclases (LC). Na etapa de reconhecimento o classificador se valida e avalia mediante provas de classificação, para issp se tomam aleatoriamente registros bibliográficos da classificação Z, classificados por um catalogador e processados pelo classificador automatizado, com o fim de obter a precisão do classificador automatizado. Resultados: A utilização da mineração de texto permitiu o desenvolvimento do classificador automatizado, mediante o método de classificação de documentos de forma controlada. A precisão do classificador foi calculada realizando a comparação entre os temas atribuídos de forma manual e automatizada obtendo um grau de precisão de 75.70%. Conclusões: A aplicação da mineração de texto facilitou a criação do classificador automatizado, permitindo obter tecnologia útil para a classificação de material bibliográfico com a finalidade de melhorar e agilizar o processo de organização da informação.
Objetivo: Desarrollar un clasificador automatizado para la clasificación de material bibliográfico por medio de la minería de texto. Metodología: La minería de texto es empleada para el desarrollo del clasificador, basado en un método de tipo supervisado conformado por dos etapas; de aprendizaje y reconocimiento, en la etapa de aprendizaje, el clasificador aprende patrones a través del análisis de registros bibliográficos, de la clasificación Z, del área de bibliotecología, ciencias de la información y recursos de información recuperados de la base de datos LIBRUNAM , en esta etapa se obtiene el clasificador capaz de reconocer diferentes subclases (LC). En la etapa de reconocimiento el clasificador se valida y evalúa a través de pruebas de clasificación, para este fin se toman aleatoriamente registros bibliográficos de la clasificación Z, clasificados por un catalogador y procesados por el clasificador automatizado, con el fin de obtener la precisión del clasificador automatizado. Resultados: La utilización de la minería de texto permitió el desarrollo del clasificador automatizado, a través del método de clasificación de documentos de tipo supervisado. La precisión del clasificador fue calculada realizando la comparación entre los temas asignados de manera manual y automatizada obteniendo un grado de precisión del 75.70%. Conclusiones: La aplicación de la minería de texto facilito la creación del clasificador automatizado, permitiendo obtener tecnología útil para la clasificación de material bibliográfico con la finalidad de mejorar y agilizar el proceso de organización de información.
 
Publisher University Library System, University of Pittsburgh
 
Contributor
Posgrado de Bibliotecología y Estudios de la Información

 
Date 2016-11-21
 
Type info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion



 
Format application/pdf
 
Identifier http://biblios.pitt.edu/ojs/index.php/biblios/article/view/309
10.5195/biblios.2016.309
 
Source Biblios: Journal of Librarianship and Information Science; Núm. 64 (2016); 33-43
Biblios: Journal of Librarianship and Information Science; Núm. 64 (2016); 33-43
Biblios: Journal of Librarianship and Information Science; Núm. 64 (2016); 33-43
1562-4730
 
Language spa
 
Relation http://biblios.pitt.edu/ojs/index.php/biblios/article/view/309/268
 
Rights Copyright (c) 2016 Marcial Contreras Barrera, Patricia Yolanda Monzón Rodríguez
http://creativecommons.org/licenses/by/4.0
 

Contact Us

The PKP Index is an initiative of the Public Knowledge Project.

For PKP Publishing Services please use the PKP|PS contact form.

For support with PKP software we encourage users to consult our wiki for documentation and search our support forums.

For any other correspondence feel free to contact us using the PKP contact form.

Find Us

Twitter

Copyright © 2015-2016 Simon Fraser University Library