PROPOSTA DE UMA BASE DE CITAÇÕES DA LITERATURA CIENTÍFICA POR MEIO DA EXTRAÇÃO AUTOMÁTICA DE DADOS DO SCIELO

SAFRA LATACI

View Publication Info
 
 
Field Value
 
Title PROPOSTA DE UMA BASE DE CITAÇÕES DA LITERATURA CIENTÍFICA POR MEIO DA EXTRAÇÃO AUTOMÁTICA DE DADOS DO SCIELO
 
Creator Mattos, Max Cirino de
 
Description Several authors emphasize the importance of creating a citation index - such as the Science Citation Index (SCI) – as an instrument for the production of national science policies and therefore for the promotion of local scientific development in less developed countries. The automatic retrieval of metadata of articles and references cited available in  eXtensible Markup Language (XML) files to create this kind of index - using Scientific Electronic Library Online (SciELO) as a primary source - represents an important initial step for creating a Web of Science for Latin America and the Caribbean. The methodology used is based upon the automatic generation of such citations, and this research analyzes the results found in the initial stages of this methodology - identification of journals; obtaining the annual statistical data (source data) for each journal, the identification of areas of knowledge for each journal and the creation of the database module "Registration Data" - and the three final stages: identification and storage of XML files available in SciELO; interpreting these files for extracting metadata and information about each cited reference and the storage of all information from each XML file in the database module "Citation Index". The initial test of the prototype built was performed with the journal "Perspectives in Information Science" (PIS), presenting the analysis of 24 issues, 300 articles, 7,714 citations, 579 abstracts, 587 titles, 2,358 keywords, 686 authors of articles and 10,394 authors identified in citations. The validation of the prototype was performed with the Public Health Collection resulting in 14 journals, 14 publishers, 1,335 issues, 23,780 articles, 491,739 citations, 37,124 abstracts, 44,696 titles, 149,874 keywords, 73,859 authors of articles and 1,240,734 authors identified in citations. There were no disambiguation procedures for names of authors or sources. The differences between the values provided by the source data of SciELO for each journal and the numbers collected from the interpretation of the XML files are explained and some solutions are proposed. The high success rate in identifying metadata and citations from XML files proved the effectiveness of the prototype. Among the problems identified, one to highlight was the difference between the source data for the same ISSN in different collections. More details about how SciELO calculates the number of issues, articles and citations need to be investigated for the analysis of the differences found. It is intended to provide the citation index generated for PIS on its website. Another research study is underway which seeks to obtain all the XML files from listed collections of SciELO in order to construct a citation index for Latin America, the Caribbean and other collections of SciELO.
Diversos autores ressaltam a importância da criação de uma base de citações - nos moldes do Science Citation Index (SCI) - para a visibilidade da produção cientí­fica local de paí­ses em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponí­veis no formato eXtensible Markup Language (XML) para a criação de uma base de citações - considerando como fonte primária a Scientific Electronic Library On-line (SciELO) - representa um passo inicial importante para a criação de um í­ndice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia - a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo "Dados Cadastrais" do banco de dados - e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraí­das de cada arquivo XML no banco de dados (no Módulo "Base de Citações"). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascí­culos, 300 artigos, 7.714 citações, 579 resumos, 587 tí­tulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os numeros levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado í­ndice de acerto na identificação das citações a partir dos arquivos XML comprovou a eficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citações precisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.
 
Publisher SAFRA LATACI®
SAFRA LATACI®
 
Date 2013-12-31
 
Type info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
 
Identifier https://lataci.com.br/journal/index.php/safra/article/view/7
 
Source SAFRA LATACI®; v. 2 n. 1 (2013)
SAFRA LATACI®; v. 2 n. 1 (2013)
2594-4665
 
Language por
 
Relation https://lataci.com.br/journal/index.php/safra/article/view/7/31
 
Rights Copyright (c) 2017 Revista SAFRA LATACI
 

Contact Us

The PKP Index is an initiative of the Public Knowledge Project.

For PKP Publishing Services please use the PKP|PS contact form.

For support with PKP software we encourage users to consult our wiki for documentation and search our support forums.

For any other correspondence feel free to contact us using the PKP contact form.

Find Us

Twitter

Copyright © 2015-2018 Simon Fraser University Library