Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca

Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.

Saved in:
Bibliographic Details
Main Authors: VAZ, G. J., VEIGA, P. H. R. da C. da, CALDAS, R. G., VIDAL, W. C. L., ASSIS, C. P. de, CORREA, J. L., MOURA, M. F.
Other Authors: GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
Format: Artigo de periódico biblioteca
Language:Portugues
pt_BR
Published: 2023-08-15
Subjects:Curadoria digital, Recuperação da informação, Processamento de texto, Disseminação da informação, Indexação, Livros digitais, Digital curation, Text processing, Indexing, Digital books, Information retrieval, Information dissemination,
Online Access:http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740
Tags: Add Tag
No Tags, Be the first to tag this record!
id dig-alice-doc-1155913
record_format koha
spelling dig-alice-doc-11559132023-08-15T15:23:43Z Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca VAZ, G. J. VEIGA, P. H. R. da C. da CALDAS, R. G. VIDAL, W. C. L. ASSIS, C. P. de CORREA, J. L. MOURA, M. F. GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA. Curadoria digital Recuperação da informação Processamento de texto Disseminação da informação Indexação Livros digitais Digital curation Text processing Indexing Digital books Information retrieval Information dissemination Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários. 2023-08-15T15:23:43Z 2023-08-15T15:23:43Z 2023-08-15 2023 Artigo de periódico Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023. 1983-5213 http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740 Portugues pt_BR openAccess
institution EMBRAPA
collection DSpace
country Brasil
countrycode BR
component Bibliográfico
access En linea
databasecode dig-alice
tag biblioteca
region America del Sur
libraryname Sistema de bibliotecas de EMBRAPA
language Portugues
pt_BR
topic Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
spellingShingle Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
VAZ, G. J.
VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
description Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
author2 GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
author_facet GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
VAZ, G. J.
VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
format Artigo de periódico
topic_facet Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
author VAZ, G. J.
VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
author_sort VAZ, G. J.
title Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title_short Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title_full Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title_fullStr Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title_full_unstemmed Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title_sort tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
publishDate 2023-08-15
url http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740
work_keys_str_mv AT vazgj tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT veigaphrdacda tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT caldasrg tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT vidalwcl tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT assiscpde tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT correajl tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
AT mouramf tratamentodetextoextraidodelivrosdigitaisparaaindexacaoemmecanismodebusca
_version_ 1775947789096714240