Uma metodologia para seleção de parâmetros em modelos de classificação de proteínas.

Os principais desafios relacionados ao problema de classificação de enzimas em banco de dados de estruturas de proteínas são: 1) o ruído presente nos dados; 2) o grande número de variáveis; 3) o número não-balanceado de membros por classe. Para abordar esses desafios, apresenta-se uma metodologia para seleção de parâmetros, que combina recursos de matemática (ex: Transformada Discreta do Cosseno) e da estatística (ex:.g., correlação de variáveis e amostragem com reposição). A metodologia foi validada considerando-se os três principais métodos de classificação da literatura, a saber; árvore de decisão, classificação Bayesiana e redes neurais. Os experimentos demonstram que essa metodologia é simples, eficiente e alcança resultados semelhantes àqueles obtidos pelas principais técnicas para seleção de parâmetros na literatura.Termos para indexação classificação de enzimas,predição de função de proteínas, estruturas de proteínas, banco de dados de proteínas, seleção de parâmetros, métodos para classsificação de dados.

Saved in:
Bibliographic Details
Main Authors: OLIVEIRA, S. R. de M., YAMAGISHI, M. E. B., BORRO, L. C., FALCÃO, P. R. K., SANTOS, E. H. dos, VIEIRA, F. D., MAZONI, I., JARDINE, J. G., NESHICH, G.
Other Authors: Embrapa Informática Agropecuária.
Format: Documentos eletrônicos biblioteca
Language:pt_BR
por
Published: 2006
Subjects:Bioinformática, Classificação de proteínas, Mineração de dados,
Online Access:http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/2836
Tags: Add Tag
No Tags, Be the first to tag this record!