Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados

RESUMO Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores.

Saved in:
Bibliographic Details
Main Authors: IANISHI,P., IZBICKI,R.
Format: Digital revista
Language:Portuguese
Published: Sociedade Brasileira de Matemática Aplicada e Computacional 2017
Online Access:http://old.scielo.br/scielo.php?script=sci_arttext&pid=S2179-84512017000100155
Tags: Add Tag
No Tags, Be the first to tag this record!