Análise de cluster não supervisionado em R: agrupamento hierárquico.

Ao analisar uma base de dados, um dos principais desafios do analista é resumir a informação coletada. Em muitos casos, quando contamos com um grande número de observações, pode ser de interesse criar grupos. Dentro de cada grupo os elementos devem ser semelhantes entre si e diferentes dos elementos dentro dos outros grupos. A análise de clusters é um procedimento da estatística multivariada que tenta agrupar um conjunto de dados em subgrupos homogêneos, chamados de agrupamentos. É uma técnica matemática que tem como finalidade revelar estruturas de classificação nos dados do mundo real. Os métodos hierárquicos da análise de cluster têm como principal característica um algoritmo capaz de fornecer mais de um tipo de partição dos dados. Ele gera vários agrupamentos possíveis, e um cluster pode ser mesclado a outro em determinado passo do algoritmo. A maioria dos ambientes e softwares de análise estatística dispõem de opções para fazer análise de cluster e construção de dendrogramas. O software R conta com uma grande quantidade de funções e pacotes de trabalho para análise de agrupamento. É nesse contexto que esta publicação se insere, ao descrever os principais conceitos para a aplicação de procedimentos estatísticos de análise não supervisionada que objetivam produzir agrupamentos hierárquicos com base na semelhança ou dissemelhança entre os objetos de estudo. O leitor perceberá a dificuldade associada ao processo e entenderá os usos principais da técnica.

Saved in:
Bibliographic Details
Main Authors: FERREIRA, R. R. M., PAIM, F. A. de P., RODRIGUES, V. G. S., CASTRO, G. S. A.
Other Authors: ROGERIO RESENDE MARTINS FERREIRA, CNPM; FERNANDO ANTONIO DE PADUA PAIM, CNPM; VALÉRIA GUIMARÃES SILVESTRE RODRIGUES, USP; GUSTAVO SPADOTTI AMARAL CASTRO, CNPM.
Format: Folhetos biblioteca
Language:Portugues
pt_BR
Published: 2020
Subjects:Análise de agrupamento, Software, Análise de Dados,
Online Access:http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/1126478
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Ao analisar uma base de dados, um dos principais desafios do analista é resumir a informação coletada. Em muitos casos, quando contamos com um grande número de observações, pode ser de interesse criar grupos. Dentro de cada grupo os elementos devem ser semelhantes entre si e diferentes dos elementos dentro dos outros grupos. A análise de clusters é um procedimento da estatística multivariada que tenta agrupar um conjunto de dados em subgrupos homogêneos, chamados de agrupamentos. É uma técnica matemática que tem como finalidade revelar estruturas de classificação nos dados do mundo real. Os métodos hierárquicos da análise de cluster têm como principal característica um algoritmo capaz de fornecer mais de um tipo de partição dos dados. Ele gera vários agrupamentos possíveis, e um cluster pode ser mesclado a outro em determinado passo do algoritmo. A maioria dos ambientes e softwares de análise estatística dispõem de opções para fazer análise de cluster e construção de dendrogramas. O software R conta com uma grande quantidade de funções e pacotes de trabalho para análise de agrupamento. É nesse contexto que esta publicação se insere, ao descrever os principais conceitos para a aplicação de procedimentos estatísticos de análise não supervisionada que objetivam produzir agrupamentos hierárquicos com base na semelhança ou dissemelhança entre os objetos de estudo. O leitor perceberá a dificuldade associada ao processo e entenderá os usos principais da técnica.