Um estudo sobre seleção, dimensionalidade e rotulação de amostras em aprendizado de máquina baseado em instancias

Douglas Willian Rittono  BARBOSA

Douglas Willian Rittono BARBOSA Centro Universitário Padre Anchieta / Centro Universitário Campo Limpo Paulista

Palavras-chave: Conjunto de Dados; Dimensionalidade; Rotulação; Seleção de Amostras; Classificação; Aprendizado de Máquina.

Resumo

A classificação é um dos problemas mais pesquisados na comunidade de mineração de dados. Preparar corretamente os dados que serão utilizados no treinamento dos chamados algoritmos supervisionados é uma das tarefas cruciais. O desbalanceamento das classes, falta de labels, a alta dimensionalidade dos conjuntos de treinamento podem prejudicar todo o processo de generalização, tanto em relação a precisão da classificação, quanto ao desempenho computacional. Este artigo apresenta uma revisão sistemática da literatura sobre seleção, dimensionalidade e rotulação de amostras em aprendizado de máquina baseado em instâncias. 27 estudos foram analisados de acordo com as abordagens utilizadas (ex.: Novos algoritmos). Os resultados apontam avanços na solução do problema e questões de pesquisas para a área de aprendizado de máquina e relacionadas.