Um estudo sobre seleção, dimensionalidade e rotulação de amostras em aprendizado de máquina baseado em instancias
Resumo
A classificação é um dos problemas mais pesquisados na comunidade de mineração de dados. Preparar corretamente os dados que serão utilizados no treinamento dos chamados algoritmos supervisionados é uma das tarefas cruciais. O desbalanceamento das classes, falta de labels, a alta dimensionalidade dos conjuntos de treinamento podem prejudicar todo o processo de generalização, tanto em relação a precisão da classificação, quanto ao desempenho computacional. Este artigo apresenta uma revisão sistemática da literatura sobre seleção, dimensionalidade e rotulação de amostras em aprendizado de máquina baseado em instâncias. 27 estudos foram analisados de acordo com as abordagens utilizadas (ex.: Novos algoritmos). Os resultados apontam avanços na solução do problema e questões de pesquisas para a área de aprendizado de máquina e relacionadas.