Aceleração dos modelos de máquina de vetores suporte para dados massivos via amostragem localizada
Aprendizado de máquina, escalabilidade, SVM, particionamento, técnicas de amostragem
Estamos vivenciando o desenvolvimento e adoção cada vez maior dos modelos de aprendizado estatístico (ou de máquina). Além disso, o enorme volume de dados utilizados para o treinamento pode produzir efeitos inconvenientes quanto ao tempo de ajuste dos modelos. Em particular, as Máquinas de Vetor Suporte (SVM) são modelos com forte desempenho preditivo, mas são computacionalmente intensos, e até mesmo inviáveis, quando aplicados em conjuntos de dados massivos. Esta dissertação propõe um método para reduzir o tempo de treinamento de um modelo SVM de classificação, utilizando para isso dois métodos de particionamento e duas abordagens de amostragem. Os métodos de particionamento servem ao propósito de separar diferentes extratos no espaço de variáveis sendo aplicados em diferentes tipos de variáveis, numéricas ou categóricas. Já as abordagens de amostragem objetivam reduzir o tamanho do conjunto de treino mantendo a maior representatividade possível da amostra de treino. Os resultados alcançados nas aplicações, tanto em dados simulados quanto em dados reais, são bastante satisfatórios, apresentando tempos menores de treinamento e também, em alguns casos, maior capacidade preditiva quando comparados com a abordagem tradicional de treinamento, que utiliza todas as observações de uma base de dados. Uma descoberta importante foi feita com a adoção do método desenvolvido nesta dissertação, a redução dos efeitos da "maldição da dimensionalidade", onde os modelos treinados com a abordagem proposta obtiveram melhor capacidade preditiva que os modelos treinados com a abordagem tradicional.