Explorando Dados Ligados na DBpedia para Reduzir Erros de Predição em Sistemas de Recomendação que utilizam Fatoração de Matrizes
Sistemas de Recomendação, Fatoração de Matriz, Dados ligados abertos, Erros de Predição
Sistemas de Recomendação fornecem sugestões de itens que são mais prováveis de serem de interesse dos usuários. Prover recomendações personalizadas é um desafio que pode ser endereçado por meio de algoritmos de filtragem, entre os quais a Filtragem Colaborativa (CF) tem demonstrado grande progresso nos últimos anos. Ao usar técnicas de Fatorização de Matrizes (MF), métodos de CF reduzem o erro estimado por meio da utilização de algoritmos de otimização. Contudo, eles geralmente lidam com problemas de esparsidade dos dados e erro predito. Estudos apontam o uso de dados da Web Semântica como um caminho para melhorar sistemas de recomendação e endereçar desafios relacionados a técnicas de CF. Motivado por essas premissas, o presente trabalho desenvolveu um pipeline de dados e um algoritmo que processa a Matriz de Avaliações combinando similaridades semânticas da Linked Open Data (LOD) e estima avaliações em branco. Os experimentos consideram subsets de três diferentes datasets (Movielens, LastFM and LibraryThing), duas métricas de similarity semântica, Linked Data Similarity Distance (LDSD) e Resource Similarity (RESIM), e três algoritmos baseados em MF (SVD, SVD++ and NMF). Nossos experimentos reduziram a esparsidade em mais de 70% no subset de Movielens e 28% no LastFM. Erro predito foi reduzido em todos os subsets com confiança estatística usando o teste paramétrico ANOVA seguido o teste de comparação múltipla de Tukey.