Defesa de Mestrado de Helen de Cássia Sousa Costa; dia 19/07/2013, as 10:30, Sala de Seminários.
Título: "Detectando Avaliações Spam em uma Rede Social Baseada em Localização"
Banca: Prof. Dr. Fabrício Benevenuto de Souza
Prof. Dr. Luiz Henrique de Campos Merschmann
Profa. Dra. Mirella Moura Moro
Dr. Fabrício Jailson Barth
Resumo:
Redes sociais baseadas em localização (Location-based Social Networks - LBSNs) são um novo tipo de sistema da Web 2.0 que vem atraindo cada vez mais novos usuários. Redes como Foursquare e Yelp permitem que o usuário compartilhe a sua localização geográfica com sua rede social através de smartphones que possuem GPS, busquem por locais interessantes e também postem avaliações em locais existentes. Ao permitir que os usuários comentem sobre os locais, LBSNs cada vez mais têm que lidar com diferentes formas de ataques, que visam a propaganda de mensagens não solicitadas nas avaliações sobre os locais. Spammers podem prejudicar a confiança dos usuários no sistema,
comprometendo assim o seu sucesso em promover interações sociais baseadas em localização.
Além disso, a literatura disponível é muito limitada em fornecer um entendimento profundo desse problema.
Neste trabalho, investigamos a tarefa de identificar diferentes tipos de spam em avaliações de em uma popular LBSN brasileira, chamada Apontador. Com base em uma coleção de avaliações pré-classificada fornecida pelo Apontador e em informações coletadas sobre usuários e locais, identificamos três tipos de avaliações irregulares que denominamos como Comercial local, Boca-suja e Poluidora. Em seguida, utilizamos o nosso estudo de caracterização em uma abordagem de classificação que foi capaz de diferenciá-las com alta precisão. Particularmente, a nossa abordagem de classificação plana foi capaz de detectar corretamente 77% das avaliações comerciais locais,
64% das poluidoras, 50% das bocas-sujas, classificando erroneamente apenas cerca de 5% das avaliações não-spam. Além disso, nossos resultados experimentais mostraram que, mesmo com um pequeno subconjunto de atributos (contendo 10 atributos), a nossa abordagem de classificação foi capaz de atingir uma acurácia alta (75%). E mesmo quando usamos apenas um dos tipos de atributos, como por exemplo atributos de conteúdo, nossa classificação produz benefícios significativos, com acurácia de aproximadamente 68%.