Интернет, ПО и т.п.

Оригинальный текст

Перевод

Abstract.

User-generated online reviews can play a signiﬁcant role in the success of retail products, hotels, restaurants, etc. However, review systems are often targeted by opinion spammers who seek to distort the perceived quality of a product by creating fraudulent reviews. We propose a fast and effective framework, FRAUDEAGLE, for spotting fraudsters and fake reviews in online review datasets. Our method has several advantages: (1) it exploits the network effect among reviewers and products, unlike the vast majority of existing methods that focus on review text or behavioral analysis, (2) it consists of two complementary steps; scoring users and reviews for fraud detection, and grouping for visualization and sense making, (3) it operates in a completely unsupervised fashion requiring no labeled data, while still incorporating side information if available, and (4) it is scalable to large datasets as its run time grows linearly with network size. We demonstrate the effectiveness of our framework on synthetic and real datasets; where FRAUDEAGLE successfully reveals fraud-bots in a large online app review database

Introduction.

The Web has greatly enhanced the way people perform certain activities (e.g. shopping), ﬁnd information, and interact with others. Today many people read/write reviews on merchant sites, blogs, forums, and social media before/after they purchase products or services. Examples include restaurant reviews on Yelp, product reviews on Amazon, hotel reviews on Trip Advisor, and many others. Such user-generated content contains rich information about user experiences and opinions, which allow future potential customers to make better decisions about spending their money, and also help merchants improve their products, services, and marketing. Since online reviews can directly inﬂuence customer purchase decisions, they are crucial to the success of businesses. While positive reviews with high ratings can yield ﬁnancial gains, negative reviews can damage reputation and cause monetary loss. This effect is magniﬁed as the information spreads through the Web (Hitlin 2003; Mendoza, Poblete, andCastillo2010). As a result, online review systems are attractive targets for opinion fraud. Opinion fraud involves reviewers (often paid) writing bogus reviews (KostMay2012; Copyright c 2013, Association for the Advancement of Artiﬁcial Intelligence (www.aaai.org). All rights reserved. Streitfeld August 2011). These spam reviews come in two ﬂavors: defaming-spam which untruthfully viliﬁes, or hypespam that deceitfully promotes the target product. The opinion fraud detection problem is to spot the fake reviews in online sites, given all the reviews on the site, and for each review, its text, its author, the product it was written for, timestamp of posting, and its star-rating. Typically no user proﬁle information is available (or is self-declared and cannot be trusted), while more side information for products (e.g. price, brand), and for reviews (e.g. number of (helpful) feedbacks) could be available depending on the site. Detecting opinion fraud, as deﬁned above, is a non-trivial and challenging problem. Fake reviews are often written by experienced professionals who are paid to write high quality, believable reviews. As a result, it is difﬁcult for an average potential customer to differentiate bogus reviews from truthful ones, just by looking at individual reviews text (Ott etal.2011). Assuch, manual labeling of reviews is hard and ground truth information is often unavailable, which makes training supervised models less attractive for this problem.

Summary of previous work.

Previous attempts at solving the problem use several heuristics, such as duplicated reviews (Jindal and Liu 2008), or acquire bogus reviews from non-experts (Ott et al. 2011), to generate pseudo-ground truth, or a reference dataset. This data is then used for learning classiﬁcation models together with carefully engineered features. One downside of such techniques is that they do not generalize: one needs to collect new data and train a new model for review data from a different domain, e.g., hotel vs. restaurant reviews. Moreover feature selection becomes a tedious sub-problem, as datasets from different domains might exhibit different characteristics. Other feature-based proposals include (Limetal.2010; Mukherjee, Liu, and Glance 2012). A large body of work on fraud detection relies on review text information (JindalandLiu2008; Ottetal.2011;Feng, Banerjee, and Choi 2012) or behavioral evidence (Lim et al. 2010; Xie et al. 2012; Feng et al. 2012), and ignore the connectivity structure of review data. On the other hand, the network of reviewers and products contains rich information that implicitly represents correlations among these entities. The review network is also invaluable for detecting teams of fraudsters that operate collaboratively on targeted products.

Our contributions.

In this work we propose an unsupervised, general, and network-based framework, FRAUDEAGLE, to tackle the opinion fraud detection problem in online review data. The review network successfully captures the correlations of labels among users and products, e.g. fraudsters are mostly linked to good (bad) products with negative (positive) fake reviews, and vice versa for honest users. As such, the network edges are signed by sentiment. We build an iterative, propagation-based algorithm that exploits the network structure and the long-range correlations to infer the class labels of users, products, and reviews. A second step involves analysis and summarization of results. For generality, we do not use review text information, but only the positive or negative sentiment of the reviews. As such, our method can be applied to any type of review data and is complementary to existing approaches. We summarize our main contributions as follows. • We formulate the opinion fraud detection problem as a network classiﬁcation task on signed networks. • We propose a novel framework that (1) employs a propagation-based algorithm that exploits the network effect for classiﬁcation, and (2) provides a summary and analysis of results. • The proposed method is (a) general; which can be applied to all types of review networks, (b) unsupervised; that can work with no prior knowledge, and (c) scalable; with its run time linear in network size. • We evaluate our method compared to alternative methods on synthetic and real online app review data, where we successfully spot fraudulent users and bots that unfairly distort product ratings. The rest of the paper is organized as follows: survey, proposed framework, competitors, evaluation, and conclusion.

Related Work.

Much of the previous work in opinion fraud focuses on review text content, behavioral analysis, and supervised methods. (Jindal and Liu 2008) identiﬁed opinion spam by detecting exact text duplicates in an Amazon.com dataset, while (Ott et al. 2011) crowd-sourced deceptive reviews in order to create a highly accurate classiﬁer based on ngrams. Several studies tried to engineer better features to improve classiﬁer performance. (Li et al. 2011) uses sentiment scores, product brand, and reviewer proﬁle attributes to train classiﬁers. Other work has computed scores based on behavioral heuristics, such as rating deviation by (Lim et al. 2010), and frequent item set mining to ﬁnd fraudulent reviewer groups by (Mukherjee, Liu, and Glance 2012). Unfortunately, these methods are not generalizable: the models need re-training to account for differences between problem domains, such as book reviews versus movie reviews. Moreover, the features might not be consistent even for datasets within the same domain, depending on the dataset source. Consequently, feature extraction becomes a time-consuming yet pivotal sub-problem with attributes varying across domains.

Eng

Краткий обзор.

Оставленные пользователями отзывы в интернете могут играть существенную роль в продаже товаров и услуг, в отель-ном, ресторанном и других видах бизне-са. Однако, системы отзывов пользовате-лей интернета часто становятся объекта-ми атак спаммеров, которые, создавая фейковые отзывы, стремятся исказить ис-тинное восприятие о качестве товаров или услуг. Мы предлагаем быструю и эф-фективную платформу под названием «FRAUDEAGLE», способную распозна-вать всякого рода спаммеров, мошенни-ков и недоброжелателей, стремящихся сфальсифицировать отзывы и мнения по-льзователей на различных интернет ре-сурсах. У нашего метода есть несколько преимуществ: (1) в отличие от большин-ства подобных методов, которые сосре-дотачиваются на анализе текста отзыва или сообщения, а также поведения поль-зователей интернета, наш метод исполь-зует так называемый сетевой эффект, возникающий в среде «пользователи-то-вары(услуги)», (2), он состоит из двух до-полнительных шагов - подсчёт пользова-телей и их отзывов для обнаружения фейка и их группировка для визуализа-ции и определения смысла отзыва или сообщения; (3) он работает абсолютно автономно и не требует каких-либо до-полнительных данных, хотя и не исклю-чает использование сторонней информа-ции при её наличии, (4) он применяет масштабирование больших наборов дан-ных, поскольку время обработки этих данных увеличивается по мере роста размеров сетевого ресурса. Платформа «FRAUDEAGLE» демонстрирует свою эф-фективность по выявлению спаммеров, мошенников и недоброжелателей как в специально созданных нами для провер-ки ее работоспособности массивах ин-формации, так и на реальных онлайн ре-сурсах сети интернет.

Введение.

Интернет значительно расширил спосо-бы, при помощи которых люди осуществ-лять покупки, находить информацию или общаться друг с другом. Сегодня боль-шое количество людей пишут или читают отзывы на сайтах интернет-магазинов, форумах, в блогах или социальных сетях до или после того, как они совершают по-купки или заказывают услуги в интернете. Примерами этого могут служить отзывы о различных ресторанах на Yelp, отзывы о товарах на Amazon, отзывы об отелях на TripAdvisor, и многие другие. Такой, со-зданный пользователями интернета, кон-тент содержит богатую информацию об их мнении и опыте совершения покупок, что позволяют другим потенциальным по-купателям принять решение, лучшие тра-тить свои деньги, а также помогает произ-водителям улучшить свои товары, услуги и маркетинг.

Так как отзывы в интернете могут непо-средственно влиять на принятие того или иного решения потенциальными покупа-телями, они крайне важны для успешного ведения бизнеса. Если положительные отзывы могут привести к финансовым ус-пехам, то отрицательные высказывания могут нанести вред репутации, осложнить финансовое положение или, даже, погу-бить тот или иной вид бизнеса. Такое влияние усиливается, поскольку в сети интернет информация распространяется очень быстро (Hitlin 2003; Mendoza, Poblete, andCastillo2010). Таким образом системы онлайп отзывов в сети интернет становятся привлекательным объектом для всякого рода мошенников, стремя-щихся исказить мнение о товарах и ус-лугах. Для создания фейковых отзывов такие мошенники вовлекают в свою дея-тельность специальный персонал (неред-ко за денежное вознаграждение) (Kost, May2012; Streitfeld, August 2011). Фейко-вые отзывы и спам можно разделить на два вида: отзывы клеветнического харак-тера, которые дискредитируют качест-венный и заслуживающие внимание това-ры или услуги, или обман - отзывы, при-званные продвигать на рынок товары или услуги, несоответствующие тем качест-вам и свойствам, которые указываются в таких сообщениях.

Проблема обнаружения фейковых отзы-вов состоит в их идентификации на он-лайн интернет-ресурсах, учитывая все от-зывы на сайте, в проведении анализа текста каждого отзыва, его автора, това-ра или услуги, которые указаны в отзыве, а также времени регистрации отзыва и его оценки (маркер «звезда» и т.п.). Обычно какая-либо информация о поль-зователя, создавшем тот или иной отзыв, на сайте не доступна (а если и доступна, то не может вызывать доверия). В то же время информации о товарах и услугах (например, цена, бренд и т.п.), а также информация о самом отзыве (например, информация о количестве пользовате-лей, для которых содержание сообщения стало полезных) може быть доступным в зависимости от сайта.

Таким образом, обнаружение фейковых отзывов становится сложной нетривиаль-ной задачей. Фейковые отзывы часто пи-шутся опытными нередко высокооплачи-ваемыми профессионалами, задачей ко-торых является создание как можно бо-лее правдоподобных отзывов. В резуль-тате, потенциальному покупателю труд-но идентифицировать фейковые отзывы и отделить их от правдивых, основываясь только на тексте того или иного отзыва (Ott etal.2011). В свою очередь, марки-ровка отзывов (типа «звезда» и т.п.) также вызывает затруднения в идентификации (а нередко такая маркировка на сайтах вообще недоступна), что делает боль-шинство модели обнаружения фейковых отзывов малопригодными для решения данной проблемы.

Результаты предыдущей работы.

Ранние попытки решения проблемы с ис-пользованием эвристического анализа, такие как изучение повторяющихся отзы-вов (Джиндэл и Луи 2008), или анализ фейковых отзывов, созданных неспеци-алистами (Ott и др. 2011), были сделаны для создания псевдо-обоснованных или отсылочных наборов данных таких отзы-вов. Эти данные вместе с тщательно раз-работанным программным обеспечением использовались для создания и исследо-вания моделе классификации фейковых отзывов. Одной из проблем такого под-хода к решению вопроса стало то, что он не обобщал информацию: каждый раз необходимо было собрать новые дан-ные из разных источников (например сайты отелей и сайты ресторанов) и на их основе создать новую методику или модель анализа фейковых отзывов. Кро-ме того, выбор критериев для анализа также являлся определенной проблемой поскольку информация из разных источ-ников обладает разными характеристика-ми. (Limetal.2010; Mukherjee, Liu, and Glance 2012).

Большинство моделей и методов анализа фейковых отзывов основываются на изу-чении текста сообщений (Jindal and Liu 2008; Ottetal.2011; Feng, Banerjee and Choi 2012) или поведения пользователей, которые их создают (Lim et al. 2010; Xie et al. 2012; Feng et al. 2012). Однако, они иг-норируют связи между двумя этими критериями. С другой стороны, интернет содержит много информации о произво-дителях, продавцах, товарах и услугах Такая информация указывает на тесные связи между этими субъектами и объек-тами, а её анализ может помочь в выяв-лении групп спаммеров и мошенников, которые сосредотачиваются на опреде-ленных товарах или услугах.

Наши разработки.

В этой работе мы хотим представить автономную сетевую платформу «FRAUDEAGLE», которая предназначена для выявления спаммеров, мошенников и недоброжелателей, создающих фейко-вые отзывы в интернете. . «FRAUDEAGLE» успешно определяет признаки присутствия спаммеров, мо-шенников и недоброжелателей и в то же время лояльно относится к добросовест-ным и честным пользователям интернет-ресурсов. Мы создали повторяющийся, основанный на распространении алго-ритм, который анализирует структуру се-ти и связи между пользователями, това-рами или услугами и отзывами об этих товарах или услугах. Следующий шаг включает анализ и резюмирование резу-льтатов. Как правило, мы не используем информацию о тексте отзыва, а только положительное или отрицательное впе-чатление от него. Также, наш метод мо-жет быть применен к любому типу анали-зируемых данных и может быть исполь-зован как дополнение к существующим подходам.

Подытожить всё вышесказанное можно следующим образом.

• Проблема обнаружения спамма и мо-шенничества это общесетевая задача.

• Новая платформа, (1) базируется алго-ритм, основанный на распространении, с использованием для классификации так называемого сетевого эффекта, и (2), обеспечивает сбор и анализ информа-ции.

• Предложенный метод является: (a) об-щим; он может быть применен ко всем типам сетей данных, (b) автономным – не требующим предварительных знаний и дополнительных данных, и (c) масштаби-руемым; т.е. использующим фрагмента-цию данных по мере роста размеров се-тевого ресурса.

• Наш метод был сравнен с существую-щими альтернативными методами с ис-пользованием специально созданных для проверки его работоспособности баз и реальных онлайн интернет-ресурсов. В обеих случаях он показал сваю эффек-тивность при выявлении спаммеров, мо-шенников и недоброжелателей.

Далее мы рассмотрим следующие вопро-сы: обзор, предлагаемая платформа, конкуренты, оценка и заключение.

Обзор.

Большая часть проделанной ранее рабо-ты по выявлению спамма и мошенни-чества основывалась на анализе текста отзывов и поведении пользователей, со-здавших эти отзывы, и на неавтономных методах. Такие исследователи как Джин-дэл и Луи (в 2008 году) идентифицирова-ли спам, находя точные копии отзывов на интернет-ресурсе «Amazon.com». А такие специалисты как Отт и др. (в 2011 году) изучали фейковые отзывы в надежде со-здать достаточно точные классификаторы таких отзывов, основанные на n-граммах. Некоторые исследователи попытались создать программы, призванные улуч-шить производительность классификато-ров. Литий и др.(в 2011 году) изучают ин-дивидуальные причины, бренды товаров и профили пользователей для улучшения классификаторов. Другая группа вычис-лила множество, основанное на поведен-ческой эвристике, а также оценке откло-нения (Лим и др. 2010) и оценке частоты использования определенных терминов для вычисления групп спаммеров и мо-шенников (Мухерджи, Луи, и др. 2012).

К сожалению, эти методы не являлись обобщающими и нуждались в перена-стройке в зависимости от источника ин-формации (например, рецензия на про-читанную книгу и впечатления от недавно просмотренного фильма). Кроме того, результаты были противоречивыми даже в пределах одного и того же источника исследования (домена). Как результат, работа по выявлению мошеннической ак-тивности была трудоемкой и занимала достаточно много времени.

D.U.C.K. Interpretations&Translations

Быстрый и качественный перевод!

English Français Українська Русский

Оригинальный текст

Перевод

Eng

Рус