SlideShare a Scribd company logo
初期レビューを⽤用いた⻑⾧長期間評価推定
川本  淳平1  俵本  ⼀一輝2  浅野  泰仁2  吉川  正俊2
1.  九州⼤大学⼤大学院システム情報科学研究院
2.  京都⼤大学⼤大学院情報学研究科  
レビューサイト
•  顧客や販売者の意思決定に対して影響を与える	
  
•  Amazon,	
  価格.com,	
  IMDb	
  など多くのサイトがレビューを掲載	
  
•  特異異なレビュー	
  
•  スパムレビュー  (Social	
  spammers	
  や  Crowd	
  turfing	
  workers)	
  
•  ステルスマーケティング	
  
•  エキスパートによるレビュー	
  
•  「一般的な」人々が求めているレビューと乖離しているレビュー	
  
•  初期レビューにおける特異異なレビューの問題	
  
•  レビュー数が少ない・特異異なレビューが多数となりやすい	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   2
⽬目的
•  商品販売当初などレビュー数の少ない段階において	
  
•  特異異なレビュアーの発⾒見見	
  
•  ⻑⾧長期間レビューの予測	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   3
レビュアー
対象
レビュアー
⭐️️
⭐️⭐️⭐️
⭐️⭐️
どちらが特異異か?
⼗十分時間経過後の	
  
評価はどうなるか?
⽬目的
•  商品販売当初などレビュー数の少ない段階において	
  
•  特異異なレビュアーの発⾒見見	
  
•  ⻑⾧長期間レビューの予測	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   4
レビュアー
対象
レビュアー
⭐️️
⭐️⭐️⭐️
⭐️⭐️
対象
対象
対象
対象
⭐️️
⭐️️
⭐️️
⭐️️
⭐️️
他の対象へのレビューも考慮して判断
関連研究
•  スパムレビュアーの検知に関する研究1	
  
•  ⼗十分な学習⽤用データを利利⽤用するものが多い	
  
•  レビュー数が少ない場合学習⽤用データの取得は難しい	
  
•  特異異なレビュアーはスパムレビュアーを⼀一般化したもの	
  
•  査読プロセスにおけるレビュー解析2	
  
•  「厳しい査読者」と「優しい査読者」など傾向の分析	
  
•  査読者は正当に振る舞うと仮定	
  
•  オンラインショップのレビュー評価3	
  
•  限られた期間内に⾏行行われた商店の評価分析	
  
•  評価実験において⽐比較対象とする	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   5
1.	
  Mukherjee,	
  A.,	
  Liu,	
  B.,	
  Wang,	
  J.,	
  Glance,	
  N.S.,	
  Jindal,	
  N.:	
  Detecting	
  group	
  review	
  spam.	
  World	
  Wide	
  Web	
  
(Companion	
  Volume).	
  (2011)	
  93–94	
  	
  
2.	
  Lauw,	
  H.W.,	
  Lim,	
  E.,	
  Wang,	
  K.:	
  Summarizing	
  review	
  scores	
  of	
  ”unequal”	
  reviewers.	
  In:	
  Proceedings	
  of	
  
the	
  Seventh	
  SIAM	
  International	
  Conference	
  on	
  Data	
  Mining.	
  (2007)	
  539–544	
  	
  
3.	
  Wang,	
  G.,	
  Xie,	
  S.,	
  Liu,	
  B.,	
  Yu,	
  P.S.:	
  Review	
  Graph	
  Based	
  Online	
  Store	
  Review	
  Spammer	
  Detection.	
  In:	
  
Proc.	
  of	
  the	
  11th	
  IEEE	
  International	
  Conference	
  on	
  Data	
  Mining.	
  (2011)	
  1242–1247	
  	
  
アイデア
•  ⼆二つのスコア	
  
•  レビュアーに特異異度度を定義	
  
•  レビュー対象にサマリスコアを定義	
  
•  ⼆二つのスコアの関係性(仮定)	
  
•  特異異なレビュアーは個々の評価対象について	
  
サマリとは異異なる評価値を与えるだろう  	
  
•  評価のサマリは	
  
特異異でない通常の評価者の評価値と近い値であるべき	
  
•  ⼆二つのスコアを繰り返し計算する	
  
•  繰り返し計算によりレビュアーの他のレビュー傾向を反映可能	
  
•  レビュー数の少ない初期状態での特異異なレビュアーの影響を削減	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   6
レビュアー
対象
レビュアー
⭐️️
⭐️⭐️⭐️
⭐️⭐️
特異異度度:	
  0.9
特異異度度:	
  0.2
サマリ:	
  4.8
RI  と⼆二部グラフモデル
•  Repeated	
  improvement	
  (RI)	
  
•  ⼆二つのスコアの影響を相互に考慮し解を求める	
  
•  レビュアーの特異異度度を元にサマリを計算する	
  
•  サマリとの乖離離を元に特異異度度を計算する	
  
•  ⼆二部グラフモデル	
  
•  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ	
  
•  それぞれの枝にレビュースコアを設定	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   7
RI  と⼆二部グラフモデル
•  Repeated	
  improvement	
  (RI)	
  
•  ⼆二つのスコアの影響を相互に考慮し解を求める	
  
•  レビュアーの特異異度度を元にサマリを計算する	
  
•  サマリとの乖離離を元に特異異度度を計算する	
  
•  ⼆二部グラフモデル	
  
•  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ	
  
•  それぞれの枝にレビュースコアを設定	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   8
個々の対象について	
  
サマリを計算
RI  と⼆二部グラフモデル
•  Repeated	
  improvement	
  (RI)	
  
•  ⼆二つのスコアの影響を相互に考慮し解を求める	
  
•  レビュアーの特異異度度を元にサマリを計算する	
  
•  サマリとの乖離離を元に特異異度度を計算する	
  
•  ⼆二部グラフモデル	
  
•  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ	
  
•  それぞれの枝にレビュースコアを設定	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   9
個々の対象について	
  
サマリを計算
サマリを元に特異異度度を計算
RI  と⼆二部グラフモデル
•  Repeated	
  improvement	
  (RI)	
  
•  ⼆二つのスコアの影響を相互に考慮し解を求める	
  
•  レビュアーの特異異度度を元にサマリを計算する	
  
•  サマリとの乖離離を元に特異異度度を計算する	
  
•  ⼆二部グラフモデル	
  
•  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ	
  
•  それぞれの枝にレビュースコアを設定	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   10
特異異度度を元に	
  
サマリを更更新
サマリを元に特異異度度を計算
レビュアーの特異異度度
•  レビュアーの対象別特異異度度	
  
•  レビュアー	
  p  がレビュー対象  q  を	
  e  と評価	
  
•  レビュー対象のサマリは	
  s  であった	
  
•  レビュアー	
  p	
  の	
  q  に対する特異異度度を	
  |e	
  –	
  s|	
  と定義	
  
•  レビュー対象	
  q  のサマリ	
  s	
  に対する信頼度度	
  
•  	
  レビュー対象	
  q  に与えられたレビュー数を  Nq,	
  評価の分散  を	
  σ2	
  
•  サマリ	
  s	
  の信頼度度	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  と定義	
  
•  「レビュー数が多く,ばらつきが少ないほど信頼度度は⾼高い」	
  
•  レビュアー	
  p	
  の特異異度度	
  
•  レビュアー	
  p  が評価したすべての対象について	
  
•  対象別特異異度度の信頼度度による重み付き平均を	
  p	
  の特異異度度と定義 	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   11
レビュアー
対象
⭐️️
特異異度度:	
  ???
サマリ:	
  4.8
e.g.	
  |4.8	
  –	
  1.0|
c =
log(Nq)
σ 2
+1
	
  c	
  x	
  |e	
  –s|
レビューのサマリ
•  特異異度度を考慮した重み付き平均	
  
•  シグモイド関数を⽤用いて	
  
特異異度度	
  a  に対する重み計算	
  
•  重みは	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  (α  はパラメータ)	
  
•  サマリは	
  
•  特異異度度の⼤大きいレビュアーの評価	
  
•  サマリ計算への影響は⼩小さくなる
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   12
レビュアー
対象
レビュアー
⭐️️
⭐️⭐️⭐️
⭐️⭐️
特異異度度:	
  0.9
特異異度度:	
  0.2
サマリ:	
  ???
wα (a) =
1
1+e−αa
wα (0.9)*1.0 + wα (0.2)*5.0
wα (0.9)+ wα (0.2)
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   13
評価実験
•  データセット	
  
•  Amazon	
  レビューデータ	
  (1996年年5⽉月31⽇日〜~2006年年5⽉月29⽇日)	
  
•  書籍カテゴリのレビューのみ抽出	
  
•  2004年年12⽉月31⽇日までのレビューを元に2006年年5⽉月29⽇日時点のサマリを予測	
  
•  レビュー数1の書籍は対象外とする(データセットから削除)	
  
	
  
	
  
	
  
•  特異異なレビュアーの追加	
  
•  公開データセットでは特異異なレビュアーは削除されている可能性が⾼高い	
  
•  特異異なレビュアー数が本来よりも少ない可能性が⾼高い	
  
•  ⼈人⼯工的に特異異なレビュアーを追加して補う	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   14
2004	
  年年  12	
  ⽉月  31	
  ⽇日までのレビュー数:	
  1555315	
  
2005	
  年年  1	
  ⽉月  1	
  ⽇日以降降のレビュー数:	
  613265	
  
2004	
  年年  12	
  ⽉月  31	
  ⽇日までの評価者数:	
  730667	
  	
  
実験に⽤用いたデータセットの詳細
特異異なレビュアーの種類
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   15
•  結託しない特異異なレビュアー	
  
•  レビュー数:実際のレビュー数の分布からランダムに決定	
  
•  レビュー対象:ランダムに選択	
  
•  レビュースコア:通常レビュー平均  <	
  2.5  なら	
  5,	
  >=2.5  なら	
  1	
  
•  結託する特異異なレビュアー	
  
•  対象書籍において結託側が多数となるように配置	
  
•  レビュー数:2冊	
  
•  レビュー対象:通常のレビュアーが2⼈人の書籍	
  
•  結託⼈人数:4⼈人	
  
•  レビュースコア:結託しない場合と同じ
正解データと⽐比較⼿手法
•  正解データ	
  
•  Amazon  データセットに含まれる	
  
全期間レビューの平均値(⻑⾧長期間平均)	
  
•  追加した特異異なレビュアーは含まない	
  
•  ⽐比較⼿手法	
  
•  ONE†	
  :	
  Repeated	
  improvement  を⽤用いない  	
  
•  MRA‡	
  :	
  Repeated	
  improvement	
  を⽤用いる	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  サマリの信頼度度を考慮しない	
  
                  シグモイド関数の	
  α	
  =	
  1	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   16
単純平均と正解データの⽐比較
†Lim,	
  E.P.,	
  Nguyen,	
  V.A.,	
  Jindal,	
  N.,	
  Liu,	
  B.,	
  Lauw,	
  H.W.:	
  Detecting	
  Product	
  Review	
  Spammers	
  using	
  Rating	
  
Behav-­‐	
  iors.	
  In:	
  Proc.	
  of	
  the	
  19th	
  ACM	
  International	
  Conference	
  on	
  Information	
  and	
  Knowledge	
  
Management,	
  Toronto,	
  ON,	
  Canada,	
  ACM	
  Press	
  (October	
  2010)	
  939–948	
  	
  
‡Tawaramoto,	
  K.,	
  Kawamoto,	
  J.,	
  Asano,	
  Y.,	
  Yoshikawa,	
  M.:	
  A	
  Bipartite	
  Graph	
  Model	
  and	
  Mutually	
  
Reinforcing	
  Anal-­‐	
  ysis	
  for	
  Review	
  Sites.	
  In:	
  Proc.	
  of	
  the	
  22nd	
  International	
  Conference	
  on	
  Database	
  and	
  
Expert	
  Systems	
  Applications,	
  Toulouse,	
  France,	
  Springer	
  (2011)	
  341–348	
  	
  
実験1:  特異異度度の評価
•  ⽬目的	
  
•  特異異なレビュアーの特異異度度は期待通り⼤大きくなっているのか	
  
•  ⼿手順	
  
•  ONE,	
  MRA,  提案⼿手法それぞれを⽤用いて特異異度度を計算	
  
•  追加した特異異なレビュアーの特異異度度分布を評価	
  
	
  
•  Amazon  データセットに含まれるレビュアーは通常とした	
  
•  実際には特異異なレビュアーも含まれている	
  
•  通常レビュアーの特異異度度分布はあくまで参考	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   17
実験1:  特異異度度の評価結果
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   18
ONE MRA
提案⼿手法	
  
α	
  =	
  0.25
提案⼿手法	
  
α	
  =	
  2.0
実験1:  特異異度度の評価結果
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   19
ONE MRA
提案⼿手法	
  
α	
  =	
  0.25
提案⼿手法	
  
α	
  =	
  2.0
結託しない特異異なレビュアーの特異異度度(緑)はどの⼿手法でも⾼高い	
  
-­‐>	
  結託しない特異異なレビュアーは⽐比較的容易易に検出できる
実験1:  特異異度度の評価結果
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   20
ONE MRA
提案⼿手法	
  
α	
  =	
  0.25
提案⼿手法	
  
α	
  =	
  2.0
結託する特異異なレビュアーの特異異度度(⾚赤)は	
  
ONE,	
  提案⼿手法(α	
  =	
  0.25)  では中盤に固まっている	
  
MRA,	
  提案⼿手法(α	
  =	
  2.0)では⼀一部⾼高く⼀一部低い	
  
実験1:  特異異度度の評価結果
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   21
ONE MRA
提案⼿手法	
  
α	
  =	
  0.25
提案⼿手法	
  
α	
  =	
  2.0
結託する特異異なレビュアーの特異異度度(⾚赤)は	
  
ONE,	
  提案⼿手法(α	
  =	
  0.25)  では中盤に固まっている	
  
MRA,	
  提案⼿手法(α	
  =	
  2.0)では⼀一部⾼高く⼀一部低い	
  
ONE,	
  提案⼿手法(α	
  =	
  0.25)では通常レビュアーと⽐比較的区別できる	
  
MRA,	
  提案⼿手法(α	
  =	
  2.0)では⼀一部の特異異なレビュアーが通常レビュアーに紛れている
実験2:  ⻑⾧長期間平均の予測
•  2004年年までのレビュー	
  +	
  特異異なレビューから	
  
⻑⾧長期間平均を予測	
  
•  ⻑⾧長期間平均との誤差分布を計算	
  
•  Amazonレビューは	
  5つ星評価のため誤差の最⼤大値は	
  4.0	
  
•  単純平均に⽐比べて	
  
どの程度度改善したのか	
  
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   22
単純平均と正解データの⽐比較
実験2:  ⻑⾧長期間平均の予測結果
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   23
ONE MRA
提案⼿手法	
  
α	
  =	
  0.25
提案⼿手法	
  
α	
  =	
  2.0
まとめと今後の課題
•  部分的なレビューから⻑⾧長期間経過後のレビューを求める	
  
•  ⼆二部グラフを⽤用いてレビュアーとレビュー対象を表現	
  
•  Repeated	
  Improvement	
  を⽤用いて	
  
レビュアーの特異異度度とレビュー対象のサマリを計算	
  
•  繰り返し計算により各レビュアーの過去のレビュー傾向を考慮できる	
  
•  特異異なレビュアーか否かを判定	
  
•  今後の課題	
  
•  提案⼿手法(α	
  =	
  0.25)では通常レビュアーと結託するレビュアーの	
  
区別が⼀一部できている	
  
•  ⼀一⽅方で⻑⾧長期間経過後のレビュー予測ではエラーが多い	
  
•  ⼿手法の改良良が必要
2015/3/2 DEIM	
  Forum	
  2015	
  D3-­‐6	
  	
   24

More Related Content

PDF
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
Junpei Kawamoto
 
PDF
20141129-dotNet2015
Takayoshi Tanaka
 
PPTX
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
Hub DotnetDeveloper
 
PPTX
第5回 業開中心会議 チャレンジングな業務アプリ開発者を目指そう
Masahiko Isshiki
 
PDF
20131209_buildinsidermeetup
kumake
 
PPTX
DevOpsの取り組み - Infratop
Ryo Tanaka
 
PDF
ElasticSearchでいろいろやってる話
Shinya Takara
 
PDF
[D35] インメモリーデータベース徹底比較 by Komori
Insight Technology, Inc.
 
レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測
Junpei Kawamoto
 
20141129-dotNet2015
Takayoshi Tanaka
 
2014 03-15 業務アプリinsider ソフトウェア方面の先進テクノロジー
Hub DotnetDeveloper
 
第5回 業開中心会議 チャレンジングな業務アプリ開発者を目指そう
Masahiko Isshiki
 
20131209_buildinsidermeetup
kumake
 
DevOpsの取り組み - Infratop
Ryo Tanaka
 
ElasticSearchでいろいろやってる話
Shinya Takara
 
[D35] インメモリーデータベース徹底比較 by Komori
Insight Technology, Inc.
 

Viewers also liked (11)

PDF
Redisととあるシステム
Takehiro Torigaki
 
PDF
.NET最先端技術によるハイパフォーマンスウェブアプリケーション
Yoshifumi Kawai
 
PPTX
それFluentdで! #fluentd
Atsuko Shibuya
 
PDF
CEDEC2015講演 チーム開発をスムーズにするために
Takafumi Ikeda
 
PDF
Big Data入門に見せかけたFluentd入門
Keisuke Takahashi
 
PDF
fluentd を利用した大規模ウェブサービスのロギング
Yuichi Tateno
 
PDF
「管理」をなくせばうまくいく
Yoshihito Kuranuki
 
PDF
高速で無駄のない開発をするチームのための"7つ道具"(2014/03/08 - Websig)
Yoshihito Kuranuki
 
PDF
Fluentdのお勧めシステム構成パターン
Kentaro Yoshida
 
PDF
5分でわかるブロックチェーンの基本的な仕組み
Ryo Shimamura
 
PDF
ブロックチェーン技術の基本と応用の可能性
Kenji Saito
 
Redisととあるシステム
Takehiro Torigaki
 
.NET最先端技術によるハイパフォーマンスウェブアプリケーション
Yoshifumi Kawai
 
それFluentdで! #fluentd
Atsuko Shibuya
 
CEDEC2015講演 チーム開発をスムーズにするために
Takafumi Ikeda
 
Big Data入門に見せかけたFluentd入門
Keisuke Takahashi
 
fluentd を利用した大規模ウェブサービスのロギング
Yuichi Tateno
 
「管理」をなくせばうまくいく
Yoshihito Kuranuki
 
高速で無駄のない開発をするチームのための"7つ道具"(2014/03/08 - Websig)
Yoshihito Kuranuki
 
Fluentdのお勧めシステム構成パターン
Kentaro Yoshida
 
5分でわかるブロックチェーンの基本的な仕組み
Ryo Shimamura
 
ブロックチェーン技術の基本と応用の可能性
Kenji Saito
 
Ad

Similar to 初期レビューを用いた長期間評価推定􏰀 (17)

PDF
EMNLP 2011 reading
正志 坪坂
 
PPTX
修士論文
Noboru Kano
 
PDF
CFML_learning_sato.pdf
Masahiro Sato
 
PDF
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
 
PPTX
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death
Kimitaka
 
PDF
Fism kdd2
Shunichi Mochizuki
 
PPTX
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
PDF
Fism kdd
Shunichi Mochizuki
 
PDF
発売日前のレビューとPU-Learningを用いた
スパムレビュー検出
Okamoto Laboratory, The University of Electro-Communications
 
ODP
Programming Collective Intelligence 100111
Sho Shimauchi
 
PDF
20101002 cd sigfin_spx_ss
Takanobu Mizuta
 
PDF
yamasita m
harmonylab
 
PDF
2012.03.08 大量・多種類のデータを、いかに"価値"に還元するか?
大祐 伊東
 
PDF
分散表現を用いたリアルタイム学習型セッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
 
PPTX
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
 
PDF
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
 
PDF
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
Ichigaku Takigawa
 
EMNLP 2011 reading
正志 坪坂
 
修士論文
Noboru Kano
 
CFML_learning_sato.pdf
Masahiro Sato
 
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
 
Tori lab 輪読会 WWW 2014 - Modeling and predicting the growth and death
Kimitaka
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa
 
発売日前のレビューとPU-Learningを用いた
スパムレビュー検出
Okamoto Laboratory, The University of Electro-Communications
 
Programming Collective Intelligence 100111
Sho Shimauchi
 
20101002 cd sigfin_spx_ss
Takanobu Mizuta
 
yamasita m
harmonylab
 
2012.03.08 大量・多種類のデータを、いかに"価値"に還元するか?
大祐 伊東
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
Okamoto Laboratory, The University of Electro-Communications
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
harmonylab
 
第4回DARM勉強会 (構造方程式モデリング)
Yoshitake Takebayashi
 
多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)
Ichigaku Takigawa
 
Ad

More from Junpei Kawamoto (19)

PDF
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Junpei Kawamoto
 
PDF
Securing Social Information from Query Analysis in Outsourced Databases
Junpei Kawamoto
 
PDF
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
Junpei Kawamoto
 
PDF
Privacy for Continual Data Publishing
Junpei Kawamoto
 
PDF
暗号化ベクトルデータベースのための索引構造
Junpei Kawamoto
 
PDF
暗号化データベースモデルにおける問合せの関連情報を秘匿する範囲検索
Junpei Kawamoto
 
PDF
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
Junpei Kawamoto
 
PDF
データ共有型WEBアプリケーションにおけるサーバ暗号化
Junpei Kawamoto
 
PDF
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
Junpei Kawamoto
 
PDF
プライベート問合せにおける問合せ頻度を用いた制約緩和手法
Junpei Kawamoto
 
PDF
プライバシを考慮した移動系列情報解析のための安全性の提案
Junpei Kawamoto
 
PDF
A Locality Sensitive Hashing Filter for Encrypted Vector Databases
Junpei Kawamoto
 
PDF
位置情報解析のためのプライバシ保護手法
Junpei Kawamoto
 
PDF
Sponsored Search Markets (from Networks, Crowds, and Markets: Reasoning About...
Junpei Kawamoto
 
PDF
Private Range Query by Perturbation and Matrix Based Encryption
Junpei Kawamoto
 
PDF
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
Junpei Kawamoto
 
PPT
VLDB09勉強会 Session27 Privacy2
Junpei Kawamoto
 
PDF
Reducing Data Decryption Cost by Broadcast Encryption and Account Assignment ...
Junpei Kawamoto
 
PPTX
Security of Social Information from Query Analysis in DaaS
Junpei Kawamoto
 
Frequency-based Constraint Relaxation for Private Query Processing in Cloud D...
Junpei Kawamoto
 
Securing Social Information from Query Analysis in Outsourced Databases
Junpei Kawamoto
 
クエリログとナビゲーション履歴から探索意図抽出による協調探索支援
Junpei Kawamoto
 
Privacy for Continual Data Publishing
Junpei Kawamoto
 
暗号化ベクトルデータベースのための索引構造
Junpei Kawamoto
 
暗号化データベースモデルにおける問合せの関連情報を秘匿する範囲検索
Junpei Kawamoto
 
マルコフ過程を用いた位置情報継続開示のためのアドバーザリアルプライバシ
Junpei Kawamoto
 
データ共有型WEBアプリケーションにおけるサーバ暗号化
Junpei Kawamoto
 
マルコフモデルを仮定した位置情報開示のためのアドバーザリアルプライバシ
Junpei Kawamoto
 
プライベート問合せにおける問合せ頻度を用いた制約緩和手法
Junpei Kawamoto
 
プライバシを考慮した移動系列情報解析のための安全性の提案
Junpei Kawamoto
 
A Locality Sensitive Hashing Filter for Encrypted Vector Databases
Junpei Kawamoto
 
位置情報解析のためのプライバシ保護手法
Junpei Kawamoto
 
Sponsored Search Markets (from Networks, Crowds, and Markets: Reasoning About...
Junpei Kawamoto
 
Private Range Query by Perturbation and Matrix Based Encryption
Junpei Kawamoto
 
暗号化データベースモデルにおける関係情報推定を防ぐ索引手法
Junpei Kawamoto
 
VLDB09勉強会 Session27 Privacy2
Junpei Kawamoto
 
Reducing Data Decryption Cost by Broadcast Encryption and Account Assignment ...
Junpei Kawamoto
 
Security of Social Information from Query Analysis in DaaS
Junpei Kawamoto
 

初期レビューを用いた長期間評価推定􏰀

  • 1. 初期レビューを⽤用いた⻑⾧長期間評価推定 川本  淳平1  俵本  ⼀一輝2  浅野  泰仁2  吉川  正俊2 1.  九州⼤大学⼤大学院システム情報科学研究院 2.  京都⼤大学⼤大学院情報学研究科  
  • 2. レビューサイト •  顧客や販売者の意思決定に対して影響を与える   •  Amazon,  価格.com,  IMDb  など多くのサイトがレビューを掲載   •  特異異なレビュー   •  スパムレビュー  (Social  spammers  や  Crowd  turfing  workers)   •  ステルスマーケティング   •  エキスパートによるレビュー   •  「一般的な」人々が求めているレビューと乖離しているレビュー   •  初期レビューにおける特異異なレビューの問題   •  レビュー数が少ない・特異異なレビューが多数となりやすい   2015/3/2 DEIM  Forum  2015  D3-­‐6     2
  • 3. ⽬目的 •  商品販売当初などレビュー数の少ない段階において   •  特異異なレビュアーの発⾒見見   •  ⻑⾧長期間レビューの予測   2015/3/2 DEIM  Forum  2015  D3-­‐6     3 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ どちらが特異異か? ⼗十分時間経過後の   評価はどうなるか?
  • 4. ⽬目的 •  商品販売当初などレビュー数の少ない段階において   •  特異異なレビュアーの発⾒見見   •  ⻑⾧長期間レビューの予測   2015/3/2 DEIM  Forum  2015  D3-­‐6     4 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 対象 対象 対象 対象 ⭐️️ ⭐️️ ⭐️️ ⭐️️ ⭐️️ 他の対象へのレビューも考慮して判断
  • 5. 関連研究 •  スパムレビュアーの検知に関する研究1   •  ⼗十分な学習⽤用データを利利⽤用するものが多い   •  レビュー数が少ない場合学習⽤用データの取得は難しい   •  特異異なレビュアーはスパムレビュアーを⼀一般化したもの   •  査読プロセスにおけるレビュー解析2   •  「厳しい査読者」と「優しい査読者」など傾向の分析   •  査読者は正当に振る舞うと仮定   •  オンラインショップのレビュー評価3   •  限られた期間内に⾏行行われた商店の評価分析   •  評価実験において⽐比較対象とする   2015/3/2 DEIM  Forum  2015  D3-­‐6     5 1.  Mukherjee,  A.,  Liu,  B.,  Wang,  J.,  Glance,  N.S.,  Jindal,  N.:  Detecting  group  review  spam.  World  Wide  Web   (Companion  Volume).  (2011)  93–94     2.  Lauw,  H.W.,  Lim,  E.,  Wang,  K.:  Summarizing  review  scores  of  ”unequal”  reviewers.  In:  Proceedings  of   the  Seventh  SIAM  International  Conference  on  Data  Mining.  (2007)  539–544     3.  Wang,  G.,  Xie,  S.,  Liu,  B.,  Yu,  P.S.:  Review  Graph  Based  Online  Store  Review  Spammer  Detection.  In:   Proc.  of  the  11th  IEEE  International  Conference  on  Data  Mining.  (2011)  1242–1247    
  • 6. アイデア •  ⼆二つのスコア   •  レビュアーに特異異度度を定義   •  レビュー対象にサマリスコアを定義   •  ⼆二つのスコアの関係性(仮定)   •  特異異なレビュアーは個々の評価対象について   サマリとは異異なる評価値を与えるだろう     •  評価のサマリは   特異異でない通常の評価者の評価値と近い値であるべき   •  ⼆二つのスコアを繰り返し計算する   •  繰り返し計算によりレビュアーの他のレビュー傾向を反映可能   •  レビュー数の少ない初期状態での特異異なレビュアーの影響を削減   2015/3/2 DEIM  Forum  2015  D3-­‐6     6 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 特異異度度:  0.9 特異異度度:  0.2 サマリ:  4.8
  • 7. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     7
  • 8. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     8 個々の対象について   サマリを計算
  • 9. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     9 個々の対象について   サマリを計算 サマリを元に特異異度度を計算
  • 10. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     10 特異異度度を元に   サマリを更更新 サマリを元に特異異度度を計算
  • 11. レビュアーの特異異度度 •  レビュアーの対象別特異異度度   •  レビュアー  p  がレビュー対象  q  を  e  と評価   •  レビュー対象のサマリは  s  であった   •  レビュアー  p  の  q  に対する特異異度度を  |e  –  s|  と定義   •  レビュー対象  q  のサマリ  s  に対する信頼度度   •   レビュー対象  q  に与えられたレビュー数を  Nq,  評価の分散  を  σ2   •  サマリ  s  の信頼度度                                                                                                                                                  と定義   •  「レビュー数が多く,ばらつきが少ないほど信頼度度は⾼高い」   •  レビュアー  p  の特異異度度   •  レビュアー  p  が評価したすべての対象について   •  対象別特異異度度の信頼度度による重み付き平均を  p  の特異異度度と定義   2015/3/2 DEIM  Forum  2015  D3-­‐6     11 レビュアー 対象 ⭐️️ 特異異度度:  ??? サマリ:  4.8 e.g.  |4.8  –  1.0| c = log(Nq) σ 2 +1  c  x  |e  –s|
  • 12. レビューのサマリ •  特異異度度を考慮した重み付き平均   •  シグモイド関数を⽤用いて   特異異度度  a  に対する重み計算   •  重みは                                                                                                        (α  はパラメータ)   •  サマリは   •  特異異度度の⼤大きいレビュアーの評価   •  サマリ計算への影響は⼩小さくなる 2015/3/2 DEIM  Forum  2015  D3-­‐6     12 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 特異異度度:  0.9 特異異度度:  0.2 サマリ:  ??? wα (a) = 1 1+e−αa wα (0.9)*1.0 + wα (0.2)*5.0 wα (0.9)+ wα (0.2)
  • 13. 2015/3/2 DEIM  Forum  2015  D3-­‐6     13
  • 14. 評価実験 •  データセット   •  Amazon  レビューデータ  (1996年年5⽉月31⽇日〜~2006年年5⽉月29⽇日)   •  書籍カテゴリのレビューのみ抽出   •  2004年年12⽉月31⽇日までのレビューを元に2006年年5⽉月29⽇日時点のサマリを予測   •  レビュー数1の書籍は対象外とする(データセットから削除)         •  特異異なレビュアーの追加   •  公開データセットでは特異異なレビュアーは削除されている可能性が⾼高い   •  特異異なレビュアー数が本来よりも少ない可能性が⾼高い   •  ⼈人⼯工的に特異異なレビュアーを追加して補う   2015/3/2 DEIM  Forum  2015  D3-­‐6     14 2004  年年  12  ⽉月  31  ⽇日までのレビュー数:  1555315   2005  年年  1  ⽉月  1  ⽇日以降降のレビュー数:  613265   2004  年年  12  ⽉月  31  ⽇日までの評価者数:  730667     実験に⽤用いたデータセットの詳細
  • 15. 特異異なレビュアーの種類 2015/3/2 DEIM  Forum  2015  D3-­‐6     15 •  結託しない特異異なレビュアー   •  レビュー数:実際のレビュー数の分布からランダムに決定   •  レビュー対象:ランダムに選択   •  レビュースコア:通常レビュー平均  <  2.5  なら  5,  >=2.5  なら  1   •  結託する特異異なレビュアー   •  対象書籍において結託側が多数となるように配置   •  レビュー数:2冊   •  レビュー対象:通常のレビュアーが2⼈人の書籍   •  結託⼈人数:4⼈人   •  レビュースコア:結託しない場合と同じ
  • 16. 正解データと⽐比較⼿手法 •  正解データ   •  Amazon  データセットに含まれる   全期間レビューの平均値(⻑⾧長期間平均)   •  追加した特異異なレビュアーは含まない   •  ⽐比較⼿手法   •  ONE†  :  Repeated  improvement  を⽤用いない     •  MRA‡  :  Repeated  improvement  を⽤用いる                            サマリの信頼度度を考慮しない                    シグモイド関数の  α  =  1   2015/3/2 DEIM  Forum  2015  D3-­‐6     16 単純平均と正解データの⽐比較 †Lim,  E.P.,  Nguyen,  V.A.,  Jindal,  N.,  Liu,  B.,  Lauw,  H.W.:  Detecting  Product  Review  Spammers  using  Rating   Behav-­‐  iors.  In:  Proc.  of  the  19th  ACM  International  Conference  on  Information  and  Knowledge   Management,  Toronto,  ON,  Canada,  ACM  Press  (October  2010)  939–948     ‡Tawaramoto,  K.,  Kawamoto,  J.,  Asano,  Y.,  Yoshikawa,  M.:  A  Bipartite  Graph  Model  and  Mutually   Reinforcing  Anal-­‐  ysis  for  Review  Sites.  In:  Proc.  of  the  22nd  International  Conference  on  Database  and   Expert  Systems  Applications,  Toulouse,  France,  Springer  (2011)  341–348    
  • 17. 実験1:  特異異度度の評価 •  ⽬目的   •  特異異なレビュアーの特異異度度は期待通り⼤大きくなっているのか   •  ⼿手順   •  ONE,  MRA,  提案⼿手法それぞれを⽤用いて特異異度度を計算   •  追加した特異異なレビュアーの特異異度度分布を評価     •  Amazon  データセットに含まれるレビュアーは通常とした   •  実際には特異異なレビュアーも含まれている   •  通常レビュアーの特異異度度分布はあくまで参考   2015/3/2 DEIM  Forum  2015  D3-­‐6     17
  • 18. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     18 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0
  • 19. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     19 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託しない特異異なレビュアーの特異異度度(緑)はどの⼿手法でも⾼高い   -­‐>  結託しない特異異なレビュアーは⽐比較的容易易に検出できる
  • 20. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     20 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託する特異異なレビュアーの特異異度度(⾚赤)は   ONE,  提案⼿手法(α  =  0.25)  では中盤に固まっている   MRA,  提案⼿手法(α  =  2.0)では⼀一部⾼高く⼀一部低い  
  • 21. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     21 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託する特異異なレビュアーの特異異度度(⾚赤)は   ONE,  提案⼿手法(α  =  0.25)  では中盤に固まっている   MRA,  提案⼿手法(α  =  2.0)では⼀一部⾼高く⼀一部低い   ONE,  提案⼿手法(α  =  0.25)では通常レビュアーと⽐比較的区別できる   MRA,  提案⼿手法(α  =  2.0)では⼀一部の特異異なレビュアーが通常レビュアーに紛れている
  • 22. 実験2:  ⻑⾧長期間平均の予測 •  2004年年までのレビュー  +  特異異なレビューから   ⻑⾧長期間平均を予測   •  ⻑⾧長期間平均との誤差分布を計算   •  Amazonレビューは  5つ星評価のため誤差の最⼤大値は  4.0   •  単純平均に⽐比べて   どの程度度改善したのか   2015/3/2 DEIM  Forum  2015  D3-­‐6     22 単純平均と正解データの⽐比較
  • 23. 実験2:  ⻑⾧長期間平均の予測結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     23 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0
  • 24. まとめと今後の課題 •  部分的なレビューから⻑⾧長期間経過後のレビューを求める   •  ⼆二部グラフを⽤用いてレビュアーとレビュー対象を表現   •  Repeated  Improvement  を⽤用いて   レビュアーの特異異度度とレビュー対象のサマリを計算   •  繰り返し計算により各レビュアーの過去のレビュー傾向を考慮できる   •  特異異なレビュアーか否かを判定   •  今後の課題   •  提案⼿手法(α  =  0.25)では通常レビュアーと結託するレビュアーの   区別が⼀一部できている   •  ⼀一⽅方で⻑⾧長期間経過後のレビュー予測ではエラーが多い   •  ⼿手法の改良良が必要 2015/3/2 DEIM  Forum  2015  D3-­‐6     24