データマイニング

データマイニング：多量のデータ集合から、意味のある情報を抜き出す手法
　多量のデータが電子的に蓄積され
　多量のデータを処理・分析することが可能に
　予備知識なしに理解可能な計算法のいくつかを直感的に紹介

グーグルのページランクアルゴリズム
推薦システム
マーケットバスケット分析（アソシエーションルール）

グーグルのページランク

　グーグルの創設者 Sergey Brin と Lawrence Page による
　現在のグーグルの隆盛の基礎をなす技術
　ページの重要度をそのページがどれだけ閲覧されるのかで決める
　Webページの間のリンク関係に基づいて測る

パズル：1から8の番号のついたWebページの間のリンク関係が右のようなグラフ(ネットワーク)になっている。このとき、どのページが重要、すなわち、よく閲覧されるか。

隣接行列⇒遷移確率行列

グラフの隣接行列$A$：
$A(i,j)=\begin{cases} 1&頂点iから頂点jへ矢印(リンク)\\ 0&なければ \end{cases}$
隣接行列$A$から遷移確率行列$P$を求めるとき

頂点のどれか(例えば１)から出発
矢印のどれかを等確率で選んで、遷移(移動)
出る矢印がなければ、その頂点にとどまる

頂点$i$から出る矢印の本数を$k$としたとき
$P(i,j)=\begin{cases} A(i,j)/k&k>0（条件\text{B}）\\ 1&k=0でi=j（条件\text{C}）\\ 0&k=0でi\ne j \end{cases}$

　一般に各頂点に対し、次の頂点への遷移確率(必ずしもすべて等しいとは限らないが和は１)が与えれらたグラフをマルコフ連鎖といい、その行列表現を遷移確率行列という。

パズル．確率遷移行列の計算

例示グラフの確率遷移行列を計算せよ
パラメータ(意味は後述)を１にして、準備ボタンをクリックする
ページ(頂点)数を4にして、準備ボタンをクリックし、確率遷移行列が条件のCを満たしていることを確認せよ
また、どのようなグラフの確率遷移行列を計算しているのか、図示せよ。

定常状態

ある頂点から出発して(確率的な)遷移を繰り返すと、$n$回目の遷移の後でそれぞれの頂点にいる確率の分布（状態ベクトル）が定義される
　　$n+1$回目の状態ベクトル$=n$回目の状態ベクトル×確率遷移行列

ページランクアルゴリズムの基本的な考え方
状態ベクトル(確率分布)が定常状態に収束したら、確率はそのページを平均的に訪れる(閲覧する)頻度を表すので、重要度の指標とする

　グラフが次の条件を満たすと出発頂点がどこであるかに関わらず状態ベクトルは定常状態に収束する

グラフが強連結である(各頂点が互いにつながっている)
グラフのサイクル(循環する道)の長さの最大公約数が１である

パズル．定常状態
アプリで準備ボタンをクリックした後、更新ボタンのクリックを繰り返すと、各頂点にいる確率の分布が変化(収束)が見られる。

ページ数を3、パラメータを1にして(隣接行列はそのまま！)、条件 b が成り立たないと確率分布が循環することを確認せよ。
ページ数を6にすると条件 a が成り立たない。グラフを書いて確認せよ。
ページ数を6、パラメータを1とし、異なる定常状態に収束するような初期状態(出発頂点)を求めよ。

パラメータαの導入

パラメータ$1$の議論
・マルコフ連鎖としてよく知られ、さまざまな場面に応用されてきた
・グラフがWeb上のページリンクを表すという文脈ではおかしな仮定

リンクを持たないページ(PDFファイル等)にとどまり続ける
必ずリンクをたどる(各リンクの遷移確率の和が1)

パラメータαの意味
ページでリンク(のどれか)をたどる確率α(＝0.85)
確率1－αで、新たなページを(等確率で)選んでネットサーフィンを始める
　遷移確率行列$P_\alpha$は、総ページ数を$N$として
$P_\alpha(i,j)=\begin{cases} \alpha A(i,j)/k+(1-\alpha)/N & 頂点iから出る矢印の本数k>0\\ 1/N & k=0\\ \end{cases}$

・すべてのページの間に矢印(遷移)が付く⇒定常状態に必ず収束
・定常状態への収束の速さは$\alpha^n$に比例
・計算速度と、定常状態(ページランク)の正確さとのバランス
　⇒$\alpha=0.85$（と言われている）

パズル．パラメータα
アプリで収束までの回数および各ページのランク(確率)値を、パラメータα=１のときとパラメータα=0.85のときで、比較せよ

・グーグルがページのランク付けに利用しているのはリンク構造だけではないし、詳細は公表されていない
・解説したような単純なものでない
・検索サイトがつけるランクをアップさせるための様々な工夫や業者が存在し、検索サイトとの間でいたちごっこ

マーケットバスケット分析

・スーパーマーケットのレジで集められるPOS(Point Of Sale)データからバスケット(籠)の中身を分析
・どの商品とどの商品が同時に買われやすいかを求める
・伝説的な事例：週末に紙おむつを買う人はビールも買う

アソシエーションルール
　次の形の有効なルールを探す
　　　$A\to B$：$A$(を買う人)ならば$B$(も買う)
$A$や$B$は、一般的には複数の商品や条件からなり、冒頭の例は
　　　(週末∧紙おむつ)　→　ビール

簡単のため、$A$や$B$はそれぞれ単一の商品とする
　$\mathcal U$をすべての籠の集合
　商品$A$が入っている籠の集合を$\mathcal A$($\mathcal B$も同様)
　集合$\mathcal X$ の要素数を$|\mathcal X|$で表す

アソシエーションルール $A\to B$ の有効性を、以下の数値で評価

サポート$(A\to B)$$=|{\mathcal A}\cap{\mathcal B}|/|{\mathcal U}|$：ルールを支持する籠が全体に占める比率
サポート値が低いルールは少数の事例にしか当てはまらず一般性を持たない。
信頼度$(A\to B)$$=|{\mathcal A}∩{\mathcal B}|/|{\mathcal A}|$：$A$を含む籠の中で$B$を含む籠が占める比率
信頼度が低いルールは、そもそもルールが成り立っていない
改善率$(A\to B)$$=信頼度(A\to B)/信頼度(\ \to B)=(|{\mathcal A}∩{\mathcal B}|\cdot|{\mathcal U}|)/(|{\mathcal A}|\cdot|{\mathcal B}|)$：仮定$A$による信頼度の改善率
信頼度が高くても改善率が1以下なら、$B$が買われる理由が$A$を買うことにはなく、そもそも無条件に(あるいは他の理由で)$B$が買われていることを意味するので、この場合もルールが有効であるとはいえない。

アプリを使って、サポート、信頼度、改善率の意味を理解しよう。

パズル．アソシエーションルールの評価
左のアプリで例示されているデータを使って、以下の問いに答えよ。
1. 単一前後件ルールで最高信頼度のルールはどれか
2. 単一前後件ルールで最高改善度のルールはどれか
3. ルール AB→Cについて、そのサポート、信頼度、改善率の値を求め、値がそうなる理由を説明せよ
4. XY→Zの形で改善率2.5以上のルールを求めよ

長所と短所

〇対象となるデータの中に潜む有効なルールを探し出す探索的手法
〇結果をアソシエーションルールという分かりやすい形で提供
×品数が多くなると、$X\to Y$という形の規則の個数は指数関数的に増大
　⇒すべて調べるのは現実的ではない
×｢苗→肥料」のように、当然のルールが多数出る
　⇒真に有効なルールを見出すには、機械だけでは無理
〇推薦システムと異なり、個人と紐付けられていない匿名データに対しても有効

アルゴリズムの考え方：データマイニング