PHP と MySQL でカジュアルに MapReduce する

PHP と MySQL で
カジュアルに
MapReduce する

@yuya_takeyama

アジェンダ

•MapReduce とは

• 自作フレームワーク
MyMR の紹介

お断り (1)

ビッグデータの話は
ありません

お断り (2)

業務では
まだやってません

お断り (3)

Hadoop
未経験です
※MongoDB での
MapReduce ならやりました

固有名詞として

•
Google の大規模データ処理フ
レームワーク

•
検索インデックスの作成とかに
使われている

普通名詞として
•Map/Reduce 関数でデータを
処理するプログラミングモデル

• マシンを増やしただけスケール

•Hadoop, MongoDB,
CouchDB などが主な実装

入力
処理の流れ ↓
Map
↓
Reduce
↓
出力

やや厳密な入力
処理の流れ ↓
Map
↓
Shufﬂe
↓
Reduce
より厳密には ↓
もっと複雑らしいです
出力

Map

•入力データを受け取り
• 複数の Key/Value ペアを出力

Shufﬂe

•Map による Key/Value を
• Key ごとにまとめて出力

Reduce

•Shufﬂe による中間データを
• 集約して答えを出力

複数の関数の
入出力を経て
最終的な答えを出力

文章中の
単語の数を数える例
(word count)

入力

•to be or not to be

Map •<"to", 1>
•<"be", 1>
•<"or", 1>
•<"not", 1>
•<"to", 1>
•<"be", 1>

Shufﬂe
•<"be", [1, 1]>
•<"not", [1]>
•<"or", [1]>
•<"to", [1, 1]>

Reduce
• <"be", 2>
• <"not", 1>
• <"or", 1>
• <"to", 2>

MapReduce の利点
•Map も Reduce も並列化
すればスケールする

•関数型っぽい考え方が活きる
※ただし, Hadoop や MongoDB の MapReduce の Map と Reduce は
関数型言語のそれとはやや異なる (参照透過でなかったり)

• パターンとして共有しやすい
※手続き型のバッチ処理と比較して

MongoDB について

•
通常は MapReduce を
並列に実行することができない

• それでも MapReduce は便利

•何故か?

スケーラビリティだけじゃない

•プログラミングモデルとしての
MapReduce にも価値がある

• MongoDB で処理が完結

•JS で関数ふたつ書くだけ

MySQL でも
MapReduce
したい!!!

というわけで作りました

MyMR
https://github.com/yuya-takeyama/mymr

•MySQL を入出力とする

• PHP で Map/Reduce を書く

• コマンドラインで実行

MyMR による処理の流れ
•テーブルからレコードを読む
•1 行 1 行に Map (PHP) を適用して
中間テーブルへ

•MySQL による Shufﬂe
•その結果に Reduce (PHP) を適用して
出力テーブルへ

による
yM R
M
文章中の
単語の数を数える例
(word count)

use MyMRBuilder;
Map/Reduce の定義
$builder = new Builder;

$builder->setInputTable('root@localhost/db/texts');
$builder->setOutputTable('root@localhost/db/word_counts');

$builder->setMapper(function ($record, $emitter) {
    $words = preg_split('/s+/u', $record['text']);
    foreach ($words as $word) {
        $emitter->emit($word, 1);
    }
});

$builder->setReducer(function ($key, $values) {
    $sum = 0;
    foreach ($values as $count) {
        $sum += $count;
    }
    return array('count' => $sum);
});

return $builder;

use MyMRBuilder;


    foreach ($words as $word) { 入出力テーブルの指定
    }
});

    $sum = 0;
        $sum += $count;
    }
});

return $builder;

use MyMRBuilder;


    } この辺が Map
});

    $sum = 0;
        $sum += $count;
    }
});

return $builder;

use MyMRBuilder;


    }
});

    $sum = 0;
        $sum += $count;
    }
    return array('count' => $sum); この辺が Reduce
});

return $builder;

Map

function ($record, $emitter) {
    $words = preg_split('/s+/u',
$record['text']);
    }
}

Map レコードを
連想配列として受け取る

$record['text']);
    }
}

Map

$record['text']);
    }
} text カラム内の
文字列をスペースで分割

Map

$record['text']);
    }
}
Key/Value のペアとして
中間テーブルに INSERT

Reduce
function ($key, $values) {
    $sum = 0;
        $sum += $count;
    }
}

Reduce
Key Value の配列

    $sum = 0;
        $sum += $count;
    }
}

Reduce
Value を全て足す
    $sum = 0;
        $sum += $count;
    }
}

Reduce
    $sum = 0;
        $sum += $count;
    }
}
返り値の連想配列を
レコードとして INSERT

+----+--------------------+

Map | id | text |
+----+--------------------+
| 1 | to be or not to be |
+----+--------------------+
↓ レコードを連想配列として Map へ ↓
+----+---------+-------+
| id | key | value |
+----+---------+-------+
| 1 | to | 1 |
| 2 | be | 1 |
| 3 | or | 1 |
| 4 | not | 1 |
| 5 | to | 1 |
| 6 | be | 1 |
+----+---------+-------+

+----+--------------------+

Map | id | text |
+----+--------------------+
| 1 | to be or not to be |
+----+--------------------+
↓ レコードを連想配列として Map へ ↓
+----+---------+-------+
+----+---------+-------+
| 1 | to | 1 |
| 2 | be | 1 |
| 3 | or | 1 |
| 4 | not
value には JSON で入れるので | 1 |
| 5 | to
構造化データも使用可能 | 1 |
| 6 | be | 1 |
+----+---------+-------+

+----+---------+-------+

Shufﬂe +----+---------+-------+
| 1 | to
| 2 | be
| 1
| 1
|
|
| 3 | or | 1 |
| 4 | not | 1 |
| 5 | to | 1 |
| 6 | be | 1 |
+----+---------+-------+

↓ キーで GROUP BY して ↓
SELECT ↓ 値は GROUP_CONCAT ↓
`key`, +---------+--------+
GROUP_CONCAT(`value`) | key | values |
FROM +---------+--------+
`中間テーブル` | be | 1,1 |
| not | 1 |
GROUP BY | or | 1 |
`key` | to | 1,1 |
+---------+--------+

+---------+--------+
| key | values |
Reduce +---------+--------+
| be | 1,1 |
| not | 1 |
| or | 1 |
| to | 1,1 |
+---------+--------+
↓ キーと値の配列を Reduce へ ↓
+----+---------+-------+
| id | key | count |
+----+---------+-------+
| 1 | be | 2 |
| 2 | not | 1 |
| 3 | or | 1 |
| 4 | to | 2 |
+----+---------+-------+

+---------+--------+
| key | values |
Reduce +---------+--------+
| be | 1,1 |
| not | 1 |
| or | 1 |
実際にはデリミタとして改行を使用| to | 1,1 |
+---------+--------+
改行区切りの JSON になる

↓ キーと値の配列を Reduce へ ↓
+----+---------+-------+
| id | key | count |
+----+---------+-------+
| 1 | be | 2 |
| 2 | not | 1 |
| 3 | or | 1 |
| 4 | to | 2 |
+----+---------+-------+

モチベーション

•
プログラミングモデルとしての
MapReduce を使いたい

• MySQL を入出力にしたい

•LL でサクッとやりたい

モチベーション

•
プログラミングモデルとしての
MapReduce を使いたい

• MySQL を入出力にしたい

•LL でサクッとやりたい
PHP である必要はあまり無い

今後の目標

•非同期 INSERT による並列化
• Hadoop へのシームレスな
移行方法の提供

まとめ

•
ビッグデータは無くとも
MapReduce は有効

• MySQL でできたら便利なはず

•PHP で書けたら楽しいはず

リンク

• MyMR on GitHub
https://github.com/yuya-takeyama/mymr

• PHP と MySQL でカジュアルに MapReduce する
http://blog.yuyat.jp/archives/1706

• もっとカジュアルに PHP と MySQL で MapReduce する
http://blog.yuyat.jp/archives/1853

ご清聴
ありがとう
ございました

PHP と MySQL でカジュアルに MapReduce する

More Related Content

Similar to PHP と MySQL でカジュアルに MapReduce する (20)

More from Yuya Takeyama (14)

Recently uploaded (10)

PHP と MySQL でカジュアルに MapReduce する