BigData Week Moscow 2013 - Case: Personalization

Персонализация: наш случай
Горохов Антон
Мезенцев Павел
Рамблер 2013

Персонализация: что это?
Контент, подходящий пользователю:
• Новости
• Баннеры
• Статьи

Персонализация: что это?
Контент, подходящий пользователю:
• Новости
• Баннеры
• Статьи
А зачем?
• деньги
• лояльность
• деньги
• и т.д.

План действий
логи

логи hadoop

логи hadoop математики

логи hadoop математики
чудесное средство

… добавляем в наши проекты

• Демографию
• Интересы
• Новостные сюжеты
Что считать?

• Скорость ответа: 20 мс
• Актуальность данных
• Емкость 300 млн. профилей
Требования к сервису

 база в памяти ключ-значение
 значение: строка, массив, хеш-
таблица, множество
 удобный интерфейс + API
 expire ключей
o репликация
o дамп на диск
Online часть: база Redis

• скорость ответа (логи nginx)
• что отдаем и сколько
• какого качества
Online часть: мониторинг

• MapReduce задача (!)
• шардинг по user_id – каждый сервер
Redis – свой диапазон
• mapper отправляет пачки ключей на
каждый сервер redis
• можно загружать в бою
Загрузчик в Redis

Как определить пол человека?
• Логи → фичи пользователей
(URLы, домены, рубрики, число
посещений)
• Train/test – пользователи с известным
полом
• Обучение и построение классификатора
• Классификация test выборки
Offline часть: машинное обучение

Качество классификации
13 мужчин, 13 женщин

• классификатор
выдает вероятность
0.75
0.9
0.6 0.4
0.8
0.97
0.2

• классификатор
выдает вероятность
• из 13 мужчин
определили 9 =>
полнота = 9/13 = 69%
• из 12 «мужчин» ими
являются 9 =>
точность = 9/12 = 75%
тут
настоя
щие
мужчи
ны
тут
настоящие
мужчины 0.75
0.9
0.6 0.4
0.8
0.97
0.2

Компромисс точность/полнота
0.5
0.6
0.7
0.8
0.9
1
0 0.2 0.4 0.6 0.8 1
полнота (recall)
точность(precision)

• Цель: выбрать фичи, классификатор и
параметры
• Работаем с семплом (1-3% аудитории)
• Можно без MapReduce
▫ проще и быстрее
▫ стандартные инструменты (weka)
Эксперименты

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
М
Ж
Результаты метода Байеса
точность
полнота

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
М
Ж
точность
полнота
prec_m =
0.55
prec_f =
0.45
В тестовой выборке:
45% ж + 55% м

0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
М
Ж
точность
полнота
c
точностью
≥ 0.75
классифицируем
40%
мужчин9%
женщин

• Фильтрация фич (выделение значимых):
▫ число посещений
▫ число пользователей
• Поиск новых фич
• Фильтрация пользователей для train/test:
▫ боты (>3000 посещений в сутки)
▫ «вялые» (мало посещений, мало «хороших» фич)
• Параметры метода Байеса:
▫ нормировка
▫ параметр сглаживания
▫ веса
▫ …
• Эксперименты, проверка, анализ результатов
Как улучшить качество?

• Классификатор выдает вероятность
• Нам хочется точность для каждого
элемента
• Отображение «вероятность → точность»
строится по классификации на test:
▫ график точность/полнота
▫ график вероятность/полнота
▫ через полноту строим отображение
Как избавиться от вероятности?

логи
пользователи + фичи
классификатор
train set
Построение классификатора
test set
точность/полнота
обучение
классификация
фильтрация
вероятность →
точность

пользователи + фичи
классификатор
Работа классификатора
пользователи – класс +
вероятность
классификация
вероятность →
точность
пользователи – класс + точность
преобразование
вероятности в
точность

1. Обработка логов
2. Анализ фич и пользователей
3. Фильтрация
4. Построение выборок (train/test)
5. Обучение – нет, но это надо доказать
6. Классификация всех пользователей
7. Перевод вероятности в точность
Где тут Big Data?

Метод снижения размерности (grid):
если 2 домена имеют схожую
посещаемость и схожее соотношение
мужчин и женщин, то это одна фича
Проблема 1: много фич

Пример: построение списка всех user_id для
данного домена за 30 дней
Решение: datanode с большим RAM
использует общий HDFS, задачи выполняет
локально
За:
▫ если задача не ложится на MR
▫ может работать быстро
Против:
▫ плохо расширяемо
▫ трудно поддерживать
Проблема 2: «тяжелые» задачи

• Зависимости между задачами
• Юнит-тесты
• Развертывание
• Поддержка
• Мониторинг
• …
Проблема 3: надежность

• 1 000 000 000 событий в день
• 300 млн. пользователей
• 2 млн с известным полом
Как узнать пол остальных?
Задача

• Посещенным доменам
• Посещенным урлам
• По условным "рубрикам"
• Как нибудь еще?
Как классифицировать?

• Входные значения крайне разрежены
• У нас получилось ~400 тыс фич
• Пользователь имеет от 10 до 1000 фич
Проблема

• Определяем отношение мужчин/женщин на
фиче
• Делим все фичи на N квантилей по полу
Grid. Построение оси X

• Строим распределение фич по
посещаемости
• Находим границы M квантилей
Grid. Построение оси Y

Заполнение грида

• Шаг 1. Статистика по пользователям
• Шаг 2. Выкинуть «слабых» пользователей
• Шаг 3. Выкинуть «слабые» фичи
• Шаг 4. Найти квантили по полу
• Шаг 5. Найти квантили по возрасту
• Шаг 6. Отнести каждого пользователя к
своей квантили
Перенос на mapReduce

Как считать квантили
map (id, data):
write (feature, sex)
reduce (feature, sexList):
write (feature, length (males(sexList))/(length (sexList))
# Находим отношение по полу для каждой из фич

# Считаем число фич
map (feature, ratio):
write (count (feature))
reduce (countsList):
write (sum (countsList))
# Или используем счетчик на шаге 1
map (id, data):
write (feature, sex)
reduce (feature, sexList):
write (feature, length (males)/(length (sexList))
count ("features", +1)

# Сортируем и выписываем каждое N-ое соотношение
map (feature, ratio):
write (ratio)
reduce (ratioList):
for i in 1 .. N-1:
write (ratioList [i / N * count])

•Train: 2 млн человек
•Full: 300 млн человек
• Машинное обучение
на mahout
•«Математиками» предложен
алгоритм random forest
Использование классификатора

•Классический алгоритм: каждое дерево
строится на своей случайной подвыборке
•Mahout реализация: подвыборка
делается из входных значений маппера
Random Forest

При классификации:
• Каждое дерево определяет пол
• Лес выдает «самый популярный» ответ
• Мы добавили в классификатор %
проголосовавших деревьев
Random Forest

BigData Week Moscow 2013 - Case: Personalization

• FreeBSD
• 70 серверов 8-16 cores, 64RAM, 4HDD
• NN и JT практически идентичны
• сервера для запуска задач и локальных
вычислений с доступом в HDFS
• Python – основной язык разработки
• много Java, немного R и shell
• Hive и streaming
• pydoit для зависимостей
• тестовый кластер
Что используем

• отсутствие прав (чтение/запись в HDFS)
• firewall на машинах кластера
• отсутствие необходимых пакетов на
нодах
• нехватка места в HDFS
• электричество и сетевой канал
• java heap size
• кривые руки
• холивар FreeBSD/Linux
Типичные проблемы

• Внутренний мониторинг
• Внешний аудит (TNS):
▫ c точностью 82% определяем пол 83%
пользователей
▫ c точностью 79% - возраст (3 группы) 55%
Качество сервиса

Проект «Нового мира»
удобная
фильтрация
фич и
«коктейль»
из фич на
любой вкус
сокращение
train
выборок
python + hiveпростое
тестирование
классификато
ров

Антон
техлид
Команда
Паша (А)
менеджер-
математик
Слава
программист-
математикЛеха
хадуп-админ
Антон’
программист
Леша
математик-
Рома
Паша (М)
программист-
математик
математик-

Вопросы?
anton@rambler-co.ru
pavel@mezentsev.org

BigData Week Moscow 2013 - Case: Personalization

More Related Content

What's hot (8)

Viewers also liked (15)

BigData Week Moscow 2013 - Case: Personalization