20080406 efficientalgorithms kulikov_lecture21

с/к “Эффективные алгоритмы”
Лекция 21: Алгоритмы, обрабатывающие вход по
мере поступления

А. Куликов

Computer Science клуб при ПОМИ
http://logic.pdmi.ras.ru/∼infclub/

А. Куликов (CS клуб при ПОМИ) 21. Online алгоритмы 1 / 42

План лекции

1 Введение



1 Введение

2 Задача кэширования



1 Введение


3 Задача о покрытии множествами



1 Введение




Введение

Введение


Введение

Введение
Все рассмотренные нами до сегодняшнего дня алгоритмы
получали свои входные данные сразу.


Введение

Введение
На практике же сущесвуют задачи, которые нужно решать, не
зная заранее все входные данные.


Введение

Введение
Например, системная программа, контролирующая работу
операционной системы, должна производить некоторые действия
(принимать решения, записывать что-то на выход) до того, как
поступят все данные.


Введение

Введение
Например, системная программа, контролирующая работу
операционной системы, должна производить некоторые действия
(принимать решения, записывать что-то на выход) до того, как
поступят все данные.
Такие алгоритмы называются алгоритмами, работающими в
реальном времени, или online-алгоритмами.


Оценка эффективности




Как правило, online-алгоритм получает последовательность
запросов.



запросов.
По каждому из запросов он должен предоставить некоторый
сервис до того, как получит следующий запрос.



запросов.
По каждому из запросов он должен предоставить некоторый
сервис до того, как получит следующий запрос.
Обычно есть несколько возможностей предоставить сервис,
каждой из которых сопоставлена некоторая стоимость.



Определение



Online алгоритм A называется c-оптимальным (c-competitive),
если для любой последовательности запросов r и любого
алгоритма B, которому вся последовательност запросов дается
сразу,
costA (r ) ≤ c · costB (r ) + c1 .



Online алгоритм A называется c-оптимальным (c-competitive),
если для любой последовательности запросов r и любого
алгоритма B, которому вся последовательност запросов дается
сразу,
costA (r ) ≤ c · costB (r ) + c1 .

Коэффициентом оптимальности (competitiveness coefficient) cA
алгоритма A называется инфимум таких c, что A c-оптимален.


Аренда лыж

Аренда лыж


Аренда лыж

Аренда лыж
Представьте себя на горнолыжном курорте.


Аренда лыж

Аренда лыж
Вы решили кататься, пока позволяет погода, поэтому заранее не
знаете, сколько именно (вы не верите прогнозам погоды).


Аренда лыж

Аренда лыж
У вас нет лыж, но есть две возможности: арендовать лыжи за 10
руб. в сутки или купить лыжи за 150 руб.


Аренда лыж

Аренда лыж
Если вы купите лыжи в первый же день, а на следующий день все
расстает, вы потратите много денег.


Аренда лыж

Аренда лыж
С другой стороны, если вы решите каждый день брать лыжи на
прокат, то за два месяца вы потратите стоимость четырех пар
лыж.


Аренда лыж

Аренда лыж
С другой стороны, если вы решите каждый день брать лыжи на
прокат, то за два месяца вы потратите стоимость четырех пар
лыж.
Что же вам делать?


Поиск припаркованной машины




Рассеянный профессор, выйдя из института, осознал, что не
помнит, где припарковал свою машину.



Будем считать, что здание института круглое и машина
припаркована рядом с ним.



Будем считать, что здание института круглое и машина
припаркована рядом с ним.
Что же делать профессору?


Online-алгоритм




Заметим, что online-алгоритм для задачи аренды лыж полностью
задается днем N, в который нужно купить лыжи (после этого
платить не нужно).



Итак, какое же N оптимально?



Если N мало, мы рискуем купить лыжи и уехать с ними на
следующий день домой.



Если N мало, мы рискуем купить лыжи и уехать с ними на
следующий день домой.
Если же N велико, мы рискуем прокатать до покупки несколько
стоимостей лыж.


2-оптимальный online-алгоритм




2-оптимальный алгоритм: брать лыжи в прокат первые 14 дней, а
на 15-й день купить их.



2-оптимальный алгоритм: брать лыжи в прокат первые 14 дней, а
на 15-й день купить их.
Легко видеть, что данный алгоритм 2-оптимален.


Online-алгоритм для поиска припаркованной машины


Рассмотрим такой алгоритм: профессор сходит направо на
расстояние 1, потом вернется и сходит налево на расстояние 2,
потом опять вернется и сходит направо на расстояние 4, и так
далее до тех пор, пока не найдется машина.


Покажем, что данный алгоритм 9-оптимален.


Неприятнее всего профессору тогда, когда он не дошел
маленького до своей машины на одной из итераций.


В такой ситуации ему придется вернуться назад, сходить в
противоположную сторону и только потом найти машину.


В такой ситуации ему придется вернуться назад, сходить в
противоположную сторону и только потом найти машину.
Пусть расстояние до машины равно 2i+1 + . Тогда ему придется
пройти

2·(1+2+· · ·+2i+2 )+2i+1 + = 2·(2i+3 −1)+2i+1 + = 9·2i+1 +−2.



1 Введение




Задача кэширования (paging problem)


У компьютера есть два вида памяти: дисковая, большая по
объему, но медленная, и оперативная, быстрая, но меньше по
объему.


объему.
Все операции над данными (в частности, запуск программ)
производятся в оперативной памяти; дисковая память
используется лишь для их хранения.


объему.
Если обращения к одному и тому же месту дисковой памяти
повторяются, можно сэкономить время на том, что выделить в
оперативной памяти определенное место (кэш), в которой
сохранять считанные данные.


объему.
Если обращения к одному и тому же месту дисковой памяти
повторяются, можно сэкономить время на том, что выделить в
оперативной памяти определенное место (кэш), в которой
сохранять считанные данные.
Поскольку объем кэша ограничен, периодически придется стирать
из него данные (записывать на их место другие); качество
алгоритма определяется тем, насколько он сможет предугадать,
какие данные еще понадобятся (и их не следует стирать), а
какие — нет.

Формальная постановка задачи




Вся память (и дисковая, и оперативная) разбита на блоки равной
длины.



длины.
Блоки пронумерованы, причем кэш состоит из k блоков, а диск —
из t блоков.



длины.
На очередном шаге к нам поступает запрос на какой-то блок с
диска; если этот блок в кэше уже имеется, нам достаточно
сообщить его номер в кэше; если нет, нам надо предварительно
решить, в какое место кэша записать этот блок и сделать это,
считав блок с диска.



длины.
Время работы алгоритма измеряется количеством считываний с
диска.



длины.
Время работы алгоритма измеряется количеством считываний с
диска.
Будем считать, что в начальный момент времени кэш пуст.


Известные эвристики




Когда приходит запрос на блок, которого нет в кэше,
online-алгоритму приходится стереть какой-нибудь блок из кэша и
на его место записать запрошенный блок.



Стандартные эвристики выбора такого блока:



Least Recently Used, LRU: стереть блок, последний запрос на
которой был раньше всего.



First-in, First-out, FIFO: стереть блок, находящийся в кэше
дольше всего.



First-in, First-out, FIFO: стереть блок, находящийся в кэше
дольше всего.
Least Frequently Used, LFU: стереть блок, который запрашивался
реже всего.


Оптимальный offline-алгоритм

Алгоритм MIN
При запросе блока, которого нет в кэше, стереть из кэша тот блок,
запрос на который будет в будущем позже всего.




Упражнения
Пусть диск состоит из t = k + 1 блока.




Показать, что для любого детерминированного offline-алгоритма
A для задачи кэширования существует последовательность из N
запросов r , такая что costA (r ) = N.




Показать, что для любого детерминированного offline-алгоритма
A для задачи кэширования существует последовательность из N
запросов r , такая что costA (r ) = N.
Показать, что для любой последовательности из N запросов r
costMIN (r ) = N/k.


Нижняя оценка для детерминированных алгоритмов
Лемма
Для любого детерминированного алгоритма A для задачи
кэширования cA ≥ k.


Лемма

Идеи доказательства


Лемма

Мы покажем, что существует offline-алгоритм B и
последовательность запросов r со следующими условиями.


Лемма

Последовательность делится на периоды, где под периодом
понимается максимальная последовательность, содержащая
запросы на k различных блоков.


Лемма

За каждый период A делает k считываний с диска, а B — всего
один.


Лемма

За каждый период A делает k считываний с диска, а B — всего
один.
Последовательность строится по алгоритму A (каждый
следующий запрос всегда можно сделать на блок, которого точно
нет в кэше алгоритма A).

Случайные числа




Итак, детерминированные online-алгоритмы не особо хороши.



Можем ли мы улучшить алгоритм, позволив ему пользоваться
случайными числами?



Для этого сначала нужно понять, из какого класса берется
противник (алгоритм, относительно которого мы оцениваем наш
алгоритм).



алгоритм).
Противник выдает всю последовательность сразу? Или же
постепенно, смотря на наши ответы?



алгоритм).
Противник выдает всю последовательность сразу? Или же
постепенно, смотря на наши ответы?
Если он смотрит на наши ответы, то сразу ли он сам отвечает на
свои запросы?


Модели противников
Будем считать, что все перечисленные ниже типы противников могут
знать наш алгоритм, но не знают случайных чисел, которыми мы
пользуемся.


Забывчивый противник (oblivious adversary) порождает всю
последовательность заранее.


Активный offline-противник (adaptive offline adversary) порождает
последовательность запросов, смотря на наши ответы.


Активный online-противник (adaptive online adversary) порождает
последовательность запросов, смотря на наши ответы, но
обязан сразу выдавать ответы на свои запросы.


Активный online-противник (adaptive online adversary) порождает
последовательность запросов, смотря на наши ответы, но
обязан сразу выдавать ответы на свои запросы.

Замечание
Мы рассмотрим самую слабую из данных моделей, то есть
забывчивого противника.

Забывчивый противник




Мы будем строить вероятностный алгоритм и оценивать его
относительно забывчивого противника.



Мы будем строить вероятностный алгоритм и оценивать его
относительно забывчивого противника.
Поскольку наш алгоритм вероятностный, мы будем оценивать
мат. ожидание количества сделанных им считываний с диска.


Алгоритм Marker

Алгоритм
Marker



Алгоритм
Marker
Каждый блок кэша будем помечать 0 или 1.



Алгоритм
Marker
Все время работы разделяется на периоды.



Алгоритм
Marker
В начале каждого периода все блоки кэша помечены 0.



Алгоритм
Marker
Если приходит запрос на блок, который есть в кэше, помечаем
этот блок 1.



Алгоритм
Marker
Если же запрошенного блока нет, случайным образом выберем
блок из помеченных 0, считаем туда требуемый блок и пометим



Алгоритм
Marker
Если же запрошенного блока нет, случайным образом выберем
блок из помеченных 0, считаем туда требуемый блок и пометим
Если пришел запрос на блок, которого в кэше нет, и все блоки
помечены 1, обнулим все пометки и начнем новый период.


Оценка оптимальности

Лемма
Алгоритм Marker является 2Hk -оптимальным относительно



Лемма

Типы запросов



Лемма

Помеченный — запрос на блок, образ которого находится в кэше и
помечен 1.



Лемма

помечен 1.
Устаревший — запрос на блок, образ которого находится в кэше и
помечен 0 (блок, оставшийся в кэше с предыдущего
периода), или на блок, которого в кэше нет, но который
там был на предыдущем периоде.



Лемма

помечен 1.
Устаревший — запрос на блок, образ которого находится в кэше и
помечен 0 (блок, оставшийся в кэше с предыдущего
периода), или на блок, которого в кэше нет, но который
там был на предыдущем периоде.
Чистый — запрос на блок, которого в кэше нет и не было на
предыдущем периоде.


Оценка кол-ва считываний противника


Обозначения:


li — кол-во чистых запросов за i-й период.


SO,i , SM,i — множества блоков в кэшах противника и нашего
алгоритма, соответственно.


dI ,i , dF ,i — значения величины |SO,i ∖ SM,i | в начале и конце i-го
периода, соответственно.


Наш алгоритм обязан подгрузить li блоков.


Значит, противник подгрузит хотя бы li − dI ,i блоков: он может
выиграть у нас только за счет того, что у него в начале периода
будут блоки, на которые поступят запросы.


Значит, противник подгрузит хотя бы li − dI ,i блоков: он может
выиграть у нас только за счет того, что у него в начале периода
будут блоки, на которые поступят запросы.
Это кол-во также составляет не менее dF ,i : все блоки, лежащие к
концу периода в кэше нашего алгоритма, были запрошены;
значит, они должны были побывать и в кэше противника; если же
кого-то из них там не оказалось, значит, на его место был
загружен другой блок; кол-во таких загрузок не менее dF ,i .

Оценка кол-ва считываний противника (продолжение)




Итак, количества считываний противника за i-й период
составляет не менее
li − dI ,i + dF ,i
max{li − dI ,i , dF ,i } ≥ .
2



Итак, количества считываний противника за i-й период
составляет не менее
li − dI ,i + dF ,i
max{li − dI ,i , dF ,i } ≥ .
2

Просуммировав по всем перидоам, получим нижнюю оценку на
общее число загрузок, совершенных противником:
∑︁ li − dI ,i + dF ,i ∑︁ li dF ,n L
= + ≥ ,
2 2 2 2
i i
∑︀
где L = i li .


Оценка кол-ва считываний алгоритма


Алгоритм подгружает новый блок на каждый чистый запрос.


На помеченные ничего подгружать не нужно.


В i-м периоде ровно k − li устаревших запросов.


При устаревшем запросе мы обращаемся к блоку, который на
предыдущем периоде был в кэше, но есть ли он там сейчас, мы
сказать не можем (он мог быть выгружен).


Посчитаем вероятность того, что j-й устаревший запрос
происходит на блок, которого нет в кэше.


Вспомним, что для каждого устаревшего блока в начале периода
был соответствующий блок.


Пусть X — множество позиций кэша, в которых в начале периода
были блоки из первых j − 1 устаревших запросов.


Пусть X — множество позиций кэша, в которых в начале периода
были блоки из первых j − 1 устаревших запросов.
Ясно, что перед j-м устаревшим запросом все эти позиции
помечены 1.

Оценка кол-ва считываний алгоритма (продолжение)




Каждая позиция из X могла быть помечена 1 либо при
нахождении соответствующего устаревшего блока, либо при
загрузке туда чистого блока.



Тогда из множества X (в котором наш блок и лежит) не более l
раз производилась случайная выборка.



Тогда из множества X (в котором наш блок и лежит) не более l
раз производилась случайная выборка.
Посчитаем веротяность того, что наш блок при этом выживет.


Пусть |X | = k − j + 1 = K .


Пусть |X | = k − j + 1 = K .
Тогда вероятность ему выжить на первом шаге не менее
K /(K − 1), на втором — не менее (K − 1)/(K − 2) и т.д.


Пусть |X | = k − j + 1 = K .
Перемножив, получим, что вероятность выжить за все l выборок
хотя бы (K − l )/K .


Пусть |X | = k − j + 1 = K .
l l
Значит, с вероятностью не более K = k−j+1 алгоритму придется
считать блок при j-м устаревшем запросе.


Пусть |X | = k − j + 1 = K .
l l
Значит, с вероятностью не более K = k−j+1 алгоритму придется
считать блок при j-м устаревшем запросе.
Тогда мат. ожидание количества считываний при устаревших
запросах не превосходит

li li li
+ + ··· + = li · (Hk − Hli ).
k k −1 li + 1



Таким образом, мат. ожидание общего числа загрузок за i-й
период (включая li чистых загрузок) будет не более

li · (1 + Hk − Hli ) ≤ li · Hk .




li · (1 + Hk − Hli ) ≤ li · Hk .

Просуммировав по всем периодам, получим, что мат. ожидание
общего числа загрузок нашего алгоритма не более L · Hk .




li · (1 + Hk − Hli ) ≤ li · Hk .

Просуммировав по всем периодам, получим, что мат. ожидание
общего числа загрузок нашего алгоритма не более L · Hk .
Вспомнив, что наш противник делает хотя бы L/2 загрузок,
получаем требуемую оценку на оптимальность.



1 Введение




Online-вариант задачи о покрытии множествами




Пусть дано множество X = {1, 2, . . . , n} и множество его
подмножеств , || = m, каждому из которых присвоен вес 1.
Считаем, что все подмножества в объединении покрывают X .



Покрытием (cover) называется множество подмножеств , в
объединении покрывющих X .



Online-вариант задачи о покрытии множествами (online set cover
problem) определяется как следующая игра между алгоритмом и
его противником:



противник дает алгоритму элементы множества X по одному;



на каждый элемент алгоритм должен ответить множеством из ,
покрывающим этот элемент;



противник дает алгоритму не все X , а некоторое его подмножество
X ⊆ X ′ ; алгоритм знает заранее X и , но не знает X ′ ;



противник дает алгоритму не все X , а некоторое его подмножество
X ⊆ X ′ ; алгоритм знает заранее X и , но не знает X ′ ;
цель алгоритма — минимизировать количество множеств.


Оценка качества алгоритма




Эффективность алгоритма будем оценивать относительно
активного offline-противника.



То есть после того, как противник выдал алгоритму все элементы
из X ′ , он сам выдает некоторое решение для X ′ .



То есть после того, как противник выдал алгоритму все элементы
из X ′ , он сам выдает некоторое решение для X ′ .
Мы будем доказывать верхнуюю оценку на коэффициент
оптимальности алгоритма, то есть показывать, что построенное
алгоритмом множество всегда несильно больше оптимального.


Пример применения задачи




Рассмотрим сеть серверов.



Есть потенциальное множество клиентов, и каждый сервер
способен предоставить некоторый сервис какому-то подмножеству
клиентов.



клиентов.
Запуску каждого сервера присвоена некоторая цена.



клиентов.
Запуску каждого сервера присвоена некоторая цена.
Клиенты присылают запросы последовательно, и отвечать на них
нужно сразу.


Основные идеи алгоритма




Каждому множеству присвоим некоторый вес.



При приходе очередного элемента веса всех множеств,
содержащих данный элемент, некоторым образом
пересчитываются.



При приходе очередного элемента веса всех множеств,
содержащих данный элемент, некоторым образом
пересчитываются.
Каждое из этих множеств будет выбрано алгоритмом на этом
шаге с вероятностью, примерно пропорциональной увеличению
его веса.


Более формально




Для каждого множества будем поддерживать вес wS > 0.



В течение работы алгоритма веса могут только увеличиваться.



1
Изначально wS = 2m для каждого S ∈ .



1
Через будем обозначать текущее покрытие, а через C —
текущее множество покрытых элементов.



1
∑︀
Вес элемента: wj = S∈j wS , где j = {S ∈ : j ∈ S}.



1
∑︀
Вес элемента: wj = S∈j wS , где j = {S ∈ : j ∈ S}.
Потенциал: ∑︁
Φ= n2wj .
j̸∈C


Алгоритм

Алгоритм
Online-Set-Cover(j)


Алгоритм

Алгоритм
Online-Set-Cover(j)
Если wj ≥ 1, выйти.


Алгоритм

Алгоритм
Online-Set-Cover(j)
В противном случае пересчитываем веса:


Алгоритм

Алгоритм
Online-Set-Cover(j)
Пусть k — минимальное натуральное число, для которого 2k wj > 1
(ясно, что 2k wj < 2).


Алгоритм

Алгоритм
Online-Set-Cover(j)
Для каждого S ∈ j wS = 2k wS .


Алгоритм

Алгоритм
Online-Set-Cover(j)
Для каждого S ∈ j wS = 2k wS .
Выбрать из j не более 4 log n множеств в , так чтобы значение
потенциала не превосходило значения потенциала до пересчета
весов.


Анализ количества итераций
Лемма
Количество итераций, на которых происходит пересчет весов, не
превосходит |opt | · (log m + 2).


Лемма

Доказательство


Лемма

Для любого множества S на каждой итерации wS ≤ 2, поскольку
wj ≤ 2 для всех элементов j.


Лемма

Пересчет весов происходит только в случае, если wj < 1.


Лемма

При пересчете весов вес хотя бы одного из множеств покрытия
opt умножается на число, не меньшее 2.


Лемма

При пересчете весов вес хотя бы одного из множеств покрытия
opt умножается на число, не меньшее 2.
1
Проскольку изначально вес каждого множества равен 2m , а в
конце — не более 2, то каждое множество может участвовать не
более чем в log(4m) увеличениях.


Оценка потенциала

Лемма
Всегда найдутся такие 4 log n множеств при пересчете весов, при
выборе которых потенциал не увеличится.



Лемма




Лемма

Для каждого S ∈ j через wS и wS + S будем обозначать вес S
до и после пересчета.



Лемма

∑︀
Пусть j = S∈j S .



Лемма

∑︀
Алгоритм ∑︀
поддерживает неравенство
wj + j = S∈j (wS + S ) ≤ 2.



Лемма

∑︀
Алгоритм ∑︀
поддерживает неравенство
wj + j = S∈j (wS + S ) ≤ 2.
Покажем теперь, что всегда найдутся нужные 4 log n множеств.


Доказательство (продолжение)




Рассмотрим такую процедуру:



Повторить 4 log n раз: выбрать случайно не более одного
множества из j , так что каждое множество S ∈ j выбирается с
вероятностью S /2.



Такая процедура корректна, поскольку j /2 ≤ 1.



Рассмотрим элемент j ′ ∈ X , такой что j ′ ̸∈ C (то есть еще не
покрыт).



покрыт).
Его вклад в потенциал до пересчета весов равен n2wj ′ .



покрыт).
Его вклад в потенциал до пересчета весов равен n2wj ′ .
При каждом случайном выборе множества вероятность того, что
j ′
выбранное множество не содержит j ′ равна 1 − 2 .


Вероятность же того, что ни одно из случайно выбранных
множеств его не содержит равна

j ′ 4 log n
(︂ )︂
1− ≤ n−2j ′ .
2



j ′ 4 log n
(︂ )︂
1− ≤ n−2j ′ .
2

Таким образом, мат. ожидание вклада элемента j ′ в потенциал
после пересчета весов равно

n−2j ′ n2(wj ′ +j ′ ) = n2wj ′ .



j ′ 4 log n
(︂ )︂
1− ≤ n−2j ′ .
2


n−2j ′ n2(wj ′ +j ′ ) = n2wj ′ .

Значит, мат. ожидание значения потенциала не превосходит
значения потенциала изначально.



j ′ 4 log n
(︂ )︂
1− ≤ n−2j ′ .
2


n−2j ′ n2(wj ′ +j ′ ) = n2wj ′ .

Значит, мат. ожидание значения потенциала не превосходит
значения потенциала изначально.
А тогда найдутся и соответствующие 4 log n множеств.

Доказательство корректности

Теорема
Алгоритм Online-Set-Cover корректно выдает покрытие X ′
размера O(|opt log m log n|).



Теорема




Теорема

Изначально значение потенциала не превосходит n2 .



Теорема

Потенциал также не увеличивается.



Теорема

Значит, если wj ≥ 1, то n2wj ≥ 1 и j ∈ C , то есть алгоритм выдает
покрытие.



Теорема

Значит, если wj ≥ 1, то n2wj ≥ 1 и j ∈ C , то есть алгоритм выдает
покрытие.
На каждой итерации выбирается не более 4 log n множеств, всего
же итераций не более |opt (log m + 2).


Что мы узнали за сегодня?




Online-алгоритм — алгоритм, обрабатывающий вход по мере
поступления.



Эффективность online-алгоритма оценивается относительно
алгоритма, заранее знающего последовательность запросов.



2Hk -оптимальный относительно забывчивого противника
алгоритм для задачи кэширования.



2Hk -оптимальный относительно забывчивого противника
алгоритм для задачи кэширования.
O(log m log n)-оптимальный относительно активного
offline-противника алгоритм для задачи о покрытии множествами.


Спасибо за внимание!


20080406 efficientalgorithms kulikov_lecture21

More Related Content

Viewers also liked (6)

More from Computer Science Club (20)

20080406 efficientalgorithms kulikov_lecture21