07.03.2024

Решение антагонистической игры. Антагонистические игры с непрерывными стратегиями


Самым простым случаем, подробно разработанным в теории игр, является конечная парная игра с нулевой суммой (антагонистическая игра двух лиц или двух коалиций). Рассмотрим такую игру G , в которой участвуют два игрока А и В, имеющие противоположные интересы: выигрыш одного равен проигрышу другого. Так как выигрыш игрока А равен выигрышу игрока В с обратным знаком, мы можем интересоваться только выигрышем а игрока А. Естественно, А хочет максимизировать, а В - минимизировать а. Для простоты отождествим себя мысленно с одним из игроков (пусть это будет А) и будем его называть «мы», а игрока В - «противник» (разумеется, никаких реальных преимуществ для А из этого не вытекает). Пусть у нас имеется т возможных стратегий А 1 , A 2 , ..., А m , а у противника - n возможных стратегий В 1 , В 2 , ..; В n (такая игра называется игрой т × n ). Обозначим а ij наш выигрыш в случае, если мы пользуемся стратегией A i , а противник-стратегией B j .

Таблица 26.1

A i

B j

B 1

B 2

B n

A 1

A 2

A m

a 11

a 21

a m1

a 21

a m

a 1 n

a 2 n

a mn

Предположим, что для каждой пары стратегий Л<, В, выигрыш (или средний выигрыш) a , j нам известен. Тогда в принципе можно составить прямоугольную таблицу (матрицу), в которой перечислены стратегии игроков и соответствующие выигрыши (см. таблицу 26.1).

Если такая таблица составлена, то говорят, что игра G приведена к матричной форме (само по себе приведение игры к такой форме уже может составить трудную задачу, а иногда и практически невыполнимую, из-за необозримого множества стратегий). Заметим, что если игра приведена к матричной форме, то многоходовая игра фактически сведена к одноходовой - от игрока требуется сделать только один ход: выбрать стратегию. Будем кратко обозначать матрицу игры (a ij ).

Рассмотрим пример игры G (4×5) в матричной форме. В нашем распоряжении (на выбор) четыре стратегии, у противника - пять стратегий. Матрица игры дана в таблице 26.2

Давайте, поразмышляем о том, какой стратегией нам (игроку А) воспользоваться? В матрице 26.2 есть соблазнительный выигрыш «10»; нас так и тянет выбрать стратегию А 3 , при которой этот «лакомый кусок» нам достанется. Но постойте: противник тоже не дурак! Если мы выберем стратегию А 3 , он, назло нам, выберет стратегию В 3 , и мы получим какой-то жалкий выигрыш «1». Нет, выбирать стратегию А 3 нельзя! Как же быть? Очевидно, исходя из принципа осторожности (а он - основной принцип теории игр), надо выбрать

Таблица 26.2

B j

A i

B 1

B 2

B 3

B 4

B 5

A 1

A 2

A 3

A 4

ту стратегию, при которой наш минимальный выигрыш максимален. Это - так называемый «принцип минимакса»: поступай так, чтобы при наихудшем для тебя поведении противника получить максимальный выигрыш.

Перепишем таблицу 26.2 и в правом добавочном столбце запишем минимальное значение выигрыша в каждой строке, (минимум строки); обозначим его для i -й строки α i (см. таблицу 26.3).

Таблица 26.3

B j

A i

B 1

B 2

B 3

B 4

B 5

A 1

A 2

A 3

A 4

β j

Из всех значений α i (правый столбец) выделено наибольшее (3). Ему соответствует стратегия A 4 . Выбрав эту стратегию, мы, во всяком случае, можем быть уверены, что (при любом поведении противника) выиграем не меньше, чем 3. Эта величина - наш гарантированный выигрыш; ведя себя осторожно, меньше этого мы получить не можем (я, может быть, получим и больше). Этот выигрыш называется нижней ценой игры (или «максимином» - максимальный из минимальных выигрышей). Будем обозначать его а. В нашем случае α = 3.

Теперь станем на точку зрения противника и порассуждаем за него. Он ведь не пешка какая-нибудь, а тоже разумен! Выбирая стратегию, он хотел бы отдать поменьше, но должен рассчитывать на наше, наихудшее для него, поведение. Если он выберет стратегию В 1 , мы ему ответим А 3 , и он отдаст 10; если выберет B 2 - мы ему ответим А 2 , и он отдаст 8 и т. д. Припишем к таблице 26.3 добавочную нижнюю строку и в ней запишем максимумы столбцов β j . Очевидно, осторожный противник должен выбрать ту стратегию, при которой эта величина минимальна (соответствующее значение 5 выделено в таблице 26.3). Эта величина β - то значение выигрыша, больше которого заведомо не отдаст нам разумный противник. Она называется верхней ценой игры (или «минимаксом» - минимальный из максимальных выигрышей). В нашем примере β = 5 и достигается при стратегии противника B 3 .

Итак, исходя из принципа осторожности (перестраховочного правила «всегда рассчитывай на худшее!»), мы должны выбрать стратегию А 4 , а противник - стратегию В 3 . Такие стратегии называются «минимаксными» (вытекающими из принципа минимакса). До тех пор, пока обе стороны в нашем примере будут придерживаться своих минимаксных стратегий, выигрыш будет равен а 43 = 3.

Теперь представим себе на минуту, что мы узнали о том, что противник придерживается стратегии В 3 . А ну-ка, накажем его за это и выберем стратегию А 1 - мы получим 5, а это не так уж плохо. Но ведь противник - тоже не промах; пусть он узнал, что наша стратегия А 1 ; он тоже поторопится выбрать В 4 , сведя наш выигрыш к 2, и т. д. (партнеры «заметались по стратегиям»). Одним словом, минимаксные стратегии в нашем примере неустойчивы по отношению к информации о поведении другой стороны; эти стратегиине обладают свойством равновесия.

Всегда ли это так? Нет, не всегда. Рассмотрим пример с матрицей, данной в таблице 26.4.

В этом примере нижняя Цена игры равна верхней: α = β = 6. Что из этого вытекает? Минимаксные стратегии игроков А и В будут устойчивыми. Пока оба игрока их придерживаются, выигрыш равен 6. Посмотрим, что будет, если мы (А) узнаем, что противник (В)

Таблица 26.4

B j

A i

B 1

B 2

B 3

B 4

A 1

A 2

A 3

β j

держится стратегии B 2 ? А ровно ничего не изменится. Потому что любое отступление от стратегии А 2 может только ухудшить наше положение. Равным образом, информация, полученная противником, не заставит его отступить от своей стратегии В 2 . Пара стратегий А 2 , B 2 обладает свойством равновесия (уравновешенная пара стратегий), а выигрыш (в нашем случае 6), достигаемый при этой паре стратегий, называется «седловой точкой матрицы» 1). Признак наличия седловой точки и уравновешенной пары стратегий - это равенство нижней и верхней цены игры; общее значение α и β называется ценой игры. Мы будем обозначать его v :

α = β = v

Стратегии A i , B j (в данном случае А 2 , В 2 ), при которых этот выигрыш достигается, называются оптимальными чистыми стратегиями, а их совокупность - решением игры. Про саму игру в этом случае говорят, что она решается в чистых стратегиях. Обеим сторонам А и В можно указать их оптимальные стратегии, при которых их положение - наилучшее из возможных. А что игрок А при этом выигрывает 6, а игрок В - проигрывает 6,- что же, Таковы условия игры: они выгодны для А и невыгодны для В

1) Термин «седловая точка» взят из геометрии - так называется точка на поверхности, где одновременно достигается минимум по одной координате и максимум по другой.

У читателя может возникнуть вопрос: а почему оптимальные стратегии называются «чистыми»? Несколько забегая вперед, ответим на этот вопрос: бывают стратегии «смешанные», состоящие в том, что игрок применяет не одну какую-то стратегию, а несколько, перемежая их случайным образом. Так вот, если допустить кроме чистых еще и смешанные стратегии, всякая конечная игра имеет решение - точку равновесия. Но об атом речь еще впереди.

Наличие седловой точки в игре - это далеко не правило, скорее - исключение. Большинство игр не имеет седловой точки. Впрочем, есть разновидность игр, которые всегда имеют седловую точку и, значит, решаются в чистых стратегиях. Это - так называемые «игры с полной информацией». Игрой с полкой информацией называется такая игра, в которой каждый игрок при каждом личном ходе знает всю предысторию ее развития, т. е. результаты всех предыдущих ходов, как личных, так и случайных. Примерами игр с полной информацией могут служить: шашки, шахматы, «крестики и нолики» и т. п.

В теории игр доказывается, что каждая игра с полной информацией имеет седловую точку, и значит, решается в чистых стратегиях. В каждой игре с полной информацией существует пара оптимальных стратегий, дающая устойчивый выигрыш, равный цепе игры v . Если такая игра состоит только из личных ходов, то при применении каждым игроком своей оптимальной стратегии она должна кончаться вполне определенным образом - выигрышем, равным цене игры. А значит, если решение игры известно, самая игра теряет смысл!

Возьмем элементарный пример игры с полной информацией: два игрока попеременно кладут пятаки на круглый стол, выбирая произвольно положение центра монеты (взаимное перекрытие монет не разрешается). Выигрывает тот, кто положит последний пятак (когда места для других уже не останется). Легко убедиться, что исход этой игры, в сущности, предрешен. Есть определенная стратегия, обеспечивающая выигрыш тому из игроков, кто кладет монету первым. А именно, он должен первый раз положить пятак о центре стола, а затем на каждый ход противника отвечать симметричным ходом. Очевидно, как бы ни вел себя противник, ему не избежать проигрыша. Точно так же обстоит дело и с шахматами и вообще играми с полной информацией: любая из них, записанная в матричной форме, имеет седловую точку, и значит, решение в чистых стратегиях, а, следовательно, имеет смысл только до тех пор, пока это решение не найдено. Скажем, шахматная игра либо всегда кончается выигрышем белых, либо всегда - выигрышем черных, либо всегда - ничьей, только чем именно - мы пока не знаем (к счастью для любителей шахмат). Прибавим еще: вряд ли будем знать и в обозримом будущем, ибо число стратегий так огромно, что крайне трудно (если не невозможно) привести игру к матричной форме и найти в ней седловую точку.

А теперь спросим себя, как быть, если игра не имеет седловой точки: α ≠ β ? Ну что же, если каждый игрок вынужден выбрать одну - единственную чистую стратегию, то делать нечего: надо руководствоваться принципом минимакса. Другое дело, если можно скоп стратегии «смешивать», чередовать случайным образом с какими-то вероятностями. Применение смешанных стратегий мыслится таким образом: игра повторяется много раз; перед каждой партией игры, когда игроку предоставляется личный ход, он «передоверяет» свой выбор случайности, «бросает жребий», и берет ту стратегию, которая выпала (как организовать жребий, мы уже знаем из предыдущей главы).

Смешанные стратегии в теории игр представляют собой модель изменчивой, гибкой тактики, когда ни один из игроков не знает, как поведет себя противник в данной партии. Такая тактика (правда, обычно безо всяких математических обоснований) часто применяется в карточных играх. Заметим при этом, что лучший способ скрыть от противника свое поведение - это придать ему случайный характер и, значит, самому не знать заранее, как ты поступишь.

Итак, поговорим о смешанных стратегиях. Будем обозначать смешанные стратегии игроков А и В соответственно S A = (p 1 , р 2 , ..., p m ), S B = (q 1 , q 2 , …, q n ), где p 1 , p 2 , …, p m (образующие в сумме единицу) - вероятности применения игроком А стратегий А 1 , A 2 ,… , A m ; q 1 , q 2 , …, q n -вероятности применения игроком В стратегий В 1 , В 2 , ..., В n . В частном случае, когда все вероятности, кроме одной, равны нулю, а эта одна - единице, смешанная стратегия превращается в чистую.

Существует основная теорема теории игр: любая конечная игра двух лиц с нулевой суммой имеет, по крайней мере, одно решение - пару оптимальных стратегий, в общем случае смешанных
и соответствующую ценуv .

Пара оптимальных стратегий
образующих решение игры, обладает следующим свойством:если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно, отступать от своей. Эта пара стратегий образует в игре некое положение равновесия: один игрок хочет обратить выигрыш в максимум, другой - в минимум, каждый тянет в свою сторону и, при разумном поведении обоих, устанавливается равновесие и устойчивый выигрыш v. Если v > 0, то игра выгодна для нас, если v < 0 - для противника; при v = 0 игра «справедливая», одинаково выгодная для обоих участников.

Рассмотрим пример игры без седловой точки и приведем (без доказательства) ее решение. Игра состоит в следующем: два игрока А и В одновременно и не сговариваясь показывают один, два или три пальца. Выигрыш решает общее количество пальцев: если оно четное, выигрывает А и получает у В сумму, равную этому числу; если нечетное, то, наоборот, А платит В сумму, равную этому числу. Как поступать игрокам?

Составим матрицу игры. В одной партии у каждого игрока три стратегии: показать один, два или три пальца. Матрица 3×3 дана в таблице 26.5; в дополнительном правом столбце приведены минимумы строк, а в дополнительной нижней строке - максимумы столбцов.

Нижняя цена игры α = - 3 и соответствует стратегии A 1 . Это значит, что при разумном, осторожном поведении мы гарантируем, что не проиграем больше, чем 3. Слабое утешение, но все же лучше, чем, скажем, выигрыш - 5, встречающийся в некоторых клетках матрицы. Плохо нам, игроку А... Но утешимся:

положение противника, кажется, еще хуже: нижняя цена игры β = 4, т. е. при разумном поведении он отдаст нам минимум 4. В общем, положение не слишком хорошее - ни для той, ни для другой стороны. Но посмотрим: нельзя ли его улучшить? Оказывается, можно. Если каждая сторона будет применять не одну какую-то чистую стратегию, а смешанную, в которую

Таблица 26.5

B j

A i

B 1

B 2

B 3

A 1

A 2

A 3

β j

первая и третья входят с вероятностями 1/4, а вторая - с вероятностью 1/2, т. е.

то средний выигрыш будет устойчиво равен нулю (значит, игра «справедлива» и одинаково выгодна той и другой стороне). Стратегии
образуют решение игры, а ее ценаv = 0. Как мы это решение нашли? Это вопрос другой. В следующем параграфе мы покажем, как вообще решаются конечные игры.

Введение

Реальные конфликтные ситуации приводят к различным видам игр. Игры различаются по целому ряду признаков: по количеству участвующих в них игроков, по количеству возможных игроков, по количеству возможных стратегий, по характеру взаимоотношений между игроками, по характеру выигрышей, по виду функций выигрышей, по количеству ходов, по характеру информационной обеспеченности игроков и т.д. Рассмотрим виды игр в зависимости от их разбиения:

· По количеству стратегий игры делятся на конечные (каждый из игроков имеет конечное число возможных стратегий) и бесконечные (где хотя бы один из игроков имеет бесконечное число возможных стратегий).

· По характеру выигрышей различают игры с нулевой суммой (общий капитал игроков не изменяется, а перераспределяется между игроками в зависимости от получающихся исходов) и игры с ненулевой суммой .

· По виду функций выигрыши игры делятся на матричные (это конечная игра двух игроков с нулевой суммой, в которой задается выигрыш игрока А в виде матрицы (строка матрицы соответствует номеру применяемой стратегии игрока В , столбец – номеру применяемой стратегии игрока В ; на пересечении строки и столбца матрицы находится выигрыш игрока А , соответствующий применяемым стратегиям.

Для матричных игр доказано, что любая из них имеет решение, и оно может быть легко найдено путем сведения игры к задаче линейного программирования), биматричные игры (это конечная игра двух игроков с ненулевой суммой, в которой выигрыши каждого игрока задаются матрицами отдельно для соответствующего игрока (в каждой матрице строка соответствует стратегии игрока А , столбец – стратегии игрока В , на пересечении строки и столбца в первой матрице находится выигрыш игрока А , во второй матрице – выигрыш игрока В .

Для биматричных игр также разработана теория оптимального поведения игроков, однако решать такие игры сложнее, чем обычные матричные непрерывные игры (Непрерывной считается игра, в которой функция выигрышей каждого игрока является непрерывной в зависимости от стратегий. Доказано, что игры этого класса имеют решения, однако не разработано практически приемлемых методов их нахождения), и т.д.

Возможны также и другие подходы к разбиению игр. Теперь вернёмся непосредственно к теме исследования, а именно к Теории игр. Для начала дадим определение этому понятию.

Теория игр - раздел математики, изучающий формальные модели принятия оптимальных решений в условиях конфликта. При этом под конфликтом понимается явление, в котором участвуют различные стороны, наделённыеразличными интересами и возможностями выбирать доступные для них действия в соответствии с этими интересами.В условиях конфликта стремление противника скрыть свои предстоящие действия порождает неопределённость. Наоборот, неопределённость при принятии решений (например, на основе недостаточных данных) можно интерпретировать как конфликт принимающего решения субъекта с природой. Поэтому теория игр рассматривается также, как теория принятия оптимальных решений в условиях неопределённости. Она позволяет систематизировать некоторые важные аспекты принятия решений в технике, сельском хозяйстве, медицине и социологии и других науках. Участвующие в конфликте стороны называются коалициями действия; доступные для них действия - их стратегиями; возможные исходы конфликта – ситуациями.

Задача теории состоит в том, что является:

1) оптимальным поведением в игре.

2) исследование свойств оптимального поведения

3) определение условий, при которых его использование осмысленно (вопросы существования, единственности, а для динамических игр и вопросы именной состоятельности).

4) построение численных методов нахождения оптимального поведения.

Теория игр, созданная для математического решения задач экономического и социального происхождения, не может в целомсводиться к классическим математическим теориям, созданным для решения физических и технических задач. Однако в различных конкретных вопросах теория игр широко используются весьма разнообразные классические математические методы.

Кроме этого, теория игр связана с рядом математических дисциплин внутренним образом. В теории игр систематически и по существуупотребляются понятия теории вероятностей. На языке теории игр можно сформулировать большинство задач математической статистики, и так как теория игр, связана с теорией принятия решений, то она рассматривается как существенная составная часть математического аппарата исследования операций.

Математическое понятие игры необычайно широко. Оно включает в себя так называемые салонные игры (в том числе шахматы, шашки, игра ГО, карточные игры, домино), но может использоваться и для описания моделей экономической системы с многочисленными конкурирующими друг с другом покупателями и продавцами. Не вдаваясь в детали, игру в общих чертах можно определить как ситуацию, в которой одно или несколько лиц («игроков») совместно управляют некоторым множеством переменных и каждый игрок, принимая решение, должен учитывать действия всей группы. «Платеж», приходящийся на долю каждого игрока, определяется не только его собственными действиями, но и действиями других членов группы. Некоторые из «ходов» (индивидуальных действий) в ходе игры могут носить случайный характер. Наглядной иллюстрацией может служить известная игра в покер: начальная сдача карт представляет собой случайный ход. Последовательность ставок и контрставок, предшествующая финальному сравнению взяток, образована остальными ходами в игре.

Математическая ТЕОРИЯ ИГР началась с анализа спортивных, карточных и других игр. Рассказывают, что первооткрыватель теории игр, выдающийся американский математик XXв. Джон фон Нейман пришел к идеям своей теории, наблюдая за игрой в покер. Отсюда и произошло название «теория игр».

Начнем исследование данной темы с ретроспективного анализа развития теории игр. Рассмотрим историю и развитие вопроса теории игр. Обычно «генеалогическое дерево» представляется в виде дерева в смысле теории графов, в которых разветвление происходит от некоторого единого «корня». Родословная теории игр - книга Дж. фон Неймана и О. Моргенштерна. Поэтому исторический ход развития теории игр как математической дисциплины, естественным образом расчленяется на три этапа:

Первый этап - до выхода в свет монографии Дж. фон Неймана и О. Моргенштерна. Его можно назвать «до монографическим». На этом этапе игра выступает пока еще как конкретное состязание, описываемое своими правилами в содержательных терминах. Лишь в конце его Дж. фон Нейман вырабатывает представление об игре как об общей модели абстрактного конфликта. Итогом этого этапа явилось накопление ряда конкретных математических результатов и даже отдельных принципов будущей теории игр.

Второй этап составляет сама монография Дж. фон Неймана и

О. Моргенштерна «Теория игр и экономическое поведение» (1944), объединившая в себе большинство ранее полученных (впрочем, по современным математическим масштабам довольно немногочисленных) результатов. Она впервые представила математический подход к играм (как в конкретном, так и в абстрактном понимании этого слова) в виде систематической теории.

Наконец, на третьем этапе теория игр в своем подходе к изучаемым объектам мало, чем отличается от других разделов математики и развивается в значительной мере по общим с ними закономерностям. При этом, разумеется, существенное влияние на формирование направлений теории игр оказывает специфика ее практических приложений, как фактических, так и возможных.

Однако даже математическая теория игр не способна стопроцентно предопределить исход некоторых конфликтов. Представляется возможным выделить три основные причины неопределенности исхода игры (конфликта).

Во-первых, это игры, в которых имеется реальная возможность исследования всех или, по крайней мере, большинства вариантов игрового поведения из них одного наиболее истинного, ведущего к выигрышу. Неопределенность вызвана значительным числом вариантов, поэтому не всегда представляется возможным исследовать абсолютно все варианты (к примеру, японская игра ГО, русские и международные шашки, британские реверси).

Во-вторых, непрогнозируемое игроками, случайное влияние факторов на игру. Эти факторы оказывают решающее воздействие на исход игры и лишь в малой степени могут быть или вообще не могут быть контролируемыми и определяемыми играющими. Окончательный исход игры лишь в малой, крайне незначительной степени определяется самими действиями игроков. Игры, исход которых оказывается неопределенным в силу случайных причин, называются азартными. Исход игры всегда носит вероятностный либо предположительный характер (рулетка, игра в кости, игра в «орлянку»).

В-третьих, неопределенность вызвана отсутствием информации о том, какой именно стратегии придерживается играющий противник. Неведение игроков о поведении соперника носит принципиальный характер и определяется самим правилами игры. Такие игры именуются стратегическими.

Теория игр является одним из важных разделов «Исследования операций» и представляет собой теоретические основы математических моделей принятия оптимальных решений в конфликтных ситуациях рыночных отношений, носящих характер конкурентной борьбы, в которых одна противоборствующая сторона выигрывает у другой за счет проигрыша другой. Наряду с такой ситуацией в рамках науки «Исследование операций», которая предоставляет математическое описание постановок различных задач по принятию решений, рассматриваются ситуации риска и неопределенности. В ситуации неопределенности вероятности условий неизвестны и нет никакой возможности получить о них дополнительную статистическую информацию. Окружающая решение задачи среда, которая проявляется в тех или иных условиях, называется «природой», а соответствующие математические модели называются «играми с природой» или «теорией статистических игр». Основной целью теории игр является выработка рекомендаций для удовлетворительного поведения игроков в конфликте, то есть выявление для каждого из них «оптимальной стратегии».

Самым простым случаем, подробно разработанным в теории игр, является конечная парная игра с нулевой суммой (антагонистическая игра двух лиц или двух коалиций). Рассмотрим такую игру G, в которой участвуют два игрока А и В, имеющие противоположные интересы: выигрыш одного равен проигрышу другого. Так как выигрыш игрока А равен выигрышу игрока В с обратным знаком, мы можем интересоваться только выигрышем а игрока . Естественно, А хочет максимизировать, а В - минимизировать а.

Для простоты отождествим себя мысленно с одним из игроков (пусть это будет А) и будем его называть «мы», а игрока В - «противник» (разумеется, никаких реальных преимуществ для А из этого не вытекает). Пусть у нас имеется возможных стратегий а у противника - возможных стратегий (такая игра называется игрой ). Обозначим наш выигрыш в случае, если мы пользуемся стратегией а противник - стратегией

Таблица 26.1

Предположим, что для каждой пары стратегий выигрыш (или средний выигрыш) a нам известен. Тогда в принципе можно составить прямоугольную таблицу (матрицу), в которой перечислены стратегии игроков и соответствующие выигрыши (см. таблицу 26.1).

Если такая таблица составлена, то говорят, что игра G приведена к матричной форме (само по себе приведение игры к такой форме уже может составить трудную задачу, а иногда и практически невыполнимую, из-за необозримого множества стратегий). Заметим, что если игра приведена к матричной форме, то многоходовая игра фактически сведена к одноходовой - от игрока требуется сделать только один ход: выбрать стратегию. Будем кратко обозначать матрицу игры

Рассмотрим пример игры G (4X5) в матричной форме. В нашем распоряжении (на выбор) четыре стратегии, у противника - пять стратегий. Матрица игры дана в таблице 26.2

Давайте, поразмышляем о том, какой стратегией нам (игроку А) воспользоваться? В матрице 26.2 есть соблазнительный выигрыш «10»; нас так и тянет выбрать стратегию при которой этот «лакомый кусок» нам достанется.

Но постойте: противник тоже не дурак! Если мы выберем стратегию он, назло нам, выберет стратегию , и мы получим какой-то жалкий выигрыш «1». Нет, выбирать стратегию нельзя! Как же быть? Очевидно, исходя из принципа осторожности (а он - основной принцип теории игр), надо выбрать ту стратегию, при которой наш минимальный выигрыш максимален.

Таблица 26.2

Это - так называемый «принцип мини-макса»: поступай так, чтобы при наихудшем для тебя поведении противника получить максимальный выигрыш.

Перепишем таблицу 26.2 и в правом добавочном столбце запишем минимальное значение выигрыша в каждой строке (минимум строки); обозначим его для строки а (см. таблицу 26.3).

Таблица 26.3

Из всех значений (правый столбец) выделено наибольшее (3). Ему соответствует стратегия . Выбрав эту стратегию, мы во всяком случав можем быть уверены, что (при любом поведении противника) выиграем не меньше, чем 3. Эта величина - наш гарантированный выигрыш; ведя себя осторожно, меньше этого мы получить не можем может быть, получим и больше).

Этот выигрыш называется нижней ценой игры (или «максимином» - максимальный из минимальных выигрышей). Будем обозначать его а. В нашем случае

Теперь станем на точку зрения противника и порассуждаем за него. Он ведь не пешка какая-нибудь, а тоже разумен! Выбирая стратегию, он хотел бы отдать поменьше, но должен рассчитывать на наше, наихудшее для него, поведение. Если он выберет стратегию мы ему ответим и он отдаст 10; если выберет - мы ему ответим и он отдаст и т. д. Припишем к таблице 26.3 добавочную нижнюю строку и в ней запишем максимумы столбцов Очевидно, осторожный противник должен выбрать ту стратегию, при которой эта величина минимальна (соответствующее значение 5 выделено в таблице 26.3). Эта величина Р - то значение выигрыша, больше которого заведомо не отдаст нам разумный противник. Она называется верхней ценой игры (или «ми-нимаксом» - минимальный из максимальных выигрышей). В нашем примере и достигается при стратегии противника

Итак, исходя из принципа осторожности (перестраховочного правила «всегда рассчитывай на худшее!»), мы должны выбрать стратегию А а противник - стратегию Такие стратегии называются «минимаксными» (вытекающими из принципа минимакса). До тех пор, пока обе стороны в нашем примере будут придерживаться своих минимаксных стратегий, выигрыш будет равен

Теперь представим себе на минуту, что мы узнали о том, что противник придерживается стратегии . А ну-ка, накажем его за это и выберем стратегию мы получим 5, а это не так уж плохо. Но ведь противник - тоже не промах; пусть он узнал, что наша стратегия , он тоже поторопится выбрать , сведя наш выигрыш к 2, и т. д. (партнеры «заметались по стратегиям»). Одним словом, минимаксные стратегии в нашем примере, неустойчивы по отношению к информации о поведении другой стороны; эти стратегии не обладают свойством равновесия.

Всегда ли это так? Нет, не всегда. Рассмотрим пример с матрицей, данной в таблице 26.4.

В этом примере нижняя цена игры равна верхней: . Что из этого вытекает? Минимаксные стратегии игроков А и В будут устойчивыми. Пока оба игрока их придерживаются, выигрыш равен 6. Посмотрим, что будет, если мы (А) узнаем, что противник (В) держится стратегии В?

Таблица 26.4

А ровно ничего не изменится, Потому что любое отступление от стратегии может только ухудшить наше положение. Равным образом, информация, полученная противником, не заставит его отступить от своей стратегии Пара стратегий обладает свойством равновесия (уравновешенная пара стратегий), а выигрыш (в нашем случае 6), достигаемый при этой паре стратегий, называется «седловой точкой матрицы». Признак наличия седловой точки и уравновешенной пары стратегий - это равенство нижней и верхней цены игры; общее значение называется ценой игры. Мы будем обозначать его

Стратегии (в данном случае ), при которых этот выигрыш достигается, называются оптимальными чистыми стратегиями, а их совокупность - решением игры. Про саму игру в этом случае говорят, что она решается в чистых стратегиях. Обеим сторонам А и В можно указать их оптимальные стратегии, при которых их положение - наилучшее из возможных. А что игрок А при этом выигрывает 6, а игрок В - проигрывает что же, таковы условия игры: они выгодны для А и невыгодны для В.

У читателя может возникнуть вопрос: а почему оптимальные стратегии называются «чистыми»? Несколько забегая вперед, ответим на этот вопрос: бывают стратегии «смешанные», состоящие в том, что игрок применяет не одну какую-то стратегию, а несколько, перемежая их случайным образом. Так вот, если допустить кроме чистых еще и смешанные стратегии, всякая конечная игра имеет решение - точку равновесия. Но об этом речь еще впереди.

Наличие седловой точки в игре - это далеко не правило, скорее - исключение. Большинство игр не имеет седловой точки. Впрочем, есть разновидность игр, которые всегда имеют седловую точку и, значит, решаются в чистых стратегиях. Это - так называемые «игры с полной информацией». Игрой с полной информацией называется такая игра, в которой каждый игрок при каждом личном ходе знает всю предысторию ее развития, т. е. результаты всех предыдущих ходов, как личных, так и случайных. Примерами игр с полной информацией могут служить: шашки, шахматы, «крестики и нолики» и т. п.

В теории игр доказывается, что каждая игра с полной информацией имеет седловую точку, и значит, решается в чистых стратегиях. В каждой игре с полной информацией существует пара оптимальных стратегий, дающая устойчивый выигрыш, равный цене игры и. Если такая игра состоит только из личных ходов, то при применении каждым игроком своей оптимальной стратегии она должна кончаться вполне определенным образом - выигрышем, равным цене игры. А значит, если решение игры известно, самая игра теряет смысл!

Возьмем элементарный пример игры с полной информацией: два игрока попеременно кладут пятаки на круглый стол, выбирая произвольно положение центра монеты (взаимное перекрытие монет не разрешается). Выигрывает тот, кто положит последний пятак (когда места для других уже не останется). Легко убедиться, что исход этой игры, в сущности, предрешен. Есть определенная стратегия, обеспечивающая выигрыш тому из игроков, кто кладет монету первым.

А именно, он должен первый раз положить пятак в центре стола, а затем на каждый ход противника отвечать симметричным ходом. Очевидно, как бы ни вел себя противник, ему не избежать проигрыша. Точно так же обстоит дело и с шахматами и вообще играми с полной информацией: любая из них, записанная в матричной форме, имеет седловую точку, и значит, решение в чистых стратегиях, а следовательно, имеет смысл только до тех пор, пока это решение не найдено. Скажем, шахматная игра либо всегда кончается выигрышем белых, либо всегда - выигрышем черных, либо всегда - ничьей, только чем именно - мы пока не знаем (к счастью для любителей шахмат). Прибавим еще: вряд ли будем знать и в обозримом будущем, ибо число стратегий так огромно, что крайне трудно (если не невозможно) привести игру к матричной форме и найти в ней седловую точку.

А теперь спросим себя, как быть, если игра не имеет седловой точки: Ну что же, если каждый игрок вынужден выбрать одну-единственную чистую стратегию, то делать нечего: надо руководствоваться принципом минимакса. Другое дело, если можно свои стратегии «смешивать», чередовать случайным образом с какими-то вероятностями. Применение смешанных стратегий мыслится таким образом: игра повторяется много раз; перед каждой партией игры, когда игроку предоставляется личный ход, он «передоверяет» свой выбор случайности, «бросает жребий», и берет ту стратегию, которая выпала (как организовать жребий, мы уже знаем из предыдущей главы).

Смешанные стратегии в теории игр представляют собой модель изменчивой, гибкой тактики, когда ни один из игроков не знает, как поведет себя противник в данной партии. Такая тактика (правда, обычно безо всяких математических обоснований) часто применяется в карточных играх. Заметим при этом, что лучший способ скрыть от противника свое поведение - это придать ему случайный характер и, значит, самому не знать заранее, как ты поступишь.

Итак, поговорим о смешанных стратегиях. Будем обозначать смешанные стратегии игроков А и В соответственно где (образующие в сумме единицу) - вероятности применения игроком А стратегий - вероятности применения игроком В стратегий

В частном случае, когда все вероятности, кроме одной, равны нулю, а эта одна - единице, смешанная стратегия превращается в чистую.

Существует основная теорема теории игр: любая конечная игра двух лиц с нулевой суммой имеет по крайней мере одно решение - пару оптимальных стратегий, в общем случае смешанных и соответствующую цену

Пара оптимальных стратегий образующих решение игры, обладает следующим свойством: если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно отступать от своей. Эта пара стратегий образует в игре некое положение равновесия: один игрок хочет обратить выигрыш в максимум, другой - в минймум, каждый тянет в свою сторону и, при разумном поведении обоих, устанавливается равновесие и устойчивый выигрыш v. Если то игра выгодна для нас, если - для противника; при игра «справедливая», одинаково выгодная для обоих участников.

Рассмотрим пример игры без седловой точки и приведем (без доказательства) ее решение. Игра состоит в следующем: два игрока А я В одновременно и не сговариваясь показывают один, два или три пальца. Выигрыш решает общее количество пальцев: если оно четное, выигрывает А и получает у В сумму, равную этому числу; если нечетное, то, наоборот, А платит В сумму, равную этому числу. Как поступать игрокам?

Составим матрицу игры. В одной партии у каждого игрока три стратегии: показать один, два или три пальца. Матрица 3х3 дана в таблице 26.5; в дополнительном правом столбце приведены минимумы строк, а в дополнительной нижней строке - максимумы столбцов.

Нижняя цена игры и соответствует стратегии Это значит, что при разумном, осторожном поведении, мы гарантируем, что не проиграем больше, чем 3. Слабое утешение, но все же лучше, чем, скажем, выигрыш - 5, встречающийся в некоторых клетках матрицы. Плохо нам, игроку Л... Но утешимся: положение противника, кажется, еще хуже: нижняя цена игры при. разумном поведении он отдаст нам минимум 4.

Московский Энергетический Институт

(Технический Университет)

Отчёт по лабораторной работе

по теории игр

«Программа поиска оптимальных стратегий для парной антагонистической игры, заданной в матричной форме»

Выполнили студенты

группы А5-01

Ашрапов Далер

Ашрапова Ольга

Основные понятия теории игр

Теория игр разработана для разрешения конфликтных ситуаций , т.е. ситуаций, в которых сталкиваются интересы двух и более сторон, преследующих различные цели.

Если цели сторон прямо противоположны, то говорят об антагонистическом конфликте .

Игрой называется упрощённая формализованная модель конфликтной ситуации.

Однократный розыгрыш игры от начала до конца называется партией . Результатом партии являетсяплатёж (иливыигрыш ).

Партия состоит из ходов , т.е. выборов игроков из некоторого множества возможных альтернатив.

Ходы могут быть личные ислучайные .Личный ход , в отличие отслучайного , предполагает сознательный выбор игроком некоторого варианта.

Игры, в которых имеется хотя бы один личный ход, называются стратегическими .

Игры, в которых все ходы случайны, называются азартными .

При совершении личного хода говорят также о стратегии игрока, т.е. о правиле или совокупности правил, определяющих выбор игрока. При этом стратегия должна быть всеобъемлющей, т.е. выбор должен быть определён для любой возможной в ходе партии ситуации.

Задача теории игр – нахождение оптимальных стратегий игроков, т.е. стратегий, обеспечивающих им максимальный выигрыш или минимальный проигрыш.

Классификация теоретико-игровых моделей

Игру n лиц принято обозначать как, где
- множество стратегийi-го игрока,
- платёж игры.

В соответствии с данным обозначением можно предложить следующую классификацию теоретико-игровых моделей:

Дискретные (множества стратегийдискретны)

Конечные

Бесконечные

Непрерывные (множества стратегий непрерывны)

Бесконечные

n лиц (
)

Коалиционные (кооперативные)

Некоалиционные (некооперативные)

2-х лиц (парные)

Антагонистические (игры с нулевой суммой)

(интересы сторон противоположны, т.е. проигрыш одного игрока равен выигрышу другого)

Неантагонистические

С полной информацией (если игроку, делающему личный ход известна вся предыстория игры, т.е. все ходы противника)

С неполной информацией

С нулевой суммой (суммарный платёж равен нулю)

С ненулевой суммой

Одноходовые (лотереи)

Многоходовые

Матричное представление парной антагонистической игры

В данном пособии будем рассматривать антагонистические игры двух лиц , заданные в матричной форме. Это означает, что нам известно множество стратегий первого игрока (игрокA ){ A i }, i = 1,…, m и множество стратегий второго игрока (игрокB ){ B j }, j = 1,..., n , а также задана матрицаA = || a ij || выигрышей первого игрока. Поскольку речь идёт об антагонистической игре, то предполагается, что выигрыш первого игрока равен проигрышу второго. Считаем, что элемент матрицыa ij – выигрыш первого игрока при выборе им стратегииA i и ответе ему второго игрока стратегиейB j . Такую игру будем обозначать как
, гдеm - количество стратегий игрокаА, n - количество стратегий игрокаВ. В общем виде она может быть представлена следующей таблицей:

B 1

B j

B n

A 1

A i

A m

Пример 1

В качестве простейшего примера рассмотрим игру, партия которой состоит из двух ходов.

1-й ход : ИгрокА выбирает одно из чисел (1 или 2), не сообщая о своём выборе сопернику.

2-й ход : ИгрокВ выбирает одно из чисел (3 или 4).

Итог : Выборы игроковА иВ складываются. Если сумма чётная, тоВ выплачивает её значение игрокуА , если же нечётная - наоборот,А выплачивает сумму игрокуВ .

Данная игра может быть представлена в виде
следующим образом:

(выбор 3)

(выбор 4)

(выбор 1)

(выбор 2)

Нетрудно видеть, что данная игра является антагонистической, кроме того, она является игрой с неполной информацией, т.к. игроку В, совершающему личный ход, не известно, какой выбор сделал игрокА.

Как отмечалось выше, задача теории игр состоит в нахождении оптимальных стратегий игроков, т.е. стратегий, обеспечивающих им максимальный выигрыш или минимальный проигрыш. Этот процесс называется решением игры .

При решении игры в матричной форме следует проверить игру на наличие седловой точки . Для этого вводятся две величины:

– нижняя оценка цены игры и

– верхняя оценка цены игры.

Первый игрок, скорее всего, выберет ту стратегию, при которой он получит максимальный выигрыш среди всех возможных ответов второго игрока, а второй - наоборот, ту, которая минимизирует его собственный проигрыш, т.е. возможный выигрыш первого.

Можно доказать, что α ≤ V ≤ β , гдеV цена игры , т.е., вероятный выигрыш первого игрока.

Если выполняется соотношение α = β = V , то говорят, чтоигра имеет седловую точку
, ирешается в чистых стратегиях . Иными словами, имеется пара стратегий
, дающих игрокуА V .

Пример 2

Вернёмся к игре, рассмотренной нами в примере 1 и проверим её на наличие седловой точки.

(выбор 3)

(выбор 4)

(выбор 1)

(выбор 2)

Для данной игры
= -5,
= 4,
, следовательно, она не имеет седловой точки.

Ещё раз обратим внимание на то, что эта игра является игрой с неполной информацией. В данном случае можно лишь посоветовать игроку А выбрать стратегию, т.к. в этом случае он может получить наибольший выигрыш, правда, при условии выбора игрокомВ стратегии.

Пример 3

Внесём в правила игры из примера 1 некоторые изменения. Предоставим игроку В информацию о выборе игрокаА. Тогда уВ появятся две дополнительные стратегии:

- стратегия, выгодная дляА. Если выборА - 1, то В выбирает 3, если выборА - 2, то В выбирает 4;

- стратегия, не выгодная дляА. Если выборА - 1, то В выбирает 4, если выборА - 2, то В выбирает 3.

(выбор 3)

(выбор 4)

(выбор 1)

(выбор 2)

Эта игра - с полной информацией.

В данном случае
= -5,
= -5,
, следовательно, игра имеет седловую точку
. Данной седловой точке соответствуют две пары оптимальных стратегий:
и
. Цена игрыV = -5. Очевидно, что дляА такая игра невыгодна.

Примеры 2 и 3 являются неплохой иллюстрацией к следующей теореме, доказанной в теории игр:

Теорема 1

Всякая парная антагонистическая игра с полной информацией решается в чистых стратегиях.

Т.о. теорема 1 говорит о том, что любая игра двух лиц с полной информацией имеет седловую точку и существует пара чистых стратегий
, дающих игрокуА устойчивый выигрыш, равный цене игрыV .

Вслучае же отсутствия седловой точки, в качестве решения используются т.н.смешанные стратегии :, гдеp i и q j – вероятности выбора стратегийA i и B j первым и вторым игроками соответственно. Решением игры в данном случае является пара смешанных стратегий
, максимизирующих математическое ожидание цены игры.

Обобщением теоремы 1 на случай игры с неполной информацией служит следующая теорема:

Теорема 2

Любая парная антагонистическая игра имеет хотя бы одно оптимальное решение, т.е., пару в общем случае смешанных стратегий
, дающих игрокуА устойчивый выигрыш, равный цене игрыV , причёмα ≤ V ≤ β .

В частном случае, для игры с седловой точкой решение в смешанных стратегиях выглядит как пара векторов, в которых один элемент равен единице, а остальные равны нулю.

Задача принятия решения, рассматриваемая в рамках системного подхода, содержит три основные компоненты: в ней выделены система, управляющая подсистема и среда. Теперь мы переходим к изучению задач принятия решения, в которых на систему воздействует не одна, а несколько управляющих подсистем, каждая из которых имеет свои цели и возможности действий. Такой подход к принятию решений называется теоретико-игровым, а математические модели соответствующих взаимодействий называются играми . Ввиду различия целей управляющих подсистем, а также определенных ограничений на возможности обмена информацией между ними, указанные взаимодействия носят конфликтный характер. Поэтому всякая игра представляет собой математическую модель конфликта. Ограничимся случаем, когда управляющих подсистем две. Если цели систем противоположны, конфликт называется антагонистическим, а математическая модель такого конфликта называется антагонистической игрой ..

В теоретико-игровой терминологии 1-я управляющая подсистема называется игроком 1 , 2-я управляющая подсистема - игроком 2 , множества

их альтернативных действий называются множествами стратегий этих игроков. Пусть Х - множество стратегий игрока 1, Y - множество стратегий

игрока 2. Состояние системы однозначно определяется выбором управляющих воздействий подсистемами 1 и 2, то есть выбором стратегий

x X и y Y . Пусть F (x ,y )- оценка полезности для игрока 1 того состояния

системы, в которое она переходит при выборе игроком 1 стратегии х и

игроком 2 стратегии у . Число F (x ,y ) называется выигрышем игрока 1 в ситуации (x ,y ), а функция F - функцией выигрыша игрока 1 . Выигрыш игрока

1 одновременно является проигрышем игрока 2 , то есть величиной, которую первый игрок стремится увеличить, а второй – уменьшить. Это и есть

проявление антагонистического характера конфликта: интересы игроков полностью противоположны (то, что выигрывает один, проигрывает другой).

Антагонистическую игру естественно задать системой Г= (Х, Y, F ).

Заметим, что формально антагонистическая игра задается фактически так же, как и задача принятия решения в условиях неопределенности - если

отождествить управляющую подсистему 2 со средой. Содержательное различие между управляющей подсистемой и средой состоит в том, что

поведение первой носит целенаправленный характер. Если при составлении математической модели реального конфликта у нас есть основание (или намерение) рассматривать среду как противника, цель которого - принести

нам максимальный вред, то такую ситуацию можно представить в виде антагонистической игры. Другими словами, антагонистическую игру можно трактовать как крайний случай ЗПР в условиях неопределенности,


характеризуемый тем, что среда рассматривается как противник, имеющий цель. При этом мы должны ограничить виды гипотез о поведении среды.


Наиболее обоснованной здесь является гипотеза крайней осторожности, когда, принимая решение, мы рассчитываем на самый худший для нас возможный вариант действий среды.

Определение. Если Х и Y конечны, то антагонистическая игра называется матричной. В матричной игре можно считать, что X ={1,…,n },

Y ={1,…,m } и положить aij=F (i,j ). Таким образом, матричная игра полностью определяется матрицей A= (aij ), i =1,…,n, j =1,…,m .

Пример 3.1. Игра с двумя пальцами.

Два человека одновременно показывают один или два пальца и называют число 1 или 2, означающее, по мнению говорящего, количество

пальцев, показанное другим. После того, как пальцы показаны и числа названы, происходит распределение выигрыша по следующим правилам:

если оба угадали или оба не угадали, сколько пальцев показал их соперник, выигрыш каждого равен нулю; если угадал только один, то противник платит угадавшему сумму денег, пропорциональную общему числу показанных

Это антагонистическая матричная игра. Каждый игрок имеет четыре стратегии: 1- показать 1 палец и назвать 1, 2- показать 1 палец и назвать 2, 3-

показать 2 пальца и назвать 1, 4 - показать 2 пальца и назвать 2. Тогда матрица выигрышей A=(aij), i= 1,…, 4, j= 1,…, 4 определяется следующим образом:

a12= 2, a21 = – 2, a13=a42= –3, a24=a31= 3, a34 = – 4, a43= 4,aij= 0 в остальных случаях.

Пример 3.2. Дискретная игра типа дуэли.

Задачами дуэльного типа описывается, например, борьба двух игроков,

каждый из которых желает совершить некое единовременное действие (выброс на рынок партии товара, заявка о покупке на аукционе) и выбирает для этого время. Пусть игроки продвигаются навстречу друг другу на n шагов. После каждого сделанного шага игрок может выстрелить или не выстрелить в противника. Выстрел может быть у каждого только один. Считается, что вероятность попасть в противника, если продвинуться на k n =5 имеет вид



© 2024
arsenmusic.ru - Игры. Гонки. Логические. Стрелялки