Как покерный ИИ сошел с ума с 53s?

Как покерный ИИ сошел с ума с 53s?

В первой части этой серии статей профессор Калифорнийского университета Konstantinos "Duncan" Palamourdas рассказывал о Принципе Честности в покере. Сегодня же он углубится в эту концепцию, параллельно разобрав раздачу в исполнении бота Libratus в качестве иллюстрации своих идей.

В первой части данной серии статей мы говорили о том, что подавляющее большинство игроков не блефует с необходимой частотой. В результате этого их ставки чаще являются "честными" (вэлью), нежели "нечестными" (блеф). Это мы назвали Принципом Честности.

Принцип Честности: В целом покерный пул блефует с гораздо меньшей частотой, чем следует с точки зрения теории.

По другую сторону баррикад находится искусственный интеллект такой как бот Libratus, созданный в университете Карнеги-Меллона. Именно Libratus недавно сумел уничтожить лучших в мире игроков в NLHE. Сегодня мы рассмотрим безумную раздачу в исполнении этого бота, чтобы извлечь из этого анализа несколько ценных уроков.

Добро пожаловать в мир машин

В основе стратегии Libratus лежит способность сокращать разрыв между ставками на вэлью и ставками в блеф, что существенно осложняет игрокам-людям задачу чтения спектра бота. Искусственный интеллект играет намного более сбалансированно, чем люди. Таким образом, людям зачастую сложно положить машину на более-менее узкий диапазон рук.

Ниже приведен пример уровня изощренности, который Libratus вносит в игру. В разговоре с Дугласом Полком Даниэль МакОлэй описывает сумасшедшую раздачу, которую он сыграл против искусственного интеллекта.

Бот имел 5♣ 3♣, в то время как у Даниэля были X♥ Y♥ (номинал карт не имеет значения в этой ситуации). Даниэль открылся в позиции, Libratus сыграл 3-бет, Даниэль поставил 4-бет и получил колл от бота вне позиции.

Уже на префлопе мы видим некую неинтуитивную игру в исполнении искусственного интеллекта. Большинство людей сфолдило бы эту руку на 4-бет или же поставило бы 5-бет в блеф. Колл 4-бета без позиции может считаться проигрышной игрой, если только игрок, сделавший его, не способен совершать какие-то творческие и продвинутые (а главное сбалансированные) мувы на будущих улицах. Однако Libratus был способен играть в таком ключе!

Флоп принес K♥ Q♥ J♣, Libratus сделал чек, и Даниэль также чекнул со своим флаш-дро. Терн закрыл потенциальное флаш-дро на доске. Libratus чекнул, и Даниеэль решил чекнуть бихайнд еще раз, дабы поставить боту ловушку.

На ривер лег бланк (что-то вроде 5♠), и Libratus сделал ставку со своей жалкой парой. Даниэль сделал небольшой рейз, чтобы он выглядел как блеф, и Libratus запушил, превратив свою пару в блеф. Даниэль сыграл колл и забрал банк.

То, что Libratus проиграл руку, не является главным. Линия, выбранная искусственным интеллектом была безумно маргинальной. Такую линию почти никогда не выберет человек, особенно выигрывающий игрок, понимающий, что своим пушем на ривере он изображает очень узкий диапазон, учитывая то, как пассивно проходила игра на флопе и терне.

Это важный момент. Идеально сбалансированный игрок может и будет показывать вам любые руки в любых ситуациях на оптимальным частотах. Обратите внимание, что баланс и оптимальность являются здесь ключевыми понятиями. Например, игроки-люди могу предпринимать действия, которые они характеризуют как "случайные". В действительности же, эти "случайные" действия будут довольно пристрастными. Мы, люди, еще не научились придавать нашим действиям полностью случайный характер.

Если вышеприведенная раздача кажется вам несколько непонятной и мудреной, то не беспокойтесь - в этом вы не одиноки. Лучшие профессионалы, играя против Libratus, ощущали то же самое, хотя на их счету были десятки миллионов сыгранных раздач в покере. Я говорю вам это лишь для того, чтобы показать, что людям невозможно достичь такого уровня совершенно сбалансированной непредсказуемости (случайности), которая заставляла бы других игроков угадывать (и терять деньги).

Мы должны взять небольшую паузу, чтобы действительно осознать, насколько все это сложно.

Например, Бобу было бы очень просто никогда не блефовать, поэтому его игра все время была бы абсолютно "честной" и предсказуемой. Для Боба одинаково просто будет и постоянно блефовать, поэтому он снова станет предсказуемым игроком, давая своим оппонентам возможность коллировать против его ставок со всеми своими блеф-кетчерами. В обоих случаях противник Боба, Алиса, будет знать, что ожидать от Боба, поэтому она сможет соответствующим образом скорректировать свою стратегию (фолдить много в первом сценарии и коллировать на чрезвычайно лузовом диапазоне во втором).

Бобу сложно найти нужный баланс между блефом и вэлью, поэтому у Алисы всегда будет простое решение против его действий. Любые отклонения Боба от сбалансированной игры делают его либо слишком "нечестным", либо чересчур "честным" игроком. Оба этих сценария запросто поддаются эксплуатации со стороны таких внимательных игроков, как Алиса.

Хорошие и плохие новости

Это ужасная новость для Боба, у которого нет ни времени, ни желания разрабатывать такую продуманную и сложную выигрышную стратегию. Что насчет Алисы? Оптимальная стратегия, которую так легко исполняет Libratus, вовсе не выглядит простой. Как Алиса может научиться этому? К счастью, она не должна.

Алиса не играет в покер против Libratus. Алиса также не играет в покер против лучших в мире игроков. Алиса играет против таких людей, как Боб, и порой против таких, как она сама. Все эти люди, за редким исключением, придерживаются Принципа Честности.

Именно об этом говорится во вступлении в книге Мэтью Джанды "Applications of No Limit Hold’em". Это вступление носит название "Записка о блеф-кетчинге" и по сути является предупреждением о том, что может случиться, если игрок будет игнорировать Принцип Честности, стараясь защищаться против ставок в соответствии с рекомендациями теории.

Это заявление предупреждает читателей, что попытка защитить себя от эксплуатации посредством блефа не обязательно является наиболее прибыльной опцией. Это особенно верно на низких и средних лимитах, где большинство игроков блефует не так часто, как им следовало бы.

Если Боб уже начал блефовать меньше, чем он должен, то каждый колл Алисы будет приносить ей убыток. Вообще не коллировать против Боба будет более выгодным для нее вариантом.

Конечно, никогда не коллируя крупные ставки Боба, Алиса предоставляет Бобу возможность увеличивать свою частоту блефа, тем самым открывая Бобу двери для своей эксплуатации. Именно в этом и заключается точка зрения Джанды как человека, который пытается решить покер: если Алиса перестает коллировать, Боб получает возможности для ее эксплуатации.

Само собой, контраргумент к вышесказанному состоит в том, что многие Бобы будут недостаточно хороши, чтобы понять это, поэтому они вряд ли смогут адаптироваться. Я согласен с этим. Боб - не Libratus, и слава богу за это!

Хотя большие фолды являются не самой привлекательной игрой, обычно они являются правильными. Те, кто способен делать такие фолды, как раз таки и являются игроками, которые способны двигаться вверх по лимитам.

Третья и заключительная часть данной серии статей будет опубликована на следующей неделе. В качестве дополнения к материалу этой статьи читайте: "3 теоретически грамотных колла, которых вам следует избегать на практике".

Поделиться статьей в соц сетях.

Комментарии