Научная статья с описанием достижения опубликована в журнале Science.
Техасский холдэм, или просто холдэм, — самая популярная на сегодняшний день разновидность покера. В ней участвуют шесть игроков.
Система искусственного интеллекта, которая сразилась с лучшими игроками планеты, носит название Pluribus. Это часть латинского выражения E pluribus unum, то есть «Из многих – единое». Программа была создана специалистами Университета Карнеги-Меллона в сотрудничестве с разработчиками компании Facebook.
В одном туре испытаний за карточным столом в каждой партии был Pluribus и пять человек. Всего в этом этапе эксперимента приняли участие 13 профессионалов, каждый из которых в своё время выиграл в покер более миллиона долларов. Компьютер сыграл с ними в общей сложности десять тысяч раздач и стал самым успешным из игроков.
В другой части исследования игра велась по схеме «пять копий Pluribus против человека». Зато каждый из живых соперников программы стоил пятерых. Это были Даррен Элиас (Darren Elias), рекордсмен по количеству наград в Мировом туре покера, и Крис Фергюсон (Chris Ferguson), победитель шести турниров Мировой серии покера. Мэтры сыграли с копиями искусственного интеллекта по пять тысяч партий каждый и в общей сложности уступили искусственному разуму.
«Бот не просто играл против профессионалов среднего уровня. Он играл с лучшими игроками в мире», – нескромно констатирует Элиас.
Но эта же особенность сближает происходящее за карточным столом с более серьёзными «играми», такими как бизнес, политика, война или противостояние спецслужб. Все они ведутся в условиях неполной информации о возможностях соперника, и противоборствующие стороны часто пытаются запутать и дезинформировать друг друга.
Это делает искусственный интеллект, хорошо играющий в покер, желанной целью как для разработчиков, так и для заказчиков.
Добавим, что предыдущие исследования ограничивались в основном случаем двух игроков, поскольку с ростом числа участников сложность игры резко возрастает.
Программы, рассчитанные на противостояние с одним соперником, ищут стратегию, которая приводит к равновесию Нэша. Это состояние, когда ни один из игроков не может получить преимущество, если он изменит стратегию, а соперник – нет.
Равновесие Нэша гарантирует машине, что она по крайней мере не проиграет. Если оба игрока придерживаются оптимальной стратегии, дело завершается ничьей. Но человек ошибается чаще компьютера, поэтому в конце концов проигрывает.
Если же за карточным столом более двух партнёров, картина радикально меняется. Равновесие Нэша уже не может гарантировать даже ничьей, и стремиться к нему бессмысленно. Искусственному интеллекту приходится вырабатывать иные стратегии. При этом перебор всех возможных вариантов по-прежнему остаётся непосильной задачей даже для самого мощного компьютера.
«Игра с шестью игроками, а не тет-а-тет, требует коренных изменений в том, как искусственный интеллект разрабатывает свою игровую стратегию, – объясняет первый автор исследования Ноам Браун (Noam Brown). – Мы в восторге от его эффективности и считаем, что некоторые игровые стратегии Pluribus даже могут изменить то, как профессионалы играют в эту игру».
Как оказалось, искусственный интеллект часто использовал некоторые приёмы, которых профессионалы избегают, считая их бессмысленными и неэффективными.
«Было невероятно увлекательно играть против покерного бота и видеть, какие стратегии он выбрал, – признаётся Майкл Гальяно (Michael Gagliano), в своё время выигравший в покер два миллиона долларов. – Было несколько трюков, к которым люди не прибегают вообще, особенно в отношении размера ставок. Боты и искусственный интеллект играют важную роль в эволюции покера, и было удивительно принять личное участие в этом большом шаге к будущему.»
Добавим, что в ходе игры программа вычисляла шесть стартовых стратегий и выбирала из них оптимальную. После первого раунда ставок она занималась более детальными вычислениями. Машина просчитывала ситуацию на несколько ходов вперёд и рассматривала пять стратегий, которые может использовать каждый игрок.
Как сообщается, особое внимание разработчики уделили тому, чтобы поведение искусственного интеллекта не выдавало, какие карты у него «на руках».
К слову, алгоритмы Pluribus оказались достаточно экономными. Если считать за единицу один час работы одного процессорного ядра, искусственный интеллект использовал 12400 таких единиц для разработки стратегии перед игрой. Во время самой игры он задействовал 28 ядер.
Для сравнения: система Libratus, в 2017 году впервые обыгравшая профессионалов в покер один на один, на разработку стратегии потратила 1,5 миллиона таких условных единиц, а во время игры загрузила работой 1400 ядер.
Оригинал earth-chronicles.ru