АЛГОРИТАМ ЗА ПОКЕР

Igrajući Texas hold’em poker protiv nekih od najboljih igrača sveta, program veštačke inteligencije Pluribus odneo je ubedljivu pobedu

Američki naučnici sa Univerziteta Karnegi Melon u Pitsburgu nedavno su u časopisu Science objavili studiju o svom kompjuterskom programu Pluribus koji pobeđuje u pokeru čak i kada igra više od dva igrača.

Tako je Pluribus, igrajući najpoznatiji onlajn poker, Texas hold’em, osvojio virtuelnih 48.000 dolara. Prethodno je pobedio petoro elitnih igrača koji su svojevoljno pristali da se takmiče sa kompjuterom. Da je reč o pravim profesionalcima u pokeru potvrđuje i podatak da je svaki od njih osvojio preko milion dolara u ovoj igri.

„Ovo je prvi put da je veštačka inteligencija postigla nadljudski učinak u igri u kojoj učestvuje više igrača”, objašnjava prof. Tomas Sendholm, koji je, zajedno sa svojim doktorandom Noamom Braunom razvio i usavršio program Pluribus.

Algoritam koji su napravili ima raznoliku primenu – od bankovnih ulaganja i strategija za pregovaranje u ratnim okolnostima do pomoći prilikom donošenja odluka o tome koliko para američki politički kandidati treba da troše na reklame u medijima

„Sposobnost da pobedi petoro igrača u isto vreme u tako složenoj igri blefa i skrivenih informacija otvorila je nove mogućnosti za veštačku inteligenciju, koja bi sada mogla da se uhvati u koštac sa stvarnim problemima u svetu”, dodaje prof. Sendholm.

On objašnjava da algoritam koji su napravili ima raznoliku primenu – od bankovnih ulaganja i strategija za pregovaranje u ratnim okolnostima do pomoći prilikom donošenja odluka o tome koliko para američki politički kandidati treba da troše na reklame u medijima u različitim saveznim državama. Sendholm kaže i da su u toku istraživanja u kojima se koristi algoritam za planiranje tretmana koji će precizno odrediti populacije imunih ćelija u borbi protiv specifičnih bolesti.

Tomas Sendgolm (Karnegi Melon)

Ali, kako je Pluribus uopšte naučio da igra poker? Prof. Sendholm objašnjava da je usvojio neke „iznenađujuće i vidno neljudske strategije” koje su njegovi protivnici brže-bolje počeli da primenjuju. Na primer, Pluribus koristi veoma različite veličine uloga – nešto što ljudski igrači naširoko izbegavaju. Ljudi izbegavaju i tzv. donk betting, odnosno da završavaju prvi krug klađenja sa pozivom i otvaraju sledeći sa opkladom, dok je Pluribus brzo progrlio ovu taktiku.

Profesionalci kažu da je donk betting loš i slab potez, koji retko kad ima smisla. Za Pluribus je to drugačije: „Ja to ne razumem, ali Pluribus razume”, kaže prof. Sendholm. Među Pluribus-ovim protivnicima bila su i dva iskusna pokeraša, Deren Alajas, koji ima najviše World Poker Tour nagrada, i Kris Ferguson, koji je osvojio šest turnira World Series of Poker.

Istraživači, ipak, navode da ljudska inteligencija ima višeslojne kvalitete i da nije ograničena usko određenim zadacima

„Pluribus je veoma težak protivnik. Stvarno je teško oboriti ga”, kaže Ferguson. Inače, program pokreću dva Intel Hasvell procesora, a on koristi skromnih 128 GB tokom igre. Kada igra protiv sebe samog, potrebno mu je oko 20 sekundi za jednu ruku – što je dva puta brže od tipičnog profesionalca, kažu članovi tima iz Pitsburga.

„U igri koja će vas najčešće nagraditi kada ispoljavate mentalnu disciplinu, fokusiranost i doslednost, i svakako vas kažnjavati kada vam nedostaju ove osobine, takmičiti se satima protiv bota koji očigledno ne mora da brine o ovim nedostacima je naporan zadatak“, kaže Šon Ruane, jedan od igrača koji je izgubio od Pluribus-a.

Istraživači, ipak, navode da ljudska inteligencija ima višeslojne kvalitete i da nije ograničena usko određenim zadacima.

(Izvor CPN)