Rezultati studije pokazuju da se veštačka inteligencija ne sme ocenjivati samo prema tačnosti odgovora već i prema tome koliko su ti odgovori stabilni i logički utemeljeni. A to zahteva dubinsko razumevanje načina na koji postojeći modeli donose zaključke.
Veštačka inteligencija (AI) više nije samo tehnički alat – ona donosi odluke koje sve češće utiču na ljudske živote. Nova studija objavljena u februaru u Transaction on Machine Learning Research otkrila je ključne razlike između razmišljanja AI i ljudi: iako ona može pratiti naučene obrasce, ne razmišlja kao ljudi. Drugim rečima, pokazalo se da ima ozbiljne teškoće u nečemu što ljudima ide prilično dobro – u prepoznavanju analogija i generalizaciji.
To je loša vest za sve one koji AI vide kao moguću zamenu za ljudsko prosuđivanje u složenim situacijama, poput pravosuđa, medicine ili obrazovanja. Autori u uvodu navode da su veliki jezički modeli (LLM) pokazali dobre rezultate na brojnim testovima zaključivanja, uključujući one koji ispituju sposobnost razmišljanja pomoću analogija. „Međutim, postoji rasprava u kojoj meri ti modeli zaista koriste opšte apstraktno razmišljanje, a oslanjajuse na prečace ili druge nepouzdane procese, poput onih što previše zavise od sličnosti s podacima na kojima su trenirani”, tumače autori.
U novm istraživanju naučnici su istražili pouzdasnost sposobnosti zaključivanja putem analogije istaknute klase LLM – GPT ( Generative Pre-training Transformer) modela u tri domena: analogijama s nizovima slova, brojčanim matricama i u narativnim analogijama.
U svakoj su testirali ljude i GPT modele na varijacijama izvornih zadataka s analogijama – verzijama koje ispituju iste sposobnosti apstraktnog zaključivanja, ali su drukčije od zadataka u treninzima modela. Ideja je da sistem koji koristi pouzdano apstraktno razmišljanje ne bi trebalo da pokazuje značajan pad delotvornosti na tim varijacijama. No testovi su pokazali drugačije. „Kod jednostavnih analogija s nizovima slova otkrili smo da ljudi i dalje postižu visoke rezultate na obe testirane varijante, dok se uspešnost GPT modela naglo smanjuje. Taj uzorak je manje izražen kad se povećava složenost analoških zadataka jer i ljudi i GPT modeli tada postižu lošije rezultate i na izvornim i na varijantnim zadacima.
Kod brojčanih matrica pronašli smo sličan obrazac, ali samo kod jedne od dve testirane varijante. Na kraju, testirali smo pouzdanost ljudi i GPT modela na narativnim analogijama i otkrili da su, za razliku od ljudi, GPT modeli osetljivi na učinke redosleda odgovora i da su verovatno skloniji parafraziranju nego ljudi”, zaključuju autori.
Primeri iz studije uključivali su jednostavne nizove slova, recimo: ako niz abcd prelazi u abce, koji bi onda bio nastavak za niz ijkl? Većina ljudi odgovoriće ijkm – zamenjeno je posljednje slovo sledećim, pa se isti princip primenjuje i u novom slučju. U tom zadatku GPT-4 će odgovoriti ispravno. No ako je primjer abbcd → abcd, gde se uklanja ponovljeno slovo, i kad pitanje glasi: ijkkl → ?, ljudi će vrlo verovatno reći ijkl. Međutim, GPT-4 će tu često grešiti.
Autori ističu da su kod jednostavnih analogija s nizovima slova otkrili da ljudi i dalje postižu visoke rezultate na obe testirane varijante dok se uspešnost GPT modela naglo smanjuje. Taj uzorak bio je manje izražen kad se povećala složenost analoških zadataka jer su i ljudi i GPT modeli tada postizali lošije rezultate i na izvornim i na varijantnim zadacima. Kod brojčanih matrica naučnici su pronašli sličan obrazac. Problem nije u podacima, već u načinu na koji se koriste.
Većinu današnjih modela veštačke inteligencije trenira se na velikim količinama podataka. Što više informacija imaju, to bolje prepoznaju obrasce. No generalizacija – ono što ljudi intuitivno rade – zahteva više od ponavljanja uzoraka. Ljudi su u stanju da apstrahuju iz specifičnih obrazaca do opštih pravila, dok veliki jezički modeli nemaju tu sposobnost. Oni su dobri u prepoznavanju i povezivanju obrazaca, ali ne i u generalizizaciji.
Studija je, takođe, pokazala da su AI modeli osetljivi na tzv. učinak redosleda – značajno menjati zavisno od redoslijeda kojim se zadaci prezentuju. Kod ljudi taj učinak gotovo i ne postoji. AI je nadalje sklona parafraziranju – umesto da jasno odgovori na pitanje, često ga preformuliše, što dodatno otežava tumačenje odgovora i odluka. Ljudski mozak ne uči samo iz primera; on zna kad pravilo vredi, a kad ne. Primerice, kad sudija razmatra presedan u sudskom postupku, on zna da primeni raniju odluku čak i ako se konkretni detalji postupka razlikuju. To zahteva analoško razmišljanje – sposobnost da se razume kako se jedno pravilo može primeniti u drugačijem kontekstu. AI to ne može učiniti pouzdano. Studija je obelodanila da AI modeli pokazuju niži stepen takozvanog zero-shot učenja, odnosno sposobnosti da se nešto tačno zaključi bez poznavanja nekog ranijeg primera iz iste kategorije. Ako ne prepoznaje razliku između sličnog i istog, AI u zdravstvu može, na primer, predložiti pogrešan lek jer ne shvata da jedan simptom može imati potpuno različite uzroke u različitim kontekstima.
Zbog svega navedenog postoji stvarna opasnost da AI modeli, kad se koriste za analizu pravnih slučajeva, dijagnostiku u medicini ili procenu rizika u finansijama, donesu odluke koje na papiru deluju ispravno, a zapravo promašuju bit u stvarnim ualovima. U tim slučajevima AI ne greši zbog nedostatka znanja, već zbog pogrešnog razmišljanja. Rezultati studije pokazuju da se AI ne sme ocenjivati samo prema tačnosti odgovora već i prema tome koliko su ti odgovori stabilni i logički utemeljeni. A to zahteva dubinsko razumevanje načina na koji AI modeli donose zaključke.
(Ilustracija Freepik AI generated)
(Indeks)