ZOV BUDUĆNOSTI

PONAŠAĆE SE KAO ČOVEK

163 pregleda
Ilustracija

Alat veštačke inteligencije ImageBinbd može dovesti do napretka u pristupačnosti i stvaranju okruženja mešovite stvarnosti.

Kompanija „Meta” smišlja alat veštačke inteligencije (AI) pod nazivom ImageBind koji predviđa veze između podataka slične onome kako ljudi percipiraju ili zamišljaju okruženje. Dok generatori slika kao što su Midjourney, Stable Diffusion iDALL-E 2 uparuju reči sa slikama, omogućujući generisanje vizuelne scene samo na osnovu tekstualnog opisa, ImageBindstvara više opcija i veće mogućnosti.

On može da poveže tekst, slike,video zapise, audio materijal, trodimentionalne (3D) materijale, podatke o temperaturi i podatke o kretanju. Specifično je da to sve radi bez potrebe da se prvo obučava za svaku mogućnost. Ovo je rana faza. Na kraju alat bi mogao da generiše složena okruženja od unosa jednostavnih elemenata, kao što su tekstualni upit, slika ili audio snimak ili neka kombinacija sva tri elementa.

ImageBindpredstavlja približavanje mašinskog učenja ljudskom učenju. Na primer, ako stojite u stimulativnom okruženju kao što je prometna gradska ulica, vaš mozak (uglavnom nesvesno) apsorbuje prizore, zvuke i druga senzorna iskustva da bi prikupio informacije o automobilima i pešacima u prolazu, visokim zgradama, vremenu i još mnogo toga.Ljudi i druge životinje su evoluirali da obrađuju ove podatke i imaju genetsku prednost: preživljavanje i prenošenje DNK.

Realne 3D scene

Što ste svesniji svog okruženja, to više možete da izbegnete opasnost. Zatim možete da se prilagodite svom okruženju radi boljeg preživljavanja i napretka. Kako se računari približavaju oponašanju multisenzornih veza životinja, oni mogu da koriste te veze da generišu potpuno ostvarene scene zasnovane samo na ograničenim delovima podataka.

Korišćenjem Midjourneymožete podstaći „psa da nosi Gandalfovu odeću dok balansira na lopti za plažu”. Zatim, možete dobiti relativno realističnu fotografiju ove bizarne scene. Međutim, multimodalni alat za veštačku inteligenciju kao što je ImageBind

može na kraju da napravi video snimak psa sa odgovarajućim zvucima, uključujući detaljan prikaz dnevne sobe u predgrađu, temperaturu u prostoriji i precizne lokacije psa i bilo koga drugog u sceni.

„Ovo stvara karakteristične mogućnosti za kreiranje animacija od statičnih slika kombinovanjem sa audio uputstvima, navode kompanijski istraživači. „Kreator bi mogao da upari sliku sa budilnikom i petlom koji kukuriče. Zatim bi mogao da koristi zvučni odziv za kukurikanje da segmentira petla ili zvuk alarma da segmentira sat i animira oboje u video sekvencu.

Mnogo toga bi još moglo da se uradi sa ovom novom igračkom. Sve ukazuje na jednu od ključnih ambicija Mete: virtuelna stvarnost (VR), mešovita stvarnost i metaverzum. Buduće slušalice moći će da konstruišu potpuno realne 3D scene. Programeri virtuelnih igara bi možda mogli da je iskoriste za veći deo posla iz svog procesa dizajna. Kreatori sadržaja mogli bi da naprave impresivne video zapise. Ti zapisi bi mogli da imaju realistične zvučne pejzaže i pokrete samo na osnovu teksta, slike ili audio zapisa. Takođe, lako je zamisliti alatku kao što je ImageBind koja otvara nova vrata u prostoru pristupačnosti. Alat bi mogao da generiše multimedijalne opise u realnom vremenu da bi pomogao osobama sa oštećenjem vida ili sluha da bolje sagledaju svoje neposredno okruženje.

Van svojih granica

„U tipičnim sistemima veštačke inteligencije postoji specifično ugrađivanje (vektori brojeva koji mogu predstavljati podatke i njihove odnose u mašinskom učenju) za svaki odgovarajući modalitet. ImageBind pokazuje da je moguće stvoriti zajednički prostor za ugradnju u više modaliteta bez potrebe za obukom o podacima sa svakom različitom kombinacijom modaliteta. Ovo je važno jer istraživačima nije izvodljivo da kreiraju skupove podataka sa uzorcima koji sadrže audio podatke i termalne podatke s prometne gradske ulice ili podatke o dubini i tekstualni opis primorske litice.

Kompanija „Meta” smatra da će se tehnologija na kraju proširiti van svojih trenutnih šest „čula. „Iako smo istražili šest modaliteta u našem trenutnom istraživanju, verujemo da će uvođenje novih modaliteta koji povezuju više čula poput dodira, govora, mirisa i signala fMRI mozga omogućiti bogatije modele veštačke inteligencije usmerene na čoveka.” Zainteresovani programeri za istraživanje novog AI modela mogu će pristupiti open-source kodu ove kompanije.

(PC press)

O autoru

administrator

Ostavite komentar