ПОНАШАЋЕ СЕ КАО ЧОВЕК

Алат вештачке интелигенције ImageBinbd може довести до напретка у приступачности и стварању окружења мешовите стварности.

Компанија „Мета” смишља алат вештачке интелигенције (AI) под називом ImageBind који предвиђа везе између података сличне ономе како људи перципирају или замишљају окружење. Док генератори слика као што су Midjourney, Stable Diffusion и DALL-E 2 упарују речи са сликама, омогућујући генерисање визуелне сцене само на основу текстуалног описа, ImageBind ствара више опција и веће могућности.

Он може да повеже текст, слике,видео записе, аудио материјал, тродиментионалне (3D) материјале, податке о температури и податке о кретању. Специфично је да то све ради без потребе да се прво обучава за сваку могућност. Ово је рана фаза. На крају алат би могао да генерише сложена окружења од уноса једноставних елемената, као што су текстуални упит, слика или аудио снимак или нека комбинација сва три елемента.

ImageBind представља приближавање машинског учења људском учењу. На пример, ако стојите у стимулативном окружењу као што је прометна градска улица, ваш мозак (углавном несвесно) апсорбује призоре, звуке и друга сензорна искуства да би прикупио информације о аутомобилима и пешацима у пролазу, високим зградама, времену и још много тога. Људи и друге животиње су еволуирали да обрађују ове податке и имају генетску предност: преживљавање и преношење ДНK.

Реалне 3D сцене

Што сте свеснији свог окружења, то више можете да избегнете опасност. Затим можете да се прилагодите свом окружењу ради бољег преживљавања и напретка. Kако се рачунари приближавају опонашању мултисензорних веза животиња, они могу да користе те везе да генеришу потпуно остварене сцене засноване само на ограниченим деловима података.

Kоришћењем Midjourney можете подстаћи „пса да носи Гандалфову одећу док балансира на лопти за плажу”. Затим, можете добити релативно реалистичну фотографију ове бизарне сцене. Међутим, мултимодални алат за вештачку интелигенцију као што је ImageBind

може на крају да направи видео снимак пса са одговарајућим звуцима, укључујући детаљан приказ дневне собе у предграђу, температуру у просторији и прецизне локације пса и било кога другог у сцени.

„Ово ствара карактеристичне могућности за креирање анимација од статичних слика комбиновањем са аудио упутствима”, наводе компанијски истраживачи. „Kреатор би могао да упари слику са будилником и петлом који кукуриче. Затим би могао да користи звучни одзив за кукурикање да сегментира петла или звук аларма да сегментира сат и анимира обоје у видео секвенцу.”

Много тога би још могло да се уради са овом новом играчком. Све указује на једну од кључних амбиција „Мете”: виртуелна стварност (VR), мешовита стварност и метаверзум. Будуће слушалице моћи ће да конструишу потпуно реалне 3D сцене. Програмери виртуелних игара би можда могли да је искористе за већи део посла из свог процеса дизајна. Kреатори садржаја могли би да направе импресивне видео записе. Ти записи би могли да имају реалистичне звучне пејзаже и покрете само на основу текста, слике или аудио записа. Такође, лако је замислити алатку као што је ImageBind која отвара нова врата у простору приступачности. Алат би могао да генерише мултимедијалне описе у реалном времену да би помогао особама са оштећењем вида или слуха да боље сагледају своје непосредно окружење.

Ван својих граница

„У типичним системима вештачке интелигенције постоји специфично уграђивање (вектори бројева који могу представљати податке и њихове односе у машинском учењу) за сваки одговарајући модалитет”. ImageBind показује да је могуће створити заједнички простор за уградњу у више модалитета без потребе за обуком о подацима са сваком различитом комбинацијом модалитета. Ово је важно јер истраживачима није изводљиво да креирају скупове података са узорцима који садрже аудио податке и термалне податке с прометне градске улице или податке о дубини и текстуални опис приморске литице.

Компанија „Мета” сматра да ће се технологија на крају проширити ван својих тренутних шест „чула”. „Иако смо истражили шест модалитета у нашем тренутном истраживању, верујемо да ће увођење нових модалитета који повезују више чула попут додира, говора, мириса и сигнала fMRI мозга омогућити богатије моделе вештачке интелигенције усмерене на човека.” Заинтересовани програмери за истраживање новог AI модела могу ће приступити open-source коду ове компаније.

(PC press)

Visited 165 times, 1 visit(s) today