Pradinis
Naujienos
Naujas algoritmas atranda ir aptinka objektus visiškai be žmonių

Naujas algoritmas atranda ir aptinka objektus visiškai be žmonių

Mes gyvename informaciniame pasaulyje, kur kasdien į mus plūsta daugybė duomenų. Ženklinti duomenis gali būti sudėtinga. Tai pagrindinis kompiuterinių regos modelių pragyvenimo šaltinis; be jo jiems būtų labai sunku nustatyti objektus, žmones ir kitas esmines vaizdo charakteristikas. Tačiau vos valandai pažymėtų ir paženklintų duomenų paruošti gali prireikti 800 valandų žmogaus laiko. Mūsų itin tikslus pasaulio supratimas vystosi, nes mašinos gali geriau suvokti ir sąveikauti su mus supančia aplinka. Tačiau joms reikia daugiau pagalbos.

MIT Kompiuterių mokslo ir dirbtinio intelekto laboratorijos (CSAIL), "Microsoft" ir Kornelio universiteto mokslininkai pabandė išspręsti šią regos modelius kamuojančią problemą sukurdami "STEGO" - algoritmą, galintį bendrai atrasti ir segmentuoti objektus be jokių žmogaus etikečių iki pat pikselio.

STEGO mokosi vadinamojo "semantinio segmentavimo" - tai išgalvotas procesas, kai kiekvienam vaizdo pikseliui priskiriama etiketė. Semantinis segmentavimas yra būtinas šiuolaikinėms kompiuterinės regos sistemoms, nes atspaudai gali būti perkrauti objektais. Dar didesnis iššūkis yra tai, kad šie objektai ne visada telpa į tiesiogines dėžutes; algoritmai paprastai geriau veikia atskiriems "daiktams", tokiems kaip žmonės ir automobiliai, o ne "daiktams", tokiems kaip augmenija, dangus ir bulvių košė.

Ankstesnė sistema niuansuotą parke žaidžiančio šuns sceną gali suvokti tiesiog kaip šunį, tačiau STEGO, priskirdama kiekvienam vaizdo pikseliui etiketę, gali suskaidyti vaizdą į pagrindines sudedamąsias dalis: šunį, dangų, žolę ir šeimininką.

Priskirti kiekvienam pasaulio pikseliui etiketę yra ambicinga, ypač be jokio grįžtamojo ryšio iš žmonių. Dauguma algoritmų šiandien žinias gauna iš krūvos paženklintų duomenų, kurių šaltinis gali užtrukti išsamias žmogaus valandas.

Tik įsivaizduokite, kokį jaudulį sukeltų kiekvieno 100 000 vaizdų pikselio žymėjimas etiketėmis! Norėdamas atrasti šiuos objektus be žmogaus naudingų nurodymų, STEGO ieško panašių dalykų visame duomenų rinkinyje. Tuomet jis susieja šiuos panašius objektus, kad sudarytų nuoseklų pasaulio vaizdą visuose vaizduose, iš kurių mokosi.

Pasaulio matymas

Mašinos, galinčios "matyti", yra labai svarbios įvairioms naujoms ir atsirandančioms technologijoms, pavyzdžiui, savavaldžiams automobiliams ir prognoziniam modeliavimui medicinos diagnostikoje. Kadangi STEGO gali mokytis be etikečių, jis gali aptikti objektus daugelyje skirtingų sričių, net ir tuos, kurių žmonės dar iki galo nesupranta.

"Jei žiūrite į onkologines nuotraukas, planetų paviršių ar didelės skiriamosios gebos biologinius vaizdus, be ekspertinių žinių sunku žinoti, kokių objektų ieškoti. Naujose srityse kartais net žmonės ekspertai nežino, kokie turėtų būti tinkami objektai", - sako Markas Hamiltonas, Masačusetso technologijos instituto (MIT) elektros inžinerijos ir kompiuterių mokslo doktorantas, MIT CSAIL mokslinių tyrimų filialo darbuotojas, "Microsoft" programinės įrangos inžinierius ir pagrindinis naujo straipsnio apie STEGO autorius. "Tokiose situacijose, kai norima sukurti metodą, kuris veiktų ties mokslo ribomis, negalima pasikliauti, kad žmonės tai supras anksčiau nei mašinos."

STEGO buvo išbandytas daugelyje vaizdinių sričių, apimančių bendrus vaizdus, vairavimo vaizdus ir didelio aukščio aerofotonuotraukas. Kiekvienoje srityje STEGO sugebėjo atpažinti ir suskirstyti atitinkamus objektus, kurie labai atitiko žmogaus vertinimus. Įvairiausias STEGO etalonas buvo COCO-Stuff duomenų rinkinys, kurį sudaro įvairūs vaizdai iš viso pasaulio - nuo patalpų scenų iki sportuojančių žmonių, medžių ir karvių.

Daugeliu atvejų ankstesnė moderniausia sistema galėjo užfiksuoti mažos skiriamosios gebos scenos esmę, tačiau sunkiai įveikdavo smulkias detales: Žmogus buvo dėmė, motociklas buvo užfiksuotas kaip žmogus, o žąsų ji negalėjo atpažinti. Tose pačiose scenose STEGO padvigubino ankstesnių sistemų našumą ir atrado tokias sąvokas kaip gyvūnai, pastatai, žmonės, baldai ir daugelį kitų.

STEGO ne tik padvigubino ankstesnių sistemų našumą COCO-Stuff etalone, bet ir padarė panašų šuolį į priekį kitose vaizdo srityse. Pritaikyta bepiločių automobilių duomenų rinkiniams, STEGO sėkmingai atskyrė kelius, žmones ir gatvių ženklus daug didesne raiška ir smulkumu nei ankstesnės sistemos. Iš kosmoso gautuose vaizduose sistema kiekvieną kvadratinę Žemės paviršiaus pėdą suskirstė į kelius, augmeniją ir pastatus.

Pikselių sujungimas

STEGO, kuris reiškia "Self-supervised Transformer with Energy-based Graph Optimization" ("Savikontrolės transformatorius su energija pagrįstu grafikų optimizavimu"), remiasi DINO algoritmu, kuris pažino pasaulį iš 14 milijonų vaizdų iš "ImageNet" duomenų bazės. STEGO tobulina DINO pagrindą per mokymosi procesą, kuris imituoja mūsų pačių būdą sujungti pasaulio gabalėlius, kad jie įgytų prasmę.

Pavyzdžiui, galite peržiūrėti du parke vaikštančių šunų vaizdus. Nors tai skirtingi šunys su skirtingais šeimininkais, esantys skirtinguose parkuose, STEGO gali pasakyti (be žmonių), kaip kiekvienos scenos objektai susiję vienas su kitu. Autoriai netgi ištyrė STEGO mintis, kad pamatytų, kuo panašus kiekvienas mažas, rudas, pūkuotas daiktas paveikslėliuose ir kiti bendri objektai, pavyzdžiui, žolė ir žmonės. Jungdamas objektus įvairiuose vaizduose, STEGO susikuria nuoseklų žodžio vaizdą.

"Idėja ta, kad šie algoritmai gali rasti nuoseklias grupes iš esmės automatizuotai, todėl mums patiems to daryti nereikia", - sako Hamiltonas. "Galbūt prireiktų ne vienerių metų, kad suprastume tokius sudėtingus vaizdinių duomenų rinkinius kaip biologiniai vaizdai, tačiau jei galime išvengti 1000 valandų, praleistų šukuojant duomenis ir juos ženklinant, galime rasti ir atrasti naujos informacijos, kurią galbūt būtume praleidę. Tikimės, kad tai padės mums geriau suprasti vizualųjį pasaulį empiriškai pagrįstu būdu."

Žvelgiant į ateitį

Nepaisant patobulinimų, STEGO vis dar susiduria su tam tikrais iššūkiais. Vienas iš jų yra tas, kad etiketės gali būti savavališkos. Pavyzdžiui, COCO-Stuff duomenų rinkinio pavadinimuose išskiriami "maisto daiktai", pavyzdžiui, bananai ir vištienos sparneliai, ir "maisto produktai", pavyzdžiui, kruopos ir makaronai. STEGO nemato didelio skirtumo. Kitais atvejais STEGO suklaidino keistoki vaizdai, pavyzdžiui, ant telefono aparato sėdintis bananas, kai aparatas buvo pažymėtas kaip "maisto produktas", o ne kaip "žaliava".

Būsimame darbe jie planuoja ištirti, kaip suteikti STEGO šiek tiek daugiau lankstumo, o ne tik priskirti pikselius fiksuotam klasių skaičiui, nes realiame pasaulyje daiktai kartais gali būti keli dalykai vienu metu (pavyzdžiui, "maistas", "augalas" ir "vaisius"). Autoriai tikisi, kad tai suteiks algoritmui erdvės neapibrėžtumui, kompromisams ir abstraktesniam mąstymui.

"Sukurdami bendrą priemonę potencialiai sudėtingiems duomenų rinkiniams suprasti, tikimės, kad tokio tipo algoritmas gali automatizuoti mokslinį objektų atradimo iš vaizdų procesą. Yra daug įvairių sričių, kuriose žmogaus atliekamas ženklinimas būtų pernelyg brangus arba žmonės paprasčiausiai net nežino konkrečios struktūros, pavyzdžiui, tam tikrose biologinėse ir astrofizikos srityse. Tikimės, kad būsimi darbai leis pritaikyti šią funkciją platesniam duomenų rinkinių spektrui. Kadangi nereikia jokių žmogiškųjų etikečių, dabar galime pradėti plačiau taikyti ML priemones", - sako Hamiltonas.

"STEGO yra paprastas, elegantiškas ir labai veiksmingas. Manau, kad neprižiūrimas segmentavimas yra vaizdų supratimo pažangos etalonas ir sudėtinga problema. Mokslininkų bendruomenė padarė didžiulę pažangą nekontroliuojamo vaizdo supratimo srityje, pritaikiusi transformatorių architektūras", - sako Oksfordo universiteto inžinerijos mokslų departamento kompiuterinės regos ir mašininio mokymosi profesorius ir vienas iš Vizualinės geometrijos grupės vadovų Andrea Vedaldi. "Šis tyrimas yra bene tiesiausias ir veiksmingiausias šios pažangos neprižiūrimo segmentavimo srityje įrodymas."