Aasta arvutinägemuses - 2. osa 4-st

- Teine osa: segmenteerimine, superresolutsioon / värvuse muutmine / stiili ülekandmine, tegevuse tuvastamine

Märkus. Kui soovite oma kodus roboteid and ja soovite, et need juhtuksid pigem varem kui hiljem, siis palun viige meie lühike küsitlus läbi. Teie vastused aitavad suunata meie simuleeritud keskkonnauuringuid ja robootikaprojekte

Andke 3 minutit oma ajast: https://forms.gle/hPiP1p3sJ734Hzk19
Tänan teid lahkelt!
Järgnev tükk on võetud hiljuti meie uurimisrühma koostatud väljaandest, mis on seotud arvutinägemise valdkonnaga. Esimene ja teine ​​osa on praegu saadaval meie veebisaidi kaudu, ülejäänud osad (kolm ja neli) vabastatakse lähitulevikus.

Täielik väljaanne on lähinädalatel tasuta saadaval meie veebisaidil, osad 1–2 on nüüd saadaval aadressil: www.themtank.org

Julgustame lugejaid teost vaatama oma veebisaidi kaudu, kuna me lisame manustatud sisu ja hõlpsaid navigeerimisfunktsioone, et muuta aruanne võimalikult dünaamiliseks. Meie veebisait ei too meeskonnale tulu ja eesmärk on lihtsalt muuta materjalid lugejate jaoks võimalikult köitvaks ja intuitiivseks. Igasugust tagasisidet seal esitatud esitluse kohta tervitame me südamest!

Palun jälgige, jagage ja toetage meie tööd teie eelistatud kanalite kaudu (ja plaksutage oma südamele!). Kui teil on küsimusi või pöörduge tulevaste tööde võimaliku panustamise poole, võtke julgelt ühendust toimetajatega: info@themtank.com

Segmenteerimine

Arvuti nägemise keskne osa on segmenteerimisprotsess, mis jagab terved pildid pikselirühmadesse, mida saab seejärel märgistada ja klassifitseerida. Veelgi enam, semantiline segmenteerimine läheb kaugemale, püüdes semantiliselt mõista iga piksli rolli pildil, nt. kas see on kass, auto või mõni muu klass? Eksemplaride segmenteerimine viib selle veelgi kaugemale, segmenteerides klasside erinevad eksemplarid nt. kolme erineva koera märgistamine kolme erineva värviga. See on üks arvuti Visioni rakendustest, mida praegu kasutatakse autonoomse sõidutehnoloogia komplektides.

Võib-olla on mõned parimatest parendustest segmenteerimise valdkonnas tänu FAIR-ile, kes jätkavad oma DeepMaski töö arendamist alates 2015. aastast [46]. DeepMask loob segmenteerimise algvormina objektide jaoks töötlemata „maske”. Fair tutvustas 2016. aastal SharpMaski [47], mis täpsustab DeepMaski pakutavaid „maske”, parandades detailide kadu ja parandades semantilist segmenteerimist. Lisaks sellele tuvastab MultiPathNet [48] iga maskiga piiritletud objektid.

„Objekti üldise kuju jäädvustamiseks peab teil olema kõrgetasemeline arusaam sellest, mida te vaatate (DeepMask), kuid selleks, et täpselt asetada piirid, peate madalama taseme funktsioonidele tagasi vaatama, kuni piksliteni ( SharpMask). ”- Piotri dollar, 2016. [49]
Joonis 6: FAIR-meetodite demonstreerimine töös
Märkus. Ülaltoodud pildid näitavad FAIR-i kasutatavaid segmentimisvõtteid. Nende hulka kuuluvad DeepMaski, SharpMaski ja MultiPathNeti tehnikate rakendamine, mida rakendatakse selles järjekorras. See protsess võimaldab täpset segmenteerimist ja klassifitseerimist erinevates stseenides. Allikas: Dollar (2016) [50]

Videopaljundusvõrgud [51] üritavad luua lihtsa mudeli, et levitada täpsed esimeses kaadris määratud objektimaskid kogu video jada jooksul koos mõne lisateabega.

2016. aastal töötasid teadlased välja alternatiivsete võrgukonfiguratsioonide leidmise, et lahendada eespool nimetatud ulatuse ja lokaliseerimisega seotud probleemid. DeepLab [52] on üks selle näide, mille abil saavutatakse semantilise pildi segmentimise ülesannete jaoks julgustavaid tulemusi. Khoreva jt. (2016) [53] tuginevad Deeplabi varasemale tööle (umbes 2015) ja pakuvad välja nõrgalt juhendatava koolitusmeetodi, mis annab võrreldavad tulemused täielikult juhendatavate võrkudega.

Computer Vision täpsustas veelgi kasuliku teabe lähenemisviisi võrgus jagamist otspunktide võrkude abil, mis vähendab mitme liigitussuunaga alamülesande arvutusnõudeid. Kaks peamist seda lähenemisviisi kasutavat dokumenti on:

  • 100 kihti Tiramisu [54] on täielikult konvolutsiooniline DenseNet, mis ühendab edasi kõik kihid iga teise kihiga. Samuti saavutab see SOTA mitmel võrdlusalusel, vähem parameetrite ja väljaõppega / töötlemisega andmekogumitel.
  • Täielikult konvolutsiooniline astmete teadlik semantiline segmenteerimine [55] teostab esinemismaski ennustamise ja klassifitseerimise ühiselt (kaks alaülesannet).
    COCO segmenteerimise väljakutse võitja MSRA. 37,3% AP.
    9,1% absoluutne hüpe MSRAVC-st 2015. aastal COCO väljakutse osas.

Kuigi reaalajas semantilise segmentimise jaoks mõeldud DNN-i arhitektuur ENet [56] ei kuulu sellesse kategooriasse, näitab see arvutuskulude vähendamise ja mobiilsetele seadmetele parema juurdepääsu andmise ärilisi eeliseid.

Meie töö soovib võimalikult suures osas neid edusamme seostada konkreetsete avalike rakendustega. Seda silmas pidades sisaldab alljärgnev mõnda segmenteerimise kõige huvitavamat tervishoiualast rakendust 2016. aastal;
  • Kolonoskoopia piltide endoluminaalse stseeni segmenteerimise võrdlusalus [57]
  • 3D täielikult konvolutsioonilised võrgud subkortikaalse segmenteerimise jaoks MRT-s: suuremahuline uuring [58]
  • Pooljuhendatud õpe denoiseerivate automaatkoodrite abil ajukahjustuse tuvastamiseks ja segmenteerimiseks [59]
  • 3D-ultraheli kujutise segmenteerimine: uuring [60]
  • Täielikult konvolutsioonne neuronvõrgustikul põhinev struktureeritud ennustusmeetod võrkkesta segmenteerimise suunas [61]
  • 3-D konvolutsioonne närvivõrk glioblastoomi segmenteerimiseks [62]

Üks meie lemmik kvaasimeditsiinilisi segmenteerimisrakendusi on FusionNet [63] - sügav täielikult jääv konvolutsioonneuraalvõrk kujutise segmenteerimiseks konsoomikas [64], mis on võrdluseks SOTA elektronmikroskoopia (EM) segmenteerimismeetoditega.

Üliresolutsioon, stiilivahetus ja värvimine

Mitte kõik Computer Visioni uuringud ei laienda masinate pseudokognitiivseid võimeid ja sageli võimaldavad närvivõrkude ja muude ML-i võtete võltsitud paindumatus kasutada paljusid muid uudseid rakendusi, mis levivad avalikku ruumi. Eelmise aasta edusammud superresolutsioonis, stiili ülekandmisel ja värvimisel hõivasid meie jaoks selle ruumi.

Üliresolutsioon tähendab kõrge eraldusvõimega pildi hindamise protsessi madala eraldusvõimega vastaspoolel ning ka kujutise omaduste ennustamist erineva suurendusega - midagi, mida inimese aju suudab peaaegu vaevata teha. Algselt viidi superresolutsioon läbi lihtsate meetoditega, nagu bicubic-interpolatsioon ja lähimad naabrid. Kommertsrakenduste osas on valdkonna teadusuuringuid ajendanud soov ületada madala eraldusvõimega kitsendused, mis tulenevad allikakvaliteedist ja CSI Miami stiilis piltide täiustamise realiseerimisest. Siin on mõned aasta edusammud ja nende võimalik mõju:

  • Neural Enhance [65] on Alex J. Champandardi ajulaps ja ühendab nelja erineva uurimistöö lähenemisviise, et saavutada selle superresolutsioonimeetod.

Kahel tähelepanuväärsel juhul prooviti 2016. aastal reaalajas video superresolutsiooni; [66], [67]

  • RAISR: Google'i kiire ja täpne pildi superresolutsioon [68] väldib närvivõrgu lähenemisviiside kulukaid mälu- ja kiirusnõudeid, koolitades madala eraldusvõimega ja kõrge eraldusvõimega pildipaaridega filtreid. RAISR kui õppepõhine raamistik on kaks suurusjärku kiirem kui konkureerivad algoritmid ja sellel on närvivõrgul põhinevate lähenemisviisidega võrreldes minimaalsed mälunõuded. Seetõttu saab ülitäpsust laiendada ka isiklikele seadmetele. Siin on saadaval uuringute ajaveeb. [69]
Joonis 7: Üliresolutsiooniga SRGAN-i näide
Märkus: vasakult paremale: bikubiline interpolatsioon (teravustamisel objektiivselt halvim objektiiv), sügav jäävvõrk, optimeeritud MSE jaoks, sügav generatiivne võistlev võistlusvõrk, mis on optimeeritud inimese taju suhtes tundlikuma kadu jaoks, originaalne suure eraldusvõimega (HR) pilt. Vastav maksimaalne signaali ja müra suhe (PSNR) ja struktuuriline sarnasus (SSIM) on näidatud kahes sulgus. [4 x suurendamine] Lugeja võib soovida kahe keskmise pildi (SRResNet ja SRGAN) sisse suumimist, et näha erinevust pildi sujuvuse ja realistlikumate peente detailide vahel.
Allikas: Ledig jt. (2017) [70]

Generatiivsete võistlevivõrkude (GAN) kasutamine esindab praegust SOTA-d superresolutsioonina:

  • SRGAN [71] pakub fotoreaalseid tekstuure tugevalt alamproovitud piltidelt avalikes võrdlusalustes, kasutades diskrimineerimisvõrku, mis on koolitatud eristama superresolutsiooniga ja originaalseid fotorealistlikke pilte.

Kvalitatiivselt toimib SRGAN kõige paremini, ehkki SRResNet toimib kõige paremini tipp-signaali-müra suhte (PSNR) mõõdikutega, kuid SRGAN saab peenema tekstuuri üksikasjad ja saavutab parima keskmise arvamuse skoori (MOS). „Meile teadaolevalt on see esimene raamistik, mis võimaldab järeldada fotoreaalseid looduspilte 4-kordse kalibreerimisteguri korral.” [72] Kõigi eelnevate lähenemisviiside abil ei õnnestu peenemate tekstuuridetailide abil taastada suuri kallutamistegureid.

  • Amortiseeritud MAPi eeldus pildi ülisuure eraldusvõime jaoks [73] pakub välja meetodi maksimaalse posteriori (MAP) järelduse arvutamiseks konvolutsioonneuraalvõrgu abil. Kuid nende uurimistöös on esitatud kolm optimeerimise lähenemisviisi, mis kõik võimaldavad GAN-i reaalajas pildiandmetel märkimisväärselt paremini.
Joonis 8: stiiliülekanne Nikulinilt ja Novakilt
Märkus. Erinevate stiilide ülekandmine kassi fotole (vasakul vasakul).
Allikas: Nikulin & Novak (2016)

Kahtlemata sarnaneb Style Transfer neurovõrkude uudse kasutamisega, mis on tunginud avalikku valdkonda, eriti eelmise aasta Facebooki integratsioonide ja selliste ettevõtete kaudu nagu Prisma [74] ja Artomatix [75]. Stiiliülekanne on vanem tehnika, kuid muudeti neuraalvõrkudeks 2015. aastal, avaldades kunstilise stiili neuralgialgoritmi [76]. Sellest ajast alates on Nikulin ja Novak [77] laiendanud stiiliülekande kontseptsiooni ning rakendanud seda ka videoteenuses [78], nagu ka arvuti visioonis levinud areng.

Joonis 9: Stiiliülekande täiendavad näited
Märkus. Ülemine rida (vasakult paremale) tähistab kunstilist stiili, mis kantakse üle esimeses veerus kuvatavatele originaalkujutistele (Naine, Kuldse värava sild ja Heinamaa keskkond). Tingimusliku eksemplari normaliseerimise abil saab ühe stiili ülekandevõrk korraga hõivata 32 stiili, millest siin kuvatakse viis. Aluspaberi lisas on saadaval täielik piltide komplekt. Seda tööd näidatakse rahvusvahelisel õppeesinduste konverentsil (ICLR) 2017.
Allikas: Dumoulin jt. (2017, lk 2) [79]

Stiiliülekanne teemana on visuaalselt üsna intuitiivne; tehke pilt ja kujutage seda ette teistsuguse pildi stiililiste tunnustega. Näiteks kuulsa maali või kunstniku stiilis. Sel aastal andis Facebook välja Caffe2Go, [80] nende sügava õppesüsteemi, mis integreerub mobiilsetesse seadmetesse. Google andis välja ka huvitava töö, mille eesmärk oli ühendada mitu stiili, et luua täiesti ainulaadseid pildistiile: teadusuuringute ajaveeb [81] ja täispaber [82].

Lisaks mobiilsetele integratsioonidele on stiiliülekandel rakendusi ka mänguvarade loomisel. Meie meeskonna liikmed nägid hiljuti Artomatixi asutaja ja tehnilise juhi Eric Risseri ettekannet, kus arutati tehnika uudset rakendust mängude sisu genereerimiseks (tekstuuri mutatsioon jne) ja vähendavad dramaatiliselt tavalise tekstuurikunstniku tööd. .

Värvimine on ühevärviliste piltide muutmine uuteks täisvärvilisteks versioonideks. Algselt tegid seda inimesed käsitsi, kes valisid vaevata värvid, et kujutada iga pildi konkreetseid piksleid. 2016. aastal sai selle protsessi automatiseerida, säilitades samal ajal inimkeskse värvimisprotsessi näitava realismi välimuse. Kuigi inimesed ei pruugi täpselt kujutada antud stseeni tegelikke värve, võimaldavad nende reaalainete teadmised kasutada värve viisil, mis on kooskõlas kujutisega ja teisel inimesel, kes seda pilti vaatab.

Värvimisprotsess on huvitav selle poolest, et võrk määrab kõige tõenäolisema värvitooni piltidele, tuginedes arusaamisele objekti asukohast, tekstuuridest ja keskkonnast, nt. saab teada, et nahk on roosakas ja taevas sinakas.

Kolm aasta kõige mõjukamat teost on meie arvates järgmised:
  • Zhang jt. valmistas meetodi, mis suutis 32% -l uuringust inimesi edukalt lollitada. Nende metoodika on võrreldav Turingi värvimise testiga. [83]
  • Larsson jt. [84] automatiseerib nende kujutise värvimissüsteemi täielikult, kasutades histogrammi jaoks süvaõpet.
  • Lõpuks demonstreerivad Lizuka, Simo-Serra ja Ishikawa [85] värvimismudelit, mis põhineb ka CNN-del. Teos edestas olemasolevat SOTA-d, me [meeskond] tunneme, nagu oleks see töö ka kvalitatiivselt parim, tundudes kõige realistlikum. Joonisel 10 on toodud võrdlused, kuid pilt on tehtud Lizuka et al.
Joonis 10: Värvitusuuringute võrdlus
Märkus. Ülalt alla - esimene veerg sisaldab originaalset ühevärvilise pildi sisendit, mis seejärel värvitakse mitmesuguste meetoditega. Ülejäänud veergudel kuvatakse 2016. aastal muude silmatorkavate värvainete uurimise tulemused. Vasakult paremale vaadates on need Larsson jt. [84] 2016 (teine ​​veerg), Zhang jt. [83] 2016 (kolmas veerg) ning Lizuka, Simo-Serra ja Ishikawa. [85] 2016, autorite poolt nimetatud ka meie omaks (veerg neli). Värvimise kvaliteedierinevus ilmneb kõige selgemalt kolmandas reas (ülalt), mis kujutab noorte poiste rühma. Usume, et Lizuka jt töö on kvalitatiivselt parem (4. veerg). Allikas: Lizuka jt. 2016 [86]

"Lisaks saab meie arhitektuur töödelda mis tahes eraldusvõimega pilte, erinevalt enamikust olemasolevatest lähenemisviisidest, mis põhinevad CNN-il."

Testis, et näha, kui loomulik oli nende värvumine, anti kasutajatele nende mudelitest juhuslik pilt ja neilt küsiti: “kas see pilt tundub teile loomulik?”

Nende lähenemisviis saavutas 92,6%, algtase saavutati umbes 70% ja alustõde (tegelikud värvifotod) peeti 97,7% ajast loomulikuks.

Tegevuse äratundmine

Tegevuse tuvastamise ülesanne viitab nii toimingu klassifitseerimisele antud videokaadris kui ka hiljuti algoritmidele, mis suudavad ennustada interaktsioonide tõenäolisi tulemusi, mis antakse vaid mõne kaadri korral enne toimingu toimumist. Sellega seoses näeme hiljutisi teadusuuringute katseid siduda konteksti algoritmiliste otsustega, sarnaselt teiste arvutinägemuse valdkondadega. Mõned selle ruumi peamised dokumendid on:

  • Pikaajalised ajalised konvolutsioonid toimingute tuvastamiseks [87] võimendavad inimese toimingute ruumilist-ajalist ülesehitust, st konkreetset liikumist ja kestust, et CNN-varianti kasutavaid toiminguid õigesti ära tunda. CNN-ide pikemaajaliste toimingute mitteoptimaalsest ajalisest modelleerimisest üle saamiseks pakuvad autorid toimingute tuvastamise täpsuse parandamiseks pikaajaliste ajaliste konvolutsioonidega neuraalvõrku (LTC-CNN). Lihtsamalt öeldes saavad LTC-d vaadata toimingute tuvastamiseks video suuremaid osi. Nende lähenemisviis kasutab ja laiendab 3D-CNN-e, "et võimaldada toimingute esitamist täielikumal ajalisel skaalal".

"Aruandes on toodud tipptasemel tulemused inimtegevuse äratundmise kahel väljakutsuval võrdlusalusel UCF101 (92,7%) ja HMDB51 (67,2%)."

  • Videotegevuse tuvastamise ruumilised ajalised jääkvõrgud [88] rakendavad tegevuse tuvastamise ülesandeks kahe voo CNN-i variatsiooni, mis ühendab nii traditsiooniliste CNN-i lähenemisviiside kui ka hiljuti populariseeritud jääkvõrkude (ResNets) tehnikaid. Kahe voo lähenemisviis on inspireeritud neuroteaduslikust hüpoteesist visuaalse ajukoore toimimise kohta, st eraldi rajad tunnevad ära objekti kuju / värvi ja liikumise. Autorid ühendavad ResNetsi klassifitseerimise eelised, süstides kahe CNN-voo vahele jäävühendused.

„Iga voog täidab algselt videotuvastust ja lõplikuks klassifitseerimiseks ühendatakse softmaxi hinded hilise sulandumisega. Praeguseks on see lähenemisviis kõige tõhusam lähenemisviis sügava õppimise rakendamiseks tegevuste äratundmisel, eriti piiratud koolitusandmetega. Oma töös teisendame pildi ConvNets otse 3D-arhitektuurideks ja näitame kahe voolu baasjoonega võrreldes oluliselt paranenud jõudlust. ”- 94% UCF101 ja 70,6% HMDB51. Feichtenhofer jt. tegi parandusi traditsiooniliste täiustatud tiheda trajektoori (iDT) meetodite suhtes ja saavutas paremad tulemused mõlema tehnika kasutamisega.

  • Sildistamata video visuaalsete esituste ootamine [89] on huvitav paber, ehkki mitte rangelt tegevuste klassifikatsioon. Programm ennustab toimingut, mis toimub tõenäoliselt videokaadrite jada korral kuni üks sekund enne toimingut. Lähenemisviis kasutab pikslite kaupa pikslite klassifikatsiooni asemel visuaalseid esitusi, mis tähendab, et programm saab töötada ilma märgistatud andmeteta, kasutades ära sügavate närvivõrkude funktsiooniõppe omadusi [90].

„Meie lähenemisviisi peamine idee on see, et saaksime koolitada sügavaid võrgustikke, et ennustada tulevikus piltide visuaalset esitust. Visuaalsed esindused on paljulubav ennustussiht, kuna need kodeerivad pilte kõrgemal semantilisel tasemel kui pikslid, kuid on automaatselt arvutatavad. Seejärel rakendame objektide ja toimingute ennetamiseks oma ennustatava esituse tuvastamisalgoritme ”.

Thumos Action Recognition Challenge [91] korraldajad avaldasid dokumendi, milles kirjeldatakse tegevuse tunnustamise üldisi lähenemisviise viimastest aastatest. Samuti antakse artiklis väljakutsed aastatest 2013–2015, edasised väljakutse suunised ja ideed, kuidas anda arvutitele tegevuse tuvastamise kaudu videost terviklikum arusaam. Loodame, et Thumos Action Recognition Challenge naaseb 2017. aastal pärast (näiliselt) ootamatut pausi.

Järgmise osamakse jaoks järgige meie profiili keskmise suurusega - 3. osa 4-st: 3D-maailma mõistmise poole.
Pange julgelt kogu tagasiside ja ettepanekud kommentaaride sektsiooni ja pöördume tagasi nii kiiresti kui võimalik. Teise võimalusena võite meiega otse ühendust võtta aadressil: info@themtank.com

Tervikteos on saadaval aadressil www.themtank.org/a-year-in-computer-vision

Suured tänud,

M-paak

Viited välimuse järjekorras

[46] Pinheiro, Collobert ja Dollar. 2015. Objektikandidaatide segmenteerimise õppimine. [Online] arXiv: 1506.06204. Saadaval: arXiv: 1506.06204v2

[47] Pinheiro jt. 2016. Objektide segmentide täpsustamise õppimine. [Online] arXiv: 1603.08695. Saadaval: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. MultiPath Network Object Detection jaoks. [Online] arXiv: 1604.02135v2. Saadaval: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Segmentimise õppimine. [Blogi] ÕIGE. Kättesaadav: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Piltide segmentimine ja viimistlemine SharpMaski abil. [Veebis] Facebooki kood. Saadaval: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani jt. 2016. Videopaljundusvõrgud. [Online] arXiv: 1612.05478. Saadaval: arXiv: 1612.05478v2

[52] Chen jt, 2016. DeepLab: semantiline kujutise segmenteerimine sügavate konvolutsioonivõrkudega, terav konvolutsioon ja täielikult ühendatud CRF-id. [Online] arXiv: 1606.00915. Kättesaadav: arXiv: 1606.00915v1

[53] Khoreva jt. 2016. Lihtne teeb seda: nõrgalt juhendatud instants ja semantiline segmenteerimine. [Online] arXiv: 1603.07485v2. Saadaval: arXiv: 1603.07485v2

[54] Jégou jt. 2016. Sada kihti Tiramisu: täielikult evolutsioonilised DenseNets-id semantilise segmenteerimise jaoks. [Online] arXiv: 1611.09326v2. Saadaval: arXiv: 1611.09326v2

[55] Li jt. 2016. Täielikult konvolutsiooniline instantsiteadlik semantiline segmenteerimine. [Online] arXiv: 1611.07709v1. Saadaval: arXiv: 1611.07709v1

[56] Paszke jt. 2016. ENet: sügava närvivõrgu arhitektuur reaalajas semantilise segmenteerimise jaoks. [Online] arXiv: 1606.02147v1. Saadaval: arXiv: 1606.02147v1

[57] Vázquez jt. 2016. Kolonoskoopia piltide endoluminaalse stseeni segmenteerimise võrdlusalus. [Online] arXiv: 1612.00799. Saadaval: arXiv: 1612.00799v1

[58] Dolz jt. 2016. 3D täielikult konvolutsioonilised võrgud subkortikaalse segmenteerimise jaoks MRT-s: suuremahuline uuring. [Online] arXiv: 1612.03925. Saadaval: arXiv: 1612.03925v1

[59] Alex jt. 2017. Ajutiste kahjustuste tuvastamiseks ja segmenteerimiseks pooljuhendatud õpe Denoiseerivate automaatkooderite abil. [Online] arXiv: 1611.08664. Saadaval: arXiv: 1611.08664v4

[60] Mozaffari ja Lee. 2016. 3D ultraheli kujutise segmenteerimine: uuring. [Online] arXiv: 1611.09811. Saadaval: arXiv: 1611.09811v1

[61] Dasgupta ja Singh. 2016. Täiesti konvolutsioonne neuronvõrgustikul põhinev struktureeritud ennustusmeetod võrkkesta segmenteerimise suunas. [Online] arXiv: 1611.02064. Saadaval: arXiv: 1611.02064v2

[62] Yi jt. 2016. Glioblastoomi segmenteerimise 3-D konvolutsioonneuraalvõrgud. [Online] arXiv: 1611.04534. Kättesaadav: arXiv: 1611.04534v1

[63] Quan jt. 2016. FusionNet: sügav täielikult jääv konvolutsioonneuraalvõrk piltide segmenteerimiseks ühenduses. [Online] arXiv: 1612.05360. Saadaval: arXiv: 1612.05360v2

[64] Connectomics tähendab organismi närvisüsteemi kõigi ühenduste, st neuronite ja nende ühenduste kaardistamist.

[65] Champandard, A.J. 2017. Neural Enhance (viimane kohustus 30/11/2016). [Online] Github. Kättesaadav: https://github.com/alexjc/neural-enhance [Juurdepääs: 2017.02.11]

[66] Caballero jt. 2016. Reaalajas video superresolutsioon koos ajalis-ajaliste võrkude ja liikumiskompensatsiooniga. [Online] arXiv: 1611.05250. Saadaval: arXiv: 1611.05250v1

[67] Shi jt. 2016. Reaalajas üksikute piltide ja videode eraldusvõime efektiivse alampiksli konvolutsioonneuraalvõrgu abil. [Online] arXiv: 1609.05158. Saadaval: arXiv: 1609.05158v2

[68] Romano jt. 2016. RAISR: kiire ja täpne pildi superresolutsioon. [Online] arXiv: 1606.01299. Saadaval: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Täiustage! RAISR-i teravad pildid masinõppe abil. [Blogi] Google'i uuringute ajaveeb. Kättesaadav: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Juurdepääs: 20.03.2017].

[70] ibid

[71] Ledig jt. 2017. Fotoreaalne ühe pildi superresolutsioon generatiivse võistlusvõrgu abil. [Online] arXiv: 1609.04802. Saadaval: arXiv: 1609.04802v3

[72] ibid

[73] Sønderby jt. 2016. Amortiseeritud MAPi eeldus pildi superresolutsioonile. [Online] arXiv: 1610.04490. Saadaval: arXiv: 1610.04490v1

[74] Prisma. 2017. [Veebisait] Prisma. Kättesaadav: https://prisma-ai.com/ [Juurdepääs: 01.04.2017].

[75] Artomatix. 2017. [Veebisait] Artomatix. Kättesaadav: https://services.artomatix.com/ [Juurdepääs: 01.04.2017].

[76] Gatys jt. 2015. Kunstilise stiili neuraalne algoritm. [Online] arXiv: 1508.06576. Saadaval: arXiv: 1508.06576v2

[77] Nikulin ja Novak. 2016. Kunstistiili neuraalse algoritmi uurimine. [Online] arXiv: 1602.07188. Saadaval: arXiv: 1602.07188v2

[78] Ruder jt. 2016. Videote kunstiline stiiliülekanne. [Online] arXiv: 1604.08610. Saadaval: arXiv: 1604.08610v2

[79] ibid

[80] Jia ja Vajda. 2016. Reaalajas AI edastamine peopesal. [Veebis] Facebooki kood. Kättesaadav: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Juurdepääs: 2017.01.20].

[81] Dumoulin jt. 2016. Ülilaadiv stiiliülekanne. [Online] Google'i uuringute ajaveeb. Kättesaadav: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Juurdepääs: 20.01.2017].

[82] Dumoulin jt. 2017. Kunstilise stiili õpitud esindus. [Online] arXiv: 1610.07629. Saadaval: arXiv: 1610.07629v5

[83] Zhang jt. 2016. värvika pildi värvimine. [Online] arXiv: 1603.08511. Saadaval: arXiv: 1603.08511v5

[84] Larsson jt. 2016. Automaatse värvimise õppeesindused. [Online] arXiv: 1603.06668. Kättesaadav: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra ja Ishikawa. 2016. Las olla värv !: Globaalsete ja kohalike pildiprofiilide ühine õppimine piltide automaatseks värvimiseks koos üheaegse klassifitseerimisega. [Online] ACM-i tehing graafika kohta (SIGGRAPHi prod.), 35 (4): 110. Kättesaadav: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] ibid

[87] Varol et al. 2016. Tegevuse äratundmise pikaajalised ajalised konvolutsioonid. [Online] arXiv: 1604.04494. Saadaval: arXiv: 1604.04494v1

[88] Feichtenhofer jt. 2016. Spatiotemporaalsed jääkvõrgud videotoimingute tuvastamiseks. [Online] arXiv: 1611.02155. Saadaval: arXiv: 1611.02155v1

[89] Vondrick jt. 2016. Visuaalsete esinduste prognoosimine sildistamata videost. [Online] arXiv: 1504.08023. Saadaval: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Õpetamismasinad tuleviku ennustamiseks. [Veebis] MITUUDISED. Kättesaadav: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Juurdepääs: 02.02.2017].

[91] Idrees jt. 2016. THUMOS-i väljakutse videomängude tunnustamise jaoks looduses. [Online] arXiv: 1604.06182. Saadaval: arXiv: 1604.06182v1