From 3D sensing to dense prediction

From 3D sensing to dense prediction

Väitöskirja

Huynh, L. (Lam)

Oulun yliopisto 2022

Abstract

This thesis introduces novel learning-based approaches for improving 3D sensing and dense prediction. In recent years, deep neural networks (DNNs) have thrived on various vision tasks. Nonetheless, current developments indicate a compromise between accuracy, network size, and architectural engineering cost. This work proposes accurate and lightweight DNNs by exploiting prior knowledge, integrating self-attention, leveraging multi-scale 2D-3D representations fusion, and presenting efficient neural architecture search (NAS) strategies. Recent monocular depth estimation approaches exhibit impressive results. However, these are often achieved with bulky network architectures employing up to hundreds of millions of parameters and using massive training data. This thesis introduces architectures that exploit geometric constraints and non-local self-attention mechanisms to improve performance. Moreover, the methods achieve state-of-the-art results while using at least ten times less parameters than competing approaches. Depth completion aims to densify sparse input depth measurements. Best performing depth completion methods only work for cases with relatively high 3D point density. This work proposes a novel multi-scale framework that operates directly on both 2D and 3D feature spaces. Unlike previous approaches, the method performs well on extremely sparse and unevenly distributed 3D points. The proposed architecture is also very compact and works with an arbitrary source of the input 3D points. Dense prediction resolves mapping problems at the pixel level, comprising many sub-tasks such as depth estimation, semantic segmentation, optical flow prediction, and image restoration. Existing methods usually use human-engineering DNNs or focus on a single sub-task. This thesis presents a novel approach utilizing NAS towards more general dense prediction problems that enable holistic scene understanding.

Tiivistelmä

Tämä väitöskirja esittelee uusia koneoppimiseen perustuvia lähestymistapoja 3D-havainnoinnin ja tiheän ennustuksen parantamiseen. Viime vuosina syvät neuroverkot (DNN) ovat suoriutuneet hyvin erilaisissa konenäkötehtävissä. Siitä huolimatta nykyinen kehitys on johtanut kompromissiin tarkkuuden, verkon koon ja arkkitehtuuriin liittyvien suunnittelukustannusten välillä. Tässä työssä ehdotetaan tarkkoja ja kevyitä DNN:iä hyödyntämällä aiempaa tietoa, integroimalla ns. itsehuomio, käyttämällä monen skaalan 2D-3D-esitysten fuusiota ja esittämällä tehokkaita neuroarkkitehtuurihakustrategioita (NAS). Viimeaikaisilla monokulaarisen syvyyden estimointimenetelmillä on saavutettu vaikuttavia tuloksia. Niihin on kuitenkin päästy usein suurilla verkkoarkkitehtuureilla, jotka käyttävät jopa satoja miljoonia parametreja ja massiivista määrää opetusdataa. Tämä väitöskirjatyö esittelee arkkitehtuureja, jotka hyödyntävät geometrisia rajoituksia ja ei-paikallisia itsehuomiomekanismeja suorituskyvyn parantamiseen. Lisäksi menetelmillä saavutetaan huippuluokan tuloksia käyttämällä vähintään kymmenen kertaa vähemmän parametreja kuin kilpailevilla lähestymistavoilla. Syvyyden täydentämisen tarkoituksena on tihentää harvat syvyyssyötemittaukset. Parhaat syvyyden täydennysmenetelmät toimivat vain tapauksissa, joissa 3D-pistetiheys on suhteellisen korkea. Tämä työ esittää puitteet uudelle monen skaalan lähestymistavalle, joka toimii suoraan sekä 2D- että 3D-piirreavaruuksissa. Toisin kuin aikaisemmat lähestymistavat, menetelmä sopii hyvin äärimmäisen harvoille ja epätasaisesti jakautuneille 3D-pisteille. Ehdotettu arkkitehtuuri on myös erittäin kompakti ja toimii millä tahansa lähteellä tuotettujen 3D-syötepisteiden kanssa. Tiheä ennustus ratkaisee pikselitasolla muunnosongelmia, jotka voivat muodostua monista osatehtävistä kuten syvyyden estimointi, semanttinen segmentointi, optisen vuon ennustaminen ja kuvan entistäminen. Nykyiset menetelmät käyttävät yleensä käsin suunniteltuja DNN:iä tai keskittyvät yhteen osatehtävään. Tämä väitöskirja esittelee uuenlaisen lähestymistavan hyödyntäen NAS:ia yleisempiin tiheisiin ennustusongelmiin, jotka mahdollistavat kokonaisvaltaisen näkymän ymmärtämisen.

Tallennettuna:

Ulkoasu

application/pdf

Kieli

englanti

Asiasanat

3D sensing