Normal view MARC view ISBD view

Computer vision based traffic scene analysis for fleet management : doctoral thesis / Ivan Silirić ; mentor Siniša Šegvić

By: Sikirić, Ivan.
Contributor(s): Šegvić, Siniša [ths].
Material type: TextTextPublisher: Zagreb : I. Sikirić ; Faculty of electrical engineering and computing, 2019Description: 137 str. : ilustr. u bojama ; 30 cm. + CD.Summary: This thesis proposes an image categorization framework to deliver added value to fleet management systems. In particular, this framework aims to improve map matching, route reconstruction, alarming and reporting. In order to match the client-server nature of fleet management the framework is conceived around the following two requirements: i) the bandwidth should be used sparingly, and ii) the set of image categories must be open. These requirements can be satisfied by a suitable division of responsibility between the clients and the server. The clients are responsible for representing images with descriptors which are designed to be compact and category-agnostic. The server is responsible for classifying descriptors into an arbitrary set of categories. This organization minimizes the bandwidth requirements due to compactness of the descriptors, and ensures that the set of categories remains open due to clients being oblivious to it. Several kinds of image descriptors have been considered: handcrafted gradient histograms (GIST, SIFT), spatial Fisher vector embeddings, and convolutional representations trained in an end-to-end fashion (VGG, DenseNet, ResNet, MobileNetV2 and DCGAN). The descriptors are further compressed using PCA and quantization, after which they are classified by SVM. In order to evaluate the considered methods we introduce FM3--a novel image dataset which is specifically designed for fleet management applications. The dataset contains 11448 images which were acquired in different weather conditions and labeled with the following binary attributes: highway, road, tunnel, tunnel exit, settlement, overpass, booth, traffic. The results indicate that excellent classification results can be achieved with deep convolutional representations trained in a supervised manner. We refrain from fine tuning on the target dataset (although this further improves the results) in order to avoid reducing the descriptor performance on new categories due to catastrophic forgetting. Image descriptors can be as small as 512 bits, while still offering good performance. The proposed framework is able to tolerate adverse weather and poor illumination conditions provided that some such samples are present in the SVM training dataset. Keywords: computer vision, intelligent vehicles, image classification Summary: Ova doktorska disertacija proučava načine obogaćivanja sustava za upravljanje voznim parkom (engl. fleet management) korištenjem računalnog vida. Sustavi za upravljanje voznim parkom detaljno se opisuju, te se ukazuje na moguća poboljšanja koja bi bila omogućena korištenjem podsustava za kategorizaciju slika prometnih scena. Vozila su često opremljena kamerom montiranom na vjetrobransko staklo, koja snimaju vožnju iz perspektive vozača. Međutim, takve kamere se uglavnom koriste u sustavima za potpomognutu vožnju, dok se moguća uporaba u sustavima za upravljanje voznim parkom ignorira. Poznavanje kategorija prometnih scena omogućilo bi pouzdanije i preciznije određivanje pozicije vozila na vektorskoj karti prometnica. Osim toga, kategorizacija prometnih scena bi omogućila preciznije određivanje rute kojom se vozilo kretalo u slučaju kratkotrajnog gubitka signala pozicioniranja. Konačno, alarmiranje i generiranje izvještaja bi bilo moguće obogatiti detektiranjem zanimljivih događaja (npr. vožnja u gustom prometu). Sustavi za upravljanje voznim parkom sastoje se od velikog broja jednostavnih klijenata (uređaja ugrađenih u vozila) koji se spajaju na središnji poslužitelj koji vrši nadzor. Klijenti su opremljeni senzorom za satelitsko pozicioniranje (engl. global navigation satellite system, GNSS), a povremeno i s dodatnim senzorima (npr. senzor razine goriva). Ova disertacija razmatra načine uporabe opcionalne kamere montirane na vjetrobransko staklo. Arhitektura klijent/poslužitelj nameće specifična ograničenja i zahtjeve, koje ova disertacija uzima u obzir, te predstavlja sustav za kategorizaciju slika koji ih zadovoljava. Ograničenja arhitekture su procesna moć i kapacitet medija za dugotrajnu pohranu na klijentima. Zahtjevi arhitekture su minimiziranje potrošnje podatkovnog prometa, te potrebnog prostora za pohranu na središnjem poslužitelju. Razmatraju se suvremene metode računalnog vida potrebne za izgradnju takvog sustava, s glavnim fokusom na metode računanja kratkih opisnika slika. Za potrebe računanja kratkih opisnika razmatraju se nelinearna ugrađivanja Fisherovim vektorima, te nekoliko modernih arhitektura konvolucijskih neuralnih mreža. Osim toga, razmatra se dodatno skraćivanje dobivenih opisnika metodama redukcije dimenzionalnosti, metodama kvantizacije, te konačno kompresijom opće namjene. Ova disertacija doprinosi novi skup podataka nazvan FM3 (fleet management, verzija 3) koji se sastoji od 11448 slika prometnih scena snimljenih iz perspektive vozača. Od toga, 6413 slika je snimljeno u dobrim vremenskim uvjetima, uz dobru vidljivost. Preostalih 5035 slika snimljeno u uvjetima loše vidljivosti i lošim vremenskim uvjetima. Skup FM3 javno je dostupan. Slike skupa FM3 označene su s osam binarnih atributa korisnih sustavima za upravljanje voznim parkom: autocesta, cesta, tunel, izlaz iz tunela, naselje, nadvožnjak, naplatna kućica, gust promet. Skup slika FM3 koristi se za detaljnu eksperimentalnu evaluaciju svih korištenih metoda računalnog vida u ovoj disertaciji. Rezultati eksperimenata pokazuju da se prometne scene mogu kategorizirati vrlo pouzdano, poštujući sva ograničenja i zahtjeve sustava za upravljanje voznim parkom. Najbolji rezultati postižu se korištenjem vrlo dubokih modela konvolucijskih neuralnih mreža. Uz korištenje metoda za reduciranje dimenzionalnosti i kvantizaciju moguće je proizvesti opisnik slike velik 512 bitova koji se kategorizira uz prosječnu preciznost 96 %. Dodatno, navedeni opisnik je otporan na nekoliko vrsta vizualne degradacije slika, što je provjereno koristeći skup slika snimljenih u uvjetima loše vidljivosti i u lošim vremenskim uvjetima. Slijede kratki sažetci svih poglavlja ove disertacije. Poglavlje 1, "Uvod", ukratko opisuje područje istraživanja. Navode se postignuti ciljevi, te se daje pregled doprinosa istraživanja. Poglavlje 2, "Relevantni radovi", daje pregled radova relevantnih sustavima za upravljanje voznim parkom, te srodnih radova iz područja računalnog vida, s naglaskom na kategorizaciju slika. U kontekstu ove disertacije, područja relevantna sustavima za upravljanje voznim parkom su određivanje pozicije vozila na mreži prometnica, te rekonstrukcija ruta. Daje se kratak pregled šesnaest relevantnih radova iz tih područja. Pregled područja kategorizacije slika započinje kratkim opisom ručno krojenih pristupa za opisivanje slika histogramima lokalnih značajki. Slijedi pregled područja dubokog učenja: daje se kratak pregled povijesti neuronskih mreža, definiraju se temeljni pojmovi, te se opisuju arhitekture mreža. Poseban naglasak je na modele korištene u ovoj disertaciji: VGG, ResNet, DenseNet i MobileNet, za koje se daje usporedni pregled broja parametara, složenosti i uspješnosti. Konačno, daje se kratak pregled radova koji se bave kategorizacijom prometnih scena. Učenje prijenosom znanja se primjenjuje u ovom istraživanju, zbog čega slijedi pregled radova koji proučavaju to područje, s naglaskom na problem katastrofične interferencije. Slijedi pregled radova nenadziranog učenja dubokih konvolucijskih modela GAN, DCGAN i WGAN. Poglavlje završava pregledom radova koji se bave metodama za računanje vrlo kratkih opisnika slika, te metodama za skraćivanje zapisnika slika. Poglavlje 3, "Unaprjeđenje sustava za upravljanje voznim parkom računalnim vidom", detaljno opisuje namjenu i funkcionalnosti sustava za upravljanje voznim parkom. Daje se detalji pregled klijent/poslužitelj arhitekture tih sustava. Opisuje se na koji način postojeći sustavi prikupljaju informacije o vozilima, te na koji način se prikupljene informacije koriste. Daje se jednostavan i ilustrativan pristup određivanja pozicije vozila na karti, te određivanja rute kojom je vozilo prošlo. Identificiraju se neki problemi postojećih pristupa, te se ilustrira kako bi ih bilo moguće umanjiti poznavanjem kategorija prometnih scena. Poglavlje završava pregledom ostalih potencijalnih upotreba kategorija prometnih scena: unaprjeđenje praćenja u realnom vremenu, alarmiranja te generiranju detaljnijih izvještaja na temelju povijesnih podataka. Poglavlje 4, "Integriranje komponente za kategorizaciju slika u arhitekturu sustava za upravljanje voznim parkom", predstavlja podsustav za kategorizaciju slika kakav bi se mogao ugraditi u sustave za upravljanje voznim parkom. Prvo se analiziraju dva naivna pristupa: klasifikacija slika na klijentima i klasifikacija slika na poslužitelju, te se identificiraju njihovi nedostatci. Klasifikacija slika na klijentima nije dovoljno fleksibilna iz dva razloga: i) zahtijeva kompleksne i skupe procedure za promjenu skupa ciljnih kategorija, te ii) onemogućuje rekalkulaciju ciljnih kategorija iz arhivskih podataka. Klasifikacija slika na poslužitelju je vrlo zahtjevna u terminima potrebnog podatkovnog prometa, te prostora za pohranu podataka. Predlaže se bolje rješenje: klijenti računaju i poslužitelju šalju kratak opisnik slike, na temelju kojeg poslužitelj određuje ciljne kategorije prometne scene. Utvrđuju se poželjna svojstva opisnika: deskriptivnost, kratkoća, jednostavnost računanja. Također se utvrđuju poželjna ograničenja na način učenja opisnika. Opisnici ne smiju znati za ciljne kategorije, kako bi se skup ciljnih kategorija mogao što lakše mijenjati u budućnosti. Zbog što bolje generalizacije poželjno je i da se parametri opisnika ne trebaju učiti na ciljnim slikama. Poglavlje završava kratkim razmatranjem sustava klasifikacije i arhiviranja podataka na poslužitelju. Poglavlje 5, "Metode", opisuje metode koje su razmatrane za izgradnju predloženog sustava kategorizacije prometnih scena. Prvo se navode dva opisnika temeljena na prostornim Fisherovim vektorima (engl. spatial Fisher vectors, SFV). Jedan se bazira na lokalnim SIFT značajkama i GIST opisniku (nazvan SIFT/SFV+GIST), dok drugi koristi značajke dobivene konvolucijskom mrežom VGG-19 (nazvan VGG/SFV). Zatim je dan pregled opisnika zasnovanih na dubokim konvolucijskim modelima ResNet-50, DenseNet-121 i MobileNetV2. Konačno se razmatra opisnik baziran na nenadziranom učenju, temeljen na DCGAN generativnoj suparničkoj arhitekturi. Za svaki opisnik se analiziraju računalni zahtjevi i složenost, kao i potencijal za postizanje dobre generalizacije. Svi razmatrani opisnici imaju parametre koji se uče. Niti jedan opisnik ne koristi skup ciljnih kategorija pri učenju parametara, čime se zadovoljava zahtjev sustava da skup ciljnih kategorija bude lako promjenjiv. Dodatno, svi razmatrani duboki konvolucijski modeli naučeni su na skupu podataka ImageNet1000, te nisu koristili ciljne slike prometnih scena pri učenju. Time se povećava vjerojatnost da će opisnik dobro generalizirati, tj. da će postići veliku preciznost i na neviđenim prometnim scenama. U nastavku poglavlja komentiraju se mogućnosti postizanja niskodimenzionalnih varijanti opisnika odabirom prikladnih hiperparametara. Zatim se opisuju metode za smanjenje dimenzionalnosti i efikasno kodiranje opisnika. U svrhu efikasnog kodiranja opisnika razmatraju se dvije metode kvantizacije: product quantization (PQ), te naš pristup nazvan component-independent quantization (CQ). Poglavlje se nastavlja opisom SVM klasifikatora te završava pregledom metoda za mjerenje uspješnosti klasifikacije. Poglavlje 6, "Skup podataka za sustave s upravljanjem voznim parkom", prezentira skup podataka prikupljen za potrebe eksperimentalne evaluacije ovog istraživanja. Skup sadrži 11448 slika prometnih scena iz perspektive vozača. Detaljno se opisuje postupak prikupljanja slika. Velika većina slika (98 %) je prikupljena iz video snimki vožnji po hrvatskim cestama. Vožnje je snimio autor disertacije kroz period od pet godina, od 2013. do 2018. godine, koristeći kamere pametnih telefona. Manji dio slika (ukupno 205) je preuzet s internetskog servisa Mapillary.com. Slike preuzete s interneta su rukom odabrane kako bi se povećao broj uzoraka nekih vrsta prometnih scena koje se rijetko pojavljuju. Sve slike su prikupljene za vrijeme dana ili sumraka. Posebna pažnja je posvećena prikupljanju slika s raznim oblicima vizualne degradacije. Podskup od 5035 slika sadrži scene snimljene za vrijeme kiše, snijega, magle, te u periodima nepovoljnih kuteva sunca (pred sumrak i za vrijeme sumraka), dok preostale 6413 slike nisu značajno vizualno degradirane. Uvidom u prikupljene slike uočeno je osam kategorija scena korisnih sustavima za upravljanje voznim parkom: autocesta, cesta, tunel, izlaz iz tunela, naselje, nadvožnjak, naplatna kućica, gust promet. Za svaku od kategorija opisani su očekivani doprinosi sustavima za upravljanje voznim parkom. Poglavlje završava definiranjem kriterija anotiranja te pregledom distribucije kategorija. Poglavlje 7, "Eksperimenti", detaljno opisuje postavke i rezultate svih eksperimenata provedenih u ovom istraživanju. Prvo se opisuju detalji sustava za klasifikaciju, jer se isti sustav klasificiranja koristi za evaluiranje svih opisnika. U svim eksperimentima koristi se stroj s potpornim vektorima (engl. support vector machine, SVM) kao klasifikator. Koriste se linearna jezgra i Gaussova (engl. radial basis function, RBF) jezgra. Zatim se precizno i detaljno opisuju hiperparametri svih šest opisnika opisanih u poglavlju 5. Za svaki opisnik se navode postignute prosječne preciznosti klasificiranja na svakoj od osam kategorija u tabličnom obliku. Kao ukupna mjera uspješnosti uzima se aritmetička sredina prosječnih preciznosti svih osam kategorija. Svim opisnicima se zatim smanjuje dimenzionalnost korištenjem metode glavnih komponenti (engl. principal component analysis, PCA), osim MobileNetV2 opisnika, koji je vrlo kratak i bez tog koraka. Opisnici dimenzionalnosti reducirane na potenciju broja dva od 1024 do 16 se zatim klasificiraju linearnim SVM klasifikatorom i SVM klasifikatorom s RBF jezgrom. Ovisnost postignute prosječne preciznosti klasifikacije o duljini opisnika se zatim prikazuje u grafičkom obliku, čime se pokazuje da se opisnici mogu smanjiti do 128 komponenti bez velikih gubitaka performansi, ukoliko se koristi RBF jezgra. Pokazuje se da DenseNet-121 opisnik postiže najbolje rezultate bez obzira na duljinu. Dobiveni opisnici se zatim kvantiziraju koristeći product quantization (PQ) i component-independent quantization (CQ). Detaljnom serijom eksperimenata se pokazuje da je za vrlo malene kodove opisnika (64 bita i manje) bolje koristiti PQ kvantizaciju, dok je za kodove od 128 bitova i veće bolje koristiti CQ pristup. Opisnici od 128 komponenti kodirani s 512 bitova ne pokazuju gotovo nikakve gubitke u performansama u odnosu na pune verzije opisnika. Daljnji eksperimenti pokazuju da je primjenom algoritama za kompresiju opće namjene na veće skupove opisnika moguće uštedjeti još 20 % do 40 % prostora za pohranu. Poglavlje završava detaljnom analizom DenseNet-121 opisnika, s naglaskom na testiranje otpornosti na vizualne degradacije. Pokazuje se da se i vizualno degradirane slike mogu uspješno klasificirati, pod uvjetom da se dio takvih slika uključi u skup za učenje SVM klasifikatora. Poglavlje 8, "Zaključci i budući rad", rezimira provedeno istraživanje. Dobiveni rezultati se diskutiraju, zaključujući da se odlična preciznost klasifikacije postiže opisnicima baziranim na dubokim konvolucijskim modelima naučenim nadziranim načinom. Najbolji razmatrani opisnici su bazirani na arhitekturama ResNet i DenseNet. Pri učenju parametara DenseNet i ResNet ne koriste se znanjem o ciljnim kategorijama prometnih scena, kao ni ciljnim slikama prometnih scena. Parametri tih opisnika naučeni su na nevezanom skupu podataka ImageNet1000, radi čega se očekuje dobra generalizacija na različite skupove prometnih scena i kategorija. DenseNet-121 opisnik postiže najbolje rezultate, čak i nakon što ga redukcijom dimenzionalnosti i kvantizacijom sažmemo na svega 512 bitova. U nastavku poglavlja razmatraju se mogući pravci budućeg rada, kao što su testiranje predloženog sustava u drugim domenama (nevezanim za prometne scene), testiranje rada sustava na prometnim scenama raznih zemalja svijeta, te na još neviđenim tipovima prometnih scena. Ova disertacija demonstrira da je moguće izgraditi sustav za kategoriziranje slika koji je koristan sustavima za upravljanje voznim parkom. Ograničenja i zahtjevi takvih sustava su identificirani i zadovoljeni. Razmatrane metode su detaljno evaluirane na novom skupu podataka koji je doprinos ove disertacije. Korištenjem dubokih konvolucijskih modela moguće je dobiti vrlo kompaktne i robusne opisnike slika koje je moguće kategorizirati s velikom razinom preciznosti. Ključne riječi: računalni vid, inteligentna vozila, kategorizacija slika
Tags from this library: No tags from this library for this title. Log in to add tags.
Item type Current location Call number Status Date due Barcode Item holds
Doktorska disertacija Doktorska disertacija Središnja knjižnica
KF
KF-5078 Available 0000001001655
Total holds: 0

Bibliografija str. 115-126.

This thesis proposes an image categorization framework to deliver added value to fleet management systems. In particular, this framework aims to improve map matching, route reconstruction, alarming and reporting. In order to match the client-server nature of fleet management the framework is conceived around the following two requirements: i) the bandwidth should be used sparingly, and ii) the set of image categories must be open. These requirements can be satisfied by a suitable division of responsibility between the clients and the server. The clients are responsible for representing images with descriptors which are designed to be compact and category-agnostic. The server is responsible for classifying descriptors into an arbitrary set of categories. This organization minimizes the bandwidth requirements due to compactness of the descriptors, and ensures that the set of categories remains open due to clients being oblivious to it.
Several kinds of image descriptors have been considered: handcrafted gradient histograms (GIST, SIFT), spatial Fisher vector embeddings, and convolutional representations trained in an end-to-end fashion (VGG, DenseNet, ResNet, MobileNetV2 and DCGAN). The descriptors are further compressed using PCA and quantization, after which they are classified by SVM. In order to evaluate the considered methods we introduce FM3--a novel image dataset which is specifically designed for fleet management applications. The dataset contains 11448 images which were acquired in different weather conditions and labeled with the following binary attributes: highway, road, tunnel, tunnel exit, settlement, overpass, booth, traffic. The results indicate that excellent classification results can be achieved with deep convolutional representations trained in a supervised manner. We refrain from fine tuning on the target dataset (although this further improves the results) in order to avoid reducing the descriptor performance on new categories due to catastrophic forgetting. Image descriptors can be as small as 512 bits, while still offering good performance. The proposed framework is able to tolerate adverse weather and poor illumination conditions provided that some such samples are present in the SVM training dataset.
Keywords: computer vision, intelligent vehicles, image classification

Ova doktorska disertacija proučava načine obogaćivanja sustava za upravljanje voznim parkom (engl. fleet management) korištenjem računalnog vida. Sustavi za upravljanje voznim parkom detaljno se opisuju, te se ukazuje na moguća poboljšanja koja bi bila omogućena korištenjem podsustava za kategorizaciju slika prometnih scena. Vozila su često opremljena kamerom montiranom na vjetrobransko staklo, koja snimaju vožnju iz perspektive vozača. Međutim, takve kamere se uglavnom koriste u sustavima za potpomognutu vožnju, dok se moguća uporaba u sustavima za upravljanje voznim parkom ignorira. Poznavanje kategorija prometnih scena omogućilo bi pouzdanije i preciznije određivanje pozicije vozila na vektorskoj karti prometnica. Osim toga, kategorizacija prometnih scena bi omogućila preciznije određivanje rute kojom se vozilo kretalo u slučaju kratkotrajnog gubitka signala pozicioniranja. Konačno, alarmiranje i generiranje izvještaja bi bilo moguće obogatiti detektiranjem zanimljivih događaja (npr. vožnja u gustom prometu).
Sustavi za upravljanje voznim parkom sastoje se od velikog broja jednostavnih klijenata (uređaja ugrađenih u vozila) koji se spajaju na središnji poslužitelj koji vrši nadzor. Klijenti su opremljeni senzorom za satelitsko pozicioniranje (engl. global navigation satellite system, GNSS), a povremeno i s dodatnim senzorima (npr. senzor razine goriva). Ova disertacija razmatra načine uporabe opcionalne kamere montirane na vjetrobransko staklo. Arhitektura klijent/poslužitelj nameće specifična ograničenja i zahtjeve, koje ova disertacija uzima u obzir, te predstavlja sustav za kategorizaciju slika koji ih zadovoljava. Ograničenja arhitekture su procesna moć i kapacitet medija za dugotrajnu pohranu na klijentima. Zahtjevi arhitekture su minimiziranje potrošnje podatkovnog prometa, te potrebnog prostora za pohranu na središnjem poslužitelju.
Razmatraju se suvremene metode računalnog vida potrebne za izgradnju takvog sustava, s glavnim fokusom na metode računanja kratkih opisnika slika. Za potrebe računanja kratkih opisnika razmatraju se nelinearna ugrađivanja Fisherovim vektorima, te nekoliko modernih arhitektura konvolucijskih neuralnih mreža. Osim toga, razmatra se dodatno skraćivanje dobivenih opisnika metodama redukcije dimenzionalnosti, metodama kvantizacije, te konačno kompresijom opće namjene.
Ova disertacija doprinosi novi skup podataka nazvan FM3 (fleet management, verzija 3) koji se sastoji od 11448 slika prometnih scena snimljenih iz perspektive vozača. Od toga, 6413 slika je snimljeno u dobrim vremenskim uvjetima, uz dobru vidljivost. Preostalih 5035 slika snimljeno u uvjetima loše vidljivosti i lošim vremenskim uvjetima. Skup FM3 javno je dostupan. Slike skupa FM3 označene su s osam binarnih atributa korisnih sustavima za upravljanje voznim parkom: autocesta, cesta, tunel, izlaz iz tunela, naselje, nadvožnjak, naplatna kućica, gust promet. Skup slika FM3 koristi se za detaljnu eksperimentalnu evaluaciju svih korištenih metoda računalnog vida u ovoj disertaciji.
Rezultati eksperimenata pokazuju da se prometne scene mogu kategorizirati vrlo pouzdano, poštujući sva ograničenja i zahtjeve sustava za upravljanje voznim parkom. Najbolji rezultati postižu se korištenjem vrlo dubokih modela konvolucijskih neuralnih mreža. Uz korištenje metoda za reduciranje dimenzionalnosti i kvantizaciju moguće je proizvesti opisnik slike velik 512 bitova koji se kategorizira uz prosječnu preciznost 96 %. Dodatno, navedeni opisnik je otporan na nekoliko vrsta vizualne degradacije slika, što je provjereno koristeći skup slika snimljenih u uvjetima loše vidljivosti i u lošim vremenskim uvjetima.
Slijede kratki sažetci svih poglavlja ove disertacije.
Poglavlje 1, "Uvod", ukratko opisuje područje istraživanja. Navode se postignuti ciljevi, te se daje pregled doprinosa istraživanja.
Poglavlje 2, "Relevantni radovi", daje pregled radova relevantnih sustavima za upravljanje voznim parkom, te srodnih radova iz područja računalnog vida, s naglaskom na kategorizaciju slika. U kontekstu ove disertacije, područja relevantna sustavima za upravljanje voznim parkom su određivanje pozicije vozila na mreži prometnica, te rekonstrukcija ruta. Daje se kratak pregled šesnaest relevantnih radova iz tih područja. Pregled područja kategorizacije slika započinje kratkim opisom ručno krojenih pristupa za opisivanje slika histogramima lokalnih značajki. Slijedi pregled područja dubokog učenja: daje se kratak pregled povijesti neuronskih mreža, definiraju se temeljni pojmovi, te se opisuju arhitekture mreža. Poseban naglasak je na modele korištene u ovoj disertaciji: VGG, ResNet, DenseNet i MobileNet, za koje se daje usporedni pregled broja parametara, složenosti i uspješnosti. Konačno, daje se kratak pregled radova koji se bave kategorizacijom prometnih scena. Učenje prijenosom znanja se primjenjuje u ovom istraživanju, zbog čega slijedi pregled radova koji proučavaju to područje, s naglaskom na problem katastrofične interferencije. Slijedi pregled radova nenadziranog učenja dubokih konvolucijskih modela GAN, DCGAN i WGAN. Poglavlje završava pregledom radova koji se bave metodama za računanje vrlo kratkih opisnika slika, te metodama za skraćivanje zapisnika slika.
Poglavlje 3, "Unaprjeđenje sustava za upravljanje voznim parkom računalnim vidom", detaljno opisuje namjenu i funkcionalnosti sustava za upravljanje voznim parkom. Daje se detalji pregled klijent/poslužitelj arhitekture tih sustava. Opisuje se na koji način postojeći sustavi prikupljaju informacije o vozilima, te na koji način se prikupljene informacije koriste. Daje se jednostavan i ilustrativan pristup određivanja pozicije vozila na karti, te određivanja rute kojom je vozilo prošlo. Identificiraju se neki problemi postojećih pristupa, te se ilustrira kako bi ih bilo moguće umanjiti poznavanjem kategorija prometnih scena. Poglavlje završava pregledom ostalih potencijalnih upotreba kategorija prometnih scena: unaprjeđenje praćenja u realnom vremenu, alarmiranja te generiranju detaljnijih izvještaja na temelju povijesnih podataka.
Poglavlje 4, "Integriranje komponente za kategorizaciju slika u arhitekturu sustava za upravljanje voznim parkom", predstavlja podsustav za kategorizaciju slika kakav bi se mogao ugraditi u sustave za upravljanje voznim parkom. Prvo se analiziraju dva naivna pristupa: klasifikacija slika na klijentima i klasifikacija slika na poslužitelju, te se identificiraju njihovi nedostatci. Klasifikacija slika na klijentima nije dovoljno fleksibilna iz dva razloga: i) zahtijeva kompleksne i skupe procedure za promjenu skupa ciljnih kategorija, te ii) onemogućuje rekalkulaciju ciljnih kategorija iz arhivskih podataka. Klasifikacija slika na poslužitelju je vrlo zahtjevna u terminima potrebnog podatkovnog prometa, te prostora za pohranu podataka. Predlaže se bolje rješenje: klijenti računaju i poslužitelju šalju kratak opisnik slike, na temelju kojeg poslužitelj određuje ciljne kategorije prometne scene. Utvrđuju se poželjna svojstva opisnika: deskriptivnost, kratkoća, jednostavnost računanja. Također se utvrđuju poželjna ograničenja na način učenja opisnika. Opisnici ne smiju znati za ciljne kategorije, kako bi se skup ciljnih kategorija mogao što lakše mijenjati u budućnosti. Zbog što bolje generalizacije poželjno je i da se parametri opisnika ne trebaju učiti na ciljnim slikama. Poglavlje završava kratkim razmatranjem sustava klasifikacije i arhiviranja podataka na poslužitelju.
Poglavlje 5, "Metode", opisuje metode koje su razmatrane za izgradnju predloženog sustava kategorizacije prometnih scena. Prvo se navode dva opisnika temeljena na prostornim Fisherovim vektorima (engl. spatial Fisher vectors, SFV). Jedan se bazira na lokalnim SIFT značajkama i GIST opisniku (nazvan SIFT/SFV+GIST), dok drugi koristi značajke dobivene konvolucijskom mrežom VGG-19 (nazvan VGG/SFV). Zatim je dan pregled opisnika zasnovanih na dubokim konvolucijskim modelima ResNet-50, DenseNet-121 i MobileNetV2. Konačno se razmatra opisnik baziran na nenadziranom učenju, temeljen na DCGAN generativnoj suparničkoj arhitekturi. Za svaki opisnik se analiziraju računalni zahtjevi i složenost, kao i potencijal za postizanje dobre generalizacije. Svi razmatrani opisnici imaju parametre koji se uče. Niti jedan opisnik ne koristi skup ciljnih kategorija pri učenju parametara, čime se zadovoljava zahtjev sustava da skup ciljnih kategorija bude lako promjenjiv. Dodatno, svi razmatrani duboki konvolucijski modeli naučeni su na skupu podataka ImageNet1000, te nisu koristili ciljne slike prometnih scena pri učenju. Time se povećava vjerojatnost da će opisnik dobro generalizirati, tj. da će postići veliku preciznost i na neviđenim prometnim scenama. U nastavku poglavlja komentiraju se mogućnosti postizanja niskodimenzionalnih varijanti opisnika odabirom prikladnih hiperparametara. Zatim se opisuju metode za smanjenje dimenzionalnosti i efikasno kodiranje opisnika. U svrhu efikasnog kodiranja opisnika razmatraju se dvije metode kvantizacije: product quantization (PQ), te naš pristup nazvan component-independent quantization (CQ). Poglavlje se nastavlja opisom SVM klasifikatora te završava pregledom metoda za mjerenje uspješnosti klasifikacije.
Poglavlje 6, "Skup podataka za sustave s upravljanjem voznim parkom", prezentira skup podataka prikupljen za potrebe eksperimentalne evaluacije ovog istraživanja. Skup sadrži 11448 slika prometnih scena iz perspektive vozača. Detaljno se opisuje postupak prikupljanja slika. Velika većina slika (98 %) je prikupljena iz video snimki vožnji po hrvatskim cestama. Vožnje je snimio autor disertacije kroz period od pet godina, od 2013. do 2018. godine, koristeći kamere pametnih telefona. Manji dio slika (ukupno 205) je preuzet s internetskog servisa Mapillary.com. Slike preuzete s interneta su rukom odabrane kako bi se povećao broj uzoraka nekih vrsta prometnih scena koje se rijetko pojavljuju. Sve slike su prikupljene za vrijeme dana ili sumraka. Posebna pažnja je posvećena prikupljanju slika s raznim oblicima vizualne degradacije. Podskup od 5035 slika sadrži scene snimljene za vrijeme kiše, snijega, magle, te u periodima nepovoljnih kuteva sunca (pred sumrak i za vrijeme sumraka), dok preostale 6413 slike nisu značajno vizualno degradirane. Uvidom u prikupljene slike uočeno je osam kategorija scena korisnih sustavima za upravljanje voznim parkom: autocesta, cesta, tunel, izlaz iz tunela, naselje, nadvožnjak, naplatna kućica, gust promet. Za svaku od kategorija opisani su očekivani doprinosi sustavima za upravljanje voznim parkom. Poglavlje završava definiranjem kriterija anotiranja te pregledom distribucije kategorija.
Poglavlje 7, "Eksperimenti", detaljno opisuje postavke i rezultate svih eksperimenata provedenih u ovom istraživanju. Prvo se opisuju detalji sustava za klasifikaciju, jer se isti sustav klasificiranja koristi za evaluiranje svih opisnika. U svim eksperimentima koristi se stroj s potpornim vektorima (engl. support vector machine, SVM) kao klasifikator. Koriste se linearna jezgra i Gaussova (engl. radial basis function, RBF) jezgra. Zatim se precizno i detaljno opisuju hiperparametri svih šest opisnika opisanih u poglavlju 5. Za svaki opisnik se navode postignute prosječne preciznosti klasificiranja na svakoj od osam kategorija u tabličnom obliku. Kao ukupna mjera uspješnosti uzima se aritmetička sredina prosječnih preciznosti svih osam kategorija. Svim opisnicima se zatim smanjuje dimenzionalnost korištenjem metode glavnih komponenti (engl. principal component analysis, PCA), osim MobileNetV2 opisnika, koji je vrlo kratak i bez tog koraka. Opisnici dimenzionalnosti reducirane na potenciju broja dva od 1024 do 16 se zatim klasificiraju linearnim SVM klasifikatorom i SVM klasifikatorom s RBF jezgrom. Ovisnost postignute prosječne preciznosti klasifikacije o duljini opisnika se zatim prikazuje u grafičkom obliku, čime se pokazuje da se opisnici mogu smanjiti do 128 komponenti bez velikih gubitaka performansi, ukoliko se koristi RBF jezgra. Pokazuje se da DenseNet-121 opisnik postiže najbolje rezultate bez obzira na duljinu. Dobiveni opisnici se zatim kvantiziraju koristeći product quantization (PQ) i component-independent quantization (CQ). Detaljnom serijom eksperimenata se pokazuje da je za vrlo malene kodove opisnika (64 bita i manje) bolje koristiti PQ kvantizaciju, dok je za kodove od 128 bitova i veće bolje koristiti CQ pristup. Opisnici od 128 komponenti kodirani s 512 bitova ne pokazuju gotovo nikakve gubitke u performansama u odnosu na pune verzije opisnika. Daljnji eksperimenti pokazuju da je primjenom algoritama za kompresiju opće namjene na veće skupove opisnika moguće uštedjeti još 20 % do 40 % prostora za pohranu. Poglavlje završava detaljnom analizom DenseNet-121 opisnika, s naglaskom na testiranje otpornosti na vizualne degradacije. Pokazuje se da se i vizualno degradirane slike mogu uspješno klasificirati, pod uvjetom da se dio takvih slika uključi u skup za učenje SVM klasifikatora.
Poglavlje 8, "Zaključci i budući rad", rezimira provedeno istraživanje. Dobiveni rezultati se diskutiraju, zaključujući da se odlična preciznost klasifikacije postiže opisnicima baziranim na dubokim konvolucijskim modelima naučenim nadziranim načinom. Najbolji razmatrani opisnici su bazirani na arhitekturama ResNet i DenseNet. Pri učenju parametara DenseNet i ResNet ne koriste se znanjem o ciljnim kategorijama prometnih scena, kao ni ciljnim slikama prometnih scena. Parametri tih opisnika naučeni su na nevezanom skupu podataka ImageNet1000, radi čega se očekuje dobra generalizacija na različite skupove prometnih scena i kategorija. DenseNet-121 opisnik postiže najbolje rezultate, čak i nakon što ga redukcijom dimenzionalnosti i kvantizacijom sažmemo na svega 512 bitova. U nastavku poglavlja razmatraju se mogući pravci budućeg rada, kao što su testiranje predloženog sustava u drugim domenama (nevezanim za prometne scene), testiranje rada sustava na prometnim scenama raznih zemalja svijeta, te na još neviđenim tipovima prometnih scena.
Ova disertacija demonstrira da je moguće izgraditi sustav za kategoriziranje slika koji je koristan sustavima za upravljanje voznim parkom. Ograničenja i zahtjevi takvih sustava su identificirani i zadovoljeni. Razmatrane metode su detaljno evaluirane na novom skupu podataka koji je doprinos ove disertacije. Korištenjem dubokih konvolucijskih modela moguće je dobiti vrlo kompaktne i robusne opisnike slika koje je moguće kategorizirati s velikom razinom preciznosti.
Ključne riječi: računalni vid, inteligentna vozila, kategorizacija slika

There are no comments for this item.

Log in to your account to post a comment.

Središnja knjižnica Fakulteta elektrotehnike i računarstva, Unska 3, 10000 Zagreb
tel +385 1 6129 886 | fax +385 1 6129 888 | ferlib@fer.hr