Egomotion estimation by fusing events and depth
Künye
Subutay, Ebru (2023). Egomotion estimation by fusing events and depth. Türk-Alman Üniversitesi, Fen Bilimler Enstitüsü, İstanbul.Özet
Bir robotun kendini konumlandırması, ¸cevresini algılamasıyla ba¸slar. Bir robo tun konumundan bilgi ¸cıkarmak, haritalar olu¸sturmaya, robotun genel konum
de˘gi¸sikli˘gini hesaplamaya yardımcı olur. G¨orsel sens¨orler, d¨unyayı algılarken
di˘ger sens¨orler i¸cerisinde en anlamlı bilgiyi sa˘glarlar. Ancak bu sens¨orler, hızla
de˘gi¸sen bir arka plana sahip bir depolama alanında kendini konumlandıran
otonom bir robot veya bir t¨unelden ¸cıkan otonom bir ara¸c gibi zorlu senary olardan anlamlı bilgiler ¸cıkarmakta zorlanırlar. Bu ¸calı¸sma, otonom ara¸clara,
alternatif sens¨orlere (¨orn., LIDAR , GPS) ihtiya¸c duymadan zorlu senaryolarda
¸calı¸smayı iyile¸stirecek ve b¨oylece maliyetleri d¨u¸s¨urecek bir algılama sistemi
kazandırmaktadır. Ayrıca, bu ¸calı¸sma insan-robot etkile¸simindeki yaralanma
ve kayıpları azaltmayı ama¸clamaktadır. Olay kameraları, yukarıda belirtilen
senaryolarda geleneksel kameralara kıyasla ¸cok ¨onemli avantajlar sunar. Olay
kameraları, do˘gadan ilham alan, insan g¨oz¨un¨u taklit eden sens¨orlerdir. Bu
sens¨orler, robotik algı i¸cin ola˘gandı¸sı olmasa da, konumlandırma ve ego-hareket
tahmini gibi durumlarda olay kameralarının benzersiz ¸cıktısını i¸slemeye y¨onelik
teknikler hen¨uz olgunla¸smamı¸stır. Spesifik olarak, bu tez, bilgisayarla g¨orme
tekniklerine dayalı poz tahmini ger¸cekle¸stirmek i¸cin bir olay kamerasından ve bir
derinlik kamerasından alınan verileri birle¸stirmeyi ¨onermektedir. Ama¸c, otonom
bir aracının algılama sistemini olu¸sturmak i¸cin olay ve derinlik kameralarının
tamamlayıcı ¨ozelliklerinden yararlanmaktır. Olay kameraları y¨uksek hızlı tepki
sa˘glarken, derinlik kameraları sahnenin 3B yapısının tahminini basitle¸stirir. De rinlik kamerası, olay kamerasının bir sahnenin 3B temsilini toplamak i¸cin ¨u¸c¨unc¨u
boyutu sa˘glamasına yardımcı olur, ardından bu 3B koordinatlar poz tahmini
i¸cin kullanılabilir. Ama¸c, hareket planlama ve kontrol i¸slemlerinin daha sonra
g¨uvenilir bir ¸sekilde ger¸cekle¸stirilebilmesi i¸cin sa˘glam bir egomotion sistemi
sa˘glamaktır. Onerilen yakla¸sımın ¨ozelliklerinin ve performansının, problemin ¨
anla¸sılmasını ve ¸c¨oz¨um¨un¨u ilerletmek i¸cin di˘ger ¸calı¸smalarla kar¸sıla¸stırılması
ama¸clanmaktadır. Ba¸slangı¸cta Nokta Bulutlarını e¸sle¸stirmek i¸cin kullanılan, iyi
bilinen bir y¨ontem olan Yinelemeli En Yakın Noktalar kullanılmı¸stır. Nokta
bulutu e¸sle¸stirmesinin sonu¸cları, ardı¸sık iki nokta bulutu arasındaki, onları bir birine e¸sleyebilecek transformasyonlardır. Bu nokta bulutu e¸sle¸stirmesinin ¸cıktısı,
kameranın egomotion tahmini yolunu verebilir. Bahsedilen y¨ontemin avantaj ve
eksikliklerini belirlemek yoluyla bu ¸calı¸sma bu alanda gelecekteki geli¸smelere
yol g¨osterecektir. For a robot to localize itself starts with perceiving its surroundings. Extracting
information from the location of a robot helps to create maps, calculate the
robot’s overall change in position. Visual sensors provide the most meaning ful information among other sensors when perceiving the world However, these
sensors struggle to extract meaningful information from challenging scenarios,
such as an autonomous robot localizing itself in a storage area with a rapidly
changing background or an autonomous vehicle exiting a tunnel. This study en dows autonomous vehicles with a perception system that will improve operation
in challenging scenarios without the need for alternative sensors,(e.g., LIDAR
, GPS), thus decreasing costs. Furthermore, this study aims to reduce the in juries and casualties in human-robot interaction. Event cameras offer crucial
advantages compared to traditional cameras in the above-mentioned scenarios.
Event cameras are sensors that are inspired by nature, that mimic the human
eye. Although these sensors are not unusual to robotic perception, techniques
for processing the unique output of event cameras in situations such as local ization and egomotion estimation are still non-mature. Specifically, this thesis
proposes to fuse data from an event camera and a depth camera to perform pose
estimation based on computer vision techniques. The aim is to leverage the com plementary characteristics of event and depth cameras to build the perception
system of an autonomous agent. Event cameras provide high-speed response
while depth cameras simplify the estimation of the 3D structure of the scene.
The depth camera assists the event camera in providing the third dimension
to gather a 3D representation of a scene thereafter these 3D coordinates can
be used for pose estimation. The goal is to provide a robust egomotion sys tem so that motion planning and control operations can be reliably performed
afterwards. It is intended to compare the characteristics and performance of
the proposed approach with other works to advance the understanding of the
problem and its solution. A well-known method Iterative Closest Points, that
was originally used to match the Point Clouds, has been used. The results of the
point cloud matching are transformations, that will match them to each other,
between two consecutive point clouds. The output of this point cloud matching
can give the path thus, egomotion estimation of the camera. By identifying the
advantages and shortcomings via mentioned method this study will guide future
developments in this field
Koleksiyonlar
- Tez Koleksiyonu [7]