학술논문

Human Robot Interactions using Efficient Semantic Mapping
Document Type
Dissertation/Thesis
Author
Source
TDX (Tesis Doctorals en Xarxa)
Subject
Aprenentatge profund
Robòtica
Cartografia
Aprendizaje Profundo
Deep Learning
Robotics
Mapping
Enginyeria i arquitectura
Language
English
Abstract
Utilitzem el lleuger ORB-SLAM per extreure l'odometria de la sortida de profunditat generada pel nostre model. Comparem els resultats de l'odometria mitjançant el conjunt de dades Kitti, mentre que els conjunts de dades NYU-D i Camvid s'utilitzen per entrenar el model. Per al mapeig semàntic d'escena, proposem una arquitectura basada en Multi-model Fusion que utilitza tres troncs convolucionals per classificar les escenes amb les seves etiquetes corresponents. El LoCobot, un robot de codi obert i assequible disponible al CIR (Centre de robòtica intel·ligent), IIIT-A. El modelado del espacio de trabajo basado en la percepción es un requisito crucial para que los robots móviles naveguen por entornos interiores. Para permitir que los robots interactúen eficazmente con los humanos, también es necesario tener una descripción semántica del entorno. Esta tesis presenta técnicas de mapeo semántico asequibles para robots, permitiéndoles interpretar el entorno e interactuar de manera significativa con él. Exploramos varios enfoques para el aprendizaje de la semántica, incluido el aprendizaje profundo basado en redes neuronales y los sistemas basados ??en reglas. Como alternativa a los modelos de aprendizaje profundo que consumen muchos recursos, proponemos el uso de modelos ligeros de aprendizaje profundo como TF-Lite y YOLOv3. Estos modelos se integran en el diseño y la estética robótica para generar mapas semánticos de objetos, centrándose en representaciones bidimensionales. Al predecir cuadros delimitadores y calcular cambios en la odometría utilizando secuencias de imágenes capturadas por la cámara del robot, proporcionamos una representación detallada de la escena.
Comparamos los resultados de odometría utilizando el conjunto de datos de Kitti, mientras que los conjuntos de datos de NYU-D y Camvid se utilizan para entrenar el modelo. Para el mapeo semántico de escenas, proponemos una arquitectura basada en Fusion multimodelo que emplea tres columnas vertebrales convolucionales para clasificar escenas con sus etiquetas correspondientes. El LoCobot, un robot asequible y de código abierto disponible en el CIR (Centro de Robótica Inteligente), IIIT-A. Perception-based modeling of the workspace is a crucial requirement for mobile robots to navigate indoor environments. In order to enable robots to effectively interact with humans, it is also necessary to have a semantic description of the environment. This thesis presents affordable semantic mapping techniques for robots, enabling them to interpret the environment and interact meaningfully with it. We explore various approaches for learning semantics, including neural networks based deep learning, and rule-based systems. As an alternative to resource-intensive deep learning models, we propose the use of lightweight deep learning models such as TF-Lite and YOLOv3. These models are integrated into the robotic design and aesthetics to generate object-wise semantic maps, focusing on two-dimensional representations. By predicting bounding boxes and calculating changes in odometry using image sequences captured from the robot's camera, we provide a detailed representation of the scene. To enhance the scene's details and facilitate odometry extraction, we propose an encoder-decoder model that predicts depth and semantic labels per pixel.