Огляд алгоритмів візуального визначення положення в просторі

Автор(и)

DOI:

https://doi.org/10.31861/sisiot2025.2.02006

Ключові слова:

комп'ютерний зір, візуальне розпізнавання положення, розпізнавання об'єктів, машинне навчання, нейронні мережі

Анотація

Одним із перспективних напрямів розвитку штучного інтелекту є створення комп’ютерного зору (Computer Vision) – технології, що дозволяє комп’ютеризованим системам отримувати, аналізувати та інтерпретувати інформацію з фото, відео або цифрових зображень. Це відкриває широкі можливості для автоматизації процесів у різних сферах, зокрема в робототехніці, автономному транспорті, промисловості та медицині. Одним із актуальних викликів у дослідженнях комп’ютерного зору є проблема візуального визначення положення (Visual Position Recognition) робота у просторі, що включає оцінку його координат та орієнтації на основі відео- або фотоданих, отриманих з камер робота. В роботизованих системах точне визначення положення має критичне значення для навігації, адаптації до змін у середовищі та взаємодії з об’єктами. Це питання набуває особливої важливості в контексті мобільних роботів, зокрема роботів-прибиральників, автономних дронів і роботів-кур’єрів. У статті зроблено спробу сформулювати проблему з точки зору апроксимації густини розподілу ймовірності станів робота у просторі вхідних даних. Окрім теоретичних аспектів, розглянуто набір алгоритмів, що застосовуються на даний час (як класичних, так і на основі нейронних мереж), їхню універсальність та можливості інтеграції з іншими технологіями комп’ютерного зору. Подано інтерпретацію роботи зазначених алгоритмів з точки зору задачі зменшення розмірності простору вхідних даних при визначенні локалізації. Крім того, наведено список актуальних наборів даних для навчання та тестування моделей візуального визначення положення, а також ключові метрики для оцінювання їхньої ефективності. Таким чином, дослідження покликане не лише узагальнити сучасні підходи до вирішення задачі, а й окреслити напрями подальшого розвитку технологій, що можуть забезпечити більш ефективну та точну локалізацію роботів у просторі.

Завантажити

Дані для завантаження поки недоступні.

Біографія автора

  • Андрій Крамар, ПВНЗ «Буковинський університет»

    Закінчив Чернівецький національний університет у 2001 році, магістр фізики, викладач фізики та інформатики в коледжі приватного вищого навчального закладу «Буковинський університет» з 2024 року. Наукові інтереси: машинне навчання, генетичні алгоритми та цифрова обробка сигналів.

Посилання

D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” [Online]. Available: https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

T. Lindeberg, “Scale invariant feature transform,” [Online]. Available: https://www.researchgate.net/publication/235355151_Scale_Invariant_Feature_Transform

H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool, “SURF: Speeded up robust features,” 2008. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S1077314207001555

D. Gossow, P. Decker, and D. Paulus, “An evaluation of open source SURF implementations,” 2010. [Online]. Available: https://doi.org/10.1007/978-3-642-20217-9_15

E. Abbadi and A. Hassani, “Panoramic image stitching techniques based on SURF and singular value decomposition,” 2022. [Online]. Available: https://doi.org/10.1007/978-3-030-93417-0_5

A. Riabko and Y. Averyanova, “Comparative analysis of SIFT and SURF methods for local feature detection in satellite imagery,” 2024. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S1077314214000391

E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, “ORB: An efficient alternative to SIFT or SURF,” 2011. [Online]. Available: https://ieeexplore.ieee.org/document/6126544

C. Campos, R. Elvira, J. J. Gómez Rodríguez, J. M. M. Montiel, and J. D. Tardós, “SLAM3: An accurate open-source library for visual, visual-inertial and multi-map SLAM,” [Online]. Available: https://arxiv.org/abs/2007.11898

V. P. Lysechko, B. I. Sadovnykov, O. M. Komar, and O. S. Zhuchenko, “A research of the latest approaches to visual image recognition,” [Online]. Available: https://pdfs.semanticscholar.org/2cc6/befc9db461b20f4cae44a54707ed1257a1d3.pdf

B. Ferrarini, M. Milford, K. D. McDonald-Maier, and S. Ehsan, “Binary neural networks for memory-efficient and effective visual place recognition in changing environments,” [Online]. Available: https://arxiv.org/pdf/2010.00716

S. Dhar, “Visual place recognition. Introduction,” [Online]. Available: https://medium.com/@sd5023/visual-place-recognition-8999307ebb2f

S. Hussaini, M. Milford, and T. Fischer, “Spiking neural networks for visual place recognition via weighted neuronal assignments,” [Online]. Available: https://arxiv.org/pdf/2109.06452

F. Xue, I. Budvytis, and R. Cipolla, “PRAM: Place recognition anywhere model for efficient visual localization,” [Online]. Available: https://arxiv.org/pdf/2404.07785

S. Hussaini, M. Milford, and T. Fischer, “Applications of spiking neural networks in visual place recognition,” [Online]. Available: https://arxiv.org/pdf/2311.13186

C.-Y. Wang, I.-H. Yeh, H.-Y. M. Liao, and C. Yuan, “YOLOv9: Learning what you want to learn using programmable gradient information,” [Online]. Available: https://arxiv.org/pdf/2402.13616

“Visual place recognition – Papers with Code,” [Online]. Available: https://paperswithcode.com/task/visual-place-recognition

R. Dube, D. Dugas, E. Stumm, and J. I. Nieto, “SegMatch: Segment based place recognition in 3D point clouds,” [Online]. Available: https://www.researchgate.net/publication/318693876_SegMatch_Segment_based_place_recognition_in_3D_point_clouds

S. Arshad, “SVS-VPR: A semantic visual and spatial information-based hierarchical visual place recognition for autonomous navigation in challenging environmental conditions,” 2024. [Online]. Available: https://www.mdpi.com/1424-8220/24/3/906

K. Song, S. Zhang, Z. An, Z. Luo, T. Wang, and J. Xie, “Semantics-consistent feature search for self-supervised visual representation learning,” [Online]. Available: https://arxiv.org/pdf/2212.06486

B. Chen, X. Song, H. Shen, and T. Lu, “Hierarchical visual place recognition based on semantic-aggregation,” 2020. [Online]. Available: https://www.mdpi.com/2076-3417/11/20/9540

Oxford Robotics Institute, “Oxford RobotCar Dataset,” [Online]. Available: https://robotcar-dataset.robots.ox.ac.uk/

Meta Platforms Ireland Limited, “Mapillary Vistas Dataset,” [Online]. Available: https://www.mapillary.com/dataset/vistas

A. Geiger, P. Lenz, and R. Urtasun, “Vision meets robotics: The KITTI dataset,” 2012. [Online]. Available: https://www.cvlibs.net/datasets/kitti/

M. Schleiss, F. Rouatbi, and D. Cremers, “VPAIR: Aerial visual place recognition and localization in large-scale outdoor environments,” 2022. [Online]. Available: https://github.com/AerVisLoc/vpair

N. Keetha, A. Mishra, J. Karhade, K. M. Jatavallabhula, S. Scherer, M. Krishna, and S. Garg, “AnyLoc: Towards universal visual place recognition,” [Online]. Available: https://arxiv.org/pdf/2308.00688

F. Xue, B. Chen, X.-D. Zhou, and D. Song, “STA-VPR: Spatio-temporal alignment for visual place recognition,” [Online]. Available: https://arxiv.org/abs/2103.13580

Z. Shi, H. Shi, K. Yang, Z. Yin, Y. Lin, and K. Wang, “PanoVPR: Towards unified perspective-to-equirectangular visual place recognition via sliding windows across the panoramic view,” [Online]. Available: https://arxiv.org/abs/2303.14095

Завантаження


Переглядів анотації: 8

Опубліковано

2025-12-30

Номер

Розділ

Статті

Схожі статті

1-10 з 59

Ви також можете розпочати розширений пошук схожих статей для цієї статті.