Огляд алгоритмів візуального визначення положення в просторі
DOI:
https://doi.org/10.31861/sisiot2025.2.02006Ключові слова:
комп'ютерний зір, візуальне розпізнавання положення, розпізнавання об'єктів, машинне навчання, нейронні мережіАнотація
Одним із перспективних напрямів розвитку штучного інтелекту є створення комп’ютерного зору (Computer Vision) – технології, що дозволяє комп’ютеризованим системам отримувати, аналізувати та інтерпретувати інформацію з фото, відео або цифрових зображень. Це відкриває широкі можливості для автоматизації процесів у різних сферах, зокрема в робототехніці, автономному транспорті, промисловості та медицині. Одним із актуальних викликів у дослідженнях комп’ютерного зору є проблема візуального визначення положення (Visual Position Recognition) робота у просторі, що включає оцінку його координат та орієнтації на основі відео- або фотоданих, отриманих з камер робота. В роботизованих системах точне визначення положення має критичне значення для навігації, адаптації до змін у середовищі та взаємодії з об’єктами. Це питання набуває особливої важливості в контексті мобільних роботів, зокрема роботів-прибиральників, автономних дронів і роботів-кур’єрів. У статті зроблено спробу сформулювати проблему з точки зору апроксимації густини розподілу ймовірності станів робота у просторі вхідних даних. Окрім теоретичних аспектів, розглянуто набір алгоритмів, що застосовуються на даний час (як класичних, так і на основі нейронних мереж), їхню універсальність та можливості інтеграції з іншими технологіями комп’ютерного зору. Подано інтерпретацію роботи зазначених алгоритмів з точки зору задачі зменшення розмірності простору вхідних даних при визначенні локалізації. Крім того, наведено список актуальних наборів даних для навчання та тестування моделей візуального визначення положення, а також ключові метрики для оцінювання їхньої ефективності. Таким чином, дослідження покликане не лише узагальнити сучасні підходи до вирішення задачі, а й окреслити напрями подальшого розвитку технологій, що можуть забезпечити більш ефективну та точну локалізацію роботів у просторі.
Завантажити
Посилання
D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” [Online]. Available: https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf
T. Lindeberg, “Scale invariant feature transform,” [Online]. Available: https://www.researchgate.net/publication/235355151_Scale_Invariant_Feature_Transform
H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool, “SURF: Speeded up robust features,” 2008. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S1077314207001555
D. Gossow, P. Decker, and D. Paulus, “An evaluation of open source SURF implementations,” 2010. [Online]. Available: https://doi.org/10.1007/978-3-642-20217-9_15
E. Abbadi and A. Hassani, “Panoramic image stitching techniques based on SURF and singular value decomposition,” 2022. [Online]. Available: https://doi.org/10.1007/978-3-030-93417-0_5
A. Riabko and Y. Averyanova, “Comparative analysis of SIFT and SURF methods for local feature detection in satellite imagery,” 2024. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S1077314214000391
E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, “ORB: An efficient alternative to SIFT or SURF,” 2011. [Online]. Available: https://ieeexplore.ieee.org/document/6126544
C. Campos, R. Elvira, J. J. Gómez Rodríguez, J. M. M. Montiel, and J. D. Tardós, “SLAM3: An accurate open-source library for visual, visual-inertial and multi-map SLAM,” [Online]. Available: https://arxiv.org/abs/2007.11898
V. P. Lysechko, B. I. Sadovnykov, O. M. Komar, and O. S. Zhuchenko, “A research of the latest approaches to visual image recognition,” [Online]. Available: https://pdfs.semanticscholar.org/2cc6/befc9db461b20f4cae44a54707ed1257a1d3.pdf
B. Ferrarini, M. Milford, K. D. McDonald-Maier, and S. Ehsan, “Binary neural networks for memory-efficient and effective visual place recognition in changing environments,” [Online]. Available: https://arxiv.org/pdf/2010.00716
S. Dhar, “Visual place recognition. Introduction,” [Online]. Available: https://medium.com/@sd5023/visual-place-recognition-8999307ebb2f
S. Hussaini, M. Milford, and T. Fischer, “Spiking neural networks for visual place recognition via weighted neuronal assignments,” [Online]. Available: https://arxiv.org/pdf/2109.06452
F. Xue, I. Budvytis, and R. Cipolla, “PRAM: Place recognition anywhere model for efficient visual localization,” [Online]. Available: https://arxiv.org/pdf/2404.07785
S. Hussaini, M. Milford, and T. Fischer, “Applications of spiking neural networks in visual place recognition,” [Online]. Available: https://arxiv.org/pdf/2311.13186
C.-Y. Wang, I.-H. Yeh, H.-Y. M. Liao, and C. Yuan, “YOLOv9: Learning what you want to learn using programmable gradient information,” [Online]. Available: https://arxiv.org/pdf/2402.13616
“Visual place recognition – Papers with Code,” [Online]. Available: https://paperswithcode.com/task/visual-place-recognition
R. Dube, D. Dugas, E. Stumm, and J. I. Nieto, “SegMatch: Segment based place recognition in 3D point clouds,” [Online]. Available: https://www.researchgate.net/publication/318693876_SegMatch_Segment_based_place_recognition_in_3D_point_clouds
S. Arshad, “SVS-VPR: A semantic visual and spatial information-based hierarchical visual place recognition for autonomous navigation in challenging environmental conditions,” 2024. [Online]. Available: https://www.mdpi.com/1424-8220/24/3/906
K. Song, S. Zhang, Z. An, Z. Luo, T. Wang, and J. Xie, “Semantics-consistent feature search for self-supervised visual representation learning,” [Online]. Available: https://arxiv.org/pdf/2212.06486
B. Chen, X. Song, H. Shen, and T. Lu, “Hierarchical visual place recognition based on semantic-aggregation,” 2020. [Online]. Available: https://www.mdpi.com/2076-3417/11/20/9540
Oxford Robotics Institute, “Oxford RobotCar Dataset,” [Online]. Available: https://robotcar-dataset.robots.ox.ac.uk/
Meta Platforms Ireland Limited, “Mapillary Vistas Dataset,” [Online]. Available: https://www.mapillary.com/dataset/vistas
A. Geiger, P. Lenz, and R. Urtasun, “Vision meets robotics: The KITTI dataset,” 2012. [Online]. Available: https://www.cvlibs.net/datasets/kitti/
M. Schleiss, F. Rouatbi, and D. Cremers, “VPAIR: Aerial visual place recognition and localization in large-scale outdoor environments,” 2022. [Online]. Available: https://github.com/AerVisLoc/vpair
N. Keetha, A. Mishra, J. Karhade, K. M. Jatavallabhula, S. Scherer, M. Krishna, and S. Garg, “AnyLoc: Towards universal visual place recognition,” [Online]. Available: https://arxiv.org/pdf/2308.00688
F. Xue, B. Chen, X.-D. Zhou, and D. Song, “STA-VPR: Spatio-temporal alignment for visual place recognition,” [Online]. Available: https://arxiv.org/abs/2103.13580
Z. Shi, H. Shi, K. Yang, Z. Yin, Y. Lin, and K. Wang, “PanoVPR: Towards unified perspective-to-equirectangular visual place recognition via sliding windows across the panoramic view,” [Online]. Available: https://arxiv.org/abs/2303.14095
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Безпека інфокомунікаційних систем та Інтернету речей

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.







