Виявлення та ідентифікація облич за допомогою згорткової нейронної мережі та моделі MobileNetV3
DOI:
https://doi.org/10.31861/sisiot2025.2.02009Ключові слова:
машинне навчання, комп’ютерний зір, детектування об’єктів, згорткові нейронні мережі, трансферне навчанняАнотація
У цій роботі представлено результати дослідження ефективності застосування методології трансферного навчання для задачі виявлення та розпізнавання облич із фокусом на обробці зображень, що містять лише одне обличчя. Як базову архітектуру нейронної мережі було обрано MobileNetV3, що забезпечує високу продуктивність при обмежених обчислювальних ресурсах. Навчання моделі здійснювалося у два послідовні етапи: перший – розпізнавання (детекція) облич на фотографіях, другий – ідентифікація особи за зображенням обличчя. Для забезпечення однозначності та чистоти навчальних даних використовувалися виключно зображення з одним обличчям. У процесі тренування було поєднано використання відкритого датасету для початкового етапу детекції облич із власним набором фотографій студентів Чернівецького національного університету імені Юрія Федьковича, призначеним для фази ідентифікації. Навчання та тестування моделі здійснювалися у хмарному середовищі Google Colab із використанням графічного процесора NVIDIA Tesla T4. Реалізація нейронної мережі виконувалася за допомогою сучасного фреймворку глибокого навчання TensorFlow та власного програмного коду, написаного мовою Python. Оптимізація параметрів моделі відбувалася шляхом мінімізації функції втрат, яка є сумою бінарної перехресної ентропії та від’ємного логарифма метрики Intersection over Union, що характеризує точність визначення розташування об’єкта на зображенні. Побудована модель була порівняна з попередніми підходами до детекції облич, реалізованими на основі бібліотеки OpenCV. Порівняльний аналіз за метриками точності розпізнавання та часу обробки продемонстрував перевагу розробленої системи. Отримані результати становлять інтерес для дослідників у галузі комп’ютерного зору, автоматизованих систем розпізнавання та технологій інтелектуальної обробки візуальних даних.
Завантажити
Посилання
A. Howard, M. Sandler, G. Chu, and L.-C. Chen, “Searching for MobileNetV3,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), 2019.
M. Abadi, A. Agarwal, P. Barham, and E. Brevdo, “TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems,” arXiv preprint. arXiv:1603.04467, 2016.
O. Russakovsky, J. Deng, H. Su, and J. Krause, “ImageNet Large Scale Visual Recognition Challenge,” Int. J. Comput. Vis., vol. 115, no. 3, pp. 211–252, 2015.
M. Watson, D. Shivakumar, F. Chollet, and M. Gorner, “KerasCV and KerasNLP: Vision and Language Power-Ups,” J. Mach. Learn. Res., vol. 25, no. 375, pp. 1–10, 2024.
J. Hu, L. Shen, S. Albanie, and G. Sun, “Squeeze-and-Excitation Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 8, pp. 2011–2023, 2020.
S. Pydimarry, S. Khairnar, S. Palacios, and G. Sankaranarayanan, “Evaluating Model Performance with Hard-Swish Activation Function Adjustments,” arXiv preprint. arXiv:2410.06879, 2024.
J. He, S. Erfani, X. Ma, and J. Bailey, “Alpha-IoU: A Family of Power Intersection over Union Losses for Bounding Box Regression,” arXiv preprint. arXiv:2110.13675, 2021.
D. Kingma and J. Ba, “Adam: A Method for Stochastic Optimization,” arXiv preprint. arXiv:1412.6980, 2014.
F. Elmenshawii, “Face Detection Dataset,” [Online]. Available: https://www.kaggle.com/datasets/fareselmenshawii/face-detection-dataset.
M. Ilashchuk, I. Kushnir, and S. Melnychuk, “Rozpiznavannia oblych v realnomu chasi za dopomohoiu biblioteky OpenCV ta movy prohramuvannia Python,” Herald of Khmelnytskyi Natl. Univ., no. 341, pp. 5–21, 2024 (in Ukrainian).
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Безпека інфокомунікаційних систем та Інтернету речей

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.







