Оцінювання складності набору вхідних даних для системи комп’ютерного зору

Сергій  Цибуля; Володимир  Тимчук; Артем  Волокита

doi:10.33577/2312-4458.30.2024.14-23

Автор(и)

Сергій Цибуля Національний Університет Оборони, Україна http://orcid.org/0000-0003-0323-1771
Володимир Тимчук Національна академія Сухопутних військ імені гетьмана Петра Сагайдачного, Україна http://orcid.org/0000-0002-3549-2813
Артем Волокита Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна http://orcid.org/0000-0001-9069-5544

DOI:

https://doi.org/10.33577/2312-4458.30.2024.14-23

Ключові слова:

машинне навчання, комп’ютерний зір, засіб маскування, приховування,, зображення місцевості, індекс складності, датасет, набір даних, якість зображень, вхідні дані, визначення об’єктів, класифікація об’єктів, метаінформація, анотування, анотація

Анотація

Стаття розглядає актуальну проблематику використання нейронних мереж у розробці систем комп’ютерного зору військового призначення, з акцентом на аналіз наборів вхідних даних (датасетів). Метою статті є розроблення способу оцінювання складності наборів даних, що базується на розмірах і якості вхідних зображень, та рівні й структурі їх анотації. Застосування попереднього оцінювання складності датасетів дозволить аналізувати вплив зазначених властивостей вхідних даних на тривалість тренування, розхід апаратних ресурсів та загальну ефективність моделей комп’ютерного зору, призначених для виявлення та ідентифікації замаскованих об’єктів.

Для досягнення поставленої мети у дослідженні були застосовані методики аналізу внутрішньої структури та властивостей датасетів, включно з аналізом якості зображень, розмірів, різноманітності об’єктів та складності анотацій. Отримані результати демонструють прямий зв’язок між складністю датасетів і ефективністю тренування моделей, виявляючи ключові параметри, що впливають на точність та швидкість навчання.

Особливу увагу у дослідженні приділено розробці універсального способу оцінювання складності датасетів, що дозволяє об’єднати різноманітні параметри в єдиний кількісний показник. Цей підхід не тільки сприяє глибшому аналізу впливу характеристик датасетів на процес навчання, але й дозволяє прогнозувати витрати обчислювальних ресурсів. Теоретичне значення роботи полягає у формуванні цілісного уявлення про фактори, що впливають на ефективність машинного навчання у сфері комп’ютерного зору для військового застосування. Практична значущість розкривається через можливість використання результатів для оптимізації розробки та тренування нейронних мереж, націлених на підвищення ефективності військових систем розпізнавання.

Результати дослідження надають внесок у розвиток теорії та практики створення систем комп’ютерного зору, пропонуючи інструментарій для ефективнішого вибору або створення датасетів з урахуванням вимог військово-технічних завдань. У подальших дослідженнях планується розширити використання запропонованого показника на різноманітних типах датасетів та архітектурах нейронних мереж, що має сприяти універсальності та масштабованості запропонованого підходу для оцінювання складності датасетів.

Посилання

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. DOI: https://doi.org/10.48550/arXiv.2010.11929.

Санжаров В.В., Фролов В.А., Волобой А.Г., Галактионов В.А., Павлов Д.С. Система генерації наборів зображень для задач комп’ютерного зору на основі фотореалістичного рендеринга // Препринти ІПМ ім. М.В. Келдиша. 2020. № 80. С. 29. DOI: http://doi.org/10.20948/prepr-2020-80.

Hartnett G. S., Zhang L. A., O’Connell C., Lohn A. J., Aguirre J. Empirical evaluation of physical adversarial patch attacks against overhead object detection models. 2022. DOI: https://doi.org/10.48550/arXiv.2206.12725.

Lorena A.C., Garcia L.P., Lehmann J., Souto M.C., Ho T.K. How complex is your classification problem? A survey on measuring classification complexity // ACM Computing Surveys (CSUR). 2019. Vol. 52, Issue 5. Pp. 1-34. DOI: https://doi.org/10.1145/3347711.

Gummadi D., Chan P. H., Wang H. et al. Correlating traditional image quality metrics and DNN-based object detection: a case study with compressed camera data. TechRxiv, 22 November 2023. DOI: http://dx.doi.org/10.36227/techrxiv.24566371.v1.

Branchaud-Charron F., Achkar A., Jodoin P.-M. Spectral Metric for Dataset Complexity Assessment // 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA, 2019. Pp. 3210-3219. DOI: https://10.1109/CVPR.2019.00333.

Le T.-N., Nguyen T. V., Nie Z., Tran M.-T., Sugimoto A. Anabranch network for camouflaged object segmentation // Computer Vision and Image Understanding. 2019. Vol. 184. Pp. 45-56. DOI: https://doi.org/10.1016/j.cviu.2019.04.006.

The A to Z of Data Annotation. URL: https://uk.shaip.com/blog/the-a-to-z-of-data-annotation/ (дата звернення 21.02.2024).

Ошаровська О.В. Оцінювання показників якості ТВ зображень. ОНАЗ ім. О.С. Попова. Цифрові Технології. 2016. № 19. С. 91-102.

Ricardo Ocampo. Automatic image quality assessment in python. URL: https://towardsdatascience.com/ automatic-image-quality-assessment-in-python-391a6be52c11 (дата звернення 29.02.2024).

Le T.-N., Cao Y., Nguyen T.-C. et al. Camouflaged instance segmentation in-the-wild: Dataset, method, and benchmark suite // IEEE Transactions on Image Processing. 2021. Vol. 31. Pp. 287-300. DOI: https://doi.org/10.1109/TIP.2021.3130490.

Fan D.-P., Ji G.-P., Cheng M.-M., Shao L. Concealed Object Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 44, No. 10. 1 Oct. 2022. Pp 6024-6042. DOI: https://doi.org/10.1109/TPAMI.2021.3085766.

Dong F., Zhu J. Underwater Camouflage Object Detection Dataset. arXiv preprint arXiv:2303.12946, 2023. DOI: https://doi.org/10.48550/arXiv.2303.12946.

Lv Y., Zhang J., Dai Y., Li A., Liu B., Barnes N., Fan D.P. Simultaneously localize, segment and rank the camouflaged objects // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. Pp. 11591-11601. DOI: https://doi.org/10.48550/arXiv.2103.04011.

Yi X., Wu J., Ma B., Ou Y., Liu L. LGA-RCNN: Loss-Guided Attention for Object Detection. arXiv preprint. 2021. DOI: https://doi.org/10.48550/arXiv.2104.13763.

Liu M. A military reconnaissance network for small-scale open-scene camouflaged people detection // Expert Systems. Vol. 40, Issue 10. e13444, 2023. DOI: https://doi.org/10.1111/exsy.13444.

Zheng Y., Zhang X., Wang F., Cao T., Sun M., Wang X. Detection of people with camouflage pattern via dense deconvolution network // IEEE Signal Processing Letters. Vol. 26, No. 1. Jan. 2019. Pp. 29-33. DOI: https://doi.org/10.1109/LSP.2018.2825959.

Тимчук В., Литвин В., Перегуда О. Декомпозиція машини глибинного навчання на основі наборів спеціалізованих датасетів для зменшення часу обробки просторової інформації. Військово-технічний збірник. 2023. № 28. С. 60–68. DOI: https://doi.org/10.33577/2312-4458.28.2023.60-68.

Google Colab. URL: https://colab.research. google.com/ (дата звернення 29.02.2024).

Махровська Н. А., Погромська Г. С. Алгоритми і структури даних: навчально-методичний посібник. Миколаїв: Миколаївський національний університет імені В.О. Сухомлинського, 2019. 279 с.