Information Technology for Assessing and Ensuring Cybersecurity of Large Language Models

Oleksii Neretin; Vyacheslav Kharchenko

doi:10.31861/sisiot2025.2.02020

Автор(и)

Олексій Неретін Національний аерокосмічний університет «Харківський авіаційний інститут» Автор https://orcid.org/0000-0003-2114-6714
Вячеслав Харченко Національний аерокосмічний університет «Харківський авіаційний інститут» Автор https://orcid.org/0000-0001-5352-077X

DOI:

https://doi.org/10.31861/sisiot2025.2.02020

Ключові слова:

інформаційна технологія, кібербезпека, великі мовні моделі, IMECA, контрзаходи

Анотація

Стрімкий розвиток великих мовних моделей (Large Language Models, LLMs) та їх надзвичайна здатність до роботи з природною мовою привертає увагу з боку все більшої кількості сфер людської діяльності. Сучасні мовні моделі вже не обмежуються простою генерацією тексту. Вони здатні виконувати наступні складні операційні процеси: міркування та планування, генерація контенту та обробка великих об’ємів даних, програмування та пошук інформації. LLMs приносять значну користь різним галузям діяльності, включаючи сферу фінансів, освіти та державний сектор. Однак, крім вагомих переваг від використання цих моделей, існують і певні безпекові виклики, які мають бути враховані при розробці та використанні LLMs. До цих викликів належать генерація неправильних відповідей (галюцинування), створення забороненого контенту та генерація відповідей, які містять конфіденційні дані. У цьому дослідженні представлено програмний засіб та технологію оцінювання та забезпечення кібербезпеки великих мовних моделей від генерації забороненого контенту. Головною метою цього засобу є підвищення точності оцінювання безпеки та рівня захищеності LLMs від цієї загрози. Визначено набір основних даних, необхідних для програмного засобу, який включає експлойти, промпт для перевірки результатів роботи моделі та контрзаходи для її захисту. Запропоновано процедуру колекціонування, перетворення, зберігання, можливого розширення та адаптації цих даних під індивідуальні вимоги користувачів засобу. Розроблено функціональну модель технології, яка складається з наступних етапів: налаштування середовища (перевірка конфігураційних опцій, перевірка зв’язку з моделями); аналізу вразливостей системи за допомогою симулювання атак на неї та перевірки результатів її роботи; аналізу загроз, наслідків та критичності атак на систему за допомогою IMECA (Intrusion Modes Effects Criticality Analysis) методу оцінювання LLMs; вибору контрзаходів для забезпечення кібербезпеки системи. Проведено тестове випробування програмного засобу, яке підтверджує його ефективність у підвищені захищеності LLMs завдяки більш повному та надійному оцінюванню наслідків атак на вразливі місця та вибору обґрунтованого набору контрзаходів. Запропоновано напрями майбутніх досліджень щодо підвищення гнучкості та зручності використання програмного засобу та технології, а саме керування його налаштуваннями та розширення і адаптування основного набору даних під індивідуальні потреби користувачів.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

Олексій Неретін, Національний аерокосмічний університет «Харківський авіаційний інститут»

Отримав ступені бакалавра та магістра з інженерії у Національному аерокосмічному університеті «Харківський авіаційний інститут», Україна. Наразі є аспірантом кафедри кібербезпеки та інтелектуальних інформаційних технологій Національного аерокосмічного університету «Харківський авіаційний інститут». Наукові інтереси: інформатика; кібербезпека; штучний інтелект; великі мовні моделі.
Вячеслав Харченко, Національний аерокосмічний університет «Харківський авіаційний інститут»

Доктор технічних наук, професор, член-кореспондент Національної академії наук України, завідувач кафедри кібербезпеки та інтелектуальних інформаційних технологій Національного аерокосмічного університету «Харківський авіаційний інститут», м. Харків, Україна. Наукові інтереси: глобальна безпека та захист, безпека та стійкість критичної інфраструктури, системи штучного інтелекту на базі UXV для небезпечних просторів, якість штучного інтелекту, XAI як послуга, надійні та стійкі системи штучного інтелекту, AR та AI для інтерактивного мистецтва.

Посилання

R. Azoulay, T. Hirst, and S. Reches, “Large Language Models in Computer Science Classrooms: Ethical Challenges and Strategic Solutions,” Applied Sciences, vol. 15, no. 4, p. 1793, 2025, doi:10.3390/app15041793.

P. S. Papageorgiou, R. C. Christodoulou, R. Pitsillos, V. Petrou, G. Vamvouras, E. V. Kormentza, P. J. Papagelopoulos, and M. F. Georgiou, “The Role of Large Language Models in Improving Diagnostic-Related Groups Assignment and Clinical Decision Support in Healthcare Systems: An Example from Radiology and Nuclear Medicine,” Applied Sciences, vol. 15, no. 16, p. 9005, 2025, doi:10.3390/app15169005.

D. K. C. Lee, C. Guan, Y. Yu, and Q. Ding, “A comprehensive review of generative AI in finance,” FinTech, vol. 3, no. 3, pp. 460–478, 2024, doi:10.3390/fintech3030025.

K. Choutri, S. Fadloun, A. Khettabi, M. Lagha, S. Meshoul, and R. Fareh, “Leveraging Large Language Models for Real-Time UAV Control,” Electronics, vol. 14, no. 21, p. 4312, 2025, doi:10.3390/electronics14214312.

O. Neretin and V. Kharchenko, “A model of ensuring LLM cybersecurity,” Radioelectronic and Computer Systems, vol. 2025, no. 2, pp. 201–215, 2025, doi:10.32620/reks.2025.2.13.

M. M. Billah, H. S. Hamjaya, H. Shiralizade, V. Singh, and R. Inam, “Large Language Models’ Trustworthiness in the Light of the EU AI Act—A Systematic Mapping Study,” Applied Sciences, vol. 15, no. 14. p. 7640, 2025, doi:10.3390/app15147640.

P. Chao, E. Debenedetti, A. Robey, M. Andriushchenko, F. Croce, V. Sehwag, E. Dobriban, N. Flammarion, G. J. Pappas, F. Tramer, and H. Hassani, “Jailbreakbench: An open robustness benchmark for jailbreaking large language models,” arXiv preprint arXiv:2404.01318, 2024, doi:10.48550/arXiv.2404.01318.

X. Shen, Z. Chen, M. Backes, Y. Shen, and Y. Zhang, “”Do anything now”: Characterizing and evaluating in-the-wild jailbreak prompts on large language models,” in Proceedings of the 2024 on ACM SIGSAC Conference on Computer and Communications Security, pp. 1671–1685, 2024, doi:10.1145/3658644.3670388.

J. Chu, Y. Liu, Z. Yang, X. Shen, M. Backes, and Y. Zhang, “JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs,” arXiv preprint arXiv:2402.05668, 2024, doi:10.48550/arXiv.2402.05668.

M. Mazeika, L. Phan, X. Yin, A. Zou, Z. Wang, N. Mu, E. Sakhaee, N. Li, S. Basar, B. Li, and D. Forsyth, “Harmbench: A standardized evaluation framework for automated red teaming and robust refusal,” arXiv preprint arXiv:2402.04249, 2024, doi:10.48550/arXiv.2402.04249.

I. Babeshko, O. Illiashenko, V. Kharchenko, and K. Leontiev, “Towards Trustworthy Safety Assessment by Providing Expert and Tool-Based XMECA Techniques,” Mathematics, vol. 10, no. 13, p. 2297, 2022, doi:10.3390/math10132297.

A. Wei, N. Haghtalab, and J. Steinhardt, “Jailbroken: How does LLM safety training fail?,” arXiv preprint arXiv:2307.02483, 2023, doi:10.48550/arXiv.2307.02483.

Y. Wang, H. Li, X. Han, P. Nakov, and T. Baldwin, “Do-not-answer: A dataset for evaluating safeguards in LLMs,” arXiv preprint arXiv:2308.13387, 2023, doi:10.48550/arXiv.2308.13387.

P. Chao, A. Robey, E. Dobriban, H. Hassani, G. J. Pappas, and E. Wong. “Jailbreaking black box large language models in twenty queries,” in 2025 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML), pp. 23–42, 2025, doi:10.1109/SaTML64287.2025.00010.

A. Zou, Z. Wang, N. Carlini, M. Nasr, J. Z. Kolter, and M. Fredrikson, “Universal and transferable adversarial attacks on aligned language models,” arXiv preprint arXiv:2307.15043, 2023, doi:10.48550/arXiv.2307.15043.

A. Souly, Q. Lu, D. Bowen, T. Trinh, E. Hsieh, S. Pandey, P. Abbeel, J. Svegliat, S. Emmons, O. Watkins, and S. Toyer, “A strongreject for empty jailbreaks,” arXiv preprint arXiv:2402.10260, 2024, doi:10.48550/arXiv.2402.10260.

G. Goren, S. Katz, and L. Wolf, “AlignTree: Efficient Defense Against LLM Jailbreak Attacks,” arXiv preprint arXiv:2511.12217, 2025, doi:10.48550/arXiv.2511.12217.

Y. Zhang, L. Ding, L. Zhang, and D. Tao, “Intention analysis makes llms a good jailbreak defender,” arXiv preprint arXiv:2401.06561, 2024, doi:10.48550/arXiv.2401.06561.

O. Neretin and V. Kharchenko, “Model for describing processes of AI systems vulnerabilities collection and analysis using big data tools,” 2022 12th International Conference on Dependable Systems, Services and Technologies (DESSERT), pp. 1-5, 2022. doi: 10.1109/DESSERT58054.2022.10018811.

Інформаційна технологія для оцінювання та забезпечення кібербезпеки великих мовних моделей

Автор(и)

DOI:

Ключові слова:

Анотація

Завантажити

Біографії авторів

Посилання

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Схожі статті

Мова

Інформація

Особливості

Indexing

Visitors

Founder