Огляд технологій відокремлення одруківок
DOI:
https://doi.org/10.31861/sisiot2024.1.01009Ключові слова:
одруківка, орфографічна помилка, методи відокремлення одруківок, автоматизація відокремлення одруківокАнотація
У статті особлива увага приділяється різниці між одруківками (випадковими механічними помилками) та орфографічними або концептуальними помилками, які виникають через недостатнє знання мовних правил. Проаналізовані сучасні методи виявлення одруківок, виявлені переваги та недоліки кожного з них. Метод Левенштейна є одним із найпоширеніших алгоритмів для виявлення та виправлення помилок у тексті, який ефективно виявляє та виправляє помилки в коротких словах, де кількість операцій для перетворення помилкового слова в правильне невелика. Проте цей метод не враховує контекст використання слова, що може призводити до неправильного виправлення. Метод пошуку одруківок з урахуванням розкладки клавіатури базується на аналізі ймовірних помилок, які можуть виникати через близьке розташування клавіш на клавіатурі та є простим для реалізації та інтеграції у вже існуючі системи перевірки правопису, але не враховує контекст використання слова. Метод контекстуального аналізу для відокремлення одруківок базується на використанні контекстної інформації для виявлення та виправлення помилок у тексті вимагає значних обчислювальних ресурсів і потребує великого та різноманітного корпусу текстів для ефективного навчання моделей. Глибокі моделі, такі як BERT або GPT, враховують контекст цілих речень або навіть більших текстових блоків, забезпечуючи високу точність виявлення друкарських помилок, але вимагають значних обчислювальних ресурсів для навчання та висновків, а також великих обсягів високоякісних даних для навчання. Методи машинного навчання, такі як n-grams та Байєсівські класифікатори, демонструють значний потенціал завдяки своїй простоті та ефективності проте вони можуть не враховувати складні залежності між словами та контекстом, що знижує їхню точність. Дослідження показує важливість точного виявлення таких помилок у системі оцінювання знань студентів, де одруківки можуть впливати на підсумкові оцінки та релевантність відповідей.
Завантажити
Посилання
A. A. Khansir and F. Pakdel, "Place of error correction in English language teaching," Educational Process: International Journal, vol. 7, no. 3, pp. 189-199, 2018.
D. Hládek, J. Staš, and M. Pleva, "Survey of automatic spelling correction," Electronics, vol. 9, no. 1670, 2020.
F. J. Damerau, "A technique for computer detection and correction of spelling errors," Commun. ACM, vol. 7, no. 3, pp. 171-176, 1964.
Y. Korolekh and G. Zavolodko, "Enhancing digital search: Synergizing the Levenshtein algorithm with NLP techniques," in IX International Scientific and Practical Conference "Scientific Problems and Options for Their Solution," Bucharest, Romania, Feb. 7-9, 2024, International Scientific Unity, pp. 60-64.
D. Ittner and H. Baird, "Programmable contextual analysis," in Document Analysis Systems, A. Spitz and A. Dengel, Eds. Singapore: World Scientific, 1995, pp. 76-92.
E. Puerto, J. Aguilar, and A. Pinto, "Automatic spell-checking system for Spanish based on the Ar2p neural network model," Computers, vol. 13, no. 3, p. 76, 2024.
V. C. Mawardi, F. Augusfian, J. Pragantha, and S. Bressan, "Spelling correction application with Damerau-Levenshtein distance to help teachers examine typographical error in exam test scripts," E3S Web Conf., vol. 188, p. 00027, Sep. 2020, doi: 10.1051/e3sconf/202018800027.
W. Clarissa and F. P. Putri, "MeDict: Health dictionary application using Damerau-Levenshtein distance algorithm," IJNMT (International J. New Media Technol.), vol. 7, no. 2, pp. 98-101, 2020, doi: 10.31937/ijnmt.v7i2.1654.
L. Cheng, P. Ben, and Y. Qiao, "Research on automatic error correction method in English writing based on deep neural network," Computational Intelligence and Neuroscience, vol. 2022, Article ID 2709255, 2022.
J.-H. Lee, M. Kim, and H.-C. Kwon, "Deep learning-based context-sensitive spelling typing error correction," IEEE Access, vol. 8, pp. 152565-152578, 2020.
J. Long, "A grammatical error correction model for English essay words in colleges using natural language processing," Mobile Information Systems, vol. 2022, no. 5, pp. 1-9, Jul. 2022.
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Безпека інфокомунікаційних систем та Інтернету речей
Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.