Technologies Overview for Typo Segregation

Oleksandr Skliarov; Ganna Zavolodko

doi:10.31861/sisiot2024.1.01009

Автор(и)

Олександр Скляров Національний технічний університет «Харківський політехнічний інститут» Автор https://orcid.org/0009-0006-7232-6319
Ганна Заволодько Національний технічний університет «Харківський політехнічний інститут» Автор https://orcid.org/0000-0003-0000-8910

DOI:

https://doi.org/10.31861/sisiot2024.1.01009

Ключові слова:

одруківка, орфографічна помилка, методи відокремлення одруківок, автоматизація відокремлення одруківок

Анотація

У статті особлива увага приділяється різниці між одруківками (випадковими механічними помилками) та орфографічними або концептуальними помилками, які виникають через недостатнє знання мовних правил. Проаналізовані сучасні методи виявлення одруківок, виявлені переваги та недоліки кожного з них. Метод Левенштейна є одним із найпоширеніших алгоритмів для виявлення та виправлення помилок у тексті, який ефективно виявляє та виправляє помилки в коротких словах, де кількість операцій для перетворення помилкового слова в правильне невелика. Проте цей метод не враховує контекст використання слова, що може призводити до неправильного виправлення. Метод пошуку одруківок з урахуванням розкладки клавіатури базується на аналізі ймовірних помилок, які можуть виникати через близьке розташування клавіш на клавіатурі та є простим для реалізації та інтеграції у вже існуючі системи перевірки правопису, але не враховує контекст використання слова. Метод контекстуального аналізу для відокремлення одруківок базується на використанні контекстної інформації для виявлення та виправлення помилок у тексті вимагає значних обчислювальних ресурсів і потребує великого та різноманітного корпусу текстів для ефективного навчання моделей. Глибокі моделі, такі як BERT або GPT, враховують контекст цілих речень або навіть більших текстових блоків, забезпечуючи високу точність виявлення друкарських помилок, але вимагають значних обчислювальних ресурсів для навчання та висновків, а також великих обсягів високоякісних даних для навчання. Методи машинного навчання, такі як n-grams та Байєсівські класифікатори, демонструють значний потенціал завдяки своїй простоті та ефективності проте вони можуть не враховувати складні залежності між словами та контекстом, що знижує їхню точність. Дослідження показує важливість точного виявлення таких помилок у системі оцінювання знань студентів, де одруківки можуть впливати на підсумкові оцінки та релевантність відповідей.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

Олександр Скляров, Національний технічний університет «Харківський політехнічний інститут»

Олександр, 24 роки, магістр за спеціальністю «Інформаційні технології» Національного технічного університету «Харківський політехнічний інститут», співзасновник ReMnemo.
Ганна Заволодько, Національний технічний університет «Харківський політехнічний інститут»

Ганна, 46 років, кандидат технічних наук, доцент Національного технічного університету «Харківський політехнічний інститут», IEEE Senior; генеральний директор, співзасновник ReMnemo.

Посилання

A. A. Khansir and F. Pakdel, "Place of error correction in English language teaching," Educational Process: International Journal, vol. 7, no. 3, pp. 189-199, 2018.

D. Hládek, J. Staš, and M. Pleva, "Survey of automatic spelling correction," Electronics, vol. 9, no. 1670, 2020.

F. J. Damerau, "A technique for computer detection and correction of spelling errors," Commun. ACM, vol. 7, no. 3, pp. 171-176, 1964.

Y. Korolekh and G. Zavolodko, "Enhancing digital search: Synergizing the Levenshtein algorithm with NLP techniques," in IX International Scientific and Practical Conference "Scientific Problems and Options for Their Solution," Bucharest, Romania, Feb. 7-9, 2024, International Scientific Unity, pp. 60-64.

D. Ittner and H. Baird, "Programmable contextual analysis," in Document Analysis Systems, A. Spitz and A. Dengel, Eds. Singapore: World Scientific, 1995, pp. 76-92.

E. Puerto, J. Aguilar, and A. Pinto, "Automatic spell-checking system for Spanish based on the Ar2p neural network model," Computers, vol. 13, no. 3, p. 76, 2024.

V. C. Mawardi, F. Augusfian, J. Pragantha, and S. Bressan, "Spelling correction application with Damerau-Levenshtein distance to help teachers examine typographical error in exam test scripts," E3S Web Conf., vol. 188, p. 00027, Sep. 2020, doi: 10.1051/e3sconf/202018800027.

W. Clarissa and F. P. Putri, "MeDict: Health dictionary application using Damerau-Levenshtein distance algorithm," IJNMT (International J. New Media Technol.), vol. 7, no. 2, pp. 98-101, 2020, doi: 10.31937/ijnmt.v7i2.1654.

L. Cheng, P. Ben, and Y. Qiao, "Research on automatic error correction method in English writing based on deep neural network," Computational Intelligence and Neuroscience, vol. 2022, Article ID 2709255, 2022.

J.-H. Lee, M. Kim, and H.-C. Kwon, "Deep learning-based context-sensitive spelling typing error correction," IEEE Access, vol. 8, pp. 152565-152578, 2020.

J. Long, "A grammatical error correction model for English essay words in colleges using natural language processing," Mobile Information Systems, vol. 2022, no. 5, pp. 1-9, Jul. 2022.

Огляд технологій відокремлення одруківок

Автор(и)

DOI:

Ключові слова:

Анотація

Завантажити

Біографії авторів

Посилання

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Схожі статті

Статті цього автора (цих авторів), які найбільше читають

Мова

Інформація

Особливості

Indexing

Visitors

Founder