Інформаційна технологія для стиснення та перетворення даних за допомогою Amazon EMR

Автор(и)

DOI:

https://doi.org/10.31861/sisiot2025.1.01004

Ключові слова:

інформаційна технологія, AWS, великі дані, розподілена обробка, стиснення даних

Анотація

Із зростанням обсягів обробки даних у різних сферах зростає й попит на застосунки, здатні ефективно управляти, опрацьовувати та трансформувати великі масиви інформації. Сучасні підходи до зберігання та обробки великих обсягів даних здебільшого базуються на універсальних текстових форматах, таких як CSV та JSON. Їхня популярність пояснюється простотою інтеграції та сумісністю з широким спектром програмних засобів. Проте під час роботи з великими наборами даних ці формати демонструють низьку ефективність, особливо при виконанні аналітичних запитів або масштабуванні систем. Відсутність вбудованої компресії, рядкова структура та нестача метаданих призводять до значних витрат часу й обчислювальних ресурсів, що створює суперечність між вимогами до швидкості й економічності обробки та технічними можливостями традиційних текстових форматів. Альтернативою виступають колонкові формати зберігання, такі як Parquet та ORC, які використовують компактну структуру, оптимізовану для швидких аналітичних запитів у розподілених обчислювальних середовищах. Завдяки вбудованим механізмам стиснення, ефективному кодуванню та індексації вони забезпечують значне зменшення обсягів даних і прискорюють обробку. Метою цього дослідження є розробка та експериментальна перевірка технології автоматизованого перетворення даних із неефективних текстових форматів у формати Parquet та ORC із використанням Apache Airflow та Amazon EMR. Запропонована архітектура передбачає створення хмарного пайплайна, що виконує конверсію даних і подальше збереження у форматах, орієнтованих на аналітичні навантаження. Система реалізована з використанням Apache Airflow для оркестрації процесів, Amazon EMR та Apache Spark для розподіленої обробки, AWS S3 як масштабованого сховища, AWS Glue для управління метаданими та Amazon Athena для SQL-доступу до перетворених даних. Такий підхід вирішує проблеми продуктивності, пропонуючи гнучке, надійне та економічно ефективне рішення, здатне адаптуватися до різних робочих сценаріїв і навантажень.

Завантажити

Дані для завантаження поки недоступні.

Біографії авторів

  • Євген Кириченко, Чернівецький національний університет імені Юрія Федьковича

    Аспірант кафедри програмної інженерії Чернівецького національного університету імені Юрія Федьковича, Україна. Здобув ступені бакалавра та магістра з комп’ютерних наук у Львівському національному університеті імені Івана Франка. Наукові інтереси охоплюють хмарні обчислення, технології великих даних та розподілені системи.

  • Ігор Малик, Чернівецький національний університет імені Юрія Федьковича

    Доктор фізико-математичних наук, професор, завідувач кафедри математичних проблем управління і кібернетики Чернівецького національного університету імені Юрія Федьковича, Чернівці, Україна. Сфера наукових інтересів: стохастичний аналіз, фінансова математика, машинне навчання, моделювання випадкових процесів.

Посилання

Apache Software Foundation, Apache Parquet Documentation, 2023. [Online]. Available: https://parquet.apache.org/

D. J. Abadi, P. A. Boncz, and S. Harizopoulos, “Column-Oriented Database Systems,” Proc. VLDB Endow., vol. 2, no. 2, pp. 1664–1665, Aug. 2009, doi: 10.14778/1687553.1687609.

Apache Software Foundation, “Apache Airflow Documentation,” 2024. [Online]. Available: https://airflow.apache.org/docs/

Amazon Web Services, “Amazon EMR Developer Guide,” 2023. [Online]. Available: https://docs.aws.amazon.com/emr/

Amazon Web Services, “Storage Best Practices for Data & Analytics,” 2022. [Online]. Available: https://docs.aws.amazon.com/whitepapers/latest/building-data-lakes/

Amazon Web Services, “AWS Glue Documentation,” 2023. [Online]. Available: https://docs.aws.amazon.com/glue/

Amazon Web Services, “Amazon Athena Documentation,” 2023. [Online]. Available: https://docs.aws.amazon.com/athena/

M. Kleppmann, Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, 1st ed. Sebastopol, CA: O’Reilly Media, 2017.

M. Armbrust et al., “Spark SQL: Relational Data Processing in Spark,” in Proc. ACM SIGMOD Int. Conf. Manage. Data, 2015, pp. 1383–1394, doi: 10.1145/2723372.2742797.

M. Zaharia, M. Chowdhury, M. J. Franklin, S. Shenker, and I. Stoica, “Spark: Cluster Computing with Working Sets,” in Proc. 2nd USENIX Conf. Hot Topics in Cloud Computing (HotCloud), 2010.

Y. Mercadier, “Distance Measures for Probability Distributions,” 2022. [Online]. Available: https://distancia.readthedocs.io

U. Kiran and J. Murphy, Building Production Pipelines with Apache Airflow. Birmingham, UK: Packt Publishing, 2020.

M. Moazeni, “Automating Stock Market Data Pipeline with Apache Airflow, Spark, Postgres,” Medium, 2023. [Online]. Available: https://medium.com/@mehran1414/automating-stock-market-data-pipeline-with-apache-airflow-minio-spark-and-postgres-b67f7379566a

A. Lakshman and P. Malik, “Cassandra: A Decentralized Structured Storage System,” ACM SIGOPS Oper. Syst. Rev., vol. 44, no. 2, pp. 35–40, Apr. 2010.

AWS Big Data Blog, “Best Practices for Using Amazon Athena,” Amazon Web Services, 2020. [Online]. Available: https://aws.amazon.com/blogs/big-data/best-practices-for-using-amazon-athena/

Cloud Native Computing Foundation, “CNCF Cloud Native Landscape,” 2022. [Online]. Available: https://landscape.cncf.io/

T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” in Proc. 22nd ACM SIGKDD Int. Conf. Knowl. Discov. Data Min., 2016, doi: 10.1145/2939672.2939785.

Завантаження


Переглядів анотації: 15

Опубліковано

2025-06-30

Номер

Розділ

Статті

Як цитувати

[1]
Є. Кириченко and І. Малик, “Інформаційна технологія для стиснення та перетворення даних за допомогою Amazon EMR”, SISIOT, vol. 3, no. 1, p. 01004, Jun. 2025, doi: 10.31861/sisiot2025.1.01004.

Схожі статті

1-10 з 57

Ви також можете розпочати розширений пошук схожих статей для цієї статті.