Аналіз великих даних

Обов'язкова дисципліна
Навчальна дисципліна професійної підготовки
Обсяг освітнього компонента: 
• у кредитах ЄКТС — 4.5; • у навчальних годинах — 135.
Розподіл навчальних годин (аудиторні заняття / самостійна робота): 
• очна форма — 54 / 81; • заочна форма — 8 / 127.
Кількість аудиторних занять за видами (лекції / практичні заняття / лабораторні заняття): 
• очна форма — 18 / 0 / 9; • заочна форма — 2 / 0 / 2.
Індивідуальна робота: 
; • заочна форма — контрольна робота.
Семестровий контроль: 
Екзамен.
Освітню компоненту забезпечує: 
Анотація: 

Мета вивчення дисципліни: забезпечення формування комплексу знань, умінь та розумінь, а також здобуття навичок з використання принципів організації й оперування великими даними із застосуванням сучасних інформаційних засобів і технологій для розв'язання математичних, аналітичних та економічних задач.
Практичне значення та використання отриманих знань: ознайомлення з методами аналізу та зберіганням великих обсягів даних, етапами життєвого циклу обробки великих даних, мови, найбільш пристосованої для обробки та аналітики великих даних, способів організації зберігання і доступу до великих даних;
вміння виконувати елементи аналізу великих даних і інтерпретувати результати, розрізняти характеристики SQL і NoSQL БД, формулювати алгоритми в парадигмі MapReduce, вибирати відповідний інструмент аналізу великих даних або відповідну технологію зберігання великих даних, використовуючи фундаментальні і міждисциплінарні знання для успішного вирішення поставлених завдань.
Тематика та види навчальних занять
Для денної форми здобуття освіти
Лекційні заняття
Лекція 1. “Бізнес-аналіз великих даних. Подібності та відмінності бізнес-аналітики та аналізу великих даних. Складнощі створення системи для бізнес-аналітики та аналізу великих даних. Архітектура і шаблони великих даних: як дізнатися, яке рішення для роботи з великими даними підходить вашій організації.”
Лекція 2. “Архітектура і шаблони великих даних: розуміння архітектурних шарів рішення для роботи з великими даними. Платформа Hadoop. Екосистема платформи Hadoop. Програмна модель Мap / Reduce.”
Лекція 3. “Hadoop Distributed File System (HDFS) – розподілена файлова система. Структура HDFS. Основні концепції HDFS. Компоненти HDFS. Файлові операції і реплікація. Введення в Yet Another Resource Negotiator (YARN) – нове покоління обчислювальної платформи Hadoop. Обмеження класичного MapReduce. Рішення проблеми масштабованості.”
Лекція 4. “Hadoop в хмарних середовищах. Хмарні рішення на базі сервісів. Хмарні рішення на базі віртуальних машин. Розширення і скорочення кластерів Hadoop. Використання еластичних кластерів Hadoop. Розширення кластера Hadoop.”
Лекція 5. “Планування в Hadoop. Алгоритми реалізації планувальників, що підключаються до Hadoop. Розподілене сховище Google BigTable. Модель даних BigТable.”
Лекція 6. “Розподілене сховище Google BigTable. Модель даних BigТable Розподілене NewSQL-сховище Spanner. Масштабованість системи і несуперечливість даних в одному рішенні. Настінний годинник і майстри Армагеддона для забезпечення суворої несуперечності.”
Лекція 7. “Введення в потокову обробку великих даних. Обробка великих даних реального часу за допомогою Storm. Основні атрибути Storm. Модель Storm. Інші рішення з відкритим вихідним кодом для обробки великих даних. Spark – альтернатива для швидкого аналізу даних. Кластерна обчислювальна архітектура Spark.”
Лабораторне заняття 7. “Робота з системою обробки великих даних в режимі реального часу Storm.”
Лекція 8. “Технології BigSQL. Загальне уявлення про BigSQL. Робота з BigSQL. Створення таблиць і завантаження даних. Порівняльний огляд рішень для SQL-доступу до Hadoop. Потреби в SQL-доступі до Hadoop. Огляд BigSQL. Порівняння BigSQL з іншими системами SQL-on-Hadoop.”
Лекція 9. “Великі дані і розширення сховища даних. Традиційні сховища даних. Великі дані і розширення сховища даних. Бізнес-вимоги, що сприяють зростанню попиту на платформі великих даних.”
Лабораторні заняття
Лабораторне заняття №1.” Вибір теми дослідження. Огляд Hadoop-інструментів на основі Linux та Windows.”
Мета заняття: Засвоєння принципів вибору дослідницької теми та ознайомлення з основними інструментами Hadoop для різних операційних систем.
Лабораторне заняття №2. “Розгортання кластеру Hadoop. Створення кластеру Hadoop. Виконання запитів до кластеру.”
Мета заняття: Набуття навичок створення та налаштування кластеру Hadoop, а також практичної роботи з виконанням запитів.
Лабораторне заняття №3. “Розгортання кластеру Hadoop. Підключення до засобів бізнес-аналітики. Запуск прикладів. ”
Мета заняття: Оволодіння методами підключення бізнес-аналітики до Hadoop та запуску різноманітних прикладів для аналізу даних.
Лабораторне заняття №4. “Розгортання кластеру Hadoop. Запуск власного завдання. Видалення кластеру.”
Мета заняття: Формування навичок самостійного виконання завдань у кластері Hadoop і освоєння процесу його видалення.
Лабораторне заняття №5. “Робота з базою даних HBase, встановлення та налаштування.”
Мета заняття: Опанування основ роботи з базою HBase, включаючи встановлення, налаштування і базове адміністрування.
Лабораторне заняття №6. “Робота з NoSQL: види, особливості та застосування.”
Мета заняття: Знайомство з різновидами баз даних NoSQL та їх особливостями для різних застосувань.
Лабораторне заняття №7. “Робота з системою обробки великих даних в режимі реального часу Storm.”
Мета заняття: Вивчення засад обробки потоків даних у реальному часі за допомогою платформи Storm.
Лабораторне заняття №8. “Робота з масштабованою платформою аналізу даних Spark. Частина 1.”
Мета заняття: Засвоєння основ аналізу великих даних з використанням Spark і розуміння його переваг для масштабованих обчислень.
Лабораторне заняття №9. “Робота з масштабованою платформою аналізу даних Spark. Частина 2.”
Мета заняття: Поглиблення навичок роботи з платформою Spark для більш складного аналізу великих обсягів даних.
Для заочної форми здобуття освіти
Лекційні заняття
Лекція 1. “Архітектура і шаблони великих даних: розуміння архітектурних шарів рішення для роботи з великими даними. Платформа Hadoop. Екосистема платформи Hadoop. Програмна модель Мap / Reduce.”
Лекція 2. “Hadoop Distributed File System (HDFS) – розподілена файлова система. Структура HDFS. Основні концепції HDFS. Компоненти HDFS. Файлові операції і реплікація. Введення в Yet Another Resource Negotiator (YARN) – нове покоління обчислювальної платформи Hadoop. Обмеження класичного MapReduce. Рішення проблеми масштабованості.”
Лабораторні заняття
Лабораторне заняття №1.”Розгортання кластеру Hadoop. Створення кластеру Hadoop. Виконання запитів до кластеру.”
Мета заняття: Набуття навичок створення та налаштування кластеру Hadoop, а також практичної роботи з виконанням запитів.
Лабораторне заняття №2. “Робота з масштабованою платформою аналізу даних Spark.”
Мета заняття: Засвоєння основ аналізу великих даних з використанням Spark і розуміння його переваг для масштабованих обчислень.
Консультації здійснюються впродовж семестру згідно встановленого розкладу.
Індивідуальна робота
Для здобувачів очної форми здобуття освіти індивідуальна робота відсутня за планом
Для заочної форми здобуття освіти
Завдання для виконання контрольної роботи здобувач отримує на установочній лекції. Робота містить 2 теоретичних питання, та 4 практичні завдання пов'язаних з еко системой Hadoop.
Обсяг відповіді на кожне теоретичне питання не менше, ніж 2 сторінки машинописного тексту.
Практичні завдання присвячені розгортанню кластеру Hadoop за обраною темою, виконання запитів до нього, підключення до засобів бізнес-аналітики, запуск власного завдання, видалення кластеру.
Термін надання контрольної роботи на перевірку - не пізніше, ніж за місяць до початку сесії.
Форми контрольних заходів та оцінювання результатів навчання
Для денної форми здобуття освіти
Поточний контроль полягає у виконанні
1) 9-ті індивідуальних поточних завдань. Індивідуальні поточні завдання виконуються у вигляді налаштувань на різних платформах, програмного коду, запитів і все це описується в протоколі відповідно до мети та завдань лабораторних занять. Бездоганне виконання індивідуального поточного завдання №1-5 оцінюється по 4 бали; індивідуального поточного завдання № 6 – 9 - 5 балів;
2) двох модульних контрольних робіт. Модульні контрольні роботи складаються з теоретичної і практичної частин та проводяться частково у формі тестування, та відповідей на відкриті питання. Бездоганне виконання кожної модульної контрольної роботи становить 30 балів.
Підсумковий контроль – екзамен. Екзамен усний. Максимальна оцінка, яку може отримувач здобувач – 100 балів.
Для заочної форми здобуття освіти
Захист контрольної роботи. Бездоганне виконання контрольної роботи оцінюється у 50 балів. Під час її захисту здобувач може отримати до 50 балів.
Підсумковий контроль – іспит. Іспит усний. Максимальна оцінка, яку можу отримати здобувач – 100 балів.

Результати навчання: 

ПРН01. Аналізувати, цілеспрямовано шукати і вибирати необхідні для вирішення професійних завдань інформаційно-довідкові ресурси і знання з урахуванням сучасних досягнень науки і техніки.
ПРН07. Знати і застосовувати на практиці фундаментальні концепції, парадигми і основні принципи функціонування мовних, інструментальних і обчислювальних засобів інженерії програмного забезпечення.
ПРН13. Знати і застосовувати методи розробки алгоритмів, конструювання програмного забезпечення та структур даних і знань.
ПРН15. Мотивовано обирати мови програмування та технології розробки для розв’язання завдань створення і супроводження програмного забезпечення.
ПРН18. Знати та вміти застосовувати інформаційні технології обробки, зберігання та передачі даних.

b242536 ▪ 2025 рік