Інтелектуальний аналіз даних
Сучасний рівень розвитку апаратних і програмних засобів зробив можливим повсюдне ведення баз даних оперативної інформації на різних рівнях управління. В процесі своєї діяльності промислові підприємства, корпорації, відомчі структури, органи державної влади і управління накопичили великі об’єми даних. Вони бережуть в собі великі потенційні можливості по витяганню корисної аналітичної інформації, на основі якої можна виявляти приховані тенденції, будувати стратегію розвитку, знаходити нові рішення.
Інтелектуальний аналіз даних (Data Mining) – це процес виявлення в первинних, накопичуваних в результаті оброблення бізнесових транзакцій даних, наперед невідомих чи прихованих закономірностей і взірців (шаблонів) з метою прийняття ділових рішень. У сучасних умовах розвитку ринкової економіки і виникнення нових галузей економічної діяльності застосування засобів Data Mining зумовлює отримання конкурентних переваг фірмами та корпораціями, що їх використовують.
Тому кваліфіковані фахівці з інтелектуальних систем мають знати методи розробки та функціонування інтелектуальних систем аналізу даних, їх можливості, перспективи розвитку, вплив на методику рішення задач за функціями управління і вміти виконувати основні операції зі створення та ефективного використання подібних систем. Знання, набуті при вивченні цієї дисципліни, використовуються при опануванні таких дисциплін: «Вища математика», «Теорія ймовірностей та математична статистика», «Методи и системи штучного інтелекту», «Теорії прийняття рішень» у дипломному проектуванні, а також у практичній самостійній діяльності здобувача у галузі накопичення, обробки та аналізу даних, представлених у різних розмірів та структурах, для розробки реальних інформаційних систем аналізу даних в виробничих та управлінських структурах.
Програма побудована за вимогами кредитно-модульної системи організації навчального процесу у вищих навчальних закладах, яку рекомендовано Європейською Кредитно-Трансферною Системою (ЄКТС).
Дисципліна викладається протягом шостого семестру третього курсу, складається з лекційних та лабораторних занять. У відповідності до навчального плану закінчується заліком.
Вивчення дисципліни дозволяє здобувачам оволодіти знаннями в галузі аналізу даних, статистичного аналізу даних, проектування великих баз даних, системного управління складними об’єктами тощо.
Мета вивчення дисципліни: сформувати фундаментальні теоретичні знання та практичні навички щодо суті та застосування засобів дейтамайнінгу в інформаційних системах, зокрема в системах підтримки прийняття рішень та виконавчих інформаційних системах.
Практичне значення та використання отриманих знань: знання та навички з інтелектуального аналізу даних дозволяють здобувачам ефективно вирішувати завдання з виявлення прихованих закономірностей у великих масивах даних, здійснювати статистичний і прогностичний аналіз, формувати аналітичні звіти для підтримки прийняття рішень. Здобувачі зможуть проєктувати та впроваджувати системи Data Mining для оптимізації бізнес-процесів, маркетингової аналітики, управління ризиками, фінансового прогнозування та підвищення ефективності виробничих і управлінських структур.
Предмет дисципліни: засоби та методи інтелектуального аналізу даних (Data Mining) та загальні закономірності їх застосування.
Основні задачі дисципліни:
вивчення методологічно-організаційних особливостей прийняття управлінських рішень на основі інтелектуального аналізу бізнес-інформації;
засвоєння теоретичних основ інформаційних систем, орієнтованих на застосування стандартів Data Mining;
опрацювання передового досвіду використання систем Data Mining в галузях корпоративного планування, менеджменту, маркетингу, фінансово-кредитної системи, прогнозування тощо.
Тематика та види навчальних занять
Для денної форми здобуття освіти
Лекційні заняття
Лекція 1. Основні поняття та визначення інтелектуального аналізу даних. Типи даних для роботи в Data Mining.
Лекція 2. Класифікація систем Data Mining. Якісний аналіз даних з Data Mining.
Лекція 3. Інтелектуальний аналіз даних як процес: інструменти та методи аналізу. Задачі інтелектуального аналізу данних.
Лекція 4. Кластерний аналіз: методи та алгоритми. Факторний аналіз.
Лекція 5. Основи класифікації даних. Методи класифікації та їх порівняння.
Лекція 6. Прогнозування в інтелектуальному аналізі даних. Поняття тренду, сезонності і циклу.
Лекція 7. Візуалізація в Data Mining. Типи візуалізації даних, основні типи графіків та інструменти візуалізації.
Лекція 8. Оцінювання якості моделей та метрики ефективності в Data Mining.
Лекція 9. Метод інтелектуального аналізу даних: дерево рішень. Алгоритми побудови дерева рішень.
Лекція 10. Нейронні мережі та їх застосування в інтелектуальному аналізі даних.
Лекція 11. Методи пошуку асоціативних правил. Метрики оцінки асоціативних правил. Найпопулярніші алгоритми пошуку правил.
Лекція 12. Інженерія ознак (Feature Engineering): створення та відбір ознак (features). Техніки створення та методи відбору ознак.
Лекція 13. Web Scraping та неструктуровані дані. Використання неструктурованих даних у Data Mining.
Лекція 14. Інтелектуальний аналіз даних у сфері безпеки. Типи загроз та шахрайства в цифровому середовищі. Особливості даних у задачах безпеки.
Лекція 15. Автоматизація інтелектуального аналізу даних. AutoML та сучасні фреймворки.
Лабораторні роботи
Лабораторна робота №1. Методи первинної обробки даних
Мета роботи: отримання навичок генерування вхідних даних, обчислення показників варіації та групування даних за допомогою інструменту Гістограма.
Лабораторна робота №2. Кореляційний аналіз досліджуваних показників
Мета роботи: навчитися будувати діаграму розсіювання та графічно встановлювати наявність чи відсутність кореляційного зв'язку між ознаками, а також визначати коефіцієнт кореляції між досліджуваними ознаками.
Лабораторна робота №3. Парний регресійний аналіз
Мета роботи: навчитися проводити регресійний аналіз, вибирати вид функції регресії, напрямок зв'язку та визначати чисельні коефіцієнти моделі різними способами.
Лабораторна робота №4. Багатофакторна регресійна модель
Мета роботи: набуття навичок побудови багатофакторної регресійної моделі та її
аналізу на статистичну значущість.
Лабораторна робота №5. Кластерний аналіз: нормалізація даних, матриця відстаней,
побудова дерева кластерів
Мета роботи: навчитися проводити багатовимірну класифікацію об'єктів, приводити значення до нормалізованого вигляду для подальшого аналізу за допомогою розбиття на кластери.
Лабораторна робота №6. Дискримінантний аналіз
Мета роботи: навчитися застосовувати процедуру дискримінантного аналізу
для побудови навчальної вибірки.
Лабораторна робота №7. Статистична обробка часових рядів і прогнозування
Мета роботи: навчитися аналізувати часовий ряд за допомогою його розкладання за утворюючими факторами, навчитися застосовувати модель аналізованого ряду для прогнозування його майбутніх значень.
Для заочної форми здобуття освіти
Лекційні заняття
Лекція 1. Основні поняття та визначення інтелектуального аналізу даних. Типи даних для роботи в Data Mining.
Лекція 2. Класифікація систем Data Mining. Якісний аналіз даних з Data Mining.
Лабораторні роботи
Лабораторна робота №1. Методи первинної обробки даних
Мета роботи: отримання навичок генерування вхідних даних, обчислення показників варіації та групування даних за допомогою інструменту Гістограма.
Лабораторна робота №2. Кореляційний аналіз досліджуваних показників
Мета роботи: навчитися будувати діаграму розсіювання та графічно встановлювати наявність чи відсутність кореляційного зв'язку між ознаками, а також визначати коефіцієнт кореляції між досліджуваними ознаками.
Консультації здійснюються впродовж семестру згідно встановленого розкладу.
Індивідуальна робота
Для денної та заочної форми здобуття освіти
Розрахунково-графічна робота
Метою даної РГР глибоке розуміння сутності задачі класифікації в інтелектуальному аналізі даних та набуття практичних навичок її розв'язання для різних типів даних (зображення, звук, пози) з використанням інструменту Google Teachable Machine. Демонстрація повного циклу: від постановки задачі класифікації та збору даних до навчання моделі, її тестування та аналізу результатів саме в контексті ефективності класифікації. Використання Google Teachable Machine є доцільним як вступний практичний інструмент для ілюстрації однієї з ключових задач інтелектуального аналізу даних – класифікації.
Обсяг роботи: 10-15 сторінок (без урахування додатків). Змістовна послідовність виконання роботи:
1. Збір даних: Створення датасету для кожного класу. Для зображень/поз – мінімум 30-50 прикладів на клас. Для звуків – мінімум 10-20 аудіозаписів (тривалістю 1-2 секунди) на клас. Важливо забезпечити різноманітність даних у межах класу.
2. Навчання моделі: Завантаження даних у Teachable Machine, налаштування параметрів навчання (якщо доступно) та запуск процесу тренування моделі. Фіксація процесу скріншотами.
3. Тестування моделі: Перевірка роботи моделі на даних, які не використовувалися під час навчання (з веб-камери, мікрофона або завантаженням файлів). Оцінка точності, що показується Teachable Machine.
4. Аналіз результатів: Опис точності моделі, аналіз випадків, коли модель помиляється. Обговорення можливих причин помилок (якість даних, схожість класів, недостатня кількість даних).
5. Написання звіту РГР: Оформлення всіх етапів роботи у вигляді звіту.
6. Подання РГР: Здача та захист готової роботи.
Захист розрахунково-графічної роботи – протягом останнього навчального тижня семестру.
Для заочної форми здобуття освіти
Контрольна робота для здобувачів заочної форми
Завдання для виконання контрольної роботи здобувач отримує на установчій лекції.
Робота містить 5 теоретичних питань та 2 практичних завдання. Обсяг відповіді на кожне теоретичне питання: не менше, ніж 1 сторінки машинописного тексту. Текст відповіді повинен бути виконаний самостійно, а не скопійованим з навчального посібника.
Практичне завдання №1. Згенерувати вхідні дані обсягом 1000 елементів за нормальним розподілом використовуючи надбудову Пакет аналізу та інструмент Генерація випадкових чисел в Excel (або XLMiner Data Toolpak в Google Sheets).
Практичне завдання №2. Обчислити показники варіації (Медіана, Мода, Середнє і т.д.) використовуючи інструмент Описова статистика з надбудови Пакет аналізу в Excel (або XLMiner Data Toolpak в Google Sheets).
Форми контрольних заходів та оцінювання результатів навчання
Для денної форми здобуття освіти
Поточний контроль полягає у виконанні:
1. 7 лабораторних робіт. Повне виконання та захист лабораторних робіт оцінюється у 7 балів за кожну.
2. Написанню двох модульних контрольних робіт. Модульні контрольні роботи складаються з теоретичних завдань та проводяться у письмовій формі. Бездоганне виконання кожної модульної контрольної роботи становить 20 балів.
3. Розрахунково-графічна роботи. Бездоганне виконання оцінюється у 11 балів.
Підсумковий контроль – залік, максимальна оцінка, яку може отримати здобувач – 100 балів, мінімальна оцінка, яка дозволяє отримати “зараховано” – 60 балів.
Для заочної форми здобуття освіти
Поточний контроль полягає у виконанні:
1. 2 лабораторних робіт. Повне виконання та захист лабораторних робіт оцінюється у 10 балів за кожну.
2. Розрахунково-графічна роботи. Бездоганне виконання оцінюється у 20 балів.
3. Контрольної роботи. Бездоганне виконання контрольної роботи оцінюється у 50 балів. При її захисті можна отримати додатково до 10 балів.
Підсумковий контроль – залік, максимальна оцінка, яку може отримати здобувач – 100 балів, мінімальна оцінка, яка дозволяє отримати “зараховано” – 60 балів.
ПРН1. Застосовувати знання основних форм і законів абстрактно-логічного мислення, основ методології наукового пізнання, форм і методів вилучення, аналізу, обробки та синтезу інформації в предметній області комп’ютерних наук.
ПРН3. Використовувати знання закономірностей випадкових явищ, їх властивостей та операцій над ними, моделей випадкових процесів та сучасних програмних середовищ для розв’язування задач статистичної обробки даних і побудови прогнозних моделей.
ПРН4. Використовувати методи обчислювального інтелекту, машинного навчання, нейромережевої та нечіткої обробки даних, генетичного та еволюційного програмування для розв’язання задач розпізнавання, прогнозування, класифікації, ідентифікації об’єктів керування тощо.
ПРН12. Застосовувати методи та алгоритми обчислювального інтелекту та інтелектуального аналізу даних в задачах класифікації, прогнозування, кластерного аналізу, пошуку асоціативних правил з використанням програмних інструментів підтримки багатовимірного аналізу даних на основі технологій DataMining, TextMining, WebMining.