Наша ассоциация ArtMisto.net

Аквапарк

  • Индивидуальные средства защиты
  • Рынка недвижимости
  • Вайфай
  • Казак
  • Как автомобиль
  • Новости
  • Статьи

    CRISP-DM

    1. Матеріал з MachineLearning. (Перенаправлено з Crisp-dm ) CRISP-DM (CRoss Industry Standard...
    2. Інструменти методології
    3. Основні етапи проекту
    4. Розуміння бізнесу (Business Understanding)
    5. Розуміння даних (Data Understanding)
    6. Підготовка даних (Data Preparation)
    7. Моделювання (Modeling)
    8. Оцінка (Evaluation)
    9. Розгортання (Deployment)
    10. Історія

    Матеріал з MachineLearning.

    (Перенаправлено з Crisp-dm )

    CRISP-DM (CRoss Industry Standard Process for Data Mining) найбільш поширена і популярна методологія ведення проектів інтелектуального аналізу даних [1] . Опитування, що проводилися в 2002, 2004 і 2007 роках, показують, що ця методологія часто застосовується дослідниками даних. [1] [1] [1]

    Навіщо потрібна методологія?

    Проекти аналізу даних повинні:

    • надійно виконуватися випробуваними засобами з передбачуваними результатом (Reliable);
    • бути повторюваними, особливо людьми з малим досвідом в аналізі даних (Repeatable).

    Дотримання методикою дає нам:

    • Засоби для збереження досвіду проектів, накопичений досвід дозволяє нам успішно повторювати проекти;
    • Спрощення планування і управління проектами, відома і звична послідовність дій і набір необхідних артефактів;
    • Простоту включення в роботу нових членів команди, зменшення залежності від "зірок".

    Інструменти методології

    ієрархічна декомпозиція

    Застосування загальної моделі в конкретному проекті

    База знань

    (TODO: рекомендації по накопиченню бази знань)

    У базі знань зберігаються добре зарекомендували себе методи для подальшого застосування в інших проектах.

    Основні етапи проекту

    CRISP-DM розбиває процес аналізу даних на шість основних етапів [1] :

    Розуміння бізнесу (Business Understanding)

    Перша фаза процесу спрямована на визначення цілей проекту і вимог з боку бізнесу. Потім ці знання конвертуються в постановку задачі інтелектуального аналізу даних і попередній план досягнення цілей проекту.

    • Визначити бізнес цілі
    • Оцінити ситуацію
    • Визначити цілі аналізу даних
    • Скласти план проекту

    Розуміння даних (Data Understanding)

    Друга фаза починається зі збору даних і ставить за мету познайомитися з даними якомога ближче. Для цього необхідно виявити проблеми з якістю даних такі як неправильний чи неповний, зрозуміти що за дані є в наявності, спробувати відшукати цікаві набори даних або сформувати гіпотези про наявність прихованих закономірностей в даних.

    • Зібрати вихідні дані
    • описати дані
    • дослідити дані
    • Перевірити якість даних

    Підготовка даних (Data Preparation)

    Фаза підготовки даних ставить за мету отримати підсумковий набір даних, які будуть використовуватися при моделюванні, з вихідних різнорідних і різноформатних даних. Завдання підготовки даних можуть виконуватися багато разів без будь-якого наперед заданого порядку. Вони включають в себе відбір таблиць, записів і атрибутів, а також конвертацію і очищення даних для моделювання.

    • відібрати дані
    • Очистити дані
    • Зробити похідні дані
    • об'єднати дані
    • Привести дані в потрібний формат

    Моделювання (Modeling)

    У цій фазі до даних застосовуються різноманітні методики моделювання, будуються моделі та їх параметри налаштовуються на оптимальні значення. Зазвичай для вирішення будь-якої задачі аналізу даних існує кілька різних підходів. Деякі підходи накладають особливі вимоги на подання даних. Таким чином часто буває потрібен повернення на крок назад до фази підготовки даних.

    • Вибрати методику моделювання
    • Зробити тести для моделі
    • побудувати модель
    • оцінити модель

    Оцінка (Evaluation)

    На цьому етапі проекту вже побудована модель і отримані кількісні оцінки її якості. Перед тим, як впроваджувати цю модель, необхідно переконатися, що ми досягли всіх поставлених бізнес-цілей. Основною метою етапу є пошук важливих бізнес-задач, яким не було приділено належної уваги.

    • оцінити результати
    • Зробити рев'ю процесу
    • Визначити наступні кроки

    Розгортання (Deployment)

    Залежно від вимог фаза розгортання може бути простою, наприклад, складання фінального звіту, або складною, наприклад, автоматизація процесу аналізу даних для вирішення бізнес-завдань. Зазвичай розгортання - це турбота клієнта. Однак, навіть якщо аналітик не бере участь в розгортанні, важливо дати зрозуміти клієнтові, що йому потрібно зробити для того, щоб почати використовувати отримані моделі.

    • запланувати розгортання
    • Запланувати підтримку і моніторинг розгорнутого рішення
    • Зробити фінальний звіт
    • Зробити рев'ю проекту


    запланувати розгортання   Запланувати підтримку і моніторинг розгорнутого рішення   Зробити фінальний звіт   Зробити рев'ю проекту

    Переміщення вперед і назад між фазами - звичайна справа. Залежно від результату фази або її підзадачі приймається рішення, в яку фазу переходити далі. Стрілки, що показують найбільш важливі і часті переходи між фазами.

    Зовнішнє коло символізує циклічну природу аналізу даних . Процес аналізу даних триває і після розгортання рішення. Знання, отримані під час процесу, можуть породити нові більш тонкі питання бізнесу. Подальший процес аналізу даних вигідно проводити, використовуючи знання, отримані раніше. [1]

    Історія

    Ідея CRISP-DM зародилася в 1996. У 1997 була розпочата розробка проекту в Європейському Співтоваристві під егідою фонду ESPRIT (European Strategic Program on Research in Information Technology). Проект очолили чотири компанії: ISL, NCR Corporation, Daimler-Benz і OHRA .

    Ці компанії об'єднали свій досвід в проекті. ISL згодом була поглинена SPSS Inc. на той момент мала програмний продукт для аналізу даних Clementine. Комп'ютерний гігант NCR Corporation, що породив Teradata - СУБД для зберігання надвеликих даних, мав штат консультантів і власне програмне забезпечення по аналізу даних . У Daimler-Benz була велика команда інтелектуального аналізу даних для задоволення потреб власного бізнесу. Страхова компанія OHRA почала досліджувати потенціал інтелектуального аналізу даних.

    Перша версія методології була випущена CRISP-DM 1.0 в 1999.

    У липні 2006 консорціум анонсував бажання почати роботу над другою версією CRISP-DM. 26 вересня 2006, ініціативна група CRISP-DM зібралися для обговорення потенційних поліпшень в CRISP-DM 2.0 та подальшого плану робіт. Однак, цим починанням не судилося бути завершеними. З початку 2007 року ініціативна група більше не збиралася, вебсайт CRISP не оновлювався і не з'являлося будь-якої нової інформації.

    переваги методології

    посилання

    виноски

    Дивись також

    зовнішні посилання

    Навіщо потрібна методологія?

    Новости

    ArtMisto.net
    Наша ассоциация ArtMisto.net. Сайт "Buddy.Bet" приглашает всех азартных игроков в мир возможностей и азарта, который доступен в любое время.