Анотація: У цій лекції розглянуті основні методи і алгоритми аналізу структури багатовимірних даних.
Якщо процедура факторного аналізу стискає в мале число кількісних змінних дані, описані кількісними змінними, то кластерний аналіз стискає дані в класифікацію об'єктів. Синонімами терміна "кластерний аналіз" є "автоматична класифікація об'єктів без вчителя" і "таксономія".
Якщо дані розуміти як точки в просторі ознак, то завдання кластерного аналізу формулюється як виділення "згущень точок", розбиття сукупності на однорідні підмножини об'єктів.
При проведенні кластерного аналізу зазвичай визначають відстань на безлічі об'єктів; алгоритми кластерного аналізу формулюють в термінах цих відстаней. Мер близькості і відстаней між об'єктами існує безліч. Їх вибирають в залежності від мети дослідження. Зокрема, евклідова відстань краще використовувати для кількісних змінних, відстань хі-квадрат - для дослідження частотних таблиць, є безліч заходів для бінарних змінних.
Кластерний аналіз є описової процедурою, він не дозволяє зробити ніяких статистичних висновків, але дає можливість провести своєрідну розвідку - вивчити "структуру сукупності".
Ієрархічний кластерний аналіз
Процедура ієрархічного кластерного аналізу в SPSS передбачає угруповання як об'єктів (рядків матриці даних), так і змінних (стовпців). Можна вважати, що в останньому випадку роль об'єктів відіграють змінні, а роль змінних - стовпці.
Цей метод реалізує ієрархічний агломеративного алгоритм. Його сенс полягає в наступному. Перед початком кластеризації всі об'єкти вважаються окремими кластерами, які в ході алгоритму об'єднуються. Спочатку вибирається пара найближчих кластерів, які об'єднуються в один кластер. В результаті кількість кластерів стає рівним N-1. Процедура повторюється, поки всі класи не об'єднаються. На будь-якому етапі об'єднання можна перервати, отримавши необхідну кількість кластерів. Таким чином, результат роботи алгоритму агрегування визначають способи обчислення відстані між об'єктами і визначення близькості між кластерами.
Для визначення відстані між парою кластерів можуть бути сформульовані різні розумні підходи. З урахуванням цього в SPSS передбачені наступні методи, які визначаються на основі відстаней між об'єктами:
- Середня відстань між кластерами (Between-groups linkage).
- Середня відстань між усіма об'єктами пари кластерів з урахуванням відстаней всередині кластерів (Within-groups linkage).
- Відстань між найближчими сусідами - найближчими об'єктами кластерів (Nearest neighbor).
- Відстань між самими далекими сусідами (Furthest neighbor).
- Відстань між центрами кластерів (Centroid clustering).
- Відстань між центрами кластерів (Centroid clustering), або центроїдного метод. Недоліком цього методу є те, що центр об'єднаного кластера обчислюється як середнє центрів об'єднуються кластерів, без урахування їх обсягу.
- Метод медіан - той же центроїдного метод, але центр об'єднаного кластера обчислюється як середнє всіх об'єктів (Median clustering).
- Метод Варда (Ward's method). Як відстань між кластерами береться приріст суми квадратів відстаней об'єктів до центрів кластерів, що отримується в результаті їх об'єднання.
Відстані і міри близькості між об'єктами. У нас немає можливості зробити повний огляд всіх коефіцієнтів, тому зупинимося лише на характерних відстанях і заходи близькості для певних видів даних.
Заходи близькості відрізняються від відстаней тим, що вони тим більше, чим більш схожі об'єкти.
Нехай є два об'єкти X = (X1, ..., Xm) і Y = (Y1, ..., Ym). Застосовуючи цей запис для об'єктів, визначити основні види відстаней, використовуваних процедурі CLUSTER:
Евклідова відстань і його квадрат доцільно використовувати для аналізу кількісних даних.
- Міра близькості - коефіцієнт кореляції , де і - компоненти стандартизованих векторів X і Y. Цей захід доцільно використовувати для виявлення кластерів змінних, а не об'єктів.
- Відстань хі-квадрат виходить на основі таблиці спряженості , Складеної з об'єктів X і Y, які, імовірно, є Таблиця 5.1. Таблиця для пари об'єктів - рядків частот X X1 ... Xm X. Y Y1 ... Ym Y. X + Y X1 + Y1 ... Xm + Ym X. + Y. векторами частот. Тут розглядаються очікувані значення елементів, рівні E (Xi) = X. * (Xi + Yi) / (X. + Y.) І E (Yi) = Y. * (Xi + Yi) / (X. + Y.) , а відстань хі-квадрат має вигляд кореня з відповідного показника .
- Відстань Фі-квадрат є відстанню хі-квадрат, нормованим "число об'єктів" в таблиці спряженості, що подається рядками X і Y, тобто на корінь квадратний з N = X. + Y ..
- У іерархічесом кластерному аналізі в SPSS також є кілька видів відстаней для бінарних даних (вектори X і Y складаються з нулів і одиниць, що позначають наявність або відсутність певних властивостей об'єктів). Найбільш природними з них, по видимому, є евклідова відстань і його квадрат.
стандартизація
Безпосереднє використання змінних в аналізі може привести до того, що класифікацію визначатимуть змінні, що мають найбільший розкид значень. Тому застосовуються такі види стандартизації:
- Z -Шкала (Z- Scores). З значень змінних віднімається їх середнє, і ці значення поділяються на стандартне відхилення.
- Розкид від -1 до 1. Лінійним перетворенням змінних домагаються розкиду значень від -1 до 1.
- Розкид від 0 до 1. Лінійним перетворенням змінних домагаються розкиду значень від 0 до 1.
- Максимум 1. Значення змінних діляться на їх максимум.
- Середнє 1. Значення змінних діляться на їх середнє.
- Стандартне відхилення 1. Значення змінних діляться на стандартне відхилення.
- Крім того, можливі перетворення самих відстаней, зокрема, можна відстані замінити їх абсолютними значеннями, це актуально для коефіцієнтів кореляції. Можна також всі відстані перетворити так, щоб вони змінювалися від 0 до 1.
Таким чином, робота з кластерним аналізом може перетворитися в захоплюючу гру, пов'язану з підбором методу агрегування, відстані і стандартизації змінних з метою отримання найбільш інтерпретується результату. Бажано тільки, щоб це не стало самоціллю і дослідник отримав дійсно необхідні змістовні відомості про структуру даних.
Процес агрегування даних може бути представлений графічно деревом об'єднання кластерів (Dendrogramm) або "сосульковой" діаграмою (Icicle).
Мал.5.2.
Дендрограмма класифікації Але докладніше про процес кластеризації можна дізнатися по протоколу об'єднання кластерів (Schedule).
Приклад ієрархічного кластерного аналізу. Проведемо кластерний аналіз за отриманими нами раніше факторів на агрегованому файлі Курильського опитування:
Мал.5.3.
Класифікація міст
CLUSTER fac1_1 fac2_1 / METHOD BAVERAGE / MEASURE = SEUCLID / ID = name / PRINT SCHEDULE CLUSTER (3,5) / PLOT DENDROGRAM.
У команді вказані змінні fac1_1 fac2_1 для кластеризації. За замовчуванням відстань між кластерами визначається по середній відстані між об'єктами (METHOD BAVERAGE), а відстань між об'єктами - як квадрат евклидова (MEASURE = SEUCLID). Крім того, роздруковується протокол (PRINT SCHEDULE), в якості змінних виводяться класифікації з 3, 4, 5 кластерів (CLUSTER (3,5)) і будується дендрограмма (PLOT DENDROGRAM).
Розріз дерева агрегування ( Мал. 5.2 ) Вертикальної рисою на чотири частини дав два кластери, що складаються з унікальних за своїми характеристиками міст Олександрівськ-Сахалінський і Черемхово; кластер з 5 міст (Оха, Єлізово, Південно-Сахалінськ, Хабаровськ, Курильск); ще один кластер з 14 міст склали останній кластер.
Природність такої класифікації демонструє отримане поле розсіювання даних ( рис.5.3 ).
Таблиця 5.2. Протокол об'єднання кластерів Cluster Combined Coefficients Stage Cluster First Appears Next Stage Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 5 20 0.0115 0 0 2 2 5 11 0.0175 1 0 3 3 5 19 0.0464 2 0 11 4 6 12 0.0510 0 0 8 5 3 16 0.0549 0 0 9 6 13 21 0.0808 0 0 10 7 10 14 0.1082 0 0 14 8 6 15 0.1349 4 0 11 9 3 8 0.1538 5 0 13 10 1 13 0.2818 0 6 12 11 5 6 0.4560 3 8 13 12 1 2 0.5768 10 0 16 13 3 5 0.5861 9 11 16 14 10 17 0.6130 7 0 17 15 7 18 0.8098 0 0 17 16 1 3 1.5406 12 13 18 17 7 10 2.5726 15 14 19 18 1 4 3.5613 16 0 19 19 1 7 5.2217 18 17 20 20 1 9 14.9146 19 0 0
Процес об'єднання детально показаний в протоколі об'єднання ( табл. 5.2 ). У ньому вказані стадії об'єднання, що об'єднуються кластери (після об'єднання кластер приймає мінімальний номер з номерів об'єднуються кластерів). Далі слід відстань між кластерами, номер стадії, на якій кластери раніше вже брали участь в об'єднанні; потім наступна стадія, де відбудеться об'єднання з іншим кластером.
На практиці інтерпретація кластерів вимагає досить серйозної роботи, вивчення різноманітних характеристик об'єктів для точного опису типів об'єктів, які становлять той чи інший клас.