суббота, 2 ноября 2013 г.

Кластерный анализ в Statistica. Часть 3. k-средних (K-means)

 

Перед прочтением стоит ознакомится с предыдущим постом. Подготовка данных точно такая же как и для иерархической кластеризации, поэтому я начну с Рисунка 5.

Метод k-средних мало общего с иерархической кластеризацией. Метод является разведочным, но когда мы имеем некоторое представление о данных. Конкретно мы предполагаем определенное количество групп наблюдений (или переменных). Исследователь задает необходимое количество кластеров, метод выбирает несколько случайных (или предварительно выбранных) наблюдений и пытается объединить данные в кластеры с максимальной дисперсией между ними и минимальной внутри. То есть, это обратный дисперсионный анализ.

С количеством кластеров все достаточно просто. Как правило, в прикладной геохимии выделяют не более 4-5 кластеров. Это не строгое число, а рекомендация на основе опыта. А потом уже уточняют интересующие кластеры повторным анализом. Так же тут помогает иерархическая кластеризация. Зачастую, геохимики сначала строят дендрограммы объединения проб, и выделяют крупные гроздья. Сколько их увидят, столько и зададут кластеров в методе k-means. Метод производится за считанные секунды, в чем его огромное преимущество.

Так же стоит учитывать, что в Statistica метод реализован только на Евклидовой метрике. И предполагаемые кластеры должны иметь форму шара! В природе объекты могут образовывать кластеры с формой дыни в пространстве химических элементов, так что данный метод может не дать положительного результата и вовсе запутать.

image Рис. 5 Выбираем метод С-средних (K-means)

image Рис. 6 Переходим во вкладку Расширенное (Advanced) и выбираем параметры кластеризации.

Cluster: Cases (rows) – Кластеризуем пробы, а не переменные.

Number of clusters: 6 – Количество кластеров: 6. По аналогии с прошлым постом.

Number of iterations: 10 – Количество итераций:10. Это сколько шагов я даю программе, что бы она объединила пробы в кластеры и сделала их максимально различными. Как правило, десяти итераций хватает с лихвой. Но вам ничего не мешает поставить двадцать, например.

Initial cluster centers: Первичные кластеры. Как программа должна выбрать первые пробы (по количеству кластеров), что бы они были затравкой.

  • Choose observations… Выбрать наблюдения что мы максимизировать первоначальное различие между кластерами. Выбирает максимально различные пробы. Заметьте, если есть выбросы, то не стоит выбирать этот пункт
  • Sort distances and take… Сортировать наблюдения по расстоянию и выбрать объекты через равные интервалы. Наиболее часто используемый метод.
  • Choose the first N… Выбрать первые N (количество кластеров) наблюдений. Например, у вас есть некоторый известный объект на площади геохимической съемки, вы эмпирически выделили центральную часть, фланговую, фоновую и хотите проверить все остальные части площади на соответствие данным зонам. А вдруг найдете аналогичный объект? Тогда рассчитываете средние или медианы по пробам в данных зонах и вставляете как первые наблюдения в вашу выборку. Это и будут затравки для кластеров.

image Рис. 7 Окно вывода результатов.

Решение было найдено за 7 итераций. Хорошо.

В целом, нам необходимы лишь три пункта тут:

  • Analysis of variance – Анализ дисперсии
  • Graph of means – график средних
  • Save classifications and distances – Сохранить переменную Кластер и Расстояние с другими переменными

image Рис. 8 Таблица анализа дисперсии

Тут смотрим на столбец signf. p. Чем ниже значение тем лучше. Тут все значения сильно ниже 0,05 и даже 0,001, что говорит о высокозначимых различиях всех групп по всем элементам. В действительности, в этом и задача метода максимально отдалить кластеры. В природе, часто играют роль 3-10 элементов, остальные не несут информации об оруденении. Поэтому StatSoft рекомендует не сильно смотреть на эту табличку. Просто видите, что по всем элементам различаются группы и хорошо.

Поймите, что кластерный анализ не панацея, а лишь первичная разведка ваших данных. Это уже когда пройдут годы и пробурят десятки скважин, то получите полноценную геологическую информацию об объекте.

image Рис. 9 График средних.

Помните, что для кластерного анализа k-средних используются стандартизированные данные.

В первую очередь, меня тут заинтересовали кластеры №4 и №5. Кластер №2 может быть переходным, а №3 и 6 – фоновыми.

Так же, меня не устраивает, что по оси OX хим. элементы указаны через один. Это не серьезно! Дважды щекам на названия хим элементов.

image Рис. 10 В открывшемся окне исправляем Skip values (Пропускать значения) на off (выключить) и щелкаем кнопку Edit custom labels (Редактировать подписи)

image Рис. 11 В столбцы Position и Text вписываем по порядку хим. элементы из выборки.

1 Cr

2 Cu

image Рис. 12 Сохраняем результы классификации (см. Рис. 7).

Имеем столбцы: координаты, номер пробы (это нам не нужно), номер кластера, и расстояние. В столбце “Distance” – укзано расстояние между пробой и выделенным кластером. В идеале, оно должно быть минимальным. А поскольку на вход мы подавали стандартизированные значения, а метрика Евклидова, то в мерой расстояния является стандартное отклонение наблюдения от выборки. В многомерном пространстве, круто, да? В общем, если значение сильно больше 3-х, то скорее всего это либо выброс, либо отдельный кластер.

image Рис. 13 Строим двумерный график рассеяния, с маркировкой подвыборок (кластеров). Об этом смотрите в предыдущем посте.

Собственно, северная аномалия так же выделяется с двумя рудными кластерами. Кластер №4 характеризуется максимальными значениями рудных и редкоземельных элементов, а №5 немного меньшими содержаниями. На юг отходит кластер №3 с повышенным содержанием Pb. Свинец в свою очередь является сильным центробежным элементов и уходит во фланговые зоны, что может быть косвенным признаком наличия зональности. Таким образом, стоит сосредоточить внимание на северной части и провести там детализационные работы, поисковые маршруты.

image Рис. 14 Построим карту распределения расстояний объектов до их кластеров.

image Рис. 15 Выбираем в качестве Z – Distance

image Рис. 16. Карта распределения расстояний объектов до центров их кластеров

Область на юге имеет повышенное количество высоких значений. Скорее всего там необходимо выделить отдельную зону, либо проверить пробы. На севере выделяются два возможных выброса.

Вот и всё, что я хотел рассказать про кластерный анализ K-средних в Statistica.

Комментариев нет:

Отправить комментарий