В данном посте расскажу как объединять пробы в кластеры методом иерархической кластеризации. Но подход подойдет и для выделения ассоциаций переменных. Метод не относится к статистическим методам. Чистая математика. Берем меру расстояния между объектами, и выбираем метод объединения. Все объекты объединяются шаг за шагом пока не будет один кластер. Так что надо решить на каком шаге выделить кластеры.
В каждом новом посте я использую приемы форматирования и редактирования, которые обсуждал в предыдущих постах. Например, как импортировать данные из Excel в Statistica, как добавить переменную, и др. Так что читайте или задавайте вопросы.
Рис. 3. Выбираем переменные и щелкаем ОК. Исходные данные станут стандартизированными. Каждое наблюдение будет иметь значение стандартного отклонения и распределено относительно нуля.
На заметку. В Статистике есть два вида анализов: подтверждающий и разведочный. Разведочный – когда ищем закономерности в данных, а подтверждающий когда их применяем для анализа. Некоторые методы могут быть одновременно и разведочными и подтверждающими. Например, дискриминантный метод и ищет почему известные группы разделяются, и дает постериорное разделение наблюдений по группам по уже найденным закономерностям. Так кластерные анализы тоже могут быть и теми и другими. Иерархическая кластеризация – разведочный метод.
Input file: raw data - Входные данные: сырые данные. Другой выбор – корреляционная матрица. Но об этом в следующий раз.
Cluster: Cases (rows) – Кластеризовать: Наблюдения (строки). Еще можно найти группы переменных.
Amalgamation (linkage) rule: Ward’s method – Правило объединения: метод Варда. Данный метод пытается минимизировать дисперсию в выбранных группах. Поэтому он старается создать маленькие кластеры. Метод дает интересные результаты, поэтому часто используется. Выбор правила объединения стоит за исследователем. Поэтому просто постарайтесь представить какие у вас кластеры. Например, они они имеют разный размер (редкие аномальные объеты на неоднородном фоне), то можно попробовать взвешенный центроидный метод (Weighted centroid method (Median)). В нем расстояния между кластерами вычисляется как геометрическое расстояние между центрами тяжести с учетом весов (по размерам кластеров). Центр тяжести – координата соответствующая медианам всех наблюдений. То есть выбросы для него несущественны. Пробуйте разные методы и сравнивайте. Как поговаривают геохимики “Настоящую аномалию закопать невозможно”.
Distance measure: Euclidean distances – Мера расстояния: Эвклидово расстояние. Мера расстояния – краеугольный камень кластерного анализа. Тема не на один пузырь и одну докторскую. Собственно, в кластерном анализе мы измеряем расстояние между пробами (и кластерами) с помощью некоторой его меры. Эвклидово расстояние – это кратчайшее геометрическое расстояние. Помните про гиппотенузу и катеты: “Пифагововы штаны на все стороны равны, а квадрат гиппотенузы равен сумме квадратов катетов”?. Это полезно когда кластеры имеют форму шаров.
Если кластеры сильно вытянуты, то необходимо использовать расстояния Махаланобиса. К сожалению, они тут не реализованы. Но можно попробовать метод Single Linkage (Объединение ближайших соседей).
Так же, для геохимии вполне подойдут Расстояния Манхэтанна (не чувстивтельно к выборосам), и Квадрат Евклидово Расстояния (усливает расстоние между кластерами путем возведения в квадрат).
Выбор сделан, щелкаем ОК.
Смотрим на данный график как на кисть винограда. Выделяем крупные кисти в объеме до 4-5 штук. Это и будут наши кластеры. Помните про стадийный подход и принципы системного анализа: выделяем обобщенные кластеры, а потом уточняем интересующий кластер отдельно.
Красные прямоугольники рисуем, что бы было удобнее потом масштабировать график на определнном кластере. Это нужно, что бы навести мышкой на границу объединения и получить более точное значение уровня на котором произошло объединение субкластеров.
Кстати, у меня использована относительно небольшая выборка 549 проб. При использовании тысяч проб, будет затруднительно работать. Не расслабляйтесь.
Рис. 15. Копируем строку и….
Рис. 17. Получили. Назвачаем пробам первый кластер.
Повторяем все с остальными кластерами. Далее в Statistica и Excel соритруем данные по столбцу номера пробы. И добавляем столбец с кластерами из Excel в Statistica. Немного муторно, но работает.
Скажу сразу. Я эту работу делал в два этапа и объединил результаты. Поэтому у меня шесть кластеров с номерами от 0 до 5.
Как строить данные графики смотрите предыдущие посты.
Если взглянуть на рис 9 и 10, то увидим, что кластеры 0 и 1 объединяются в один более крупный кластер, тоже с остальными кластерами.
- Кластеры 0, и 3 скорее всего соответствуют рудной минерализации. Потому что у них повышенно содеражние рудных компонентов;
- Кластер 1 совождает кластер 0, а кластер 2 сопровождает кластер 3;
- Кластер 5 – имеет фоновые содержания по всем компонентам. А кластер 4 – соотствует выносу элементов;
- Кластер 5 можно использовать в качестве подвыборки фоновых проб для определения различий распределения хим. элементов в зависимости от ландшафта. Только надо взять пробы, которые удалены от явных аномалий. Поскольку это нормально, когда часть фоновых проб попадают в контур аномалии.
На севере концентрируется кластеры 0 и 1, они окружены кластером 2. Кластер 2 все таки ближе к 0 и 1, чем к 3-му. В центре расположен кластер 3, он так же соседствует с кластером 2.
Вообще я бы не стал говорить “Бурить тут!”, а дал бы рекомендации к заверке аномалии поисковыми маршрутами, детализации геохимическими методами и изучению с помощью геофизических методов.
Рекомендую прочитать:
- Буреева Н.Н. Многомерный статистический анализ с использованием ППП “STATISTICA”. Учебно-методический материал по программе повышения квалификации «Применение программных средств в научных исследованиях и преподавании математики и механики». Нижний Новгород, 2007, 112 с.;
- Дэвис Дж. С. Статистической анализ данных в геологии: Пер. с англ. В 2 кн./Пер. В.А. Голубевой; Под. ред. Д.А. Родионова. Кн. 1. – М.: Недра, 1990. – 319 с.: ил. ISBN 5-247-02122-3;
- В.П. Боровиков Популярное введение в программу STATISTICA.
(к сожалению ссылки лучше у меня не осталось)
Удачи!
PS. Части 1 еще нет.
Комментариев нет:
Отправить комментарий