Пожалуй, все уже наслышаны об этом самом факторном анализе. Факторный анализ – метод, который пытается найти в данных скрытые переменные, которые, как правило, интерпретируются как отражение процессов миграции хим. элементов. То есть, это линейный обобщающий анализ, являющийся разновидностью регрессионного и корреляционного анализов.
А поскольку коэффициент корреляции – квадратный корень из коэффициента детерминации (R2), то прямо связано с дисперсией.
На метод накладываются все ограничения нормального распределения. В нем не должно быть выбросов. Поскольку даже один сильный выброс может исказить регрессионную линию и соответственно реальные взаимосвязи элементов.
Рис. 1. График распределения двух хим. элементов
Упрощенно, факторный анализ можно представить на графике распределения двух хим. элементов. Красная линия – линия регрессии элемента 2 от элемента 1. Это фактор №1. Если этому фактору ортогонально (под 90 градусов) провести еще одну линию, то это будет фактор №2. Он в свою очередь соответствует другому процессу распределения хим. элементов. Теперь же эти линии факторов можно представить как новые координатные оси, и они будут расположены в аккурат как оси хим. элементов. А последние в свою очередь повернутся в данном пространстве.
А теперь представьте, что такой анализ производится не по двум элементам, а одновременно по всем (десяти, двадцати…).
Факторный анализ имеет огромное преимущество перед кластерным анализом в том, что он позволяет выделять факторы, которые не смотря на ортогональность, все равно могут перекрываться в пространстве, плавно переходить один в другой. Это позволяет расшифровать структуру геохимического поля. А кластерный анализ не такой чувствительный. Он лишь выделит группы и трактуй как хочешь.
В данном посте, я рассмотрю как выявить и расшифровать структуру одной интрузии с помощью факторного анализа. Анализуются пробы из высокомагнезиального горизонта.
Рис. 2. Проверка нормального распределения.
Как проверить тип распределения и подогнать данные читайте в одном из первых постов. Тут вкратце вспомним как это делается.
Рис. 3. Выбираем элементы для анализа типа распределения
Рис. 4. Оксид титана. Типичный нормальный макрокомпонент силикатной интрузии. Наблюдения лежат вдоль прямой и слабо отклоняются.
Рис. 5 Оксид калия. Типичный логнормальный макрокомпонент интрузий. Точки выглядят как буква Г.
Три элемента оказались логнормальными, остальные нормальные.
Исключим выбросы перед факторным анализом.
Рис. 6. Выбираем вкладку Данные (Data) – кнопку Фильтр/Перезапись (Filter/Recode) – строку Определить Выбросы (Recode Outliers). Поскольку выборка составлена по всем интрузиям, то необходимо выбрать одну интересующую интрузию. Интрузии перечислены в переменной №25.
Рис. 7. Создадим набор переменных для анализа. Щелкаем кнопку Наборы (Bundles) – Новый (New) – выбираем все необходимые хим. элементы. В дальнейшем в списке переменных на самом верху списка появится названанный набор. Достаточно выбрать его.
Рис. 8. Созданный набор Химия_гп
Рис. 9. Повившийся в списке переменных созданный набор. Выбираем его и автоматом выбираются включенные переменные.
Рис. 10. Создаем подвыборку наблюдений из интрузии “ВТ”.
Рис. 11. В колонке Тест выбираем тест Tukey Two Sided. В колонке параметр ставим значение 3. В колонке Type оставляем параметр “Переписать как отсутствующее значение” (Recode to MD). И отмечаем наблюдение через столбец Marking.
Тест Tukey Two Sided является надежным тестом, который оперирует не средним и стандартным отклонением выборки, а ее робастными параметрами: квартилями. То есть, выбросы могут изменить среднее и расширить дисперсию, соответсвенно многие выбросы не будут исключены. А квартили надежно определят границы. Параметр “3” означает, что будут исключены очень сильные выбросы. Слабые оставлены.
Рис. 12. Выбросы по каждому элементу записаны как отсутствующее значение, а само наблюдение помечено восклицательным знаком. Теперь наблюдения можно удалить, а можно оставить. Я удалил, поскольку сумма окислов в силикатном анализе должна находится возле 99,5%, а значит все остальные значения тоже смещены.
Выборка подготовлена. Производим факторный анализ.
Рис. 13. Выбираем модуль факторного анализа.
Если выборка общая, то тут так же можно задать условия для выбора определенных интрузий, значений, наблюдений. Или их исключению.
MD deletion означает, параметры исключения данных с отсутствующими значениями. Тут я выбрал построчное удаление, если не хватает анализа хоть одного элемента, проба не анализируется.
Рис. 15. Первое окно выбора параметров анализа.
Видим, что выбрано 94 пробы. По умолчанию оставляем метод главных компонент, который будет извлекать факторы, и оставляем количество факторов 2. Потом изменим.
Рис. 16. Вкладка Объясненная дисперсия "(Explained Variance).
Отразим таблицу собственных значений факторов (Eigenvalues) и график каменистой осыпи (Scree plot).
Существует два подхода к определению необходимого количества факторов. Собственное значение фактора (вычисленное по корреляционной матрице) должно быть выше единицы, а на графике каменистой осыпи необходимо закончить выбор факторов на перегибе кривой. При этом самое выбор все равно остается за исследователем. Это лишь рекомендации.
Рис. 17. График каменистой осыпи.
Выделен один очень сильный фактор с собственным значением 5,4. Дальше идет перегиб, но одного фактора нам маловато. И двух тоже. Воспользуемся критерием, что собственное значение должно быть больше единицы.
Если выделим все факторы, то это будет анализ главных компонент.
Рис. 18. Возвращаемся к анализу, жмем кнопку Cancel и подпадаем в первое окно анализа. Выбираем 4 фактора.
Рис. 19. Опять вкладка Объясненной дисперсии.
График каменистой осыпи не поменялся. Мы лишь выбрали извлечь 4 фактора, а не 2.
Выбираем вкладки по-порядку. Они необходимы для анализа результатов.
Рис. 20. Таблица собственных значений факторов. Суммарно объяснили 73,3% дисперсии. Это хороший результат. В принципе можно еще один фактор выделить. Попробовать.
Рис. 21. Таблица общностей. Есть общности, а есть характерности. Общности – то, что описано моделью, а характерность – то, что осталось необъясненным. Если коэффициент детерминации (самый правый столбец) меньше 0,5 значит конкретно данного элемента объяснено менее половины и его не следует включать в заключения. Поскольку факторы выделяются один за другим, то и общности в строках идут с накоплением. В целом, все элементы описаны отлично. Хуже всего MnO и P2O5. Марганец описан в 4-м факторе, а P2O5 во втором.
Рис. 22. Таблица остаточной корреляции хим. элементов. Когда проведен факторный анализ вычисляется разница между линейной корреляцией в исходных данных и модели. Знак минус означает, что корреляция в модели завышена, а плюс – занижена. Соответственно, если увидим, что в одном факторе идут два элемента у которых корреляция сильно изменена, то это надо учесть и не писать “у нас такой то фактор из странных элементов! потому что… "(и пошло сочинительство)”.
Рис. 23. Открываем вкладку Факторных нагрузок "(Loadings)
Сначала покажем сырые факторы.
Рис. 24. Таблица исходных факторных нагрузок.
Фактор 1 – типичный породный фактор. Отражает основной состав интрузии. Большие значения фактора указывают на привнос Al2O3, Cao, Na2O, SiO2. TiO2 (Как видите раскисление базитовой интрузии, появление основных плагиоклазов и титана) – мы должны это увидеть на флангах интрузии. А низкие значения показывают на увеличение базитовости и содержания оливина. Чем ниже значение фактора – тем выше MgO, п.п.п. (потери при прокаливании – летучие элементы), и окисленного железа. Это должно быть в центре и оси интрузии.
Фактор 2 – специфический фактор. Когда построим карты распределения факторных значений, то попробуем его интерпретировать.
Фактор 3 – связь с дифференциацией интрузии. Выпадение K2O и FeO должно быть на флагах.
Фактор 4 – специфический. Как говорил выше, оксид марганца плохо описан. И этот фактор можно опустить.
Попробуем уточнить структуру, путем поворота всех факторных осей.
Рис. 25. Рекомендуется использовать метод Варимакс с нормализацией. Это ортогональный метод.
Рис. 26. Таблица факторных нагрузок с поворотом варимакс с нормализацией.
Как видите, факторные нагрузки практически не изменились. Главное, что изменился второй фактор. А бывает очень сильно меняется. Например, когда первый фактор включает все факторы, можно попробовать его уточнить с помощью поворота факторных осей.
Факторные нагрузки – структура факторов, а факторные значения – их “концентрация”. Каждая проба имеет свои координаты, значит можно построить карты факторных значений и рассмотреть где факторы имеют максимальные и минимальные значения, как меняются значения в пространстве, какие формы образуют, как соотносятся с другими факторами. Найти локальные аномалии. Это последний этап. Но и тема для другого поста.
Выведем факторные значения.
Рис. 27. Вывод факторных значений. Именно тут можно выбрать переменные отвечающие за номер пробы, координаты.
Рис. 28. Таблица факторных значений без координат
Рис. 29. Карты факторных значений.
Отличный результат. Фактор 1 резко возрастает на флангах, и имеет наименьшее значение фо фронтальных частях интрузии. Фактор 2, является специфическим, но отражает локальную аномалию связанную с особым типом руд. Фактор 3 показывает переход от тыла интрузии к фронту.
Таким образом, это знание можно использовать при поисках и определять направление поисковых работ.
PS. По факторному анализу рекомендую прочитать методичку:
А.И. Бахтин, Н.М. Низамутдинов, Н.М. Хасанова, Е.М. Нуриева Факторный анализ в геологии: Учебное пособие. – Казань: Казанский государственный университет, 2007. – 32 с.