Поисковая геохимия: октября 2013

вторник, 29 октября 2013 г.

Факторный анализ в прикладной геохимии

Пожалуй, все уже наслышаны об этом самом факторном анализе. Факторный анализ – метод, который пытается найти в данных скрытые переменные, которые, как правило, интерпретируются как отражение процессов миграции хим. элементов. То есть, это линейный обобщающий анализ, являющийся разновидностью регрессионного и корреляционного анализов.

А поскольку коэффициент корреляции – квадратный корень из коэффициента детерминации (R2), то прямо связано с дисперсией.

На метод накладываются все ограничения нормального распределения. В нем не должно быть выбросов. Поскольку даже один сильный выброс может исказить регрессионную линию и соответственно реальные взаимосвязи элементов.

Рис. 1. График распределения двух хим. элементов

Упрощенно, факторный анализ можно представить на графике распределения двух хим. элементов. Красная линия – линия регрессии элемента 2 от элемента 1. Это фактор №1. Если этому фактору ортогонально (под 90 градусов) провести еще одну линию, то это будет фактор №2. Он в свою очередь соответствует другому процессу распределения хим. элементов. Теперь же эти линии факторов можно представить как новые координатные оси, и они будут расположены в аккурат как оси хим. элементов. А последние в свою очередь повернутся в данном пространстве.

А теперь представьте, что такой анализ производится не по двум элементам, а одновременно по всем (десяти, двадцати…).

Факторный анализ имеет огромное преимущество перед кластерным анализом в том, что он позволяет выделять факторы, которые не смотря на ортогональность, все равно могут перекрываться в пространстве, плавно переходить один в другой. Это позволяет расшифровать структуру геохимического поля. А кластерный анализ не такой чувствительный. Он лишь выделит группы и трактуй как хочешь.

В данном посте, я рассмотрю как выявить и расшифровать структуру одной интрузии с помощью факторного анализа. Анализуются пробы из высокомагнезиального горизонта.

Рис. 2. Проверка нормального распределения.

Как проверить тип распределения и подогнать данные читайте в одном из первых постов. Тут вкратце вспомним как это делается.

Рис. 3. Выбираем элементы для анализа типа распределения

Рис. 4. Оксид титана. Типичный нормальный макрокомпонент силикатной интрузии. Наблюдения лежат вдоль прямой и слабо отклоняются.

Рис. 5 Оксид калия. Типичный логнормальный макрокомпонент интрузий. Точки выглядят как буква Г.

Три элемента оказались логнормальными, остальные нормальные.

Исключим выбросы перед факторным анализом.

Рис. 6. Выбираем вкладку Данные (Data) – кнопку Фильтр/Перезапись (Filter/Recode) – строку Определить Выбросы (Recode Outliers). Поскольку выборка составлена по всем интрузиям, то необходимо выбрать одну интересующую интрузию. Интрузии перечислены в переменной №25.

Рис. 7. Создадим набор переменных для анализа. Щелкаем кнопку Наборы (Bundles) – Новый (New) – выбираем все необходимые хим. элементы. В дальнейшем в списке переменных на самом верху списка появится названанный набор. Достаточно выбрать его.

Рис. 8. Созданный набор Химия_гп

Рис. 9. Повившийся в списке переменных созданный набор. Выбираем его и автоматом выбираются включенные переменные.

Рис. 10. Создаем подвыборку наблюдений из интрузии “ВТ”.

Рис. 11. В колонке Тест выбираем тест Tukey Two Sided. В колонке параметр ставим значение 3. В колонке Type оставляем параметр “Переписать как отсутствующее значение” (Recode to MD). И отмечаем наблюдение через столбец Marking.

Тест Tukey Two Sided является надежным тестом, который оперирует не средним и стандартным отклонением выборки, а ее робастными параметрами: квартилями. То есть, выбросы могут изменить среднее и расширить дисперсию, соответсвенно многие выбросы не будут исключены. А квартили надежно определят границы. Параметр “3” означает, что будут исключены очень сильные выбросы. Слабые оставлены.

Рис. 12. Выбросы по каждому элементу записаны как отсутствующее значение, а само наблюдение помечено восклицательным знаком. Теперь наблюдения можно удалить, а можно оставить. Я удалил, поскольку сумма окислов в силикатном анализе должна находится возле 99,5%, а значит все остальные значения тоже смещены.

Выборка подготовлена. Производим факторный анализ.

Рис. 13. Выбираем модуль факторного анализа.

Рис. 14. Выбираем переменные.

Если выборка общая, то тут так же можно задать условия для выбора определенных интрузий, значений, наблюдений. Или их исключению.

MD deletion означает, параметры исключения данных с отсутствующими значениями. Тут я выбрал построчное удаление, если не хватает анализа хоть одного элемента, проба не анализируется.

Рис. 15. Первое окно выбора параметров анализа.

Видим, что выбрано 94 пробы. По умолчанию оставляем метод главных компонент, который будет извлекать факторы, и оставляем количество факторов 2. Потом изменим.

Рис. 16. Вкладка Объясненная дисперсия "(Explained Variance).

Отразим таблицу собственных значений факторов (Eigenvalues) и график каменистой осыпи (Scree plot).

Существует два подхода к определению необходимого количества факторов. Собственное значение фактора (вычисленное по корреляционной матрице) должно быть выше единицы, а на графике каменистой осыпи необходимо закончить выбор факторов на перегибе кривой. При этом самое выбор все равно остается за исследователем. Это лишь рекомендации.

Рис. 17. График каменистой осыпи.

Выделен один очень сильный фактор с собственным значением 5,4. Дальше идет перегиб, но одного фактора нам маловато. И двух тоже. Воспользуемся критерием, что собственное значение должно быть больше единицы.

Если выделим все факторы, то это будет анализ главных компонент.

Рис. 18. Возвращаемся к анализу, жмем кнопку Cancel и подпадаем в первое окно анализа. Выбираем 4 фактора.

Рис. 19. Опять вкладка Объясненной дисперсии.

График каменистой осыпи не поменялся. Мы лишь выбрали извлечь 4 фактора, а не 2.

Выбираем вкладки по-порядку. Они необходимы для анализа результатов.

Рис. 20. Таблица собственных значений факторов. Суммарно объяснили 73,3% дисперсии. Это хороший результат. В принципе можно еще один фактор выделить. Попробовать.

Рис. 21. Таблица общностей. Есть общности, а есть характерности. Общности – то, что описано моделью, а характерность – то, что осталось необъясненным. Если коэффициент детерминации (самый правый столбец) меньше 0,5 значит конкретно данного элемента объяснено менее половины и его не следует включать в заключения. Поскольку факторы выделяются один за другим, то и общности в строках идут с накоплением. В целом, все элементы описаны отлично. Хуже всего MnO и P2O5. Марганец описан в 4-м факторе, а P2O5 во втором.

Рис. 22. Таблица остаточной корреляции хим. элементов. Когда проведен факторный анализ вычисляется разница между линейной корреляцией в исходных данных и модели. Знак минус означает, что корреляция в модели завышена, а плюс – занижена. Соответственно, если увидим, что в одном факторе идут два элемента у которых корреляция сильно изменена, то это надо учесть и не писать “у нас такой то фактор из странных элементов! потому что… "(и пошло сочинительство)”.

Рис. 23. Открываем вкладку Факторных нагрузок "(Loadings)

Сначала покажем сырые факторы.

Рис. 24. Таблица исходных факторных нагрузок.

Фактор 1 – типичный породный фактор. Отражает основной состав интрузии. Большие значения фактора указывают на привнос Al2O3, Cao, Na2O, SiO2. TiO2 (Как видите раскисление базитовой интрузии, появление основных плагиоклазов и титана) – мы должны это увидеть на флангах интрузии. А низкие значения показывают на увеличение базитовости и содержания оливина. Чем ниже значение фактора – тем выше MgO, п.п.п. (потери при прокаливании – летучие элементы), и окисленного железа. Это должно быть в центре и оси интрузии.

Фактор 2 – специфический фактор. Когда построим карты распределения факторных значений, то попробуем его интерпретировать.

Фактор 3 – связь с дифференциацией интрузии. Выпадение K2O и FeO должно быть на флагах.

Фактор 4 – специфический. Как говорил выше, оксид марганца плохо описан. И этот фактор можно опустить.

Попробуем уточнить структуру, путем поворота всех факторных осей.

Рис. 25. Рекомендуется использовать метод Варимакс с нормализацией. Это ортогональный метод.

Рис. 26. Таблица факторных нагрузок с поворотом варимакс с нормализацией.

Как видите, факторные нагрузки практически не изменились. Главное, что изменился второй фактор. А бывает очень сильно меняется. Например, когда первый фактор включает все факторы, можно попробовать его уточнить с помощью поворота факторных осей.

Факторные нагрузки – структура факторов, а факторные значения – их “концентрация”. Каждая проба имеет свои координаты, значит можно построить карты факторных значений и рассмотреть где факторы имеют максимальные и минимальные значения, как меняются значения в пространстве, какие формы образуют, как соотносятся с другими факторами. Найти локальные аномалии. Это последний этап. Но и тема для другого поста.

Выведем факторные значения.

Рис. 27. Вывод факторных значений. Именно тут можно выбрать переменные отвечающие за номер пробы, координаты.

Рис. 28. Таблица факторных значений без координат

Рис. 29. Карты факторных значений.

Отличный результат. Фактор 1 резко возрастает на флангах, и имеет наименьшее значение фо фронтальных частях интрузии. Фактор 2, является специфическим, но отражает локальную аномалию связанную с особым типом руд. Фактор 3 показывает переход от тыла интрузии к фронту.

Таким образом, это знание можно использовать при поисках и определять направление поисковых работ.

PS. По факторному анализу рекомендую прочитать методичку:

А.И. Бахтин, Н.М. Низамутдинов, Н.М. Хасанова, Е.М. Нуриева Факторный анализ в геологии: Учебное пособие. – Казань: Казанский государственный университет, 2007. – 32 с.

воскресенье, 27 октября 2013 г.

Сравнение групп на примере различия ландшафтных обстановок

После того как проведена геохимическая съемка уточняется карта ландшафтно-геохимического районирования и карта ландшафтно-геохимического районирования по условиям ведения геохимических работ. После выделяются явные геохимические аномалии и области фоновых содержаний. Последние развиты на удалении от продуктивных областей и, соответственно, находятся в разных ладншафтно-геохимических обстановках: на вершинах сопок. на склонах, в долинах ручьев, в болотах, и.т.п. Как выделяются фоновые области отдельная тема, здесь я хочу рассказать о том, как сравнить ландшафтные обстановки. То есть происходит ли систематическое накопление или разубоживание конкретного элемента? Если оно имеет место, то содержание разубоженного компонента необходимо умножить на коэффициент соответствия. Например, в долине ручья идет систематическое разубоживание никеля в 2 раза, значит умножаем его содержание в соответствующих пробах в два раза. Вот как определить насколько значимо это различие и будет написано в этой статье.

Геохимику на заметку

Карта ландшафтно-геохимического районирования по условиям ведения геохимических работ является проектной и отчетной картой. На ней отображаются обобщенные области в которых хим. элементы мигрируют схожим образом. Например, на плоской части образуются несмещенные геохимические ореолы, на склоне сопки идет смещение и разубоживание, а если там еще ледниковые отложения, то могут образовываться только наложенные ореолы, а в пойме реки вообще растительности море и даже наложенные ореолы могут не пробить мощные рыхлые отложения. Так что эта карта является обоснованием проведения геохимических работ. Ее составление – отдельная тема. Так шепну на ушко, это пожалуй единственная карта в геохимии, на которую нет четких инструкций, только рекомендации. Но об этом я расскажу в другой раз.

О том как загружать данные в Statistica я написал ранее.

Рис. 1. Загружаем выборку проб из фоновых областей в Statistica.

Имеем числовой код ландшафтной обстановки в виде натурального числа (0, 1, 2, 3…) и концентрации хим. элементов в условных единицах. Выбираем вкладку Графики (Graphs), кновку Ящик-с-усами (Box).

Рис. 2. Вкладка Расширенные опции (Advanced) в открывшемся окне.

Выбираем группирующую переменную – Код ландшафта, и зависимые переменные – те хим. элементы которые хотим проверить. Далее отмечаем галочками “Крускал-Уоллис тест” (Kruskal-Wallis test), и “Дисперсионный анализ” (F test and p (ANOVA)).

Тест Крускала-Уоллиса – непараметрический. То есть ему собственно все равно какую конкретно концентрацию имеет хим. элемент в конкретном наблюдении, главное его ранг, то есть отношение к остальным наблюдениям. Непараметрическая статистика полезна когда: 1) имеем неизвестное распределение; 2) небольшое количество наблюдений". Главный минус – непараметрическая статистика менее чувствительна к закономерностям в данных. Но для реальной геологии это не не суть важно. Так что, для такой задачи это идеальный вариант.

ANOVA – Analysis of Variation – Дисперсионный анализ – является параметрическим тестом. Он базируется на нормальном распределении данных, представительных выборках (от 30 проб на тип ландшафта). Его преимущество – выявление слабых закономерностей.

Ставим нулевую гипотезу, что никакого значимого различия в распределении хим. элементов в разных ландшафтных обстановках нет. То есть все являются частью одно целого. Все тесты будут сравнивать отдельные группы с объединенной выборкой. И если хоть одна группа отличается, то нулевая гипотеза отвергается (значение теста статистически значимо).

Ну что ждем? Щелкам кнопку “ОК”.

Рис. 3. График распределния Cr по ландшафтным обстановкам

Программа построила графики типа ящик с усами. Ящик вмещает 50% данных. Он находится ровно между первой квартилью (25 процентов данных в вариационном ряду) и третьей квартилью (75% данных). Этот промежуток называется межквартильным размахом (IQR). Между ними медиана – делит выборку пополам. Когда мы из первой квартили вычитаем 1,5*IQR то получаем нижний ус, то есть нижнюю границу выбросов. А когда третьей квартили прибавляет 1,5*IQR то получаем верхний ус. Ширина ящика является аналогом дисперсии. Если IQR умножать на 3, то получаем границу сильных выбросов. Это соответсвует примерно 6 стандартным отклонениям от среднего в каждую сторону.

На графике видно, что в ландшафте №1 только один ящик. Это из-за того, что там только 2 пробы. А так же видно, что дисперсия ландшафта 4 выше (по размаху усов). Но ящики в целом одинаковые и лежан в одной области концентраций.

В тоже время оба теста показывают значимые отличия групп F=5,34/p=0,0019; KW-H=14.2/p=0.0026. Значение “p” (статистической значимости) меньше 0,05, что говорит о том, что распределение хрома в группах разное. Если условно взять, что ландшафт 1 соответствует вершине горы, а 4 – пойме ручья (субаквальный тип ландшафта), то при миграции хрома на удалении происходит его неравномерное переотложение. Где то разубожит, где-то отложит. Содержание скачет. И проблема тут не в среднем. В тоже время такие выбросы в меньшую сторону характерны и для склонов (тип ландшафта 2).

Рис. 4. График распределения Fe2O3 по ландшафтным обстановкам

В случае с Fe2O3 дисперсия в ландшафтах не отличается (ящики и усы одинаковой ширины). Среднее тоже на одном уровне: 7,5-8 %. Поскольку на искомой площади был поставлен МАСФ (метод анализа сверхтонкой фракции), то логично ожидать, что ландшафтные обстановки не будут отличатся.

Просмотрев все элементы, можно заключить, что различие имеет только Cr. А значит это может быть статистической случайностью. На уровне p=0,05 теоретически допустима одна такая ошибка на 20 элементов.

Рассмотрим подбронее различия в средних значениях.

Рис. 5. Запускам модуль Непараметрической статистики: вкладка Statistics, кнопка Nonparametrics, строка Сравнение нескольких независимых наблюдений (групп) (Comparing multiple indep. samples (groups)).

Рис. 6. Диалоговое окно непараметрического теста

Выбираем переменные как для предыдущего теста. Жмем кнопку Codes в новом окошке жмем кнопку “Все” (All). Так выберем все группы ландшафтов для анализа.

Жмем кнопку теста “Множественные сравнения средних рангов для всех групп” (Multiple comparisons of mean ranks for all groups).

Рис. 7. Результаты сравнения средних

Нас интересуют таблички с вероятностями “… p values…”. Красным отмечены значимые разницы средних между конкретными группами. Тут как видим концентрация Cr в склоновых отложениях отличаются от концентраций в долине ручья. Коэффициент можно вывести самим. Разделив средние. Эти таблички позволяют оценить ситуацию очень быстро. Минут за 10 по всем элементам. Поэтому рассмотрим детальнее.

Рис. 8. Запускам модуль Базовой параметрической статистики: вкладка Statistics, кнопка Basic Statistics, строка “t-тест, независимый, по группам” (t-test, independent, by groups). Он основан на распределении Стьюдента.

Рис. 9. Выбираем две группы для сравнения.

Рис. 10. Результаты t-теста для двух ландшафтов

Как видим, параметрический тест выявил больше различий конкретно между двумя группами. Среднее содержание хрома в ландшафте №4 составляет 127,6 у.е., что на 12,5 у.е. больше, чем на склоне (ландшафт 2). При этом дисперсии одинаковые. Поскольку мы рассматриваем данный вопрос стадийно, то учитывая рис. 3, можно заключить, что вероятнее всего различие в распределении хрома являются случайной статистической ошибкой. Поскольку в параметрический тест поданы наблюдения без исключения выбросов, среднее в ландшафте 2 отклонилось, а дисперсии оказались одинаковыми. В приципе тоже можно сказать об остальных элементах в данных двух группах.

Как видите последний тест был лишним. Но это учебный материал и вам стоит это посмотреть.

Заключение. Распределение элементов в фоновых областях не зависит от ландшафтной обстановки. Дисперсия и средняя концентрация хим.элементов сопоставима между всеми типами ландшафтов. Результаты геохимической съемки следует принять без поправочных коэффициентов.

воскресенье, 20 октября 2013 г.

Проверка и подгонка распределения в Statistica

Проверять распределение необходимо перед линейными анализами: факторным, регрессионным, дискриминантным. В геохимии как правило используется два основных распределения: нормальное и логнормальное. Зная распределение мы точнее оцениваем среднее содержание: если данные логнормально распределены, то простое среднее арифметическое будет завышено, поскольку имеется несколько наблюдений с очень высокими значениями, каждое из которых влияет на среднее. Это не хорошо.

Итак. Проверить распределние в Statistica можно несколькими способами. Их можно разделить как на табличные, так и на графические. Речь пойдет о вторых. Поскольку только на графике можно заменить особенности распределения: скошенность, бимодальность, итп.

Рис.1. Запускаем Statistica 10 и жмем кнопку Open.

Рис.2. Открываем xls файл с данными геохимической съемки.

Рис.3. Щелкаем «Импортировать выбранный лист в Лист». Кому как, а я предпочитаю держать данные во внутреннем формате Statistica.

Рис.4. Открывается окошко и ставим галочку «Получить названия переменных из первой строки». Статистике также необходимо задать названия проб, что бы она могла ставить подписи на графиках. Но решение по-умолчанию автоматически ставит числовые названия с кучей нулей после запятой. Так что это лучше делать после импорта листа.

Рис.5. Сразу добавляем Лист в Тетрадь. И сохраняем. Тетрадь содержит в себе все добавленные листы и в нее автоматически включаются все графики, таблицы и результаты анализов с данными в листах.

Рис. 6. Открываем вкладку Graphs. Выбираем Гистограммы (Histograms...)

Основные графические инструменты для проверки гипотезы о распределении являются: Гистограммы, Графики нормальной вероятности. А Квантиль-Квантиль и Вероятность-Вероятность графики аналоги второго.

Рис.7. Выбираем интересующие нас хим.элементы (еще они называются признаками). И переходим во вкладку Расширенное (Advanced).

Тут для примера я выбрал два элемента. Медь типичный логнормальный признак, а оксид титана — нормальный. Как правило, в геохимии макрокомпоненты (SiO2, TiO2. Fe, Mg, Ca...)распределены нормально, а микрокомпоненты логнормально. Но нужно проверять все. К тому же не стоит строго подходить «это нормальный, потому что программа сказала!». У природы свое распределение, мы лишь пытаемся его описать. Так что даже если вы и видите, что критерий нормальности не соблюдается, то все равно можно принять данные за нормальные. В статистике, главное, что бы работало :D

Рис.8. Выбираем подгонку по нормальному распределению (Fit type), внизу щелкаем галочки на тест Шапиро-Уилка, и для желающих тест Колмогорова-Смирнова. Первый лучший. И щелкаем ОК. Программа строит два графика.

Рис. 9. Гистограмма распределения меди с подгонкой к нормальному распределению (красная линия).

Статистик сразу смотри на график. Какой он? Он смещен влево, скошен (правоскошенный), одна мода: основной класс 50-100 у.е, есть редкие классы 200-300 у.е. В заголовке написано среднее 85,9 у.е. Из-за смещения и скоса оно явно завышено. Красная линия так же плохо описывает данные: у нас нет класса —50-0 у.е., а вероятность для него просчитана, класс 0-50 не сильно не доходит до линии. Так же красная линия совсем не описывает классы выше 200 у.е. Все это характерно для логнормального распределения.

Посмотрим на тесты. Тесты оперируют различиями эмпирического распределения с подогнанным. Различие различием, а насколько оно важно? Важность его показывается в подчеркнутых значениях «p». Смотрим, везде p<0.05, а для теста Шапиро-Уилка (SW-W) p=0.0000, это значит, что различие сильно статистически значимо. А раз различие значимо, то гипотезу о нормальном распределении необходимо отвергнуть.

Рис.10. Гистограмма распределения TiO2 с подгонкой нормального распределения (красная линия)

Тут видим, что график симметричный. Среднее содержание 0,966 у.е., а стандартное отклонение 0.1525 у.е., а красная линия (функция нормального распределения) построена как раз по этим параметрам. Функция отлично описывает данные.

Посмотрим на тесты. В первом случае вероятность вычислитьн е получилось p<n.s., во втором p<0.05, в третьем p=0.027. В геохимии, как правило используется уровень значимости 0,05 (5 чисто статистически случайных ошибок на 100 опытов) и параметры по этим тестам должны иметь p>0.05. То есть быть незначимыми. Тут они менее значимы, чем в у меди. Но ссылаясь на тест, я должен отклонить гипотезу о нормальном распределении. Поэтому рассмотрим далее и нажмем кнопку анализа в нижней панели программы. Каждое окно анализа автоматически свертывается туда.

Геохимику на заметку.

Тут используется МАСФ (Метод Анализа Сверхтонкой Фракции) с количественным спектральным анализом с индуктивно связанной плазмой (ICP-AES, ICP-MS). Это дорогие, но стоящие себя методы. Как видите даже самые низкие содержания оксида титана определены, что нереально для полуколичественной спектралки. Геохимику необходимо учитывать исходные данные. Полуколичественная спектралка (просыпка, как еще имеют в кулуарах) имеет две особенности: завышать низкие содержания и давать дискретные значения.

Представьте, если бы содержания TIO2 были бы определены только с 0,6 у.е., а класс 0,6-0,7 у.е. был бы завышен до 0.7-0,8. Тогда у нас было бы логнормальное распределение. Искусственно.

Дискретные значения: например 10, 20, 30,...100 ppm. Но не 10,1, и не 22,56. Многие исследователи предлагают использовать дискетные распределения для анализа ее. То есть типа черный шаг, белый шаг. Лично мое мнение, это ерунда. Скажем, так, оценивайте «дискретность» полуколичественного анализа как сильное округление данных.

Рис.11. Посмотрим подгонку для логнормального распределения.

Рис.12. График распределения меди с логнормальной подгонкой (красная линия).

Что-ж, линия отлично описывает график. Прямо типичный логнормальный элемент. В верху представлены среднее и параметр формы. Точнее их натуральные логарифмы. Експонента 4,3896 = 80,6 у.е., то есть среднее арифметическое завышает оценку мат.ожидания (истинного среднего) на 5,3 у.е. Не критично, в общем то.

Рис. 13. График распределения оксида титана с логнормальной подгонкой (красная линия).

Заметьте, красная линия тоже неплохо описывает данные. Тут еще неопредленность возникает из-за детальности гистограммы. Если сделать столбцов в два раза меньше (шаг 0,2), то столбцы и линия вообще идеально будут соответствовать друг-другу.

В общем, процесс определения типа распределения достаточно эмпирический. Я бы сказал, что тут большую значимость имеет учесть самые логнормальные элементы, а такие ни рыба ни мясо, можно подогнать заодно.

Рассмотрим для примера TIO2 более детально.

Рис. 14. Откроем вкладку Статистики (Statistics) и щелкнем кнопку Подгонка распределения (Distribution Fitting).

Рис. 15. Выбираем Непрерывный тип распределения. Пусть для начала будет Логнормальное.

Про дискретные значения см. рис. 10.

Рис.16. Выбираем элемент и жмем кнопку «Построить график эспериментального и теоретического распределения». Можно построить табличку через конопку Summary.

Рис.17. Гистрограмма распределения оксида титана с логнормальной подгонкой (красная линия)

В данном случае построила несколько другие столбцы. Они не скгруленные. Параметры гистограммы можно изменить во вкладке Parameters (см. картинку выше). Главное отличие, тут программа вычисляет статистику как у теста Шапиро-Уилка. То есть рассчитывает значимость отличия эмпирического распределения от подогнанного по распределению Хи-квадрат. Как видите p=0.00439, что является значимым отклонением.

Построим график для нормального распределения.

Рис.18. Гистрограмма распределения оксида титана с нормальной подгонкой (красная линия)

Как виидите, отклонение намного меньше, чем для логнормального распределения, а его значимость низка. p=-0,44176, что существенно больше 0,05, а значит гипотеза о нормальном распределении принимается.

Вот так вот исследуя данные можно узнать какое у нас распределение. Как правило у геохимика это занимает несколько минут на элемент. Сразу прикидываете, точность и прецизинность анализа, смотрите какие объекты попали в выборку (по ландшафтам, по геологии), смотрите на гистограммы. Если почти все типичные логнормальные, а один два — ни рыба, ни мясо, так логарифмируйте все и не заморачивайтесь.

Да, собственно, на определении типа распределения все не заканчивается. Надо изменить данные, что бы они стали нормальными. Логнормальные признаки нужно прологарифмировать. Я лично использую десятичный логарифм.

Рис. 19. Создаем копию выборки. Вкладка Данные (Data), кнопка Выборка (Subset).

Рис. 20. Тут можно выбрать какие именно переменные и наблюдения нам нужны. Очень полезно, когда надо создавать маленькие подвыборки по типам геол.образований.

Рис. 21. Добавляем Лист в Тетрадь (см. рис. 5).

Рис. 22. Щелкаем дважды на заголовке переменной. Выбираем количество знаков после запятой 4 (для логафмов), и вписываем внизу формулу =log10(v2)

v2 — соответствует переменной хром. Номер можно увидеть в заголовке окошка.

Рис. 23. Соглашаемся. В окошке написано, что не все значения могут логарифмированы.

Рис. 24. Получили логарифмы. Расширим столбец, что бы видеть все значения.

Впишем формулы для остальных элементов. Несколько сложнее, чем в Excel, но привык.

Рис. 25. Выделим все элементы и нажмем кнопку Автоширина (AutoFit). Вообще тут как и в экселе можно пользоваться копированием формата. Да вообще много похожего.

Вот и все. Теперь можно использовать логарифмы в линейных анализах. Они распределены нормально.

На закуску рассмотрю другой графический метод определения типа распределения:

Рис. 26. Опять выбираем вкладку Графики, и кнопку 2D графики — Квантиль-Квантиль графики.

Рис. 26. Построим график распределения оксида титана с нормальной подгонкой.

Рис. 27. График распределения оксида титана с нормальной подгонкой.

Как видите, почти все точки ложатся прямо на линию. Так и должно быть для нормального распределения. А низкие и высокие значения не так уж сильно отклоняются. Ну что-ж, простим лаборатории и природе.

Рис. 28. График распределения оксида меди с нормальной подгонкой.

Тут точки сильно отклоняются от линии. Это типичный график для логнормального элемента.

Вот так в Statistica проверяется и подгоняется распределение данных.

Удачи.

вторник, 29 октября 2013 г.