воскресенье, 27 октября 2013 г.

Сравнение групп на примере различия ландшафтных обстановок

 

После того как проведена геохимическая съемка уточняется карта ландшафтно-геохимического районирования и карта ландшафтно-геохимического районирования по условиям ведения геохимических работ. После выделяются явные геохимические аномалии и области фоновых содержаний. Последние развиты на удалении от продуктивных областей и, соответственно, находятся в разных ладншафтно-геохимических обстановках: на вершинах сопок. на склонах, в долинах ручьев, в болотах, и.т.п. Как выделяются фоновые области отдельная тема, здесь я хочу рассказать о том, как сравнить ландшафтные обстановки. То есть происходит ли систематическое накопление или разубоживание конкретного элемента? Если оно имеет место, то содержание разубоженного компонента необходимо умножить на коэффициент соответствия. Например, в долине ручья идет систематическое разубоживание никеля в 2 раза, значит умножаем его содержание в соответствующих пробах в два раза. Вот как определить насколько значимо это различие и будет написано в этой статье.

Геохимику на заметку

Карта ландшафтно-геохимического районирования по условиям ведения геохимических работ является проектной и отчетной картой. На ней отображаются обобщенные области в которых хим. элементы мигрируют схожим образом. Например, на плоской части образуются несмещенные геохимические ореолы, на склоне сопки идет смещение и разубоживание, а если там еще ледниковые отложения, то могут образовываться только наложенные ореолы, а в пойме реки вообще растительности море и даже наложенные ореолы могут не пробить мощные рыхлые отложения. Так что эта карта является обоснованием проведения геохимических работ. Ее составление – отдельная тема. Так шепну на ушко, это пожалуй единственная карта в геохимии, на которую нет четких инструкций, только рекомендации. Но об этом я расскажу в другой раз.

О том как загружать данные в Statistica я написал ранее.

image Рис. 1. Загружаем выборку проб из фоновых областей в Statistica.

Имеем числовой код ландшафтной обстановки в виде натурального числа (0, 1, 2, 3…) и концентрации хим. элементов в условных единицах. Выбираем вкладку Графики (Graphs), кновку Ящик-с-усами (Box).

image Рис. 2. Вкладка Расширенные опции (Advanced) в открывшемся окне.

Выбираем группирующую переменную – Код ландшафта, и зависимые переменные – те хим. элементы которые хотим проверить. Далее отмечаем галочками “Крускал-Уоллис тест” (Kruskal-Wallis test), и “Дисперсионный анализ” (F test and p (ANOVA)).

Тест Крускала-Уоллиса – непараметрический. То есть ему собственно все равно какую конкретно концентрацию имеет хим. элемент в конкретном наблюдении, главное его ранг, то есть отношение к остальным наблюдениям. Непараметрическая статистика полезна когда: 1) имеем неизвестное распределение; 2) небольшое количество наблюдений". Главный минус – непараметрическая статистика менее чувствительна к закономерностям в данных. Но для реальной геологии это не не суть важно. Так что, для такой задачи это идеальный вариант.

ANOVA – Analysis of Variation – Дисперсионный анализ – является параметрическим тестом. Он базируется на нормальном распределении данных, представительных выборках (от 30 проб на тип ландшафта). Его преимущество – выявление слабых закономерностей.

Ставим нулевую гипотезу, что никакого значимого различия в распределении хим. элементов в разных ландшафтных обстановках нет. То есть все являются частью одно целого. Все тесты будут сравнивать отдельные группы с объединенной выборкой. И если хоть одна группа отличается, то нулевая гипотеза отвергается (значение теста статистически значимо).

Ну что ждем? Щелкам кнопку “ОК”.

image Рис. 3. График распределния Cr по ландшафтным обстановкам

Программа построила графики типа ящик с усами. Ящик вмещает 50% данных. Он находится ровно между первой квартилью (25 процентов данных в вариационном ряду) и третьей квартилью (75% данных). Этот промежуток называется межквартильным размахом (IQR). Между ними медиана – делит выборку пополам. Когда мы из первой квартили вычитаем 1,5*IQR то получаем нижний ус, то есть нижнюю границу выбросов. А когда третьей квартили прибавляет 1,5*IQR то получаем верхний ус. Ширина ящика является аналогом дисперсии. Если IQR умножать на 3, то получаем границу сильных выбросов. Это соответсвует примерно 6 стандартным отклонениям от среднего в каждую сторону.

На графике видно, что в ландшафте №1 только один ящик. Это из-за того, что там только 2 пробы. А так же видно, что дисперсия ландшафта 4 выше (по размаху усов). Но ящики в целом одинаковые и лежан в одной области концентраций.

В тоже время оба теста показывают значимые отличия групп F=5,34/p=0,0019; KW-H=14.2/p=0.0026. Значение “p” (статистической значимости) меньше 0,05, что говорит о том, что распределение хрома в группах разное. Если условно взять, что ландшафт 1 соответствует вершине горы, а 4 – пойме ручья (субаквальный тип ландшафта), то при миграции хрома на удалении происходит его неравномерное переотложение. Где то разубожит, где-то отложит. Содержание скачет. И проблема тут не в среднем. В тоже время такие выбросы в меньшую сторону характерны и для склонов (тип ландшафта 2).

image Рис. 4. График распределения Fe2O3 по ландшафтным обстановкам

В случае с Fe2O3 дисперсия в ландшафтах не отличается (ящики и усы одинаковой ширины). Среднее тоже на одном уровне: 7,5-8 %. Поскольку на искомой площади был поставлен МАСФ (метод анализа сверхтонкой фракции), то логично ожидать, что ландшафтные обстановки не будут отличатся.

Просмотрев все элементы, можно заключить, что различие имеет только Cr. А значит это может быть статистической случайностью. На уровне p=0,05 теоретически допустима одна такая ошибка на 20 элементов.

Рассмотрим подбронее различия в средних значениях.

image Рис. 5. Запускам модуль Непараметрической статистики: вкладка Statistics, кнопка Nonparametrics, строка Сравнение нескольких независимых наблюдений (групп) (Comparing multiple indep. samples (groups)).

image Рис. 6. Диалоговое окно непараметрического теста

Выбираем переменные как для предыдущего теста. Жмем кнопку Codes в новом окошке жмем кнопку “Все” (All). Так выберем все группы ландшафтов для анализа.

Жмем кнопку теста “Множественные сравнения средних рангов для всех групп” (Multiple comparisons of mean ranks for all groups).

image Рис. 7. Результаты сравнения средних

Нас интересуют таблички с вероятностями “… p values…”. Красным отмечены значимые разницы средних между конкретными группами. Тут как видим концентрация Cr в склоновых отложениях отличаются от концентраций в долине ручья. Коэффициент можно вывести самим. Разделив средние. Эти таблички позволяют оценить ситуацию очень быстро. Минут за 10 по всем элементам. Поэтому рассмотрим детальнее.

imageРис. 8. Запускам модуль Базовой параметрической статистики: вкладка Statistics, кнопка Basic Statistics, строка “t-тест, независимый, по группам” (t-test, independent, by groups). Он основан на распределении Стьюдента.

image Рис. 9. Выбираем две группы для сравнения.

image Рис. 10. Результаты t-теста для двух ландшафтов

Как видим, параметрический тест выявил больше различий конкретно между двумя группами. Среднее содержание хрома в ландшафте №4 составляет 127,6 у.е., что на 12,5 у.е. больше, чем на склоне (ландшафт 2). При этом дисперсии одинаковые. Поскольку мы рассматриваем данный вопрос стадийно, то учитывая рис. 3, можно заключить, что вероятнее всего различие в распределении хрома являются случайной статистической ошибкой. Поскольку в параметрический тест поданы наблюдения без исключения выбросов, среднее в ландшафте 2 отклонилось, а дисперсии оказались одинаковыми. В приципе тоже можно сказать об остальных элементах в данных двух группах.

Как видите последний тест был лишним. Но это учебный материал и вам стоит это посмотреть.

Заключение. Распределение элементов в фоновых областях не зависит от ландшафтной обстановки. Дисперсия и средняя концентрация хим.элементов сопоставима между всеми типами ландшафтов. Результаты геохимической съемки следует принять без поправочных коэффициентов.

Комментариев нет:

Отправить комментарий