Мысли о статистических методах

Евгений Николаевский
Мысли о статистических методах

В 1582 году, в своей Календарной Энциклике папа Григорий ХIII  сказал:
«Случайное – это что-то, причины чего мы не знаем».
Следующая фраза была:
«Для Бога нет ничего случайного».
320 лет спустя, Эйнштейн комментировал эту фразу:
«Бог не играет в кости».

Если бы мы знали всё, для нас тоже не было бы ничего случайного. Но почти никогда у нас нет полного знания даже о том, что непосредственно касается нас. Мы живём в неопределённости. И мы должны знать, что такое неопределённость и как мы можем справляться с ней.

В этих условиях понятие «случайного» очень полезно для нас. Наша информация, наши данные неточны. Но если знаем об ошибках и можем оценивать их,  нам гораздо легче работать с неточными данными. Математика и особенно её ветвь «Статистика» учит нас справляться с неточными данными и извлекать из них всё, что только возможно.

Извлечение новых результатов из имеющихся данных – это, по-существу, экстраполяция в логическом или реальном пространстве и времени. Не всегда это возможно: наши данные могут быть уж слишком неполны. Мы можем упустить что-то существенное или просто не знать этого и придти к неверным выводам. Это бывает сплошь и рядом. До открытия Австралии «чёрный лебедь» был символом полной невозможности. Однако сейчас чёрные лебеди плавают в московских прудах.

Статистика формализует имеющиеся данные и позволяет тестировать гипотезы и делать из них выводы при заранее заданной достоверности. Иногда при заданной достоверности 90% мы принимаем гипотезу и то, что из неё следует, а при заданной достоверности 99% мы приходим к выводу, что наших знаний недостаточно, чтобы принять гипотезу с этой достоверностью.

Будущее не предопределено, хотя иногда мы можем предсказать его довольно точно. Статистика позволяет предсказывать будущее на основании знания прошлого – с неполной достоверностью. Мы рассмотрим методы, применяемые при прогнозировании: корреляцию и регрессию. Более общие методы используют моделирование типа Монте Карло.

Корреляция
Рассмотрим независимую переменную Х (возможно, многомерную) и зависимую переменную Y (возможно, также многомерную). Наши данные представляют собой набор точек (Х, Y), и мы хотим выбрать подходящую модель, которая объясняла бы поведение Y в зависимости от Х. Наши точки разбросаны, возможны неточности в данных, и всё же мы предполагаем зависимость и хотим найти её. Мы хотим проверить, насколько модель Y’ = f(X) хорошо приближает значения Y при различных значениях Х. Самая простая модель – линейная: Y’ = a + bX. Другие простые модели: квадратичная, кубическая, экспоненциальная, логарифмическая. Используются и другие модели. Свободные параметры в модели используются, чтобы модель наилучшим образом приближала имеющиеся значения  Y . Рассмотрим отклонение Р = Y  - Y’ – различие между имеющимися значениями Y и значениями Y’, даваемыми нашей моделью.
 
Пусть N – количество точек (Х, Y) и среднее значение С(Y) = сумме(Y) : N. Вариация Y , или централизованные значения, Yс = Y – С(Y). В статистике доказывается, что часть вариации переменной Y, объясняемая нашей моделью, даётся формулой r2 = 1 - С(Р2):С(Yс2). Значение r2 называется коэффициентом детерминированности нашей модели. В моделях, хорошо приближающих значения Y, среднее значение квадрата отклонений гораздо меньше, чем среднее значение квадрата вариации, и значение r2 близко к 1. Значение r = ±sqrt(r2) называется коэффициентом корреляции между переменными Х и Y в нашей модели. В разумных моделях коэффициент корреляции может принимать значения от -1 до 1 (отрицательная или положительная корреляция). Например, в случае линейной корреляции Y’ = a + bX, когда мы пытаемся найти прямую, наилучшим образом приближающую наши точки, коэффициент корреляции всегда принимает значения от -1 до 1. Если модель хорошо объясняет поведение Y в зависимости от Х, то коэффициент корреляции мало отличается от 1 или -1.

Корреляция и причинность
Если между переменными имеется сильная корреляция (скажем, r = .91), это искушает нас предположить, что возрастание или убывание одной переменной вызовет изменение другой переменной. Например, можно показать, что между потреблением грузинских вин и потреблением аспирина существует сильная корреляция. Однако, из этого нельзя вывести заключение, что возрастание потребления грузинских вин вызовет возрастание потребления аспирина. Подобно этому, заработки профессоров и число пациентов в психиатрических лечебницах растут пропорционально. Кривые убывания числа ослов и роста числа защищённых докторских диссертаций очень похожи. Случаи таких сильных корреляций могут натолкнуть нас на поспешные выводы. Однако всё, что мы можем заключить, когда видим такую сильную корреляцию – это что существует какая-то ассоциация между переменными, но не что изменение в одной переменной вызывает изменение в другой. Но эта корреляция, тем не менее, позволяет нам делать предсказания для одной переменной по поведению другой переменной, даже если они причинно не связаны. Во многих случаях такая корреляция представляет собой сигнал, что существует третья переменная, причинно связанная с обоими нашими переменными.

На многих примерах мы видим, что если мы не знаем причин явления или отклонений при использовании модели, мы можем считать их случайными. Иногда это очень полезно.

Профессора Клоцбах и Грей специализировались на предсказании ураганов. Они изучили все взаимосвязи (включая связь с явлением Эль Ниньо в чилийских тихоокеанских водах) и создали очень сложную модель, которую они пытались и не смогли полностью описать в большой статье. Эта модель позволяет им делать довольно хорошие предсказания. Они постоянно совершенствуют и усложняют свою модель.

Не зная об их работе, профессор статистики предложил одной из исследовательских групп своих студентов такую тему для статьи: «Связи между явлением Эль Ниньо и ураганами в Мексиканском заливе». Студенты не раздумывали о причинности.  Они сделали простую статистическую работу: доказали сильную корреляцию, позволяющую довольно-таки хорошо предсказывать ураганы. Клоцбах и Грей предсказали три сильных урагана в 2008 году, студенты – только два (как и было в действительности). Их модель гораздо проще. Её не нужно совершенствовать: в следующий раз достаточно просто применить модель к новым данным. Не вдумываясь в причины, они получили результат за несколько дней, что можно сравнить с многолетними исследованиями профессоров Клоцбаха и Грея.

Этот пример показывает как силу, так и слабость статистических методов.   У нас никогда нет полных знаний, так что мы не можем полностью исключить случайности. Статистические модели очень просты, их не надо обновлять и совершенствовать. Но из-за незнания причин возникает серьёзная проблема с интерпретацией результатов. В предыдущем примере было бы неверно сказать, что Эль Ниньо – единственная причина ураганов. Если бы мы не знали заранее, мы не могли бы даже доказать, что эти события причинно связаны. Для этого была бы нужна более сложная модель, объясняющая причины.

Другой пример: анкета 1948 года, в которой один из вопросов (5 возможных ответов) был: «Вы оптимист?». Одна из студенток имела доступ к записям о рождении и смерти участников, и её группа написала статью о связи между оптимизмом и долгожительством на основе этой анкеты. Они нашли сильную корреляцию между оптимизмом и долгожительством. Интересно, что у крайних оптимистов (ответ 5) наблюдается пик смертности в среднем возрасте, который можно пытаться объяснить тем, что крайние оптимисты любят риск. Конечно, если считать, что имеется причинная связь.

Регрессионный анализ
Имея набор точек (Х, Y) – значений независимой и зависимой переменных – мы пытаемся найти связь между переменными. Сначала мы пытаемся найти линейное отношение между переменными (прямая линия), затем рассматриваем нелинейные отношения (квадратичное, логарифмическое), которые имеют больше свободных параметров и частным случаем которых является линейное отношение. Цели этого:

1. Мы хотим уметь оценивать значение зависимой переменной Y для заданного значения независимой переменной Х.
2. Мы хотим уметь разделять регулярную часть значений Y, описываемую функцией   Y’ = f(X), и случайную часть, не описываемую никаким соотношением.
3. Мы хотим уметь предсказывать значения зависимой переменной Y для различных значений независимой переменной Х.

Используемая техника называется регрессионным анализом, хотя она гораздо больше используется для предсказания (оценка пропущенных измерений или будущих значений), чем для регрессии (предсказания назад).

Принцип наименьших квадратов
Мы находим значения свободных параметров модели, минимизируя сумму квадратов
(Y  - Y’)2 вертикальных расстояний между наблюдаемыми значениями Y и предсказанными значениями Y’: Y  - Y’.Линейное отношение даётся формулой
Y’ = a + bX, квадратичное – формулой Y’ = a + bX + сХ2.

Случайное и неслучайное

Используя линейную модель, мы получаем отклонение нашего предсказания от наблюдаемых величин: Y’-Y. Мы считаем это отклонение случайным. Но когда мы используем квадратичную модель, отклонение сильно уменьшается. Квадратичная модель объясняет и предсказывает поведение существенной части отклонения Y’-Y для линейной модели. Эта часть – уже не случайна, её поведение вполне предсказуемо.

Но и для квадратичной модели имеется отклонение Y’-Y. В рамках этой модели оно случайно и непредсказуемо. Но используя другую модель (например, кубическую), мы объясним и предскажем поведение существенной части отклонения для квадратичной модели. Эта часть – уже не случайна, её поведение вполне предсказуемо. И всё же для любой модели будет какое-то отклонение Y’-Y между предсказывемыми и наблюдаемыми величинами, которое мы не можем объяснить и предсказать в рамках этой модели и которое мы считаем случайным вследствие недостаточности наших знаний.