Aбракадабра.py

Линейная регрессия

Обсудим теперь различные возможности выбора регрессионных функций f. Наиболее традиционный подход, реализованный во множестве различных статистических пакетов и системах KDD, состоит в выборе линейных относительно функций

Класс методов, характеризуемый таким выбором функций f, называется методами линейной регрессии. Выбор линейной регрессионной функции имеет много преимуществ. Весьма существенно, что линейная зависимость между переменными легко интерпретируется человеком. Фактически линейная регрессионная модель разбивает зависимость целевой переменной Y от независимых переменных Xi на отдельные, не связанные между собой компоненты. Она позволяет оценить вклад каждой независимой переменной по отдельности, определив знак и силу этого влияния. Если используется критерий наименьших квадратов, то существует эффективный алгоритм вычисления значений регрессионных коэффициентов Ai. Алгоритм нахождения регрессионных коэффициентов линейной модели излагается в любом стандартном курсе статистики. Скажем лишь, что он основан на проведении достаточно простых матричных операций. Важно отметить, что результатом работы алгоритмов, решающих линейную регрессионную задачу является не только оценка точности полученной регрессионной модели, но также стандартные отклонения входящих в нее регрессионных коэффициентов. Поэтому мы можем судить о значимости (не случайности) вхождения отдельных переменных в регрессионную модель. Мерой этой значимости может служить значение Fстатистики – квадрата отношения величины регрессионного коэффициента к величине его стандартного отклонения.

Реальные данные часто описываются довольно большим количеством параметров Xi, среди которых встречаются сильно коррелирующие между собой или вовсе не относящиеся к делу параметры, так что нет никакого смысла включать в регрессионную модель все параметры. Более того, если число независимых переменных близко, равно или даже превышает, как это иногда бывает, число записей, то регрессионная модель, включающая все эти параметры, станет статистически незначимой ли вовсе не сможет быть построена. Для преодоления этой трудности применяются различные алгоритмы выбора независимых переменных, включаемых в регрессионную модель. Выделение переменных, дающих только наиболее значимый вклад, во-первых, приводит к тому, что описание найденной зависимости становится более понятным, так как будет включать только существенные факторы, и, во-вторых, значимость построенной модели, а значит, и ее предсказательная сила будет выше.

Один из самых популярных в настоящее время методов – многомерная линейная регрессия с автоматическим выбором независимых параметров – основан на применении алгоритма пошагового выбора независимых переменных. Первоначально список включенных в регрессионную модель независимых переменных пуст. Сначала рассматриваются все линейные модели, зависящие только от одной переменной, и для каждой из них вычисляется стандартная ошибка и значение Fстатистики. Выбирается независимая переменная, имеющая минимальную ошибку, и включается в список. Далее аналогичным образом отбирается вторая переменная. Рассматриваются все возможные такие двумерные линейные модели, первая из переменных которой совпадает с уже включенной в список переменной, и среди них выбирается наилучшая модель. Вычисляется стандартная ошибка и достоверность определения регрессионных коэффициентов, или значения Fстатистик всех входящих в модель коэффициентов, и в список добавляется вторая переменная, наиболее значимо влияющая на целевую переменную. И так на каждом шаге прибавляется новая независимая переменная. Этот процесс продолжается пока достоверность определения регрессионного коэффициента новой независимой переменной, добавляемой в список, не становится меньше некоторого заданного порогового значения. В принципе, когда мы включаем новый член в список независимых переменных, у нас может перестать выполняться критерий для величины Fстатистики какой-нибудь уже включенной в список переменной. В такой ситуации мы удаляем из списка старую, не удовлетворяющую критерию переменную и добавляем новую, и если полученная регрессионная модель дает уменьшение стандартной ошибки по сравнению с предыдущей, то продолжаем итерации. Окончание процесса добавления новых переменных означает, что все переменные, значимо влияющие на зависимую переменную, уже включены в список (если, конечно, список не остался пустым).

Применимость этого метода ограничивается двумя обстоятельствами. Во-первых, он может вовсе не обнаружить наличия какой-либо зависимости в данных. Подобная ситуация может встретиться в случае сильно нелинейной зависимости – например, если переменная y зависит от квадрата величины x, а величина x распределена в данных примерно симметрично. Так, на первый взгляд может показаться, что стоимость назначенных анализов не зависит от квалификации врача, а определяется случайными факторами (а). Приглядевшись к данным более внимательно и исключив выпадающую точку (помечена квадратом), заметим, что расходы на анализы выше у врачей средней квалификации, а у наиболее и наименее квалифицированных врачей расходы наименьшие (б). Во-вторых, этот метод, как и другие регрессионные методы, плохо работает с данными, в которых мало чисел и много дискретных (булевых и категориальных) полей. Поэтому хотя многомерная линейная регрессия с автоматическим выбором независимых параметров и нашла очень широкое применение в практических исследованиях, это далеко не универсальный метод нахождения зависимостей.

Здравоохранение, медицина

Линейная регрессия