Robo6log.ru

Финансовый обозреватель
0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Нелинейный регрессионный анализ

Линейная и нелинейная регрессия;

Парный регрессионный анализ

Регрессионный анализ является одним из основных методов в эконометрике. Его суть заключается в выявлении зависимости между различными явлениями и показателями. Обычно такие зависимости являются статистическими. Их особенность заключается в том, что закономерность событий и явлений проявляется лишь в массе наблюдений. Кроме того статистические связи помимо основной математической составляющей учитывают и случайную составляющую, которая оказывает значительное влияние на уровень явления или показателя. Статистические связи заключаются в том, что при изменении значения факторного признака меняется распределение результативного признака, т.е. разным значениям переменной х соответствуют разные распределения переменной у (у – результативный признак, х – факторный).

Корреляционный и регрессионный анализы являются статистическими методами, подробно изучаемыми в эконометрике. Корреляционная связь – частный случай статистической связи, при котором разным значениям переменной х соответствуют разные средние значения переменной у. Корреляционную связь можно определять как между количественными, так и между качественными показателями. Изучение связи между количественными показателями называется регрессионным анализом. Если изучается связь между двумя переменными, одну из которых можно рассматривать как х, а другую как у, то такой анализ называют парным регрессионным. В ходе проведения регрессионного анализа подбирают математическую функцию y=f(x), которая наиболее лучшим образом соответствует исходным данным, т.е. обеспечивает наилучшую аппроксимацию поля корреляции. Поле корреляции – график, изображающий зависимость между х и у. По его форме можно судить о том, какая математическая зависимость больше подходит к исходным данным.

Математическое описание зависимости средних изменений переменной у под влиянием переменной х называется уравнением парной регрессии. Чаще всего используется линейное уравнение парной регрессии (по математическому уравнению прямой линии yx=a+a1x, где a – свободный член уравнения регрессии – как правило, отражает влияние случайных факторов, a1 – коэффициент регрессии, который показывает, на сколько единиц в среднем изменится переменная у при изменении переменной х на одну единицу). Считается, что сила воздействия х на у постоянна при любых значениях х. Знак при коэффициенте регрессии a1 соответствует направлению зависимости между у и х: если a1>0, то зависимость прямая, если a1 2 – парабола второго порядка;

Все нелинейные уравнения приводят к линейному виду (линеаризуют) путем замены переменных или логарифмирования.

Параметры линейного уравнения находят с помощью метода наименьших квадратов (МНК). Его суть заключается в обеспечении минимума между фактическим значением у и значением у, полученным по уравнению, т.е.

где yi – фактические значения у;

– значения, рассчитанные по уравнению.

Если вместо подставить его уравнение, то получится следующее условие МНК:

Т.е. должна быть обеспечена минимальность суммы квадратов отклонений фактических значений переменной у от ее теоретических значений, рассчитанных на основе уравнения регрессии.

Для определения параметров a и а1, при которых f(a,a1) примет минимальное значение, приравняем к нулю первые производные (частные) от этой функции:

Для нахождения минимума эти производные необходимо приравнять к нулю, т.е. получим систему уравнений:

Разделив оба уравнения на 2 и умножив на n, получим преобразованную систему уравнений:

Разделив обе части системы на n, получим систему нормальных уравнений в виде:

Тогда можно выразить следующим образом:

Коэффициент b1 называют выборочным коэффициентом регрессии у по х. b1 показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на единицу. также может быть найден по следующей формуле исходя из условия, что — выборочный корреляционный момент или ковариация, а — выборочная дисперсия переменной х. Тогда .

Графическое изображение линии регрессии пройдет через точку с координатами ( ), что следует из условия .

Пример. По данным таблицы найти уравнение регрессии y по х, определить коэффициент регрессии, сделать вывод.

В таблице 1 дана информация о производительности труда одного рабочего (в кг) и мощности оборудования (в кг) по данным, характеризующим процесс производства по десяти предприятиям.

Расчетные данные для определения параметров математических функций

68/10=6,8; 94/10=9,4; ( ) 2 =9,4 2 =88,36.

Подставим полученные значения в формулу для расчета b1:

Уравнение регрессии примет вид:

Значение b1 показывает, что в среднем при увеличении мощности оборудования на 1 кг в единицу времени производительность увеличится на 1,016 кг.

При оценке корреляционной зависимости необходимо оценивать ее тесноту. Измерителем тесноты связи является выборочный коэффициент корреляции r. Он определяется как , где , .

r показывает, на сколько величин изменится в среднем у, когда х увеличится на одну величину .

Чем теснее зависимость, тем ближе расположены точки на поле корреляции к линии регрессии.

Коэффициент r может изменяться в пределах от -1 до 1, и его знак показывает направление связи. При отрицательном r связь обратная, при положительном – прямая. Чем ближе r по модулю к 1, тем теснее связь. Обычно используют следующую шкалу: при r=0 связь отсутствует, 0,1 2 .

Часто требуется оценить значимость самого коэффициента корреляции r. При этом исходят из условия, что когда связь отсутствует, выполняется равенство:

Следовательно, если коэффициент r значимый, то t, определенный по данной формуле, должен быть больше t, найденного по таблице .

Определим для нашего примера все указанные критерии значимости.

Для начала определим показатели из таблицы дисперсионного анализа:

Читать еще:  Понятие экономического анализа предмет и объекты

σ=(5-6,8) 2 +(10-6,8) 2 +(10-6,8) 2 +(7-6,8) 2 +(5-6,8) 2 +(6-6,8) 2 +(6-6,8) 2 +(5-6,8) 2 +(6-6,8) 2 +(8-6,8) 2 =33,6.

Определим , т.е. теоретические значения у, рассчитанные по уравнению регрессии:

Подставляя вместо х его конкретные значения, получим:

=5,378; =8,426; =9,442; =6,394; =5,378; =5,378; =6,394; =6,394; =5,378; =9,442;

σе==(5-5,378) 2 +(10-8,426) 2 +(10-9,442) 2 +(7-6,394) 2 +(5-5,378) 2 +(6-5,378) 2 +(6-6,394) 2 +(5-6,394) 2 +(6-5,378) 2 +(8-9,442) 2 =8,39.

Согласно правилу сложений дисперсий:

Определим F-критерий Фишера:

Табличное F при уровне значимости α=0,05 и количестве степеней свободы k1=m-1=2-1=1 и k2=n-2=10-2=8:

Так как F расчетное > F табличное, то полученное уравнение регрессии можно считать значимым.

Проверим значимость уравнения через t-критерий Стьюдента:

Также сравним полученное t с табличным.

Так как t расчетное > t табличное, то уравнение регрессии можно считать значимым.

Также существует оценка адекватности регрессионной модели (мера качества уравнения регрессии). Она играет существенную роль, если по уравнению выполняется прогноз.

Выражением качества уравнения регрессии является коэффициент детерминации, который определяется по формуле:

Величина R 2 показывает, какая доля вариации переменной у вызвана влиянием переменной х. Коэффициент R 2 изменяется в пределах от 0 до 1. Чем ближе он к 1, тем выше качество регрессии.

В нашем случае: R 2 =25,21/33,6=0,75.

Таким образом, изменение производительности труда (у) на 75% обусловлено влиянием изменения мощности оборудования.

В случае парной линейной регрессии: R 2 =r 2 .

Корреляционная зависимость может выявляться не только между количественными переменными, но и между качественными. Единственным условием является, чтобы эти качественные переменные были ординальными (порядковыми). Для этого переменные ранжируют по степени выраженности измеряемого показателя, т.е. присваивают ранг от 1,… и определяют тесноту ранговой корреляции. Она определяется с помощью коэффициента ранговой корреляции Спирмена:

где , — ранги объекта i по переменным х и у;

n – число наблюдений.

изменяется в пределах от -1 до 1. Знак показывает направление связи. Если =1, то это свидетельствует о наличии полной связи между х и у.

Часто при ранжировании бывает так, что два и более объекта абсолютно равнозначны, тогда им присваивают средний ранг. Например:

Многофакторный нелинейный регрессионный анализ

ЛЕКЦИЯ 7.

5.1. Нелинейный регрессионный анализ

В случаях, когда линейная модель оказывается неадекватной, или если известен априорно нелинейный характер взаимосвязи между управляемыми переменными и результатами функционирования системы, переходят на практике к нелинейному регрессионному анализу.

Пусть класс нелинейных функций, среди которых ищется уравнение регрессии — задан, т. е. уравнение имеет вид , где а — неизвестный вектор параметров.

Тогда в соответствии с МНК необходимо найти такие значения а, которые минимизировали бы взвешенную сумму квадратов отклонений между наблюдаемыми значениями выходной переменной и значениями, вычисленными по уравнению регрессии, т.е.

Здесь хi — точки наблюдений (экспериментов), — наблюдаемые значения. Очевидно, что число наблюдений должно быть не меньше числа определяемых параметров аi 1 = 1. k.

Поиск значений параметров а сводится к решению системы нелинейных уравнений вида

, I=1,…,k или иначе

, I=1. k

Решение данной системы представляет собой сложную задачу. Аналитическое решение может быть получено только в отдельных случаях. На практике для поиска вектора параметров а решается задача минимизация исходного выражения S с использованием традиционных численных методов оптимизации (например симплекс — метод). Кроме того могут использоваться и специально организованные процедуры поиска оценок параметров. Так, в работе [1] используется сочетание метода наискорейшего спуска с линериализацией исходной модели на каждом шаге поиска оценок ее коэффициентов.

После того, как параметры уравнения регрессии будут найдены, нужно проверить адекватность модели. Для этого можно использовать статистику вида , где характеризует отклонения результатов наблюдений от уравнения регрессии, характеризует ошибки наблюдения.

Если закон распределения ошибок нормальный, то величина и подчинена F-распределению с соответствующими числами степеней свободы числителя и знаменателя. Если при заданном уровне значимости а выполняется условие U

Для построения доверительных интервалов для параметров уравнения регрессии и функции отклика необходимо знание законов распределения их оценок. Если они не могут быть найдены теоретически, то можно использовать статистические методы построения аппроксимирующих кривых распределения типа Бутстреп — метода.

5.2. Полиномиальный регрессионный анализ

При проведении нелинейного регрессионного анализа особо сле­дует оговорить случай, когда зависимость между переменными х и у описываются в виде полинома r — го порядка. Так. например, при од­ном контролируемом факторе это будет y=a+a1x+a2x 2 +. +аrх r .

При многофакторном полиномиальном регрессионном анализе, кро­ме отдельных факторов, уравнение регрессии включает в себя и все возможные произведения переменных общего порядка до г включительно. Так, для двухфакторного анализа 2-го порядка уравнение регрессии будет иметь вид

Аналогично можно свести к линейной любую полиномиальную мо­дель. Анализ этой -модели может быть осуществлен рассмотренными вы­ше методами линейного регрессионного анализа. Следует заметить, что при определении коэффициентов регрессии и анализе уравнения вместо матрицы X в нормальном уравнении необходимо использовать матрицу F(x) Для рассмотренного выше примера элементы матрицы бу­дут равны- f(x)=1, f1(x)=x1. f2(х)=х2. f3(x)=x1 2 , f4(х)=х1х2, f5(х)=х2 2 . Сама матрица имеет вид

Анализ существенно упрощается, если оценки параметров модели некоррелированы, а это обеспечивается для линейных моделей ортогональными планами проведения эксперимента (матрица F ортогональная) Практическая реализация ортогональных планов эксперимента и анализ получаемых результатов связаны с проведением активного эксперимента, которым занимается теория планирования эксперимента.

Читать еще:  Анализ ценообразующих факторов

Нелинейный регрессионный анализ

Предсказание выздоровления. Этот пример основан на наборе данных, взятом из книги Neter, Wasserman, and Kutner (1985, стр. 649). Предположим, администратору больницы нужно выявить зависимость между шансами на длительное выздоровление тяжело больных пациентов и числом дней, проведенных в больнице. Файл Patients.sta содержит данные по 15 пациентам; в частности, в этом файле есть информация о числе дней, проведенных пациентом в больнице (переменная Дни) и коэффициент прогноза длительного выздоровления для каждого пациента (переменная Прогноз; большие значения означают лучший прогноз). Откройте этот файл данных с помощью меню Файл — Открыть; он находится в директории /Examples/Datasets.

Задание анализа. Выберите опцию Множественная нелинейная регрессия из меню Анализ — Углубленные методы анализа для вывода на экран стартовой панели модуля Множественная нелинейная регрессия. Нажмите кнопку Переменные для вывода на экран стандартного диалогового окна выбора переменных. Здесь выберите переменные DAYS и PROGNOSIS и нажмите OK. Заметим, что впоследствии необходимо будет задать, какая переменная будет зависимой, а какая — независимой. Прежде, чем закрыть Стартовую панель, выберите опцию Показывать описательные статистики, корреляционные матрицы. Это позволит вам просмотреть статистики и корреляции в дальнейшем.

Теперь нажмите OK для вывода на экран диалогового окна Регрессия с нелинейными компонентами (см. ниже). В этом окне можно задать до 10 преобразований, которые будут применены к каждой выбранной переменной. Заметим, что для успешного проведения выбранного преобразования, данные должны попадать в допустимый диапазон значений, заданный для данного преобразования; недопустимые наблюдения будут исключены из анализа. После нажатия кнопки OK в этом диалоговом окне в оперативной памяти будут созданы дополнительные переменные для каждой переменной и преобразования. В данном примере, выберите опции X**2, X**3 и LN(X).

Теперь нажмите OK, чтобы открыть диалоговое окно Просмотр описательных статистик (см. ниже). В информационном поле в верхней части окна показано, что выбранные преобразования были успешно применены ко всем наблюдениям из набора данных.

Просмотр преобразованных переменных. На вкладке Быстрый выберите опцию Корреляции для создания таблицы корреляций между всеми комбинациями исходных переменных и соответствующими преобразованиями. Обратите внимание, что в этой таблице (см. ниже) корреляции между DAYS (V1) и PROGNOSIS (V2) наибольшие (r = -0.977) при логарифмическом преобразовании переменной PROGNOSIS (LN-V2).

Проведение анализа. Нажмите OK в диалоговом окне Просмотр описательных статистик для продолжения анализа. В окне Определение модели — вкладка Быстрый нажмите кнопку Переменные для вывода на экран стандартного диалогового окна выбора переменных. Здесь выберите LN-V2 в качестве зависимой переменной и DAYS в качестве независимой переменной и затем нажмите OK. Теперь нажмите OK в диалоговом окне Задание модели, для расчета модели и вывода на экран диалогового окна Результаты множественной регрессии. Модель подходит к данным очень хорошо, с примерно 95% изменчивостью предсказания LN(PROGNOSIS), объясненной в модели (см. значение скорректированного R2 в информационном поле).

Теперь нажмите ОК для вывода на экран таблицы параметров модели (см. ниже) и соответствующих статистик.

Используя значения B для свободного члена и переменной DAYS из таблицы, модель можно выразить следующим образом:

PROGNOSIS =exp(4.037159 — 0.037974*DAYS)

Просмотр статистик остатков. На вкладке Остатки/Предсказанные/Наблюдаемые значения нажмите кнопку Анализ остатков для вывода на экран диалогового окна Анализ остатков. Затем, на вкладке Остатки выберите опцию Исходные в группе Тип остатков и нажмите кнопку Гистограмма остатков. Результирующий график (см. ниже) показывает, что остатки данных, хотя и в маленьком количестве, стремятся примерно к нормальному распределению.

В заключение, на вкладке Диаграммы рассеяния нажмите кнопку Предсказанные и наблюдаемые для построения диаграммы рассеяния предсказанных и наблюдаемых значений зависимой переменной.

Результирующий график показывает, что результаты прогноза, в общем, хорошие, особенно для больших значений LN(PROGNOSIS). Значения прогноза для пациентов, остававшихся в больнице короткое время, являются менее точными.

Регрессионный анализ

Материал из MachineLearning.

Регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошибка: сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента. Регрессионный анализ — раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков. При этом предполагается, что независимая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, тестирования гипотез и выявления скрытых взаимосвязей в данных.

Содержание

Определение регрессионного анализа

Регрессия — зависимость математического ожидания (например, среднего значения) случайной величины от одной или нескольких других случайных величин (свободных переменных), то есть . Регрессионным анализом называется поиск такой функции , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной составляющих.

Читать еще:  Особенностью макроэкономического анализа является

где — функция регрессионной зависимости, а — аддитивная случайная величина с нулевым матожиданием. Предположение о характере распределения этой величины называется гипотезой порождения данных. Обычно предполагается, что величина имеет гауссово распределение с нулевым средним и дисперсией .

Задача нахождения регрессионной модели нескольких свободных переменных ставится следующим образом. Задана выборка — множество значений свободных переменных и множество соответствующих им значений зависимой переменной. Эти множества обозначаются как , множество исходных данных . Задана регрессионная модель — параметрическое семейство функций зависящая от параметров и свободных переменных . Требуется найти наиболее вероятные параметры :

Функция вероятности зависит от гипотезы порождения данных и задается Байесовским выводом или методом наибольшего правдоподобия.

Линейная регрессия

Линейная регрессия предполагает, что функция зависит от параметров линейно. При этом линейная зависимость от свободной переменной необязательна,

В случае, когда функция линейная регрессия имеет вид

здесь — компоненты вектора .

Значения параметров в случае линейной регрессии находят с помощью метода наименьших квадратов. Использование этого метода обосновано предположением о гауссовском распределении случайной переменной.

Разности между фактическими значениями зависимой переменной и восстановленными называются регрессионными остатками (residuals). В литературе используются также синонимы: невязки и ошибки. Одной из важных оценок критерия качества полученной зависимости является сумма квадратов остатков:

Здесь — Sum of Squared Errors.

Дисперсия остатков вычисляется по формуле

Здесь — Mean Square Error, среднеквадратичная ошибка.

На графиках представлены выборки, обозначенные синими точками, и регрессионные зависимости, обозначенные сплошными линиями. По оси абсцисс отложена свободная переменная, а по оси ординат — зависимая. Все три зависимости линейны относительно параметров.

Нелинейная регрессия

Нелинейные регрессионные модели — модели вида

которые не могут быть представлены в виде скалярного произведения

где — параметры регрессионной модели, — свободная переменная из пространства , — зависимая переменная, — случайная величина и — функция из некоторого заданного множества.

Значения параметров в случае нелинейной регрессии находят с помощью одного из методов градиентного спуска, например алгоритма Левенберга-Марквардта.

О терминах

Термин «регрессия» был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен «регрессия к посредственности». Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.

В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными — одномерную и многомерную регрессию. Предполагается, что мы используем несколько свободных переменных, то есть, свободная переменная — вектор . В частных случаях, когда свободная переменная является скаляром, она будет обозначаться . Различают линейную и нелинейную регрессию. Если регрессионную модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта), полагающие зависимость между параметрами и зависимой переменной нелинейной.

Различают параметрическую и непараметрическую регрессию. Строгую границу между этими двумя типами регрессий провести сложно. Сейчас не существует общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной —непараметрическими. Пример параметрической регресионной модели: линейный предиктор, многослойный персептрон. Примеры смешанной регрессионной модели: функции радиального базиса. Непараметрическая модель — скользящее усреднение в окне некоторой ширины. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.

Есть различие между терминами: «приближение функций», «аппроксимация», «интерполяция», и «регрессия». Оно заключается в следующем.

Приближение функций. Дана функция дискретного или непрерывного аргумента. Требуется найти функцию из некоторого параметрическую семейства, например, среди алгебраических полиномов заданной степени. Параметры функции должны доставлять минимум некоторому функционалу, например,

Термин аппроксимация — синоним термина «приближение функций». Чаще используется тогда, когда речь идет о заданной функции, как о функции дискретного аргумента. Здесь также требуется отыскать такую функцию , которая проходит наиболее близко ко всем точкам заданной функции. При этом вводится понятие невязки — расстояния между точками непрерывной функции и соответствующими точками функции дискретного аргумента.

Интерполяция функций — частный случай задачи приближения, когда требуется, чтобы в определенных точках, называемых узлами интерполяции совпадали значения функции и приближающей ее функции . В более общем случае накладываются ограничения на значения некоторых производных производных. То есть, дана функция дискретного аргумента. Требуется отыскать такую функцию , которая проходит через все точки . При этом метрика обычно не используется, однако часто вводится понятие «гладкости» искомой функции.

Регрессия и классификация тесно связаны друг с другом. Термин алгоритм в классификации мог бы стать синонимом термина модель в регрессии, если бы алгоритм не оперировал с дискретным множеством ответов-классов, а модель — с непрерывно-определенной свободной переменной.

Ссылка на основную публикацию
Adblock
detector