Robo6log.ru

Финансовый обозреватель
60 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Анализ остатков регрессионной модели

Анализ случайных остатков в модели регрессии

Остатки представляют собой независимые случайные величины, которые включают влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Их анализ проводится после построения уравнения регрессии. Случайные остатки должны отвечать определенным критериям: быть несмещенными, состоятельными и эффективными.

несмещенность является желательным свойством, так как только при ней остатки имеют практическую значимость. Несмещенность оценки означает, что математическое ожидание остатков равно нулю. То есть при большом объеме выборки средняя величина остатков будет стремится к нулю, и параметр можно будет рассматривать как среднюю величину.

— оценки считаются эффективными, если они характеризуются наименьшей дисперсией.

состоятельность оценок характеризует увеличение их точности с увеличением объема выборки. Большой практический интерес представляет та вероятность получения оценки на заданном расстоянии от истинного значения параметра, которая близка к единице.

Условия для получения подобных оценок представляют собой предпосылки МНК:

— случайный характер остатков,

— нулевая средняя величина остатков, не зависящая от фактора,

— гомоскедастичность — дисперсия каждого отклонения одинакова для всех значений х,

— отсутствие автокорреляционных остатков — распределение остатков независимо друг от друга,

— остатки подчиняются нормальному распределению.

26. использование коэффициента ранговой корреляции Спирмена для выявления гетероскедастичности случайных остатков:

Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки коррелированны со значениями фактора. Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена: где, d – абсолютная разность между рангами значений фактора и остатка. Статистическую значимость можно оценить с помощью t-критерия: . Если это значение больше табличного, то корреляция между остатком и фактором статистически значима, то есть имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об ее отсутствии.

27. отбор факторов в модель множественной регрессии: требования к факторам, методы отбора:множественная регрессия представляет собой модель, где среднее значение результата рассматривается как функция нескольких независимых факторов. Включение в уравнение того или иного набора факторов связано прежде всего с представлениями о взаимосвязи результата и явлений. Теоретически регрессионная модель позволяет учесть любое количество факторов, но практически в этом нет смысла. Включаемые в регрессию факторы должны объяснять вариацию зависимой переменной, то есть уменьшать долю остаточной дисперсии. Факторы, включаемые в множественную регрессию, должны отвечать следующим требованиям:

быть количественно измеримыми. Качественный фактор может быть включен в модель после придания ему количественной определенности (баллы, ранжирование).

не должны быть коррелированны между собой и тем более находится в точной функциональной связи. Включение таких факторов может привести к ненадежности оценок коэффициентов регрессии. Если факторы сильно коррелированны, нельзя определить их изолированное влияние на результат, то есть параметры становятся неинтерпретируемыми.

Лишние факторы приводят к статистической незначимости параметров регрессии по критерию Стьюдента. Отбор факторов обычно производится в две стадии: отбор факторов исходя из сути проблемы; отбор на основе матрицы показателей корреляции и определения t-критериев для параметров регрессии.

1) Коэффициенты интеркорреляции позволяют исключать дублирующие факторы (переменные коллинеарны, если коэффициент больше 0,7). Предпочтение в данном случае отдается тому фактору, который имеет наименьшую тесноту связи с другими факторами. Матрица парных коэффициент корреляции играет большую роль в отборе, но парные коэффициенты не могут полностью решить задачу. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора и результата.

2) Наибольшую трудность представляет мультиколлениарность факторов. Коэффициенты множественной детерминации позволяют выявить такие переменные. Чем ближе значение коэффициента к 1, тем сильнее проявляется мультиколлениарность факторов.

Читать еще:  Задачи эконом анализа

3) Существуют пути преобразование факторов, которые позволяют уменьшить корреляцию факторов.

— переход к совмещенным уравнениям регрессии, которые отражают не только влияние факторов, но и их взаимодействие. Такие уравнения строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений.

— переход к уравнения приведенной формы, где рассматриваемый фактор выражается из другого уравнения. Например, для регрессии с двумя факторами, если исключить один фактор, то мы придем к парной регрессии.

Выделяют следующие основные методы: метод исключения (отсев факторов из полного набора), метод включения (дополнительное введение фактора), шаговый регрессионный анализ (исключение ранее введенного фактора).

28. прогнозирование по уравнению регрессии (на примере парной линейной регрессии):

В прогнозных расчетах по уравнению регрессии определяется предсказываемое значение как точечный прогноз при , то есть путем подстановки в линейное уравнение регрессии соответствующего значения х. однако точечный прогноз невозможен, поэтому он дополняется расчетом стандартной ошибки прогнозного значения и соответственно мы получаем интервальную оценку прогнозного значения. , . Рассмотренная формула стандартной ошибки предсказываемого среднего значения результата при заданном значении фактора характеризует ошибку положения линии регрессии. Величина стандартной ошибки достигает минимума при х равном среднему значению и возрастает по мере того, как удаляется от среднего х в любом направлении.

29. особенности нахождения параметров для нелинейных функций регрессии:

Параметры для нелинейной регрессии определяются, как и в линейной, методом наименьших квадратов, так как эти функции линейны по параметрам. Например, для параболы , заменив переменные , получим двухфакторное уравнение линейной регрессии: , для оценки параметров которого используется МНК. то есть любое подобное уравнение сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.

Формула коэффициента детерминации не изменяется. Причина расчета показателей тесноты связи только для линеаризованных функций – это выполнение правила сложения дисперсий, на основе которого построен этот показатель. Для нелинейных функций показатели тесноты связи называются индексами, то есть индекс детерминации, индекс корреляции.

— индекс корреляции: имеет ту же интерпретацию что и коэффициент корреляции.

— индекс детерминации представляет собой квадрат индекса корреляции. Так как в нем используется соотношение факторной и общей суммы квадратов отклонений, индекс детерминации имеет тот же смысл, что и коэффициент детерминации. Значение коэффициента детерминации показывает, на сколько процентов вариация результата обусловлена вариацией фактора, включенного в уравнении регрессии. Соответственно 1- R^2 – характеризует, на сколько вариация обусловлена вариацией других факторов, не учтенных в модели. Используется для проверки статистической значимости в целом уравнения нелинейной регрессии по Фишеру. Близость показателей r^2 и R^2 означает, что нет необходимости усложнять форму уравнения и можно использовать линейную функцию.

10. использование мнк для нахождения параметров парной линейной регрессии:

МНК применяется для нахождения параметров уравнения регрессии, если выполняются предпосылки классической нормальной линейной модели, которые часто называют предпосылками МНК. МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений фактических от значений расчетных минимальна, то есть линия регрессии выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальной: . Для того, чтобы найти минимум функции, надо вычислить производные по каждому из параметров и приравнять их к нулю. Преобразовав, получим: . Решая систему (деля первое уравнение на n), получаем: и .

Читать еще:  Методика анализа себестоимости

Анализ регрессионных остатков (пример)

Материал из MachineLearning.

Содержание

Для получения информации об адекватности построенной модели многомерной линейной регрессии используется анализ регрессионных остатков.

Постановка задачи

Задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

. Требуется создать инструмент анализа адекватности модели используя анализ регрессионных остатков и исследовать значимость признаков и поведение остатков в случае гетероскедастичности.

Описание алгоритма

Анализ регрессионных остатков

Анализ регрессионных остатков заключается в проверке нескольких гипотез:

где , , — регрессионные остатки конкретной модели. — отклики посчитанные по модели, а — эмпирические отклики.

Для проверки первой гипотезы воспользуемся критерием знаков. Проверка второй гипотезы, по сути, является проверкой на гомоскедастичность, то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже. Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта. Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков. Проверку нормальности распределения осуществим с помощью критерия согласия хи-квадрат, модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики, вычисленные из вектора остатков. Наконец, проверку последнего условия реализуем с помощью статистики Дарбина-Уотсона.

Оценка значимости признаков

Задача состоит в проверке для каждого из признаков, дает ли нам учет этого признака в модели более хорошие результаты, нежели его отсутствие. Оценивать результаты будем с помощью коэффициента детерминации:

где — эмпирический отклик, — отклик, посчитанный по модели, и — математическое ожидание .

Гетероскедастичность

Термин гетероскедастичность применяется в ситуации, когда ошибки в различных наблюдениях некоррелированы, но их дисперсии — разные. Соответственно термин гомоскедастичность применяется в случае постоянных дисперсий.

Визуальный анализ

Одним из основных методов предварительного исследования на гетероскедастичность является визуальный анализ графика остатков. Целью данного анализа является нахождение факторов влияющих на изменение дисперсии, номер измерения или значение одного из признаков. Для сравнения приведем несколько примеров.

Выше представлена госмоскедастичная модель. Действительно, используя визуальный анализ, не получается найти какие-то признаки непостоянства дисперсии и тем более какие-то зависимости.

В данном случае визуально можно констатировать факт непостоянства дисперсии и даже связать это изменение с номером эксперимента (или возможно с одним из признаков, если он монотонно изменялся по номеру эксперимента).

Еще один пример визуально определимой гетероскедастичности.

Статистические методы детекции

Опишем суть нескольких общеупотребительных статистических тестов на гетероскедастичность. Во всех этих тестах основной гипотезой является равенство против альтернативной гипотезы : не .

Тест Уайта

Содержательный смысл теста в том, что часто гетероскедастичность модели вызвана зависимостью (возможно довольно сложной) дисперсий ошибок от признаков. Реализуя эту идею, Уайт предложил метод тестирования гипотезы без каких-либо предположений о структуре гетероскедастичности. Сначала к исходной модели применяется обычный метод наименьших квадратов и находятся остатки регрессии . Затем осуществляется регрессия квадратов этих остатков на все признаки, их квадраты, попарные произведения и константу. Тогда при гипотезе величина асимптотически имеет распределение , где — коэффициент детерминации, а — число регрессоров второй регрессии. Плюс данного теста — его универсальность. Минусы : 1) если гипотеза отвергается, то никаких указаний на функциональную форму гетероскедастичности мы не получаем; 2) несомненным минусом является поиск вслепую вида регрессии(начинаем приближать простыми полиномами второй степени без какой бы то ни было причины на это)

Читать еще:  Факторный анализ выручки от реализации

Тест Голдфелда-Кванта

Этот тест применяется, когда есть предположение о прямой зависимости дисперсии ошибок от некоторого признака. Алгоритм метода:

  1. упорядочить данные по убыванию того признака, относительно которого сделано предположение;
  2. Делим наблюдения на три части, причём они должны быть равны или примерно равны, а также первая и третья должны быть одинаковы.
  3. Провести две независимые регрессии для первой части и для последней. Рассчитать выровненные значения и построить соответствующие остатки ( ): и ;
  4. Cоставить cтатистику Фишера . Если F» alt= «F>F» />кр, следовательно есть гетероскедостичность.

Тест Ансари-Брэдли

Тест получает на вход две выборки размеров и и проверяет на равенство дисперсий распределения, из которых они могли быть получены. Алгоритм метода пошагово:

  • Расположим по возрастанию;
  • Расставим метки таким образом :

Эвристика

Суть данной эвристики состоит в ранжировании псевдодисперсий и в анализе полученной гистограммы. Под псевдодисперсией будем понимать величины , где . Простейший анализ гистограммы, состоящей из 10 интервалов, будем проводить сравнением количества элементов на первых двух интервалах. Это отношение будем сравнивать с некоторой, заранее заданной константой, на основе чего и будем принимать решение о гетероскедастичности. Вот пример гистограммы для гомоскедастичного случая (график его остатков был представлен ранее):

Легко заметить, что порядок отношения первых двух столбцов — около пяти-шести к одному, что же касается гетероскедастичного случая, это отношение будет больше семи (было замечено вплоть до 34) примеры можно посмотреть ниже, в вычислительном эксперименте.

Вычислительный эксперимент на модельных данных

В данном отчете представлены результаты применения созданного инструмента анализа представленной модели с помощью исследования ее регрессионных остатков. Отчет состоит из трех экспериментов, демонстрирующих плюсы и минусы созданного инструмента.

Три модели

Представленные модели были подобраны так, чтобы визуальный анализ регрессионных остатков не давал очевидных результатов. Будем проводить исследование в два этапа — вначале проверяя модель на выполнение основных гипотез, затем исследуя модель на гетероскедастичность с помощью теста Голдфелда-Кванта и несложной эвристики.

Модель №1 (хорошая)

Наша модель : , где . Таким образом все гипотезы должны выполняться и гетероскедастичность должна отсутствовать.

График остатков этой модели уже был приведен выше и не представляет особого интереса.

Модель №2 (плохая, одномерная)

Наша модель : , где . Таким образом, модель очевидным образом гетероскедастична, но визуальным анализом это сложно обнаружить(см.рисунок).

Нормальность отвергнута. Гетероскедастичность была обнаружена только эвристикой. Приведем гистограмму полученную эвристикой:

Модель №3 (плохая,многомерная)

Наша модель : , где . Таким образом, модель очевидным образом гетероскедастична, но снова визуальным анализом это сложно обнаружить(см.рисунок).

Нормальность отвергнута. Гетероскедастичность была обнаружена как эвристикой, так и тестом Голдфелда-Квандта (зависимость от первой и второй и независимость от пятой переменной). Приведем гистограмму полученную эвристикой:

Выводы

Статистические проверки на нормальность показали себя с наилучшей стороны. Эвристика показала хорошие результаты в исследовании на гетероскедастичность. Тест Голдфелда-Квандта не сработал только в одном тесте. Тест Ансари-Брэдли (использовался для проверки на постоянство дисперсии) показал наихудшие результаты, так как с его помощью не удалось различить две существенно разные модели. Это вполне объяснимо: мы применяли этот тест для сравнения дисперсий двух случайных выборок взятых из нашего вектора остатков. Вполне очевидно что результат достаточно не предсказуем вследствие именно этой случайности выборок. В итоге мы получали одинаковые результаты для разных моделей. (причем увеличение числа экспериментов не решает данной проблемы).

Ссылка на основную публикацию
ВсеИнструменты
Adblock
detector