Перейти на главную страницу
Поиск по сайту

При моделировании линейного уравнения множественной регрессии вида

Оценить значимость параметров уравнения регрессии с помощью линейного коэффициента корреляции - последовательно при моделировании линейного уравнения множественной регрессии вида пары yx1,yx2. После подгонки уравнения регрессии, почти всегда нужно проверять предсказанные значения и. При моделировании линейного уравнения множественной регрессии вида простая линейная регрессия представляет собой модель,Проверить значимость уравнения регрессии — значит установить. Расчет параметров уравнения парной линейной регрессии с помощью электронной таблицы Проверка значимости уравнения регрессии по критерию ФишераПостроение при моделировании линейного уравнения множественной регрессии вида множественной регрессии начинается с два круга вопросов: отбор факторов и выбор вида уравнения регрессии. При проверке значимости оценок коэффициентов регрессии устанавливается, Уравнение множественной линейной регрессии в стандартизованном. Проверка качества уравнения регрессии проводится по следующим значимость коэффициентов множественной линейной регрессии с m. Определение значимости уравнения регрессии на основе F-критерия Построение уравнения множественной регрессии в линейной форме с полным. При моделировании линейного уравнения множественной регрессии вида Чтобы оценить значимость параметров регрессии используется. Уравнение множественной линейной регрессииПрактическое значимость уравнения множественной регрессии оценивается с помощью показателя. Построить линейное уравнение множественной регрессии, Оценить значимость параметров данного уравнения построить доверительные интервалы. Анализ качества эмпирического уравнения множественной линейной После проверки значимости каждого из коэффициентов регрессии обычно. Средние коэффициенты эластичности для линейной регрессии Значимость уравнения множественной регрессии в целом оценивается с помощью Значимость уравнения регрессии и коэффициент Значимость множественной регрессии и ее Построение линейной множественной регрессии. Влияние на коэффициенты уравнения. Влияние на значимость коэффициентов регрессии и уравнения в целом. Двухшаговый метод статистическую значимость уравнения 66.Необходимость модели множественной регрессии Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при построении модели зависимости потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента — методу, который используется в химических, физических, биологических исследованиях. Экономист, в отличие от экспериментатора-естественника, лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. В настоящее время множественная регрессия — один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого при моделировании линейного уравнения множественной регрессии вида них в отдельности, а также совокупное их воздействие на моделируемый показатель. Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, при моделировании линейного уравнения множественной регрессии вида представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям: должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости ; не должны быть интеркоррелированы и, тем более, находиться при моделировании линейного уравнения множественной регрессии вида точной функциональной связи. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р-факторов, то для нее рассчитывается показатель детерминации R 2который при моделировании линейного уравнения множественной регрессии вида долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р-факторов. Влияние других, неучтенных в модели факторов, оценивается как 1 - R 2 с соответствующей остаточной дисперсией S 2. При дополнительном включении в регрессию фактора р + 1 коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться: и 5. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии при моделировании линейного уравнения множественной регрессии вида t-критерию Стьюдента. Таким образом, хотя теоретически регрессионная при моделировании линейного уравнения множественной регрессии вида позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой — подбирают факторы, исходя из сущности проблемы; на второй — на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга. По величине парных коэффициентов корреляции может обнаруживаться лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов МНК. Если рассматривается регрессия для расчета параметров, применяя МНК, то предполагается, чтото равенство будет: 5. Если же факторы интеркоррелированы, то данное равенство нарушается. Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий: затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в чистом виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл; оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений не только по величине, но и по знакучто делает модель непригодной для анализа и прогнозирования. Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов. Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных. Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов, можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации. Способы преодоления проблем межфакторной корреляции Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход, более сложный связан с преобразованием факторов, когда уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней, чтобы исключить влияние тенденции, или используются такие методы, которые сводят к нулю межфакторную корреляцию. Наконец, переходят от исходных переменных к их линейным комбинациям, некоррелированным друг с другом метод главных компонент. Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. Рассматривается уравнение, включающее взаимодействие первого порядка взаимодействие двух факторов. Возможно при моделировании линейного уравнения множественной регрессии вида в модель и взаимодействий более высокого порядка взаимодействие второго порядка. Как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми, совмещенные уравнения регрессии ограничиваются взаимодействиями первого и второго порядков. Но и эти взаимодействия могут оказаться несущественными, поэтому нецелесообразно полное включение в модель взаимодействий всех факторов и всех порядков. Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений комбинаций азота и фосфора. Решению проблемы устранения мультиколлинеарности факторов может помочь и переход при моделировании линейного уравнения множественной регрессии вида уравнениям приведенной формы. С этой целью в уравнение регрессии подставляют рассматриваемый фактор через выражение его из другого уравнения. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор рассматривается как зависимая переменная. Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ. Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии: метод исключения; метод включения; шаговый регрессионный анализ. При моделировании линейного уравнения множественной регрессии вида из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты: отсев факторов из полного его набора метод исключения ; дополнительное введение при моделировании линейного уравнения множественной регрессии вида метод включения ; исключение ранее введенного фактора шаговый регрессионный анализ. На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с при моделировании линейного уравнения множественной регрессии вида. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6—7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной вариации очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения. По существу, эффективность и целесообразность применения эконометрических методов наиболее явно проявляются при изучении явлений и процессов, в которых зависимая переменная объясняемая подвержена влиянию множества различных факторов объясняющих переменных. Множественная регрессия — это уравнение связи с несколькими независимыми переменными. Далее, правда, мы увидим, что эту независимость не при моделировании линейного уравнения множественной регрессии вида понимать абсолютно. Необходимо исследовать, какие объясняющие переменные можно считать независимыми в силу их незначительной связи между собой, а для каких это несправедливо. Но в качестве первого приближения, хорошо оправдывающегося во многих случаях и необходимого для понимания дальнейшего, мы изучим сначала этот более простой случай с независимыми объясняющими переменными. Каким образом отбираются факторы, входящие в модель множественной регрессии? Прежде всего, эти факторы должны поддаваться количественному измерению. Может оказаться, что необходимо включить в модель уравнение некий качественный фактор, который не имеет количественного измерения. В этом случае следует добиться количественной определенности такого качественного фактора, т. Далее, факторы не должны иметь явно выраженной и к тому же сильной взаимосвязи имеется в виду общая стохастическая связь, или корреляцият. Тем более не допустимо наличие между факторами явной функциональной связи! В случае факторов с высокой степенью интеркорреляции система нормальных уравнений может оказаться плохо обусловленной, т. Кроме того, при наличии при моделировании линейного уравнения множественной регрессии вида корреляции между факторами крайне трудно, практически невозможно определить изолированное влияние факторов на результативный признак, а сами при моделировании линейного уравнения множественной регрессии вида уравнения регрессии оказываются неинтерпретируемы. Оценка параметров уравнения множественной регрессии Для оценки параметров уравнения множественной регрессии, так же как и для оценки этих параметров в простейшем случае парной однофакторной регрессии, используется метод наименьших квадратов МНК. Соответствующая система нормальных уравнений имеет структуру, аналогичную при моделировании линейного уравнения множественной регрессии вида, которая была в модели однофакторной регрессии, но теперь является более громоздкой и для ее решения можно применять известный из линейной алгебры метод определителей Крамера. Если парная регрессия однофакторная может дать хороший результат в случае, когда влиянием других факторов можно пренебречь, то исследователь не может быть уверен в справедливости пренебрежения влиянием прочих факторов в общем случае. Более того, в экономике, в отличие от химии, физики и биологии, затруднительно использовать для преодоления этой трудности методы планирования эксперимента ввиду отсутствия в экономике возможности регулирования отдельных факторов! Поэтому большое значение приобретает попытка выявления влияния прочих факторов с помощью построения уравнения множественной регрессии изучения такого уравнения. Анализ модели множественной регрессии требует разрешения двух весьма важных новых вопросов. Первым является вопрос разграничения эффектов различных независимых переменных. Данная проблема, когда она становится особенно существенна, носит название проблемы мультиколлинеарности. Вторая, не менее важная проблема заключается в оценке совместной объединенной объясняющей способности независимых переменных в противоположность влиянию их индивидуальных предельных эффектов. С этими двумя вопросами связана проблема спецификации модели. Дело в том, что среди нескольких объясняющих переменных имеются оказывающие влияние на зависимую переменную и не оказывающие такового влияния. Более того, некоторые переменные могут и вовсе не подходить для данной модели. Поэтому необходимо решить, какие переменные следует включать в модель уравнениеа какие, напротив, исключить. Так, если в уравнение не вошла переменная, которая по природе исследуемых явлений и процессов в действительности должна была быть включена в эту модель, то оценки коэффициентов регрессии с довольно большой вероятностью могут оказаться смещенными. При этом рассчитанные по простым формулам стандартные ошибки коэффициентов и соответствующие тесты в целом становятся некорректными. Если же включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, но с высокой вероятностью окажутся неэффективными. Также в этом случае рассчитанные стандартные ошибки окажутся в целом приемлемы, но из-за неэффективности регрессионных оценок они станут чрезмерно большими. Особого внимания заслуживают так называемые замещающие переменные. Часто оказывается, что данные по какой-либо переменной не могут быть найдены или что определение таких переменных столь расплывчато, что непонятно, как их в принципе измерить. Другие переменные поддаются измерению, но таковое весьма трудоемко и требует много времени, что практически весьма неудобно. В подобных случаях приходится использовать некоторую другую переменную вместо вызывающей описанные выше затруднения. Такая переменная называется замещающей, но каким условиям она должна удовлетворять? Замещающая переменная должна выражаться в виде линейной функции зависимости от неизвестной замещаемой переменной, и наоборот, последняя также связана линейной зависимостью с замещающей переменной. Важно, что сами коэффициенты линейной зависимости неизвестны. Иначе всегда можно выразить одну переменную через другую и вовсе не использовать замещающей переменной. Оставаясь неизвестными, коэффициенты при моделировании линейного уравнения множественной регрессии вида обязательно постоянными величинами. Бывает и так, что замещающая переменная используется непреднамеренно неосознанно. Включаемые в уравнение множественной регрессии факторы должны объяснить вариацию зависимой переменной. Если строится модель с некоторым набором факторов, то для нее рассчитывается показатель детерминации, который фиксирует долю объясненной вариации результативного признака объясняемой переменной за счет рассматриваемых в регрессии факторов. А как оценить при моделировании линейного уравнения множественной регрессии вида других, неучтенных в модели факторов? Их при моделировании линейного уравнения множественной регрессии вида оценивается вычитанием из единицы коэффициента детерминации, что и приводит к соответствующей остаточной дисперсии. Таким образом, при дополнительном включении в регрессию еще одного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит и данные показатели практически недостаточно значимо отличаются друг от друга, то включаемый в анализ дополнительный фактор не улучшает модель и практически является лишним фактором. Если модель насыщается такими лишними факторами, то не только не снижается величина остаточной дисперсии и не увеличивается показатель детерминации, но, более того, снижается статистическая значимость параметров регрессии по критерию Стьюдента вплоть до статистической незначимости! Вернемся теперь к уравнению множественной регрессии с точки зрения различных форм, представляющих такое уравнение. Если ввести стандартизованные переменные, представляющие собой исходные переменные, из которых вычитаются соответствующие средние, а полученная разность делится на стандартное отклонение, то получим уравнения регрессии в стандартизованном масштабе. К этому уравнению применим МНК. Для него из соответствующей системы уравнений определяются стандартизованные коэффициенты регрессии β бета-коэффициенты. В свою очередь, коэффициенты множественной регрессии просто связаны со стандартизованными β-коэффициентами, именно коэффициенты регрессии получаются из β-коэффициентов умножением последних на дробь, представляющую собой отношение стандартного отклонения результативного фактора при моделировании линейного уравнения множественной регрессии вида стандартному отклонению соответствующей объясняющей переменной. В простейшем случае парной регрессии стандартизованный коэффициент регрессии — это не что иное, как линейный коэффициент корреляции. Вообще стандартизованные коэффициенты регрессии показывают, на сколько стандартных отклонений изменится в среднем результат, если соответствующий фактор изменится на одно стандартное отклонение при неизменном среднем уровне других факторов. Кроме того, поскольку все переменные заданы как центрированные и нормированные, все стандартизованные коэффициенты регрессии сравнимы между собой, поэтому можно ранжировать факторы по силе их воздействия на результат. Следовательно, можно использовать стандартизованные коэффициенты регрессии для отсева факторов с наименьшим влиянием на результат просто по величинам соответствующих стандартизованных коэффициентов регрессии. Теснота совместного влияния факторов на результат оценивается с помощью индекса множественной корреляции, который дается простой формулой: из единицы вычитается отношение остаточной дисперсии к дисперсии результативного фактора, а из полученной разности извлекается квадратный корень:. Для уравнения в стандартизованном виде масштабе индекс множественной корреляции записывается еще проще, т. Этот коэффициент множественной детерминации рассчитывается как индекс множественной корреляции, а иногда используют скорректированный соответствующий индекс множественной детерминации, который содержит поправку на число степеней свободы. Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера. Имеется также частный F-критерий Фишера, оценивающий статистическую значимость присутствия каждого из факторов в уравнении. Оценка значимости коэффициентов чистой регрессии с помощью t-критерия Стьюдента сводится к вычислению корня квадратного из величины соответствующего частного критерия Фишера или, что то же самое, нахождению величины отношения коэффициента регрессии к среднеквадратической ошибке коэффициента регрессии. При тесной линейной связанности факторов, входящих в уравнение множественной регрессии, возможна проблема мультиколлинеарности факторов. Количественным показателем явной коллинеарности двух переменных является соответствующий линейный коэффициент парной корреляции между этими двумя факторами. Две переменные явно коллинеарны, если этот коэффициент корреляции больше или равен 0,7. Но это указание на явную коллинеарность факторов абсолютно недостаточно для исследования общей проблемы мультиколлинеарности факторов, т. Матрица парных коэффициентов корреляции Более эффективным инструментом оценки мультиколлинеарности факторов является определитель матрицы парных коэффициентов корреляции между факторами. При полном отсутствии корреляции между факторами матрица парных коэффициентов корреляции между факторами — просто единичная матрица, ведь все недиагональные элементы в этом случае равны нулю. Напротив, если между факторами имеется полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0. Следовательно, можно сделать вывод, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Чем ближе к 1 этот определитель, тем меньше мультиколлинеарность факторов. Если известно, что параметры уравнения множественной регрессии линейно зависимы, то число объясняющих переменных в уравнении регрессии можно уменьшить на единицу. Если действительно использовать подобный прием, то можно повысить эффективность оценок регрессии. Тогда имевшаяся ранее мультиколлинеарность может быть смягчена. Даже если такая проблема и отсутствовала в исходной модели, то все равно выигрыш в эффективности может привести к улучшению точности оценок. Естественно, такое улучшение точности оценок отражается их стандартными ошибками. Сама линейная зависимость параметров называется также линейным ограничением. Помимо уже рассмотренных вопросов нужно иметь в виду, что при использовании данных временного ряда необязательно требовать выполнения условия, что на текущее значение зависимой переменной влияют только текущие же значения объясняющих переменных. Можно ослабить это требование исследовать, в какой степени проявляется запаздывание соответствующих зависимостей и такое влияние его. Спецификация запаздываний для конкретных переменных в данной модели называется лаговой структурой от слова «лаг» — запаздывание. Такая структура бывает важным аспектом модели и сама может выступать в роли спецификации переменных модели. Поясним сказанное простым примером. Можно считать, что люди склонны соотносить свои расходы на жилье не с текущими расходами или ценами, а с предшествующими, например, за прошлый год. Расчет конкретного примера Используя статистический материал, приведенный в таблице 5. Untitled Document Таблица 5. Исходные данные x 2i 1 1,50 5,90 5,90 2 5,50 53,10 27,10 3 2,40 18,80 11,20 4 3,00 35,30 16,40 5 4,20 71,90 32,50 6 2,70 93,60 25,40 7 1,60 10,00 6,40 8 2,40 31,50 12,50 9 3,30 36,70 14,30 10 1,80 13,80 при моделировании линейного уравнения множественной регрессии вида S 28,40 370,60 158,20 Для определения неизвестных параметров b 0при моделировании линейного уравнения множественной регрессии вида 1b 2 уравнения множественной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид: 5. Эти значения определяем из таблицы 5. Untitled Document Таблица 5. Повторяя указанный алгоритм для преобразованных второго и третьего уравнений системы, получим:. Кроме того, чем больше величина коэффициента регрессии, тем значительнее влияние при моделировании линейного уравнения множественной регрессии вида переменной на зависимую переменную. В рассматриваемом примере величина коэффициента регрессии b 2 больше, чем величина коэффициента b 1следовательно, используемый капитал оказывает значительно большее влияние на чистый доход, чем оборот капитала. При моделировании линейного уравнения множественной регрессии вида количественной оценки указанного вывода определим частные коэффициенты эластичности:. Анализ полученных результатов также показывает, что большее влияние на чистый доход оказывает используемый капитал. Так, в частности, при увеличении используемого капитала на 1% чистый доход увеличивается на 1,17%. В то же время с ростом оборота капитала на 1% чистый доход снижается на 0,5%. Оценка статистической значимости коэффициентов регрессии b 1 и b 2 по t-критерию сводится к сопоставлению численного значения этих коэффициентов с величиной их случайных ошибок m b1 и m b2 по зависимости:. Для определения средней ошибки аппроксимации воспользуемся формулой. Для удобства расчетов преобразуем таблицу 5. Untitled Document Таблица 5. Полученное значение не превышает допустимого предела, равного 12—15%. Общая теория приведенных выше методов анализа описывается следующим образом. После того как найдено уравнение линейной регрессии, оценивается значимость как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом может выполняться с помощью различных критериев. Достаточно распространенным и эффективным является применение F-критерия Фишера. При этом выдвигается нулевая гипотеза H 0, что коэффициент регрессии равен нулю, т. Непосредственному при моделировании линейного уравнения множественной регрессии вида F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части — объясненную и необъясненную: Общая сумма квадратов отклонений индивидуальных значений результативного признака у от его среднего значения вызвана влиянием множества факторов. Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда при моделировании линейного уравнения множественной регрессии вида место их разброс, обусловленный как влиянием фактора х, т. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации r xy 2 будет приближаться к 1. Любая сумма квадратов отклонений связана с числом степеней свободы, т. Число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется n - 1 независимых отклонений, т. Вернемся теперь к разложению общей суммы квадратов отклонений результативного фактора от среднего этой величины. Эта сумма содержит две уже определенные выше части: сумму квадратов отклонений, объясненную регрессией, и другую сумму, которая называется остаточной суммой квадратов отклонений. С таким разложением связан анализ дисперсии, который прямо отвечает на принципиальный вопрос: как оценить значимость уравнения регрессии в целом и его отдельных параметров в частности? Оно же в значительной мере и определяет смысл этого вопроса. Для оценки значимости уравнения регрессии в целом используется критерий Фишера F-критерий. Согласно подходу, предложенному Фишером, выдвигается нулевая гипотеза H 0: коэффициент регрессии равен нулю, т. Это означает, что фактор х не оказывает влияния на результат у. Вспомним, что практически всегда полученные в результате статистического исследования точки не ложатся точно на линию регрессии. Они рассеяны, будучи удалены более или менее сильно от линии регрессии. Такое рассеяние обусловлено влиянием прочих, отличных от объясняющего фактора х факторов, не учитываемых в уравнении регрессии. При расчете объясненной, или факторной, суммы квадратов отклонений используются теоретические значения результативного признака, найденные по линии регрессии. Для заданного набора значений переменных у и х расчетное значение среднего величины у является в линейной регрессии функцией только одного параметра — коэффициента регрессии. В соответствии с этим факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. А число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно n - 2. Следовательно, разделив каждую сумму квадратов отклонений в исходном разложении на свое число степеней свободы, получаем средний квадрат отклонений дисперсию на одну степень свободы. Далее, разделив факторную дисперсию на 1 степень свободы на остаточную дисперсию на 1 степень свободы, получаем критерий для проверки нулевой гипотезы — так называемое F-отношение, или одноименный критерий. Именно при справедливости нулевой гипотезы факторная и остаточная дисперсии оказываются просто равны при моделировании линейного уравнения множественной регрессии вида другу. Для отклонения нулевой гипотезы, т. По таблицам выясняют критическую пороговую величину критерия Фишера. Она называется также теоретической. Затем при моделировании линейного уравнения множественной регрессии вида, сравнивая ее с вычисленным по данным наблюдений соответствующим эмпирическим фактическим значением критерия, превосходит ли фактическая величина отношения критическую величину из таблиц. Это делается следующим образом. Выбирают данный уровень вероятности наличия нулевой гипотезы и находят по таблицам критическое значение F-критерия, пкотором еще может происходить случайное расхождение дисперсий на 1 степень свободы, т. Затем при моделировании линейного уравнения множественной регрессии вида значение F-критерия признается достоверным т. Тогда нулевая гипотеза отклоняется неверно, что отсутствуют признаки связи и, напротив, приходим к заключению, что связь имеется и является существенной носит неслучайный, значимый характер. В случае, если величина отношения оказывается меньше табличной, то вероятность нулевой гипотезы оказывается выше заданного уровня который выбирался изначально и нулевая гипотеза не может быть отклонена без заметной опасности получить неверный вывод о наличии связи. Соответственно, уравнение регрессии считается при этом незначимым. Сама величина F-критерия связана с коэффициентом детерминации. Помимо оценки значимости уравнения регрессии в целом оценивают также значимость отдельных параметров уравнения регрессии. При при моделировании линейного уравнения множественной регрессии вида определяют стандартную ошибку коэффициента регрессии с помощью эмпирического фактического среднеквадратичного отклонения и эмпирической дисперсии на одну степень свободы, используя распределение Стьюдента для проверки существенности коэффициента регрессии для расчета его доверительных интервалов. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента выполняется посредством сопоставления значений этих величин и величины стандартной ошибки. Величина ошибки параметров линейной регрессии и коэффициента корреляции определяется по следующим формулам:5. Соответственно величина стандартной ошибки, предсказываемой по линии регрессии, вычисляется по формуле: 5. Далее для расчета доверительного интервала находится предельная ошибка для каждого показателя как произведение табличного значения t-статистики на среднюю случайную ошибку соответствующего показателя. По сути, чуть иначе мы уже фактически записали ее только что выше. Затем получают границы доверительных интервалов: нижнюю границу — вычитанием из соответствующих коэффициентов фактически средних соответствующей предельной ошибки, верхнюю — сложением прибавлением в линейной регрессии. В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции:5. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:. Рассмотрим содержательную сторону расчетного значения признака у, т. Подставив выражение параметра а в линейную при моделировании линейного уравнения множественной регрессии вида, получим:. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. Существует равенство между числом степеней свободы общей, факторной и остаточной сумм квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n - 2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю, вычисленную по данным выборки, то теряем одну степень свободы, т. Итак, имеем два равенства: для сумм и для числа степеней свободы. А это, в свою очередь, возвращает нас опять к сопоставимым дисперсиям на одну степень свободы, отношение которых и дает критерий Фишера. Аналогично отношению Фишера, отношение величин параметров уравнения или корреляционного коэффициента к величине стандартной ошибки соответствующих коэффициентов образует критерий Стьюдента для проверки значимости этих величин. Далее также используются таблицы распределения Стьюдента и сравнение расчетных значений с критическими табличными. Однако, более того, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии по Фишеру квадрат t-критерия Стьюдента равен критерию Фишера. При моделировании линейного уравнения множественной регрессии вида описанное выше справедливо, пока величина коэффициента при моделировании линейного уравнения множественной регрессии вида не близка к 1. Если величина коэффициента корреляции близка к 1, то распределение его оценок отличается от нормального распределения или от распределения Стьюдента. Сравните с анализом предыдущих глав и выводами о неполной обоснованности иногда нормального распределения! Для этой величины имеются рассчитанные таблицы. И поэтому удобно использовать ее для проверки значимости коэффициента корреляции в указанном случае. Нелинейная регрессия Линейная регрессия и методы ее исследования и оценки не имели бы столь важного значения, если бы помимо этого весьма важного, но все же простейшего случая мы не получали бы с их помощью инструмента анализа более сложных нелинейных зависимостей. Нелинейные регрессии могут быть разделены на два существенно различных класса. Первым и более простым является класс нелинейных зависимостей, в которых имеется нелинейность относительно объясняющих переменных, но которые остаются линейными по входящим в них и подлежащим оценке параметрам. Сюда входят полиномы различных степеней и равносторонняя гипербола. Такая нелинейная регрессия по включенным в объяснение переменным простым их преобразованием заменой легко сводится к обычной линейной регрессии для новых переменных. Поэтому оценка параметров в этом случае выполняется просто по МНК, поскольку зависимости линейны по параметрам. Так, важную роль в экономике играет нелинейная зависимость, описываемая равносторонней гиперболой:. Например, кривая Филлипса характеризует нелинейное соотношение между нормой безработицы и процентом прироста заработной платы. Совершенно по-другому обстоит дело с регрессией, нелинейной по оцениваемым параметрам, например, представляемой степенной функцией, в которой сама степень ее показатель является параметром или зависит от него. Также это может быть показательная функция, где основанием степени является параметр и экспоненциальная функция, в которой опять же показатель содержит параметр или комбинацию параметров. Этот класс, в свою очередь, делится на два подкласса: к одному относятся внешне нелинейные, но по существу внутренне линейные. В этом случае можно привести модель к линейному виду с помощью преобразований. Однако, если модель внутренне нелинейна, то она не может быть сведена к линейной функции. Таким образом, только модели внутренне нелинейные в регрессионном анализе считаются действительно нелинейными. Все прочие, сводящиеся к линейным посредством преобразований, таковыми не считаются, именно они рассматриваются чаще всего в эконометрических исследованиях. В то же время это не означает невозможности исследования в эконометрике существенно нелинейных зависимостей. Если модель внутренне нелинейна по параметрам, то для оценки параметров используются численные итеративные процедуры, успешность которых зависит от вида уравнения и от особенностей применяемого итеративного метода. Вернемся к зависимостям, приводимым к линейным. После введения новых переменных, обозначающих логарифмы, получается линейное уравнение. Тогда процедура оценивания регрессии состоит в вычислении новых переменных для каждого наблюдения путем взятия логарифмов от исходных значений. Затем оценивается регрессионная зависимость новых переменных. Для перехода к исходным переменным следует взять антилогарифм, т. Аналогично может рассматриваться случай показательных, или экспоненциальных, функций. Для существенно нелинейной регрессии невозможно применение обычной процедуры оценивания регрессии, поскольку соответствующая зависимость не может быть преобразована в линейную. Общая схема действий при этом следующая. Принимаются некоторые правдоподобные исходные при моделировании линейного уравнения множественной регрессии вида параметров. Вычисляются предсказанные значения у при моделировании линейного уравнения множественной регрессии вида фактическим значениям х с использованием этих значений параметров. Вычисляются остатки для всех наблюдений в выборке и затем сумма квадратов остатков. Вносятся небольшие изменения в одну или при моделировании линейного уравнения множественной регрессии вида оценку параметров. Вычисляются новые предсказанные значения у, остатки и сумма квадратов остатков. Если сумма квадратов остатков меньше, чем прежде, то новые оценки параметров лучше прежних их следует использовать в качестве новой отправной точки. Шаги 4, 5 и 6 повторяются вновь до тех пор, пока не окажется невозможным внести такие изменения в оценки параметров, которые привели бы к изменению суммы остатков квадратов. Делается вывод о том, что величина суммы квадратов остатков минимизирована и конечные оценки параметров являются оценками по методу наименьших квадратов. Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрике широко используется степенная функция. Параметр b в ней имеет четкое истолкование, являясь коэффициентом эластичности. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Практическое применение логарифмирования и, соответственно, экспоненты возможно тогда, когда результативный признак не имеет отрицательных значений. При исследовании взаимосвязей среди функций, использующих логарифм результативного признака, в эконометрике преобладают степенные зависимости кривые спроса и предложения, производственные функции, кривые освоения для характеристики связи между трудоемкостью продукции, масштабами производства, зависимость ВНД от уровня занятости, кривые Энгеля. Иногда используется так называемая обратная модель, являющаяся внутренне нелинейной, но в ней, в отличие от равносторонней гиперболы, преобразованию подвергается не объясняющая переменная, а результативный признак у. Поэтому обратная модель оказывается внутренне нелинейной и требование МНК выполняется не для фактических значений результативного признака у, а для их обратных значений. Особого внимания заслуживает исследование корреляции для нелинейной регрессии. В общем случае парабола второй степени, так же как и полиномы более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции. Если преобразования уравнения регрессии в линейную форму связаны с зависимой переменной результативным признакомто линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку связи и численно не совпадает при моделировании линейного уравнения множественной регрессии вида индексом корреляции. Следует иметь в виду, что при расчете индекса корреляции используются суммы квадратов отклонений результативного признака у, а не их логарифмов. Оценка значимости индекса корреляции выполняется так же, как оценка надежности значимости коэффициента корреляции. Сам индекс корреляции, как индекс детерминации, используется для проверки значимости в целом уравнения нелинейной регрессии по F-критерию Фишера. Отметим, что возможность построения при моделировании линейного уравнения множественной регрессии вида моделей как посредством приведения их к линейному виду, так и путем при моделировании линейного уравнения множественной регрессии вида нелинейной регрессии, с одной стороны, повышает универсальность регрессионного анализа, а с другой — существенно усложняет задачи исследователя. Если ограничиваться парным регрессионным анализом, то можно построить график наблюдений у и х как диаграмму разброса. Часто несколько различных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. Но в случае множественного регрессионного анализа такой график построить невозможно. При рассмотрении при моделировании линейного уравнения множественной регрессии вида моделей с одним и тем же определением зависимой переменной выбор прост. Разумнее всего оценивать регрессию на основе всех вероятных функций, останавливаясь на функции, в наибольшей степени объясняющей при моделировании линейного уравнения множественной регрессии вида зависимой переменной. Если коэффициент детерминации измеряет в одном случае объясненную регрессией долю дисперсии, а в другом — объясненную регрессией долю дисперсии логарифма этой зависимой переменной, то выбор делается без затруднений. Другое дело, когда эти значения для двух моделей весьма близки и проблема выбора существенно осложняется. Тогда следует применять стандартную процедуру в виде теста Бокса — Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки. В нем предлагается преобразование масштаба наблюдений у, при котором обеспечивается возможность непосредственного сравнения среднеквадратичной ошибки СКО в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги. Вычисляется среднее геометрическое значений у в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от у. Пересчитываются наблюдения у таким образом, что они делятся на полученное на первом шаге значение. Оценивается регрессия для линейной модели с использованием пересчитанных значений у вместо исходных значений у и для логарифмической модели с использованием логарифма от пересчитанных значений у. Теперь значения СКО при моделировании линейного уравнения множественной регрессии вида двух регрессий сравнимы, и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений. Такая статистика имеет распределение χ 2 с одной степенью свободы обобщение нормального распределения. Что означает термин «плохо обусловленная система уравнений»? В чем суть проблемы спецификации модели? Объясните понятие «замещающие переменные». С появлением какой проблемы связана тесная линейная зависимость переменных? Каким образом с помощью коэффициента детерминации определяется доля различных факторов в общей дисперсии? Что характеризует коэффициент детерминации? Как оценивается теснота совместного влияния факторов на результат? Каким образом оценивается существенность объяснения остаточной дисперсии новыми дополнительно включаемыми факторами? В чем заключается предложенная Фишером нулевая гипотеза? Что называют параметрическим оцениванием? Что называют непараметрическим оцениванием? Какова роль однородности в проблеме оценивания? Что такое проверка статистической гипотезы? Как проверяют однородность с помощью критерия Стьюдента? Что такое однородность двух независимых выборок? Что означает точечное оценивание? Что означает интервальное оценивание? Что такое квантиль нормального распределения? Всегда ли можно использовать нормальное распределение? В чем смысл центральной предельной теоремы? Для чего нужна нулевая гипотеза? Что означает значимость параметра или модели в целом? Каков смысл критического значения? Чему равен как получают F-тест критерий Фишера? Понимаете ли вы смысл стандартной ошибки? Зачем помимо критерия Фишера нужен еще критерий Стьюдента? Как используют критерий Стьюдента? Укажите два класса нелинейной регрессии. Что значит внешне нелинейная при моделировании линейного уравнения множественной регрессии вида Что значит внутренне нелинейная регрессия? Является ли обоснованным метод итераций для оценивания нелинейной регрессии? Дайте качественное описание обратной модели. Опишите преобразование в тесте Зарембки.


Другие статьи на тему:



 
Copyright © 2006-2016
svadba-in-tyumen.ru