Корреляция – определение и вычисление с примерами решения
Содержание:
Понятие о корреляции:
Марксистская философия учит, что каждое явление природы и общества не возникает само по себе, отдельно от других, а находится в связи с другими явлениями, причем каждое из них представляет собой единство составляющих его частей и свойств. Для того чтобы познать какое-либо явление, необходимо изучить его не только во всех сложных взаимоотношениях с окружающими явлениями-факторами, но также во взаимосвязи всех его сторон.
Если всеобщая связь и взаимозависимость явлений составляют один из наиболее общих законов, то основной задачей науки является изучение этой взаимосвязи.
В математической статистике взаимосвязь явлений изучается методом корреляции. Термин корреляция происходит от английского слова correlation — соотношение, соответствие. Особенность изучения связи явлений методом корреляции состоит в том, что нельзя изолировать влияние посторонних факторов либо потому, что эти факторы неизвестны, либо потому, что их изоляция невозможна. Поэтому метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний выяснить, какова была бы зависимость между результатом фактором, если бы посторонние факторы не изменялись и своим изменением не искажали основную зависимость. При этом небольшое число наблюдений не дает возможности обнаружить закономерность связи.
Первая задача корреляции заключается в выявлении на основе наблюдения над большим количеством фактов того, как изменяется в среднем результативный признак в связи с изменением данного фактора. Это изменение предполагает условие неизменности ряда других факторов, хотя искажающее влияние этих других факторов на самом деле имеет место. Вторая задача заключается в определении степени влияния искажающих факторов.
Первая задача решается нахождением уравнения связи.
Вторая задача решается при помощи различных показателей тесноты связи.
Такими показателями являются меры тесноты связи, найденные разными исследователями, а также коэффициент корреляции и корреляционное отношение.
Результативный и факториальный признаки
При изучении влияния одних признаков явлений на другие из цепи признаков, характеризующих данное явление, выделяются два признака — факториальный и результативный. Необходимо установить, какой из признаков является факториальным и какой результативным. В этом помогает прежде всего логический анализ.
Пример. Себестоимость промышленной продукции отдельного предприятия зависит от многих факторов, в том числе от объема продукции на данном предприятии. Себестоимость продукции выступает в этом случае как результативный признак, а объем продукции — как факториальный.
Другой пример. Чтобы судить о преимуществах крупных предприятий перед мелкими, рассмотрим, как увеличивается производительность труда рабочих крупных предприятий, и выявим зависимость производительности труда от увеличения размеров предприятия.
Таблица!
Группировка магазинов Министерства торговли по числу рабочих мест на 1 января 1960 г.1
Группы магазинов по числу рабочих мест Число магазинов Товарооборот в расчете на одного работника за квартал (в тыс. руб.)
Всего 68 375 117
Из них
с числом рабочих мест:
- с 1 19 893 109
- с 2 18 030 108
- с 3—4 16 508 108
- с 5—7 8 321 111
- с 8—10 2 868 118
- с 11 — 15 1 559 122
- с 16 и более 1 196 139
- J
Группировка показывает прямую зависимость производительности труда торговых работников, выражающуюся в товарообороте, приходящегося на одного работника, от размера магазина. Признак группировки — число рабочих мест — является факториальным, товарооборот — результативным признаком.
От размеров производства зависит также производительность оборудования, о чем свидетельствует следующая таблица:
Из таблицы ясно видна связь между размерами печей и их производительностью. Эта связь прямая: чем крупнее печь, тем она производительнее.
Однако зависимость результативного признака (суточного съема стали) от факториального носит не обязательный характер. Если в общей массе мы наблюдаем эту связь, то в отдельных группах бывают и отступления от общей закономерности. Такие отступления—характерная особенность статистической связи вообще, о которой будет рассказано ниже.
Группировки позволяют выявить и зависимость нескольких результативных признаков от одного факториального. Рассмотрим табл. 3.
В этой таблице мы видим зависимость двух результативных признаков: товарооборота на одного работника и товарных запасов—от размеров магазинов. Зависимость товарооборота от размеров магазина прямая, а зависимость товарных остатков от размеров магазина — обратная. В первом случае она растет с ростом размеров магазина, во втором уменьшается. Однако то и другое благоприятно.
Графическое изображение связи
Графическое изображение изучаемых явлений позволяет не только установить наличие или отсутствие связи между ними, но и изучить характер этой связи, иначе говоря изучить форму связи и ее тесноту.
Имея перед собой числовые характеристики факториального и результативного признаков одного и того же явления, можно каждую пару чисел изобразить в виде точки на плоскости. Для этого на плоскости берем две взаимно перпендикулярные линии и образуем систему координат. В этой системе по оси абсцисс откладываем значения факториального признака, а по оси ординат— значения результативного признака. Каждая пара чисел дает при этом точку на плоскости координатного поля.
Возьмем, например, группировку магазинов по числу рабочих мест, данную на стр. 239, и будем откладывать число рабочих мест по горизонтальной оси (оси Ох), а товарооборот в расчете на одного работника — по вертикальной оси (оси Оу). Будем иметь ряд точек, соединив которые получим ломаную линию, которая называется ломаной регрессии (см. график 1).
Как видно из графика, с ростом числа рабочих мест в магазине растет и товарооборот, приходящийся на одного работника, что говорит о связи между этими признаками, причем связи прямой. График подчеркивает эту зависимость ходом ломаной линии из нижнего угла в верхний правый угол.
Такого же рода зависимость будем наблюдать на графике 2, изучая связь между величиной мартеновских печей по площади пода и среднесуточным съемом стали с 1 пода. Как и в предыдущем примере, факториальный признак — величину площади пода — будем откладывать на оси абсцисс, а результативный — среднесуточный съем стали с 1 пода — на оси ординат.
Здесь также ясно выраженная прямая зависимость между результативным и факториальным признаками.
По-другому будет выглядеть график зависимости товарных запасов от размера товарооборота магазина.
Здесь мы наблюдаем ярко выраженную обратную связь между признаками: падение товарных запасов сопровождается ростом размера магазина по товарообороту.
Графический метод наглядно иллюстрирует зависимость, выявленную группировкой. Недостаток графического метода изучения связи заключается в том, что он позволяет выявить связь лишь между двумя признаками.
Функциональные и статистические связи
До сих пор говорилось о связях между явлениями и их признаками без объяснения формы и степени этих связей. В приведенных примерах связи носят логически обоснованный характер, но числовое выражение этих связей говорит о том, что они проявляются не всегда одинаково. В определенных случаях имеются отступления от наблюдаемых общих закономерностей. В приведенной на стр. 240 таблице о среднесуточном съеме стали с 1 пода печи наблюдается зависимость съема стали от размера печи по площади пода, но эта зависимость за 1955 г. искажена показателями 5-й группы, где съем стали значительно ниже, чем в 4-й группе. Если бы рассматривалась при этом каждая печь в отдельности, то это несоответствие установленному правилу зависимости проявлялось бы неоднократно. Но средние величины съема стали, вычисленные на основании данных довольно большого числа печей в группе, говорят о явно выраженной зависимости. Связи между явлениями, или их признаками. проявляющиеся в изменении в зависимости от одного признака характеристик распределения (из которых главная — средняя) другого признака, называются связями статистическими.
Статистические связи характеризуются тем, что в них результативный признак не полностью определяется влиянием признака факториального. Это влияние проявляется лишь в среднем, а в отдельных случаях получаются результаты, даже противоречащие установленной связи.
В отличие от статистических связей связи функциональные характеризуются тем, что при таких связях факториальный признак полностью определяет величину результативного признака.
Функциональные связи почти не встречаются в явлениях общественной жизни, отличающихся сложностью и многообразием существующих и проявляющихся взаимосвязей. Но во многих явлениях в основе статистических связей лежат функциональные связи. Связь функциональная может показывать зависимость между результативным признаком и несколькими аргументами. Так, площадь прямоугольника зависит от длины его двух сторон, путь, проходимый телом, зависит от скорости его движения и времени движения и т. д.
Уравнение связи
Наблюдая статистическую связь между двумя признаками, математическая статистика стремится придать этой связи форму функциональной, т. е. связи, выражаемой при помощи математической функции.
На помощь приходит ее графическое изображение при отыскании нужной функции связи. При этом необходимо стремиться найти такую функцию, которая давала бы наименьшее отклонение от полученных при наблюдении значений их признаков, которая выражала бы основную зависимость, проявляющуюся в эмпирическом материале. Уравнение этой функции будет уравнением связи между результативным и факториальным признаками.
Уравнение связи находится с помощью способа наименьших квадратов, который требует, чтобы сумма квадратов отклонений эмпирических значений от значений, получаемых на основании уравнения связи, была минимальной.
Применение способа наименьших квадратов позволяет находить параметры уравнения связи при помощи решения системы так называемых нормальных уравнений, различных для связи каждого вида.
Чтобы отметить, что зависимость между двумя признаками выражается в среднем, значения результативного признака, найденные по уравнению связи, обозначаются
Зная уравнение связи, можно вычислить заранее среднее значение результативного признака, когда значение факториального признака известно. Таким образом, уравнение связи является методом обобщения наблюдаемых статистических связей, методом их изучения.
Применение той или иной функции в качестве уравнения связи разграничивает связи по их форме: линейную связь и криволинейную связь (параболическую, гиперболическую и др.).
Рассмотрим уравнения связи для зависимостей от одного признака при разных формах связи (линейной, криволинейной параболической, гиперболической) и для множественной связи.
Линейная зависимость
Уравнение связи как уравнение прямой применяется в случае равномерного нарастания результативного признака с увеличением признака факториального. Такая зависимость будет зависимостью линейной (прямолинейной).
Параметры уравнения прямой линии находятся путем решения системы нормальных уравнений, получаемых по способу наименьших квадратов:
где n — число полученных при наблюдении пар взаимосвязанных величин; — сумма значений факториального признака;
— сумма квадратов значений факториального признака;
— сумма значений результативного признака; — сумма произведений значений факториального признака на значения результативного признака.
Примером расчета параметров уравнения и средних значений результативного признака может служить следующая таблица, являющаяся результатом группировки по факториальному признаку и подсчета средних по результативному признаку.
Группировка предприятий по стоимости основных средств и подсчет сумм необходимы для уравнения связи.
Из таблицы находим: 132,0. Строим систему двух уравнений с двумя неизвестными:
Поделив каждый член в обоих уравнениях на коэффициенты при получим:
Вычтем из второго уравнения первое: Подставив значения в первое уравнение найдем
Уравнение связи примет вид: Подставив в это уравнение соответствующие х, получим значения результативного признака, отражающие среднюю зависимость у от х в виде корреляционной зависимости.
Заметим, что суммы, исчисленные по уравнению и фактические, равны между собой. Изображение фактических и вычисленных значений на графике 4 показывает, что уравнение связи отображает наблюденную зависимость в среднем.
Параболическая зависимость
Параболическая зависимость, выражаемая уравнением параболы 2-го порядка имеет место при ускоренном возрастании или убывании результативного признака в сочетании с равномерным возрастанием факториального признака.
Параметры уравнения параболы вычисляются путем решения системы 3 нормальных уравнений:
Возьмем для примера зависимость месячного выпуска продукции (у) от величины стоимости основных средств (х). Оба показателя округлены до миллионов рублей. Расчеты необходимых сумм приведем в таблице 5.
По данным таблицы, составляем систему уравнений:
После деления всех уравнений на коэффициенты при получим:
Вычтя из второго уравнения первое и из третьего второе, получим два новых уравнения с двумя неизвестными:
Полученные уравнения снова разделим на коэффициенты при
Следовательно,
Запишем уравнение параболы, выражающей связь между х и у.
Графическое сопоставление опытных данных и данных расчета (см. график 5) показывает почти полное совпадение хода обеих линий, что говорит о хорошем воспроизведении опытных данных расчетными средними значениями результативного признака.
В практике изучения связи между признаками, кроме параболы 2-го порядка, применяются параболы и более высоких порядков. Чем выше порядок параболы, тем точнее он воспроизводит опытные данные.
Если уравнение связи представляет собой параболу 3-го порядка то система нормальных уравнений примет вид:
Имея соответствующие хну, можем составить Дополнительную расчетную таблицу по следующей схеме:
которая используется для нахождения нужных сумм. Решив систему 4 уравнений, найдем параметры и, следовательно, уравнение связи.
Уравнение гиперболы
Обратная связь указывает на убывание результативного признака при возрастании факториального. Такова линейная связь при отрицательном значении В ряде других случаев обратная связь может быть выражена уравнением гиперболы
Параметры уравнения гиперболы находятся из системы нормальных уравнений:
где — сумма величин, обратных значениям факториального признака, а — сумма их квадратов.
Примером расчета обратной связи по гиперболе может служить следующая таблица:
Составив по данным таблицы систему уравнений и разделив каждый член обоих уравнений на коэффициенты при а, получим:
Находим вычитанием из второго уравнения первого величину
Подставив вместо его значение, получим
Запишем уравнение связи в общем виде затем, подставив каждое значение х в уравнение, находим по любой строке таблицы. Строим ломаную по парам х и у и кривую по х и . Ломаная и кривая очень близки друг к другу.
Корреляционная таблица
При большом объеме наблюдений, когда число взаимосвязанных пар велико, парные данные легко могут быть расположены в корреляционной таблице, являющейся наиболее удобной формой представления значительного количества пар чисел.
В корреляционной таблице один признак располагается в строках, а другой — в колонка таблицы. Число, расположенное в клетке на пересечении графы и колонки, показывает, как часто встречается данное значение результативного признака в сочетании с данным значением факториального признака.
Для простоты расчета возьмем небольшое число наблюдений на 20 предприятиях за средней месячной выработкой продукции на одного рабочего (тыс. руб. — у) и за стоимостью основных производственных средств (млн. руб. — х).
В обычной парной таблице эти сведения располагаются так:
Сведем эти данные в корреляционную таблицу.
Итоги строк у показывают частоту признака итоги граф х — частоту признака Числа, стоящие в клетках корреляционной таблицы, являются частотами, относящимися к обоим признакам и обозначаются
Корреляционная таблица даже при поверхностном знакомстве дает общее представление о прямой и обратной связи. Если частоты расположены по диагонали вниз направо, то связь между признаками прямая (при увеличивающихся значениях признака в строках и графах). Если же частоты расположены по диагонали вверх направо, то связь обратная.
Для предварительного суждения о связи по корреляционной таблице можно для каждого столбца рассчитать средние значения Так, в первом столбце х = 9,9, а имеет лишь одно значение, равное 0,8. Найдем среднее значение для второго столбца. Оно будет равно:
Следовательно, при Выпишем все значения х и соответствующие им
Зависимость, выраженная в таблице, более ярко и убедительно выступит в «ломаной регрессии», когда каждую пару чисел нанесем на график (см. график 7).
По корреляционной таблице можно вести расчеты параметров уравнения связи, как уравнения прямой, так и уравнений параболы и гиперболы. При этом необходимо учитывать, что сочетание каждой пары значений может встречаться не один, а несколько раз. Сами значения хну необходимо взвешивать, т. е. умножать на соответствующие частоты. Для самого признака х частота будет обозначаться для признака Частоту сочетаний обозначим
Ввиду сказанного мы можем систему нормальных уравнений написать так, чтобы были учтены веса. Тогда для линейной зависимости система нормальных уравнений примет вид:
где N — число произведенных наблюдений (число пар). В приведенной корреляционной таблице N = 20. будет суммой произведений соответствующих х на их частоты. В данной таблице эта сумма составит:
9,9 +10,0 • 4 +10,1 • 4 + 10,2 • 4 +10,3 • 1 +10,4 • 3 +10,5 • 3 = 204.
—сумма произведений у на соответствующие частоты. В нашем примере она равна:
включает сумму произведений всех х на у и на для тех клеток корреляционной таблицы, в которых записаны частоты. Рассчитаем суммы произведений для 1-й и 2-й строки
- Для 1 -и строки:
- Для 2-й строки:
Нетрудно заметить, что в каждой строке у повторяется столько раз, сколько раз мы его суммируем, а, следовательно, у можно вынести за скобку.
- Для 1-й строки: 0,8 (9,9 • 1 +10,0 • 2) =23,92.
- Для 2-й строки:
Следовательно, сумма произведений может быть записана при постоянном у, как Заметим, что сумма произведений может быть записана и рассчитана как произведение
Продолжим расчет для последующих строк.
- Для 3-й строки
- Для 4-й строки
- Для 5-й строки
- Для 6-й строки
Общая сумма по всем строкам
Система нормальных уравнений может быть записана по результатам подсчета в таком виде:
Для расчета параметров уравнения линейной связи делим каждое из уравнений на коэффициенты при
Уравнение связи определяет среднюю зависимость выработки рабочего от стоимости основных средств. Вычислительная работа облегчается, если в самой корреляционной таблице путем записи дополнительных граф и строк производить нужные подсчеты для решения системы уравнений.
Число наблюдений N может быть подсчитано и по столбцу как его сумма. Она равна итогу по строке Для определения необходимо ввести новую строку Итог этой строки и дает искомую сумму.
Следующая дополнительная строка представляет возможность определить Далее, и может быть определена на основе расчета двух дополнительных граф:
В корреляционной таблице (см. табл. 8) в последних строках дается расчет для построения ломаной регрессии — для построения прямой (см. график 7).
Корреляционная таблица позволяет вычислять уравнение связи для любой формы: прямой, параболы, гиперболы и др. Однако в подобной таблице видна зависимость результативного признака лишь от одного факториального.
Зависимость результативного признака от двух или более факториальных признаков носит название множественной связи.
Множественная связь
Исследование зависимости результативного признака от двух или нескольких факториальных признаков возможно при помощи уравнения множественной связи.
В простейшем уравнении множественной связи предполагается, что зависимость между признаками линейная. Сначала рассмотрим линейную зависимость результативного признака (у) от двух факториальных (х, z). Уравнение связи в этом случае выразится формулой Параметры этого уравнения находятся при решении системы нормальных уравнений, получаемых для способа наименьших квадратов
где п — число одновременных наблюдений по трем признакам;
—суммы соответствующих значений по этим признакам.
Все расчеты удобно сосредоточить в специальной таблице, как это делается в приводимом ниже примере.
Рассмотрим зависимость средней урожайности ячменя (у) на равных участках от количества внесенных минеральных удобрений (х) и количества выпавших в период цветения осадков (z).
Средняя урожайность исчислялась по участкам с равным количеством внесенных удобрений и с равным количеством выпавших осадков.
Пользуясь данными таблицы, составляем систему трех уравнений:
Поделив все члены уравнений на коэффициенты при получим:
Вычитая из второго уравнения сначала первое, а затем третье, получим 2 уравнения с двумя неизвестными:
Делим каждый член обоих уравнений на коэффициенты при
Уравнение связи, определяющее зависимость результативного признака (у) от двух факториальных
Вычислив по этому уравнению при соответствующих х и z величины замечаем, что суммы опытных данных (y) и расчетных данных совпадают, а отдельные значения их мало отличаются друг от друга.
Найдем уравнение связи между урожайностью пшеницы на Безенчукской опытной станции и тремя факторами (х, z, v).
Статистические данные, полученные в результате наблюдения, и расчеты представлены в табл. 10, откуда возьмем необходимые данные для составления системы нормальных уравнений:
Следовательно,, корреляционное уравнение будет:
Расширив число факториальных признаков, можно найти уравнение множественной связи для 4, 5, 6 и т. д. признаков. При этом необходимо брать только такие признаки, которые оказывают существенное влияние на величину результативного признака, ибо учет несущественных, второстепенных признаков лишь увеличивает расчетную работу при нахождении уравнения связи, а не приближает к более полному изучению связи.
Если число факториальных признаков возрастает, возрастает и число членов уравнения связи. Так, для трех факториальных признаков линейное уравнение связи будет записано формулой:
где параметры уравнения находятся путем решения системы четырех нормальных уравнений:
Построив соответствующую таблицу, получим в ней необходимые суммарные данные для приведенной системы уравнений (см. табл. 10).
Мерой существенности влияния того или иного факториального признака на результативный являются показатели тесноты связи.
В настоящем издании мы рассмотрим эмпирические меры тесноты связи, полученные разными исследователями, и меры тесноты связи, основанные на измерении вариации.
Эмпирические меры тесноты связи
Эмпирические меры тесноты связи позволяют оценить степень связи между явлениями или факторами, находящимися в зависимости один от другого. Эмпирические меры получены различными исследователями, занимавшимися статистической обработкой фактического материала. Они получены ранее, чем был открыт метод корреляции. Практическое пользование эмпирическими показателями довольно удобно.
К эмпирическим мерам тесноты относятся:
- а) коэффициент ассоциации:
- б) коэффициенты взаимной напряженности;
- в) коэффициент Фехнера;
- Г) коэффициент корреляции рангов;
Рассмотрим каждый из них.
а) Коэффициент ассоциации. Коэффициент ассоциации как мера тесноты связи применяется для изучения связи двух качественных признаков, состоящих только из двух групп. Для его вычисления строится четырехклеточная таблица корреляции, которая выражает связь между двумя явлениями, каждое из которых, в свою очередь, должно быть альтернативным, т. е. состоящим только из двух видов, качественно отличных друг от друга. Например, при изучении зависимости урожая от количества внесенных в почву удобрений выделяем по урожайности и по количеству внесенных удобрений лишь по две группы. При этом условии можно построить следующую четырехклеточную таблицу.
Числа, стоящие на пересечении строк и граф — a,b,c,d, показывают, сколько участков встречается с тем и другим количеством удобрений, внесенным в почву, с той и другой урожайностью.
Мера тесноты связи — коэффициент ассоциации — исчисляется по формуле:
Заполнив клетки конкретными числовыми данными, получим следующую четырехклеточную таблицу, где числа, стоящие в клетках, — гектары посевов.
Коэффициент ассоциации равен:
что говорит о достаточно тесной прямой связи между урожайностью и степенью удобрения почв.
Коэффициент ассоциации может иметь и отрицательные значения, когда ad
При копировании любых материалов с сайта evkova.org обязательна активная ссылка на сайт www.evkova.org
Сайт создан коллективом преподавателей на некоммерческой основе для дополнительного образования молодежи
Сайт пишется, поддерживается и управляется коллективом преподавателей
Whatsapp и логотип whatsapp являются товарными знаками корпорации WhatsApp LLC.
Cайт носит информационный характер и ни при каких условиях не является публичной офертой, которая определяется положениями статьи 437 Гражданского кодекса РФ. Анна Евкова не оказывает никаких услуг.
Корреляционный анализ в Excel. Пример выполнения корреляционного анализа
Корреляционный анализ – это распространённый метод исследования, применяемый для определения уровня зависимости 1-й величины от 2-й. В табличном процессоре есть особый инструмент, который позволяет реализовать данный тип исследования.
Суть корреляционного анализа
Он необходим для определения зависимости между двумя разными величинами. Иными словами, происходит выявление того, в какую сторону (меньшую/большую) меняется величина в зависимости от изменений второй.
Назначение корреляционного анализа
Зависимость устанавливается тогда, когда начинается выявление коэффициента корреляции. Этот метод отличается от анализа регрессии, так как здесь только один показатель, рассчитываемый при помощи корреляции. Интервал изменяется от +1 до -1. Если она плюсовая, то повышение первой величины способствует повышению 2-й. Если минусовая, то повышение 1-й величины способствует понижению 2-й. Чем выше коэффициент, тем сильнее одна величина влияет на 2-ю.
Важно! При 0-м коэффициенте зависимости между величинами нет.
Расчет коэффициента корреляции
Разберем расчёт на нескольких образцах. К примеру, есть табличные данные, где по месяцам описаны в отдельных столбцах траты на рекламное продвижение и объём продаж. Исходя из таблицы, будем выяснять уровень зависимости объема продаж от денег, затраченных на рекламное продвижение.
Способ 1: определение корреляции через Мастер функций
КОРРЕЛ – функция, позволяющая реализовать корреляционный анализ. Общий вид — КОРРЕЛ(массив1;массив2). Подробная инструкция:
- Необходимо произвести выделение ячейки, в которой планируется выводить итог расчета. Нажать «Вставить функцию», находящуюся слева от текстового поля для ввода формулы.
1
- Открывается «Мастер функций». Здесь необходимо найти КОРРЕЛ, кликнуть на нее, затем на «ОК».
2
- Открылось окошко аргументов. В строку «Массив1» необходимо ввести координаты интервалы 1-го из значений. В рассматриваемом примере — это столбец «Величина продаж». Нужно просто произвести выделение всех ячеек, которые находятся в этой колонке. В строку «Массив2» аналогично необходимо добавить координаты второй колонки. В рассматриваемом примере — это столбец «Затраты на рекламу».
3
- После введения всех диапазонов кликаем на кнопку «ОК».
Коэффициент отобразился в той ячейке, которая была указана в начале наших действий. Полученный результат 0,97. Этот показатель отображает высокую зависимость первой величины от второй.
4
Способ 2: вычисление корреляции с помощью Пакета анализа
Существует еще один метод определения корреляции. Здесь используется одна из функций, находящаяся в пакете анализа. Перед ее использованием нужно провести активацию инструмента. Подробная инструкция:
- Переходим в раздел «Файл».
5
- Открылось новое окошко, в котором нужно кликнуть на раздел «Параметры».
- Жмём на «Надстройки».
- Находим в нижней части элемент «Управление». Здесь необходимо выбрать из контекстного меню «Надстройки Excel» и кликнуть «ОК».
6
- Открылось специальное окно надстроек. Ставим галочку рядом с элементом «Пакет анализа». Кликаем «ОК».
- Активация прошла успешно. Теперь переходим в «Данные». Появился блок «Анализ», в котором необходимо кликнуть «Анализ данных».
- В новом появившемся окошке выбираем элемент «Корреляция» и жмем на «ОК».
7
- На экране появилось окошко настроек анализа. В строчку «Входной интервал» необходимо ввести диапазон абсолютно всех колонок, принимающих участие в анализе. В рассматриваемом примере — это столбики «Величина продаж» и «Затраты на рекламу». В настройках отображения вывода изначально выставлен параметр «Новый рабочий лист», что означает показ результатов на другом листе. По желанию можно поменять локацию вывода результата. После проведения всех настроек нажимаем на «ОК».
8
Вывелись итоговые показатели. Результат такой же, как и в первом методе – 0,97.
Определение и вычисление множественного коэффициента корреляции в MS Excel
Для выявления уровня зависимости нескольких величин применяются множественные коэффициенты. В дальнейшем итоги сводятся в отдельную табличку, именуемую корреляционной матрицей.
- В разделе «Данные» находим уже известный блок «Анализ» и жмем «Анализ данных».
9
- В отобразившемся окошке жмем на элемент «Корреляция» и кликаем на «ОК».
- В строку «Входной интервал» вбиваем интервал по трём или более столбцам исходной таблицы. Диапазон можно ввести вручную или же просто выделить его ЛКМ, и он автоматически отобразится в нужной строчке. В «Группирование» выбираем подходящий способ группировки. В «Параметр вывода» указывает место, в которое будут выведены результаты корреляции. Кликаем «ОК».
10
- Готово! Построилась матрица корреляции.
11
Коэффициент парной корреляции в Excel
Разберем, как правильно проводить коэффициент парной корреляции в табличном процессоре Excel.
Расчет коэффициента парной корреляции в Excel
К примеру, у вас есть значения величин х и у.
12
Х – это зависимая переменна, а у – независимая. Необходимо найти направление и силу связи между этими показателями. Пошаговая инструкция:
- Выявим средние показатели величин при помощи функции СРЗНАЧ.
13
- Произведем расчет каждого х и хсредн, у и усредн при помощи оператора «-».
14
- Производим перемножение вычисленных разностей.
15
- Вычисляем сумму показателей в этом столбце. Числитель – найденный результат.
16
- Посчитаем знаменатели разницы х и х-средн, у и у-средн. Для этого произведем возведение в квадрат.
17
- Используя функцию АВТОСУММА, найдем показатели в полученных столбиках. Производим перемножение. При помощи функции КОРЕНЬ возводим результат в квадрат.
18
- Производим подсчет частного, используя значения знаменателя и числителя.
19 20
- КОРРЕЛ – интегрированная функция, которая позволяет предотвратить проведение сложнейших расчетов. Заходим в «Мастер функций», выбираем КОРРЕЛ и указываем массивы показателей х и у. Строим график, отображающий полученные значения.
21
Матрица парных коэффициентов корреляции в Excel
Разберем, как проводить подсчет коэффициентов парных матриц. К примеру, есть матрица из четырех переменных.
22
- Заходим в «Анализ данных», находящийся в блоке «Анализ» вкладки «Данные». В отобразившемся списке выбираем «Корелляция».
- Выставляем все необходимые настройки. «Входной интервал» – интервал всех четырех колонок. «Выходной интервал» – место, в котором желаем отобразить итоги. Кликаем на кнопку «ОК».
- В выбранном месте построилась матрица корреляции. Каждое пересечение строки и столбца – коэффициенты корреляции. Цифра 1 отображается при совпадающих координатах.
23
Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel
КОРРЕЛ – функция, применяемая для подсчета коэффициента корреляции между 2-мя массивами. Разберем на четырех примерах все способности этой функции.
Примеры использования функции КОРРЕЛ в Excel
Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:
24
Алгоритм расчёта выглядит следующим образом:
25
Отображенный показатель близок к 1. Результат:
26
Определение коэффициента корреляции влияния действий на результат
Второй пример. Два претендента обратились за помощью к двум разным агентствам для реализации рекламного продвижения длительностью в пятнадцать суток. Каждые сутки проводился социальный опрос, определяющий степень поддержки каждого претендента. Любой опрошенный мог выбрать одного из двух претендентов или же выступить против всех. Необходимо определить, как сильно повлияло каждое рекламное продвижение на степень поддержки претендентов, какая компания эффективней.
27
Используя нижеприведенные формулы, рассчитаем коэффициент корреляции:
28
Из полученных результатов становится понятно, что степень поддержки 1-го претендента повышалась с каждыми сутками проведения рекламного продвижения, следовательно, коэффициент корреляции приближается к 1. При запуске рекламы другой претендент обладал большим числом доверия, и на протяжении 5 дней была положительная динамика. Потом степень доверия понизилась и к пятнадцатым суткам опустилась ниже изначальных показателей. Низкие показатели говорят о том, что рекламное продвижение отрицательно повлияло на поддержку. Не стоит забывать, что на показатели могли повлиять и остальные сопутствующие факторы, не рассматриваемые в табличной форме.
Анализ популярности контента по корреляции просмотров и репостов видео
Третий пример. Человек для продвижения собственных роликов на видеохостинге Ютуб применяет соцсети для рекламирования канала. Он замечает, что существует некая взаимосвязь между числом репостов в соцсетях и количеством просмотров на канале. Можно ли про помощи инструментов табличного процессора произвести прогноз будущих показателей? Необходимо выявить резонность применения уравнения линейной регрессии для прогнозирования числа просмотров видеозаписей в зависимости от количества репостов. Табличка со значениями:
29
Теперь необходимо провести определение наличия связи между 2-мя показателями по нижеприведенной формуле:
0,7;ЕСЛИ(КОРРЕЛ(A3:A8;B3:B8)>0,7;»Сильная прямая зависимость»;»Сильная обратная зависимость»);»Слабая зависимость или ее отсутствие»)’ >
Если полученный коэффициент выше 0,7, то целесообразней применять функцию линейной регрессии. В рассматриваемом примере делаем:
30
Теперь производим построение графика:
31
Применяем это уравнение, чтобы определить число просматриваний при 200, 500 и 1000 репостов: =9,2937*D4-206,12. Получаем следующие результаты:
32
Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);»Величины не взаимосвязаны»)’ >. Получаем следующие результаты:
33
Особенности использования функции КОРРЕЛ в Excel
Данная функция имеет нижеприведенные особенности:
- Не учитываются ячейки пустого типа.
- Не учитываются ячейки, в которых находится информация типа Boolean и Text.
- Двойное отрицание «—» применяется для учёта логических величин в виде чисел.
- Количество ячеек в исследуемых массивах обязаны совпадать, иначе будет выведено сообщение #Н/Д.
Оценка статистической значимости коэффициента корреляции
При проверке значимости корреляционного коэффициента нулевая гипотеза состоит в том, что показатель имеет значение 0, а альтернативная не имеет. Для проверки применяется нижеприведенная формула:
34
Заключение
Корреляционный анализ в табличном процессоре – это простой и автоматизированный процесс. Для его выполнения необходимо знать всего лишь, где находятся нужные инструменты и как их активировать через настройки программы.
Корреляции для начинающих
Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!
Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности
Введение
Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.
Исходные данные
В качестве объекта исследования возьму данные о параметрах фигуры девушек месяца Плейбоя. Источник — www.wired.com/special_multimedia/2009/st_infoporn_1702, слегка облагородил и перевел из дюймов в сантиметры. Вспоминается анекдот про то, что 34 дюйма — это как два семнадцатидюймовых монитора. Также отделил записи с неполной информацией. При работе с реальными объектами их можно использовать, но сейчас они нам только мешают. Зато их можно использовать для проверки адекватности полученных результатов. Все данные у нас непрерывные, то есть грубо говоря типа float. Они приведены к целым числам только чтобы не загромождать экран. Есть способы работы и с дискретными данными — в нашем примере это например может быть цвет кожи или национальность, которые принимают одно из фиксированного набора значений. Это больше имеет отношение к методам классификации и принятия решений, что тянет еще на один мануал. Data.xls В файле два листа. На первом собственно данные, на втором — отсеянные неполные данные и набор для проверки нашей модели.
Обозначения
W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели
Как оценить качество модели?
Задача нашего упражнения — получить некую модель, которая описывает какой-либо объект. Способ получения и принцип работы конкретной модели нас пока не волнует. Это просто функция f(S, T, B, L), которая выдает вес девушки. Как понять, какая функция хорошая и качественная, а какая не очень? Для этого используется так называемая fitness function. Самая классическая и часто используемая — это сумма квадратов разницы предсказанного и реального значения. В нашем случае это будет сумма (W_p — W)^2 для всех точек. Собственно, отсюда и пошло название «метод наименьших квадратов». Критерий не лучший и не единственный, но вполне приемлемый как метод по умолчанию. Его особенность в том, что он чувствителен по отношению к выбросам и тем самым, считает такие модели менее качественными. Есть еще всякие методы наименьших модулей итд, но сейчас нам это пока не надо.
Простая линейная регрессия
Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2
Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?
Матлаб
Для упрощения очень рекомендую поставить плагин для Excel под названием Exlink. Он в папке matlab/toolbox/exlink. Очень облегчает пересылку данных между программами. После установки плагина появляется еще одно меню с очевидным названием, и автоматически запускается Матлаб. Переброс информации из Экселя в Матлаб запускается командой «Send data to MATLAB», обратно, соответственно, — «Get data from MATLAB». Пересылаем в Матлаб числа из столбца L и отдельно из W, без заголовков. Переменные назовем так же. Функция расчета линейной регрессии — polyfit(x,y,1). Единица показывает степень аппроксимационного полинома. У нас он линейный, поэтому единица. Получаем наконец-то коэффициенты регрессии: regr=polyfit(L,W,1) . a мы можем получить как regr(1), b — как regr(2). То есть мы можем получить наши значения W_p: W_p=L*repr(1)+repr(2) . Вернем их назад в Эксель.
Графичек
Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.
Расчет в матричном виде
Можно и без всяких полифитов справиться с построением регрессии, если слегка дополнить столбец с величинами роста еще одним столбцом, заполненным единицами: L(:,2)=1 . Двойка показывает номер столбца, в который пишутся единицы. Тогда коэффициенты регрессии можно будет найти по такой формуле: repr=inv(L’*L)*L’*W . И обратно, найти W_p: W_p=L*repr . Когда осознаешь магию матриц, пользоваться функциями становится неприкольно. Единичный столбец нужен для расчета свободного члена регрессии, то есть просто слагаемого без умножения на параметр. Если его не добавлять, то в регрессии будет всего один член: W_p=a*L. Достаточно очевидно, что она будет хуже по качеству, чем регрессия с двумя слагаемыми. В целом, избавляться от свободного члена надо только в том случае, если он точно не нужен. По умолчанию он все-таки присутствует.
Мультилинейная регрессия
В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X) . Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.
Попытка номер два
А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:
W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132
Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.
Валидация модели
Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr
Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам
Применимость
Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.
[spoiler title=”источники:”]
http://office-guru.ru/excel/korrelyacionnyj-analiz-v-excel-primer-vypolneniya-korrelyacionnogo-analiza.html
http://habr.com/ru/post/172043/
[/spoiler]
После
установления характера и тесноты
корреляционной связи необходимо получить
математическую модель исследуемой
зависимости в виде уравнения связи.
Если связь нелинейная, то необходимо
подобрать функцию, график которой будет
максимально приближен ко всем исходным
точкам, а если линейная – то получить
конкретное уравнение прямой.
В
данной работе, независимо от того какой
характер связи получится фактически,
будем рассчитывать уравнение прямой,
условно принимая, что связь между
исследуемыми признаками линейная. Для
этого необходимо преобразовать исходное
уравнение прямой:
Подставив
в приведенное выше уравнение все
известные значения (My,
r,
σy,
σx,
Mx)
неизвестными останутся только х и у:
В
результате преобразований:
у=3,1+0,1112x–2,798
получим конкретное
уравнение прямой:
уx
= 0,1112х + 0,3
Далее
заполняется таблица (табл. 3.7) для
построения графика. При этом значения
yx
рассчитываются по найденному выше
конкретному уравнению прямой.
Таблица 3.7
Х |
12 |
16 |
20 |
24 |
28 |
32 |
36 |
yср |
1,625 |
1,94 |
2,48 |
3,05 |
3,44 |
3,76 |
4,28 |
yx |
1,63 |
2,08 |
2,52 |
2,97 |
3,41 |
3,86 |
4,3 |
yср–yx |
-0,005 |
-0,14 |
-0,04 |
0,08 |
0,03 |
-0,1 |
-0,02 |
На
графике изображаются исходные данные
(yср)
в виде отдельных точек и вероятные (yx
– найденные по рассчитанному уравнению)
– в виде прямой (рис. 3.3).
Рис. 3.3 Графическое
изображение корреляционной связи.
4. Регрессионный анализ
4.1. Техника и способы регрессионного анализа
В
качестве примера для аналитического
выравнивания используются данные
взаимосвязи двух сопряженных признаков:
диаметров (Д), принимаемых за X, и высот
деревьев (H), принимаемых за Y.
Таблица
4.1
Взаимосвязь
диаметров и высот (невыравненные данные)
№ классов |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Д (X), |
12 |
16 |
20 |
24 |
28 |
32 |
36 |
40 |
44 |
H (Y) м |
16,00 |
18,00 |
20,15 |
22,14 |
23,48 |
23,65 |
24,62 |
26,00 |
27,00 |
4.2 Выравнивание по уравнению прямой линии
Аналитическое
выравнивание имеет своей конечной целью
получение конкретного уравнения связи
между двумя сопряженными признаками.
В первую очередь исходные данные наносят
на систему координат и по характеру
расположения точек определяют функцию
для выравнивания. Её график должен
проходить максимально близко по отношению
ко всем исходным точкам. В данном примере
характер расположения точек линейный
следовательно выравнивание осуществляем
по уравнению прямой.
Как
известно, уравнение линейной зависимости
общего вида будет иметь вид: y
= а x+b.
Вычисление
конкретного уравнения сводится к
определению числовых значений
коэффициентов а, b,
для получения которых существует
несколько способов. Рассмотрим два,
наиболее широко применяемых способа,
характеризующихся различной точностью
и трудоемкостью:
а)
способ координат двух избранных точек,
обеспечивающий получение менее точных
результатов, но гораздо более простым
путем;
б)
способ наименьших квадратов, позволяющий
получить достаточно точные результаты
путем использования координат всех
выравниваемых точек (наблюдений).
Остановимся
на технике работ при вычислении
конкретного уравнения методом координат
избранных точек. В этом случае исходные
данные изображаются на графике, и
производится предварительное выравнивание.
Результирующая линия проводится между
точками с таким расчетом, чтобы разделить
их общее количество на две приблизительно
равные части. При этом необходимо
стремиться к такому положению, чтобы
расстояние между линией и исходными
точками было кратчайшим. Для облегчения
техники выравнивания и увеличения его
точности можно рекомендовать следующий
прием. Соединить все выравниваемые
точки и постараться провести плановую
выравнивающую линию по возможности
ближе к этим серединам. При этом желательно
провести прямую таким образом, чтобы
хотя бы две исходные точки попали на
неё. С полученной прямой линии снимаем
координаты двух любых точек исходных
данных (лежащих на проведенной прямой).
Если число наблюдений в классах известно,
то следует отдать предпочтение точкам,
обеспеченным наибольшим числом
наблюдений. В нашем примере в качестве
избранных использованы координаты
точек классов № 2 и № 6.
X2=16; Y2=18,00; X6=32; Y6=23,65.
Система двух
конкретных уравнений приобретет вид
После
подстановки координат избранных точек:
После
решения системы относительно а и b,
получим
а=0,35
b=12,4
Следовательно,
полученное конкретное уравнение связи
Y/Х
(Д/Н) будет иметь вид
у=0,35x+12,4
Для
краткости изложения в последующем
тексте полученным уравнениям присвоены
определенные номера: уравнение,
вычисленное методом координат точек,
получает номер I,
а уравнение, полученное методом наименьших
квадратов – номер II.
Пределы «работы»
полученного уравнения по диаметру от
10 см до 46 см.
Рассмотрим
технику вычислений при использовании
способа наименьших квадратов. Для
получения конкретного уравнения в этом
случае используются координаты всех
точек. Это учитывается при выведении
системы уравнений для этого метода.
Так, если записать уравнения прямой для
каждой точки, а потом просуммировать
левые и правые части всех уравнений, то
получим следующее:
y1=
ax1
+ b
y2=
ax2
+ b
y3=
ax3
+
b
……………
……………
∑y=a∑x+bn.
Так
как нам необходимо найти два неизвестных
значения (a
и b),
то в системе должно быть два уравнения.
Для получения второго уравнения системы
умножим обе части каждого уравнения на
соответствующий «х» и просуммируем
левые и правые части уравнений. Получим:
x1y1=
ax12
+ bх1
x2y2=
ax22
+ bx2
x3y3=
ax32
+
bx3
….……………
….……………
∑хy=a∑x2+b∑х.
Таким
образом, мы вывели оба уравнения системы:
Для
удобства вычислений числовых значений
указанной системы составляется
вспомогательная таблица (табл.4.2).
Таблица 4.2
Вспомогательные
расчеты для вычисления конкретного
уравнения
прямой
линии
Исходные данные |
ХY |
Х2 |
|
Х |
Y |
||
12 |
16,00 |
192,00 |
144 |
16 |
18,00 |
288,00 |
256 |
20 |
20,15 |
403,00 |
400 |
24 |
22,14 |
531,36 |
576 |
28 |
23,48 |
657,64 |
784 |
32 |
23,65 |
756,80 |
1024 |
36 |
24,62 |
886,32 |
1296 |
40 |
26,00 |
1040,00 |
1600 |
44 |
27,00 |
1188,00 |
1936 |
252 |
201,04 |
5943,12 |
8016 |
Подставим
итоговые данные в систему уравнений и
вычислим коэффициенты а, b,
имея в виду, что значение «n»
соответствует числу классов по X:
Следовательно,
конкретное уравнение будет иметь вид
Y=0,33Х+13,1
С
целью последующего анализа результатов
применения полученных уравнений
вычисляются вероятные (теоретические)
значения зависимого признака по первому
уравнению (yв1)
и второму уравнению (yв2).
Последние (yв2)
сравниваются с исходными (опытными)
данными (у). Указанные сравнения (a
= y–yв2)
производятся по всем классам X, а их
результат для
прямой линии показан
в табл.
4.3.
Таблица 4.3
Сравнение
исходных и вероятных высот деревьев,
полученных по уравнению прямой линии
Исходные данные |
Вероятные |
Отклонения, м |
||
диаметр, см |
высота, м |
Ув1 |
Ув2 |
a |
X |
Y |
|||
12 |
16,00 |
16,60 |
17,06 |
-1,06 |
16 |
18,00 |
18,00 |
18,38 |
-0,38 |
20 |
20,15 |
19,40 |
19,70 |
+0,45 |
24 |
22,14 |
20,80 |
21,02 |
+1,12 |
28 |
23,48 |
22,20 |
22,34 |
+1,14 |
32 |
23,65 |
23,60 |
23,66 |
-0,01 |
36 |
24,62 |
25,00 |
24,98 |
-0,36 |
40 |
26,00 |
26,40 |
26,40 |
-0,40 |
44 |
27,00 |
27,80 |
27,62 |
-0,62 |
∑-0,12 |
Приведенные
данные позволяют, прежде всего, проверить
правильность вычислений, выполненных
при получении конкретных уравнений, на
предмет обнаружения грубых арифметических
ошибок.
Правильность
вычисления уравнений связи проверяется
путем сравнения исходных значений Y
с вероятными (ув),
полученными по уравнению I
(ув1)
и уравнению II
(ув2)
Критерием правильности вычислений
уравнения I
будет совпадение вероятных значений
ув1
с
исходными значениями Y
для тех классов, в которых использованы
координаты точек в качестве исходных
для получения конкретного уравнения
I.
В нашем примере для уравнения прямой
линии значение ув1
равно
18,0, соответствует исходным данным Y
во втором классе, то есть также 18,0.
Аналогичное положение и в следующем,
шестом классе: ув1
=23,6
практически не отличается от Y
=23,65. Совпадение Y
и
в остальных классах не обязательно и
может наступить только случайно.
Некоторый
контроль правильности уравнения II
можно получить
путем
сопоставления Y
и ув2
– во
всех классах. В этом
случае
должно наблюдаться такое сочетание
знаков (плюс и минус), которое отражает
«срединное» положение выравнивающей
прямой между выравниваемыми исходными
значениями Y.
О
явной неправильности полученного
уравнения будет свидетельствовать
наличие во всех классах только +, равно
как и знаков -, а также, если в нескольких
начальных классах будут наблюдаться
отклонения с одним и тем же знаком ( +
или -), а во всех последующих классах с
противоположным, а именно:
+++++++
– – – – – – –
++++- – –
– – – -+++
Заметим,
что описанные критерии правильности и
вычислений I
и II
уравнений распространяются и на
выравнивание по всем другим линиям
связи.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Корреляции для начинающих
Время на прочтение
6 мин
Количество просмотров 207K
Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!
Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо
, впрочем как и автор
. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности
Введение
Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.
Исходные данные
В качестве объекта исследования возьму данные о параметрах фигуры девушек месяца Плейбоя. Источник — www.wired.com/special_multimedia/2009/st_infoporn_1702, слегка облагородил и перевел из дюймов в сантиметры. Вспоминается анекдот про то, что 34 дюйма — это как два семнадцатидюймовых монитора. Также отделил записи с неполной информацией. При работе с реальными объектами их можно использовать, но сейчас они нам только мешают. Зато их можно использовать для проверки адекватности полученных результатов. Все данные у нас непрерывные, то есть грубо говоря типа float. Они приведены к целым числам только чтобы не загромождать экран. Есть способы работы и с дискретными данными — в нашем примере это например может быть цвет кожи или национальность, которые принимают одно из фиксированного набора значений. Это больше имеет отношение к методам классификации и принятия решений, что тянет еще на один мануал. Data.xls В файле два листа. На первом собственно данные, на втором — отсеянные неполные данные и набор для проверки нашей модели.
Обозначения
W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели
Как оценить качество модели?
Задача нашего упражнения — получить некую модель, которая описывает какой-либо объект. Способ получения и принцип работы конкретной модели нас пока не волнует. Это просто функция f(S, T, B, L), которая выдает вес девушки. Как понять, какая функция хорошая и качественная, а какая не очень? Для этого используется так называемая fitness function. Самая классическая и часто используемая — это сумма квадратов разницы предсказанного и реального значения. В нашем случае это будет сумма (W_p — W)^2 для всех точек. Собственно, отсюда и пошло название «метод наименьших квадратов». Критерий не лучший и не единственный, но вполне приемлемый как метод по умолчанию. Его особенность в том, что он чувствителен по отношению к выбросам и тем самым, считает такие модели менее качественными. Есть еще всякие методы наименьших модулей итд, но сейчас нам это пока не надо.
Простая линейная регрессия
Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2
Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?
Матлаб
Для упрощения очень рекомендую поставить плагин для Excel под названием Exlink. Он в папке matlab/toolbox/exlink. Очень облегчает пересылку данных между программами. После установки плагина появляется еще одно меню с очевидным названием, и автоматически запускается Матлаб. Переброс информации из Экселя в Матлаб запускается командой «Send data to MATLAB», обратно, соответственно, — «Get data from MATLAB». Пересылаем в Матлаб числа из столбца L и отдельно из W, без заголовков. Переменные назовем так же. Функция расчета линейной регрессии — polyfit(x,y,1). Единица показывает степень аппроксимационного полинома. У нас он линейный, поэтому единица. Получаем наконец-то коэффициенты регрессии: regr=polyfit(L,W,1)
. a мы можем получить как regr(1), b — как regr(2). То есть мы можем получить наши значения W_p: W_p=L*repr(1)+repr(2)
. Вернем их назад в Эксель.
Графичек
Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.
Расчет в матричном виде
Можно и без всяких полифитов справиться с построением регрессии, если слегка дополнить столбец с величинами роста еще одним столбцом, заполненным единицами: L(:,2)=1
. Двойка показывает номер столбца, в который пишутся единицы. Тогда коэффициенты регрессии можно будет найти по такой формуле: repr=inv(L'*L)*L'*W
. И обратно, найти W_p: W_p=L*repr
. Когда осознаешь магию матриц, пользоваться функциями становится неприкольно. Единичный столбец нужен для расчета свободного члена регрессии, то есть просто слагаемого без умножения на параметр. Если его не добавлять, то в регрессии будет всего один член: W_p=a*L. Достаточно очевидно, что она будет хуже по качеству, чем регрессия с двумя слагаемыми. В целом, избавляться от свободного члена надо только в том случае, если он точно не нужен. По умолчанию он все-таки присутствует.
Мультилинейная регрессия
В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X)
. Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.
Попытка номер два
А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:
W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132
Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.
Валидация модели
Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr
Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам
Применимость
Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.
Планы на будущее
Если хорошо пойдет, то постараюсь в том же стиле изложить метод главных компонент для снижения размерности данных, регрессию на главные компоненты, метод PLS, начала кластерного анализа и методов классификации объектов. Если хабрапублика не очень хорошо примет, то буду стараться учесть замечания. Если вообще никак — то забью на просвещение ширнармасс вообще, мне и своих студентов хватит. До новых встреч!
Содержание:
- Элементы теории корреляции
- Линейная корреляционная зависимость
- Нелинейная корреляционная зависимость
Элементы теории корреляции
Если рассматриваются две случайные величины, то между ними могут быть такие формы зависимости:
а) функциональная зависимость,
б) стохастическая зависимость, когда с изменением значения одной величины изменяется распределение другой величины;
в) корреляционная зависимость, когда условное среднее значение одной величины функционально зависит от другой величины.
Пусть результаты выборки из двумерной совокупности поданы в табличной форме:
Если рассматривать таблицу по строкам, то каждому значению соответствует некоторое распределение случайной величины Вычислим для этих распределений условные средние значения Следовательно, Аналогично, рассматривая таблицу по столбцам, также определяем условные средние величины Снова имеем зависимость вида
Уравнения, которые выражают условные средние, называются корреляционными уравнениями или уравнениями регрессии второго рода. В корреляционном анализе рассматриваются такие задачи:
1) определить по корреляционной таблице форму зависимости между случайными величинами, то есть вид функциональной зависимости и
2) оценить тесноту зависимости, то есть определить степень рассеянности возможных значений одной случайной величины относительно линии регрессии, если одна из величин принимает определенные значения.
Линейная корреляционная зависимость
Для определения формы зависимости между и по результатам расчетов в корреляционной таблице в системе координат откладываем точки Если эти точки размещены на линии, которая близка к прямой, то можно считать, что зависимость имеет линейный характер, то есть уравнение регрессии представляется в виде или аналогично С помощью метода наименьших квадратов можно определить коэффициенты уравнения регрессии: Коэффициенты и – коэффициенты регрессии. Следовательно, линейные уравнения регрессии имеют вид:
Линии регрессии пересекаются в точке которая называется центром корреляции. Теснота связи в случае линейной зависимости оценивается коэффициентом корреляции. Коэффициентом корреляции случайных величин и называется среднее геометрическое значение коэффициентов регрессии, которое имеет знак последних:
Коэффициенты регрессии выражаются через коэффициент корреляции по таким формулам: аналогично Тогда уравнения регрессии имеют вид:
Абсолютная величина коэффициента корреляции не превышает единицы. Если то величины не связаны линейной зависимостью, но при этом между ними возможна нелинейная корреляционная связь. Если возрастает по абсолютной величине от нуля до единицы, то теснота связи возрастает, и, если то корреляционная зависимость преобразуется в функциональную и прямые регрессии сливаются в одну прямую.
Вычисление параметров, которые входят в уравнение регрессии, упрощается, если перейти к условным переменным и условным моментам распределения.
Примеры решения задач:
Пример 1. В результате обследования получено статистическое распределение 100 предприятий по производственным фондам млн. руб., и суточной выработкой
Определить форму зависимости между и найти уравнения линий регрессии и тесноту связи.
Решение. Находим условные средние и
Результаты вычислений перенесем в таблицу. В ней перейдем к условным переменным, взяв
Для определения форм зависимости и проанализируем, как изменяются условные средние со сменой случайных величин. С возрастанием условная средняя также возрастает, а при возрастании условная средняя в основном возрастает. В системе координат отложим множество точек значком , а множество точек – значком
Графики уравнений регрессии изображены на рис. 5.4.
Из рисунка 5.4 видим, что каждая из групп построенных точек размещена приблизительно на некоторой прямой, немного отклоняясь от нее. Уравнения прямых ищем в виде:
По данным последней таблицы находим условные моменты распределения:
Чтобы найти коэффициент корреляции, вычислим среднее значение произведения уловных переменных:
Найдем значения остальных параметров, которые входят в уравнение регрессии:
Запишем уравнения линий регрессии:
Нелинейная корреляционная зависимость
Если отображенные на плоскости группы точек и размещаются, напоминая некоторые кривые, то целесообразно считать, что между исследуемыми величинами существует нелинейная зависимость. Теперь снова возникла задача подобрать такую кривую, которая бы на основе метода наименьших квадратов имела наименьшие отклонения от точек, полученных при наблюдении, найти ее уравнение и определить тесноту связи.
Рассмотрим некоторые простейшие виды нелинейной корреляционной зависимости. Пусть с возрастанием одной случайной величины условные средние второй убывают, но не на ту же величину, как это бывает в случае линейной зависимости, размер смены будто угасает. В этом случае можно считать, что зависимость гиперболическая:
или
Параметры и по методу наименьших квадратов определяются из системы уравнений:
Аналогично составляется система уравнений в случае, когда гиперболически зависит от
Пусть с возрастанием одной случайной величины уловные средние другой возрастают (убывают), достигают максимума (минимума), а потом убывают (возрастают). Тогда можно считать, что между ними существует параболическая зависимость вида:
или
По методу наименьших квадратов для определений значений параметров нужно составить и решить систему уравнений:
В случае нелинейной корреляционной зависимости теснота связи между величинами характеризуется корреляционным отношением. Корреляционным отношением называется отношение средних квадратических отношений к общему среднему квадратическому отклонению:
Корреляционной отношение принимает значения на отрезке Если корреляционное отношение равно нулю, то корреляционная связь отсутствует, если то случайные величины связаны функциональной зависимостью. С возрастанием значения теснота корреляционной связи увеличивается.
Пример 2. В результате обследования получено статистическое распределение 30 однотипных предприятий по суточному производству продукции и себестоимости единицы этой продукции. Установить форму зависимости между и найти уравнения линий регрессии и оценить тесноту связи.
Решение. Находим условные средние значения и Результаты вычислений заносим в таблицу. В этой же таблице сделан переход к условным переменным.
Переходя к условным переменным, учитываем, что
На рис. 5.5 изобразим на координатной плоскости множества точек и соответственно значками и Согласно рис. 5.5 каждая из групп точек размещена приблизительно на некоторой гиперболе, немного отклоняясь от нее.
Уравнение гиперболы ищем в виде Для определения коэффициентов соответствующей системы уравнений составим таблицу:
Неизвестные параметры и найдем из системы уравнений:
Решение системы Уравнение регрессии имеет вид:
Аналогично можно составить систему уравнений и найти уравнение регрессии
Составляя соответствующую систему уравнений и решая ее, получаем:
Тесноту связи между случайными величинами оценим с помощь корреляционных отношений.
Необходимые для расчетов параметры найдем с помощью условных моментов распределения:
Следовательно,
Учитывая значения корреляционных отношений, можно утверждать, что между суточным производством продукции и себестоимостью единицы продукции есть достаточно существенная корреляционная зависимость.
Лекции:
- Выборка из генеральной совокупности. Вариационный ряд. Гистограмма относительных частот
- Выборочная функция распределения
- Выборочные оценки параметров случайной величины. Основные требовании к оценкам
- Два распределения связанные с нормальным законом
- Квантиль распределения
- Теория случайных процессов и теория массового обслуживания
- Первичная обработка и графическое представление выборочных данных
- Точечные и интервальные оценки параметров распределения
- Проверка статистических гипотез
- Дисперсионный анализ
Тема: Элементы теория корреляции. Задачи теории корреляции. Линейная регрессия, ее уравнение. Коэффициент корреляции, его свойства.
Краткая теоретическая справка
Во многих задачах требуется установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других случайных величин. Остановимся на зависимости Y от одной случайной величины X. Две случайные величины могут быть связаны либо функциональной зависимостью, либо статистической, либо быть независимыми. Строгая функциональная зависимость реализуется редко, так как обе величины, или одна из них подвержены действию случайных факторов. В таких случаях возникает статистическая зависимость.
Статистической называют зависимость, при которой изменение одной из величин влечёт изменение распределения другой. Если при изменении одной из величин, изменяется среднее значение другой, то такая статистическая зависимость называется корреляционной.
Условным средним называют среднее арифметическое значений Y, соответствующих значению .
Корреляционной зависимостью Y(X) называют функциональную зависимость условной средней от x: (1)
Уравнение (1) называют уравнением регрессии Y на X. Функцию называют регрессией Y на X, а её график – линией регрессии Y на X.
Условным средним называют среднее арифметическое значений X, соответствующих значению .
Корреляционной зависимостью X(Y) называют функциональную зависимость условной средней от y:
Уравнение (2) называют уравнением регрессии X на Y. Функцию называют регрессией X на Y, а её график – линией регрессии X на Y.
Теория корреляции рассматривает две задачи:
1) установление формы корреляционной связи, то есть вид функции регрессии;
2) оценивание тесноты корреляционных связей.
Регрессия бывает линейной и нелинейной. Если регрессия линейная, то её графиком является прямая линия. Если регрессия линейная, то регрессия так же будет линейной.
Тесноту корреляционной зависимости оценивают по величине рассеивания значений признака вокруг условного среднего этого признака. Большое рассеяние свидетельствует о слабой зависимости, либо об её отсутствии между рассматриваемыми признаками. Малое рассеивание указывает на наличие достаточно сильной зависимости, вплоть до функциональной.
Пусть изучается система количественных признаков (X, Y ). В результате n независимых опытов получены n пар чисел . Найдем по данным наблюдений выборочное уравнение прямой линии среднеквадратичной регрессии. Для определенности будем искать уравнение регрессии Y на X.
Поскольку различные значения x признака X и соответствующие им значения y признака Y наблюдались по одному разу, то группировать данные нет необходимости. Также нет надобности использовать понятие условной средней, поэтому искомое уравнение можно записать так: . Угловой коэффициент прямой линии регрессии Y на X называется выборочным коэффициентом регрессии Y на X. Обозначим его как . Он является оценкой коэффициента регрессии. Таким образом, выборочное уравнение прямой линии регрессии Y на X будет иметь вид: .
Подберем параметры и b так, чтобы точки , построенные по данным наблюдений, на плоскости xOy лежали как можно ближе к прямой .
Назовем отклонением разность ,
где – вычисленная по уравнению ордината, соответствующая наблюдаемому значению , – наблюдаемая ордината, соответствующая .
Подберем параметры и b так, чтобы сумма квадратов отклонений была минимальной (в этом состоит сущность метода наименьших квадратов). Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров
.
Для отыскания минимума приравняем нулю соответствующие частные производные:
Таким образом, коэффициент регрессии Y на X имеет вид: .
Аналогично находят выборочный коэффициент регрессии X на Y
Обозначим .
Замечаем, что . Тогда .
В результате уравнение прямой линии регрессии Y на X имеет вид:
.
Аналогично получаем уравнение прямой линии регрессии X на Y:
.
Свойства выборочного коэффициента корреляции:
1)
2) Если и выборочные линии регрессии прямые, то X и Y не связаны линейной корреляционной зависимостью.
3) Если , то наблюдаемые значения признаков связаны линейной функциональной зависимостью.
4) С возрастанием линейная корреляционная зависимость становится более тесной и при переходит в функциональную. Таким образом, характеризует тесноту линейной связи между количественными признаками выборки. Чем ближе к 1, тем связь сильнее, чем ближе к 0, тем связь слабее.
5) Если , то линейная регрессия имеет положительное направление; если , то отрицательное.
Замечание. Формулы для уравнений прямых линий регрессии остаются справедливыми, если данные признаков сгруппированы.
Выборочное корреляционное отношение.
Для оценки тесноты линейной корреляционной связи между признаками выборки служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи используют выборочные корреляционные отношения.
Выборочным корреляционным отношением Y к X (обозначают ) называют отношение межгруппового среднеквадратического отклонения к общему среднеквадратическому отклонению признака Y: , где – межгрупповое среднеквадратическое отклонение
– общее среднеквадратическое отклонение признака Y
Аналогично определяется выборочное корреляционное отношение X к Y: – межгрупповое отклонение
среднеквадратическое;
– общее среднеквадратическое отклонение
Свойства выборочного корреляционного отношения:
1)
2) Если , то признак Y с признаком X корреляционной зависимостью не связаны.
3) Если , то признак Y с признаком X связан функциональной зависимостью.
4)
5) Если , то имеет место точная линейная корреляционная зависимость.
С учётом вышесказанного можно сделать вывод, что корреляционное отношение служит мерой тесноты связей любой, в том числе и линейной формы. Однако, корреляционное отношение не позволяет судить насколько близко расположены точки, найденные по данным наблюдений к кривой определённого вида, то есть корреляционное отношение не указывает на форму связи между признаками. По отношению к выборочному коэффициенту корреляции, который указывает и на форму, и на меру тесноты линейной связи.
Проверка гипотезы о значимости выборочного коэффициента корреляции.
Пусть имеется выборка объема n из нормально распределенной двумерной генеральной совокупности (Х,Y), и по ней найден выборочный коэффициент корреляции . Требуется при заданном уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции: при конкурирующей гипотезе . Критерием является случайная величина , имеющая при справедливости нулевой гипотезы распределение Стьюдента с степенями свободы. Критическая область при заданном виде конкурирующей гипотезы является двусторонней и задается неравенством , где находится по таблице критических точек распределения Стьюдента.
Практика
Экономист, изучая зависимость производительности труда Y (т/ч) от уровня механизации работ X (%), обследовал 10 однотипных предприятий и получил следующие данные (табл.).
53
31
77
60
37
69
47
54
66
40
37
25
49
40
29
45
33
38
42
30
Полагая, что между признаками X и Y имеет место линейная корреляционная связь, определите выборочное уравнение линейной регрессии и выборочный коэффициент линейной корреляции. Постройте диаграмму рассеяния и линию регрессии. Сделайте вывод о направлении и тесноте связи между X и Y. Значим ли выборочный коэффициент корреляции при уровне значимости α=0,05?
Решение
Построим диаграмму рассеяния. Для этого на плоскости xOy отметим точки с координатами (xi ; yi).
По диаграмме рассеяния видно, что точки (xi ; yi) группируются около некоторой прямой. Поэтому выборочное уравнение линейной регрессии будем искать в виде y = a∙x+b. Параметры a и b найдем методом наименьших квадратов. Составим систему нормальных уравнений:
Вспомогательные вычисления проведем в таблице 8:
Таблица 8
Итак, система нормальных уравнений имеет вид:
.
Решим её методом Крамера. Определитель системы
.
.
.
, .
Выборочное уравнение линейной регрессии имеет вид y=0,506819∙x+9,73586.
Чтобы построить линию регрессии найдем координаты двух точек, принадлежащих прямой y=0,506819∙x+9,73586.
При x=40 y=0,506819∙40+9,73586≈30.
При x=60 y=0,506819∙60+9,73586≈40,1.
Линия регрессии – прямая, проходящая через точки (35; 27,5) и (75;47,7).
Выборочный коэффициент линейной корреляции найдем по формуле
, где – наблюдавшиеся значения признаков X и Y; – объём выборки; – выборочные средние; – выборочные среднеквадратические отклонения.
. .
.
.
.
Так как выборочный коэффициент линейной корреляции , то корреляция положительная, т. е. с возрастанием x возрастает и y. Так как очень близко к единице, то связь между признаками x и y тесная. Выясним значимость выборочного коэффициента корреляции. Для этого найдем наблюдаемое значение критерия .
Найдем , используя таблицу «критические точки распределения Стьюдента» (приложение 4). Имеем . Так как , действительно, , то выборочный коэффициент корреляции значим.
Ответ: уравнение регрессии y=0,506819∙x+9,73586; связь между признаками x и y тесная, положительная. выборочный коэффициент линейной корреляции значим
Задание10: Для выявления корреляционной зависимости между массой Y(в г) растения данного вида и его высотой X (см) было проведено 25 опытов. Их результаты приведены в таблице.
а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные
средние и корреляционную прямую на координатной плоскости.
б) Найти выборочный коэффициент корреляции.
в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента
корреляции.
Y/X
20
30
40
50
60
nу
50
2
2
60
2
1
3
70
1
1
2
80
2
2
90
1
2
3
100
2
2
110
1
1
2
120
3
3
130
1
1
140
1
1
150
2
2
160
»Х
2
2
nx
5
5
5
5
5
25
Решение: а) Найдем условные средние значения массы при данной высоте:
Чтобы найти выборочное уравнение регрессии найдем следующие средние значения и средние квадратические отклонения:
5*20*58+5*30*76+540*98+5*50*120+5*60*152)/25=4496;
По полученным данным найдем коэффициенты линейной регрессии Yна X:
Итак, искомое выборочное уравнение регрессии имеет вид :
Чтобы построить график прямолинейной регрессии найдём две точки лежащие на этой прямой: . Отмечаем условные средние (+) и эту прямую на координатной плоскости. Как видно из чертежа прямая проходит достаточно близко от условных средних, причём условные средние находятся по обе стороны от прямой, значит расчёты выполнены достаточно точно.
б) Найдем выборочный коэффициент корреляции
Так как выборочный коэффициент корреляции близок к 1, то связь между высотой и массой данного растения достаточно тесная, близкая к функциональной линейной.
в) Найдем наблюдаемое значение критерия
По приложению 5 при заданном уровне значимости p=0,05 и f=n-2=25-2=23 степенях свободы находим соответствующее критическое значение tкрит(p,f)=tкрит(0,05;23)=2,07.
Т.к. ||> tкрит то следует сделать вывод о значимости выборочного коэффициента корреляции (т.е. истинный коэффициент линейной корреляции существенно отличается от нуля).
Ответ: а) ; б) ; в) коэффициент корреляции значим.
Домашнее задание
Задание .
1 вариант. Для выявления корреляционной зависимости оптической плотности Y раствора от концентрации X растворённого вещества было проведено 25 опытов. Их результаты приведены в таблице:
y/x
1,5+0,1*N
1,6+0,1*N
1,7+0,1*N
1,8+0,1*N
1,9+0,1*N
0,05+0,01*N
3
0,10+0,01*N
1
0,15+0,01*N
1
2
0,20+0,01*N
2
1
0,25+0,01*N
1
1
0,30+0,01*N
2
0,35+0,01*N
1
1
0.40+0,01 *N
3
0,45+0,01 *N
1
1
0,50+0,01 *N
1
0.55+0,01*N
1
0,60+0,01*N
2
а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные
средние и корреляционную прямую на координатной плоскости.
б) Найти выборочный коэффициент корреляции.
в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента корреляции.
2 вариант. Для выявления корреляционной зависимости между весом Г (в кг) девочек определённого возрастной группы и их ростом X (см) было проведено 25 обследований. Результаты измерений приведены в таблице.
а) Составить выборочное уравнение прямой линии регрессии Y на X. Обозначить условные средние и корреляционную прямую на координатной плоскости.
б) Найти выборочный коэффициент корреляции.
в) При уровне значимости 0,05 проверить гипотезу о значимости выборочного коэффициента
корреляции.
y/x
II9+N
I24+N
I29+N
I34+N
139+N
20+N
2
2I+N
2
2
22+N
1
1
23+N
1
24+N
1
1 .
25+N
1
1
26+N
3
1
27+N
3
28+N
1
29+N
.
2
30+N
2