Традиційний метод найменших квадратів. лінійна регресія

Традиційний метод найменших квадратів. лінійна регресія

Метод найменших квадратів (МНК) дозволяє оцінювати різні величини, використовуючи результати безлічі вимірів, що містять випадкові помилки.

характеристика МНК

Основна ідея даного методу полягає в тому, що в якості критерію точності рішення задачі розглядається сума квадратів помилок, яку прагнуть звести до мінімуму. При використанні цього методу можна застосовувати як чисельний, так і аналітичний підхід.

Зокрема, в якості чисельної реалізації метод найменших квадратів має на увазі проведення якомога більшої кількості вимірів невідомою випадкової величини. Причому, чим більше обчислень, тим точніше буде рішення. На цій множині обчислень (вихідних даних) отримують інше безліч передбачуваних рішень, з якого потім вибирається найкращий. Якщо безліч рішень параметризованих, то метод найменших квадратів зведеться до пошуку оптимального значення параметрів.

Як аналітичного підходу до реалізації МНК на безлічі вихідних даних (вимірювань) і передбачуваний безлічі рішень визначається деяка (функціонал), яка вміщується у формулу, одержуваної як деякої гіпотези, що вимагає підтвердження. У цьому випадку метод найменших квадратів зводиться до знаходження мінімуму цього функціоналу на множині квадратів помилок вихідних даних.

Зауважте, що ні самі помилки, а саме квадрати помилок. Чому? Справа в тому, що найчастіше відхилення вимірювань від точного значення бувають як позитивними, так і негативними. При визначенні середньої просте підсумовування може привести до невірного висновку про якість оцінки, оскільки взаємне знищення позитивних і негативних значень знизить потужність вибірки безлічі вимірів. А, отже, і точність оцінки.

Для того щоб цього не сталося, і підсумовують квадрати відхилень. Навіть більше того, щоб вирівняти розмірність вимірюваної величини і підсумкової оцінки, з суми квадратів похибок витягають

Деякі додатки МНК

МНК широко використовується в різних областях. Наприклад, в теорії ймовірностей і математичній статистиці метод використовується для визначення такої характеристики випадкової величини, як середньоквадратичне відхилення, що визначає ширину діапазону значень випадкової величини.

Метод найменших квадратів використовується для оцінки параметрів рівняння регресії.

Одним з методів вивчення стохастичних зв'язків між ознаками є регресійний аналіз.
Регресійний аналіз являє собою висновок рівняння регресії, за допомогою якого знаходиться середня величина випадкової змінної (ознаки-результату), якщо величина інший (або інших) змінних (ознак-факторів) відома. Він включає наступні етапи:

  1. вибір форми зв'язку (виду аналітичного рівняння регресії);
  2. оцінку параметрів рівняння;
  3. оцінку якості аналітичного рівняння регресії.
Найбільш часто для опису статистичного зв'язку ознак використовується лінійна форма. Увага до лінійного зв'язку пояснюється чіткою економічною інтерпретацією її параметрів, обмеженою варіацією змінних і тим, що в більшості випадків нелінійні форми зв'язку для виконання розрахунків перетворять (шляхом логарифмування або заміни змінних) в лінійну форму.
У разі лінійної парної зв'язку рівняння регресії набуде вигляду: y i \u003d a + b · x i + u i. Параметри даного рівняння а і b оцінюються за даними статистичного спостереження x і y. Результатом такої оцінки є рівняння:, де, - оцінки параметрів a і b, - значення результативної ознаки (змінної), отримане за рівнянням регресії (розрахункове значення).

Найбільш часто для оцінки параметрів використовують метод найменших квадратів (МНК).
Метод найменших квадратів дає найкращі (заможні, ефективні і незсунені) оцінки параметрів рівняння регресії. Але тільки в тому випадку, якщо виконуються певні передумови щодо випадкового члена (u) і незалежної змінної (x) (див. Передумови МНК).

Завдання оцінювання параметрів лінійного парного рівняння методом найменших квадратів полягає в наступному: отримати такі оцінки параметрів,, при яких сума квадратів відхилень фактичних значень результативної ознаки - y i від розрахункових значень - мінімальна.
формально критерій МНК можна записати так: .

Класифікація методів найменших квадратів

  1. Метод найменших квадратів.
  2. Метод максимальної правдоподібності (для нормальної класичної лінійної моделі регресії постулюється нормальність регресійних залишків).
  3. Узагальнений метод найменших квадратів ОМНК застосовується в разі автокорреляции помилок і в разі гетероскедастичності.
  4. Метод зважених найменших квадратів (окремий випадок ОМНК з гетероскедастичними залишками).

Проілюструємо суть класичного методу найменших квадратів графічно. Для цього побудуємо точковий графік за даними спостережень (x i, y i, i \u003d 1; n) в прямокутній системі координат (такий точковий графік називають кореляційним полем). Спробуємо підібрати пряму лінію, яка найближче розташована до точок кореляційного поля. Відповідно до методу найменших квадратів лінія вибирається так, щоб сума квадратів відстаней по вертикалі між точками кореляційного поля і цією лінією була б мінімальною.

Математична запис даної задачі: .
Значення y i і x i \u003d 1 ... n нам відомі, це дані спостережень. У функції S вони являють собою константи. Змінними в даній функції є шукані оцінки параметрів -,. Щоб знайти мінімум функції 2-ух змінних необхідно обчислити приватні похідні даної функції по кожному з параметрів і прирівняти їх нулю, тобто .
В результаті отримаємо систему з 2-ух нормальних лінійних рівнянь:
вирішуючи дану систему, Знайдемо шукані оцінки параметрів:

Правильність розрахунку параметрів рівняння регресії може бути перевірена порівнянням сум (можливо деяке розбіжність через округлення розрахунків).
Для розрахунку оцінок параметрів, можна побудувати таблицю 1.
Знак коефіцієнта регресії b вказує напрямок зв'язку (якщо b\u003e 0, зв'язок пряма, якщо b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значення параметра а - середнє значення y при х рівному нулю. Якщо ознака-фактор не має і не може мати нульового значення, то вищевказана трактування параметра а не має сенсу.

Оцінка тісноти зв'язку між ознаками здійснюється за допомогою коефіцієнта лінійної парної кореляції - r x, y. Він може бути розрахований за формулою: . Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b: .
Область допустимих значень лінійного коефіцієнта парної кореляції від -1 до +1. Знак коефіцієнта кореляції вказує напрямок зв'язку. Якщо r x, y\u003e 0, то зв'язок прямий; якщо r x, y<0, то связь обратная.
Якщо даний коефіцієнт за модулем близький до одиниці, то зв'язок між ознаками може бути інтерпретована як досить тісний лінійна. Якщо його модуль дорівнює одиниці ê r x, y ê \u003d 1, то зв'язок між ознаками функціональна лінійна. Якщо ознаки х і y лінійно незалежні, то r x, y близький до 0.
Для розрахунку r x, y можна використовувати також таблицю 1.

Для оцінки якості отриманого рівняння регресії розраховують теоретичний коефіцієнт детермінації - R 2 yx:

,
де d 2 - пояснена рівнянням регресії дисперсія y;
e 2 - залишкова (непояснена рівнянням регресії) дисперсія y;
s 2 y - загальна (повна) дисперсія y.
Коефіцієнт детермінації характеризує частку варіації (дисперсії) результативної ознаки y, пояснюється регресією (а, отже, і чинником х), в загальній варіації (дисперсії) y. Коефіцієнт детермінації R 2 yx приймає значення від 0 до 1. Відповідно величина 1-R 2 yx характеризує частку дисперсії y, викликану впливом інших неврахованих в моделі факторів і помилками специфікації.
При парній лінійної регресії R 2 yx \u003d r 2 yx.

Приклад.

Експериментальні дані про значення змінних х і у наведені в таблиці.

В результаті їх вирівнювання отримана функція

використовуючи метод найменших квадратів, Апроксимувати ці дані лінійною залежністю y \u003d ax + b (Знайти параметри а і b). З'ясувати, яка з двох ліній краще (в сенсі методу найменших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає в знаходженні коефіцієнтів лінійної залежності, При яких функція двох змінних а і b приймає найменше значення. Тобто, при даних а і b сума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому вся суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Висновок формул для знаходження коефіцієнтів.

Складається і вирішується система з двох рівнянь з двома невідомими. Знаходимо приватні похідні функції по змінним а і b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановки або) і отримуємо формули для знаходження коефіцієнтів по методу найменших квадратів (МНК).

при даних а і b функція приймає найменше значення. Доказ цього факту наведено.

Ось і весь метод найменших квадратів. Формула для знаходження параметра a містить суми,,, і параметр n - кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо. коефіцієнт b знаходиться після обчислення a.

Настав час згадати про виходячи приклад.

Рішення.

У нашому прикладі n \u003d 5. Заповнюємо таблицю для зручності обчислення сум, які входять в формули шуканих коефіцієнтів.

Значення в четвертому рядку таблиці отримані множенням значень 2-ий рядки на значення 3-ої рядка для кожного номера i.

Значення в п'ятому рядку таблиці отримані зведенням в квадрат значень 2-ий рядки для кожного номера i.

Значення останнього стовпця таблиці - це суми значень за рядками.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів а і b. Підставляємо в них відповідні значення з останнього стовпця таблиці:

отже, y \u003d 0.165x + 2.184 - шукана апроксимуюча пряма.

Залишилося з'ясувати яка з ліній y \u003d 0.165x + 2.184 або краще апроксимує вихідні дані, тобто провести оцінку методом найменших квадратів.

Оцінка похибки методу найменших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і , Менше значення відповідає лінії, яка краще в сенсі методу найменших квадратів апроксимує вихідні дані.

Так як, то пряма y \u003d 0.165x + 2.184 краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все прекрасно видно. Червона лінія - це знайдена пряма y \u003d 0.165x + 2.184, Синя лінія - це , Рожеві точки - це вихідні дані.

Для чого це потрібно, до чого всі ці апроксимації?

Я особисто використовую для вирішення завдань згладжування даних, завдань інтерполяції і екстраполяції (у вихідному прикладі могли б попросити знайти занчение спостерігається величини y при x \u003d 3 або при x \u003d 6 за методом МНК). Але докладніше поговоримо про це пізніше в іншому розділі сайту.

Доведення.

Щоб при знайдених а і b функція приймала найменше значення, необхідно щоб в цій точці матриця квадратичної форми диференціала другого порядку для функції була позитивно визначеною. Покажемо це.

Диференціал другого порядку має вигляд:

Тобто

Отже, матриця квадратичної форми має вигляд

причому значення елементів не залежать від а і b.

Покажемо, що матриця позитивно визначена. Для цього потрібно, щоб кутові мінори були позитивними.

Кутовий мінор першого порядку . Нерівність суворе, так як точки незбіжні. Надалі це будемо мати на увазі.

Кутовий мінор другого порядку

Доведемо, що методом математичної індукції.

висновок: Знайдені значення а і b відповідають найменшим значенням функції , Отже, є шуканими параметрами для методу найменших квадратів.

Після вирівнювання отримаємо функцію такого вигляду: g (x) \u003d x + 1 3 +1.

Ми можемо апроксимувати ці дані за допомогою лінійної залежності y \u003d a x + b, обчисливши відповідні параметри. Для цього нам потрібно буде застосувати так званий метод найменших квадратів. Також буде потрібно зробити креслення, щоб перевірити, яка лінія буде краще вирівнювати експериментальні дані.

У чому саме полягає МНК (метод найменших квадратів)

Головне, що нам потрібно зробити, - це знайти такі коефіцієнти лінійної залежності, при яких значення функції двох змінних F (a, b) \u003d Σ i \u003d 1 n (y i - (a x i + b)) 2 буде найменшим. Інакше кажучи, при певних значеннях a і b сума квадратів відхилень представлених даних від отриманої прямої буде мати мінімальне значення. В цьому і полягає сенс методу найменших квадратів. Все, що нам треба зробити для вирішення прикладу - це знайти екстремум функції двох змінних.

Як вивести формули для обчислення коефіцієнтів

Для того щоб вивести формули для обчислення коефіцієнтів, потрібно скласти і вирішити систему рівнянь з двома змінними. Для цього ми обчислюємо приватні похідні вираження F (a, b) \u003d Σ i \u003d 1 n (y i - (a x i + b)) 2 по a і b і прирівнюємо їх до 0.

δ F (a, b) δ a \u003d 0 δ F (a, b) δ b \u003d 0 ⇔ - 2 Σ i \u003d 1 n (yi - (axi + b)) xi \u003d 0 - 2 Σ i \u003d 1 n ( yi - (axi + b)) \u003d 0 ⇔ a Σ i \u003d 1 nxi 2 + b Σ i \u003d 1 nxi \u003d Σ i \u003d 1 nxiyia Σ i \u003d 1 nxi + Σ i \u003d 1 nb \u003d Σ i \u003d 1 nyi ⇔ a Σ i \u003d 1 nxi 2 + b Σ i \u003d 1 nxi \u003d Σ i \u003d 1 nxiyia Σ i \u003d 1 nxi + nb \u003d Σ i \u003d 1 nyi

Для вирішення системи рівнянь можна використовувати будь-які методи, наприклад, підстановку або метод Крамера. В результаті у нас повинні вийти формули, за допомогою яких обчислюються коефіцієнти за методом найменших квадратів.

n Σ i \u003d 1 n x i y i - Σ i \u003d 1 n x i Σ i \u003d 1 n y i n Σ i \u003d 1 n - Σ i \u003d 1 n x i 2 b \u003d Σ i \u003d 1 n y i - a Σ i \u003d 1 n x i n

Ми вирахували значення змінних, при який функція
F (a, b) \u003d Σ i \u003d 1 n (y i - (a x i + b)) 2 прийме мінімальне значення. У третьому пункті ми доведемо, чому воно є саме таким.

Це і є застосування методу найменших квадратів на практиці. Його формула, яка застосовується для пошуку параметра a, включає в себе Σ i \u003d 1 n x i, Σ i \u003d 1 n y i, Σ i \u003d 1 n x i y i, Σ i \u003d 1 n x i 2, а також параметр
n - їм позначено кількість експериментальних даних. Радимо вам обчислювати кожну суму окремо. Значення коефіцієнта b обчислюється відразу після a.

Звернемося знову до вихідного наприклад.

приклад 1

Тут у нас n дорівнює п'яти. Щоб було зручніше обчислювати потрібні суми, що входять до формули коефіцієнтів, заповнимо таблицю.

i \u003d 1 i \u003d 2 i \u003d 3 i \u003d 4 i \u003d 5 Σ i \u003d 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Рішення

Четвертий рядок включає в себе дані, отримані при множенні значень з другого рядка на значення третьої для кожного окремого i. П'ятий рядок містить дані з другої, зведені в квадрат. В останньому стовпці наводяться суми значень окремих рядків.

Скористаємося методом найменших квадратів, щоб обчислити потрібні нам коефіцієнти a і b. Для цього підставимо потрібні значення з останнього стовпчика і підрахуємо суми:

n Σ i \u003d 1 nxiyi - Σ i \u003d 1 nxi Σ i \u003d 1 nyin Σ i \u003d 1 n - Σ i \u003d 1 nxi 2 b \u003d Σ i \u003d 1 nyi - a Σ i \u003d 1 nxin ⇒ a \u003d 5 · 33, 8 - 12 · 12, 9 5 · 46 - 12 2 b \u003d 12, 9 - a · 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

У нас вийшло, що потрібна апроксимуюча пряма буде виглядати як y \u003d 0, 165 x + 2, 184. Тепер нам треба визначити, яка лінія буде краще апроксимувати дані - g (x) \u003d x + 1 3 +1 або 0, 165 x + 2, 184. Зробимо оцінку за допомогою методу найменших квадратів.

Щоб обчислити похибку, нам треба знайти суми квадратів відхилень даних від прямих σ 1 \u003d Σ i \u003d 1 n (yi - (axi + bi)) 2 і σ \u200b\u200b2 \u003d Σ i \u003d 1 n (yi - g (xi)) 2, мінімальне значення буде відповідати більш підходящої лінії.

σ 1 \u003d Σ i \u003d 1 n (yi - (axi + bi)) 2 \u003d \u003d Σ i \u003d 1 5 (yi - (0, 165 xi + 2, 184)) 2 ≈ 0, 019 σ 2 \u003d Σ i \u003d 1 n (yi - g (xi)) 2 \u003d \u003d Σ i \u003d 1 5 (yi - (xi + 1 3 +1)) 2 ≈ 0, 096

відповідь: оскільки σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y \u003d 0, 165 x + 2, 184.

Метод найменших квадратів наочно показаний на графічній ілюстрації. За допомогою червоної лінії відзначена пряма g (x) \u003d x + 1 3 +1, синьою - y \u003d 0, 165 x + 2, 184. Вихідні дані позначені рожевими крапками.

Пояснимо, для чого саме потрібні наближення подібного виду.

Вони можуть бути використані в задачах, що потребують згладжування даних, а також в тих, де дані треба інтерполювати або екстраполювати. Наприклад, в задачі, розібраної вище, можна було б знайти значення спостережуваної величини y при x \u003d 3 або при x \u003d 6. Таким прикладів ми присвятили окрему статтю.

Доказ методу МНК

Щоб функція прийняла мінімальне значення при обчислених a і b, потрібно, щоб в даній точці матриця квадратичної форми диференціала функції виду F (a, b) \u003d Σ i \u003d 1 n (y i - (a x i + b)) 2 була позитивно визначеною. Покажемо, як це має виглядати.

приклад 2

У нас є диференціал другого порядку наступного вигляду:

d 2 F (a; b) \u003d δ 2 F (a; b) δ a 2 d 2 a + 2 δ 2 F (a; b) δ a δ bdadb + δ 2 F (a; b) δ b 2 d 2 b

Рішення

δ 2 F (a; b) δ a 2 \u003d δ δ F (a; b) δ a δ a \u003d \u003d δ - 2 Σ i \u003d 1 n (yi - (axi + b)) xi δ a \u003d 2 Σ i \u003d 1 n (xi) 2 δ 2 F (a; b) δ a δ b \u003d δ δ F (a; b) δ a δ b \u003d \u003d δ - 2 Σ i \u003d 1 n (yi - (axi + b) ) xi δ b \u003d 2 Σ i \u003d 1 nxi δ 2 F (a; b) δ b 2 \u003d δ δ F (a; b) δ b δ b \u003d δ - 2 Σ i \u003d 1 n (yi - (axi + b)) δ b \u003d 2 Σ i \u003d 1 n (1) \u003d 2 n

Інакше кажучи, можна записати так: d 2 F (a; b) \u003d 2 Σ i \u003d 1 n (x i) 2 d 2 a + 2 · 2 Σ x i i \u003d 1 n d a d b + (2 n) d 2 b.

Ми отримали матрицю квадратичної форми виду M \u003d 2 Σ i \u003d 1 n (x i) 2 2 Σ i \u003d 1 n x i 2 Σ i \u003d 1 n x i 2 n.

У цьому випадку значення окремих елементів не будуть змінюватися в залежності від a і b. Чи є ця матриця позитивно певної? Щоб відповісти на це питання, перевіримо, чи є її кутові мінори позитивними.

Обчислюємо кутовий мінор першого порядку: 2 Σ i \u003d 1 n (x i) 2\u003e 0. Оскільки точки x i не збігаються, то нерівність є строгим. Будемо мати це на увазі при подальших розрахунках.

Обчислюємо кутовий мінор другого порядку:

d e t (M) \u003d 2 Σ i \u003d 1 n (x i) 2 2 Σ i \u003d 1 n x i 2 Σ i \u003d 1 n x i 2 n \u003d 4 n Σ i \u003d 1 n (x i) 2 - Σ i \u003d 1 n x i 2

Після цього переходимо до доведення нерівності n Σ i \u003d 1 n (x i) 2 - Σ i \u003d 1 n x i 2\u003e 0 за допомогою математичної індукції.

  1. Перевіримо, чи буде дане нерівність справедливим при довільному n. Візьмемо 2 і підрахуємо:

2 Σ i \u003d 1 2 (xi) 2 - Σ i \u003d 1 2 xi 2 \u003d 2 x 1 2 + x 2 2 - x 1 + x 2 2 \u003d \u003d x 1 2 - 2 x 1 x 2 + x 2 2 \u003d x 1 + x 2 + 2\u003e 0

У нас вийшло вірне рівність (якщо значення x 1 і x 2 цієї статті не будуть збігатися).

  1. Зробимо припущення, що таку нерівність буде вірним для n, тобто n Σ i \u003d 1 n (x i) 2 - Σ i \u003d 1 n x i 2\u003e 0 - справедливо.
  2. Тепер доведемо справедливість при n + 1, тобто що (n + 1) Σ i \u003d 1 n + 1 (xi) 2 - Σ i \u003d 1 n + 1 xi 2\u003e 0, якщо вірно n Σ i \u003d 1 n (xi) 2 - Σ i \u003d 1 nxi 2\u003e 0.

Рахуємо:

(N + 1) Σ i \u003d 1 n + 1 (xi) 2 - Σ i \u003d 1 n + 1 xi 2 \u003d \u003d (n + 1) Σ i \u003d 1 n (xi) 2 + xn + 1 2 - Σ i \u003d 1 nxi + xn + 1 2 \u003d \u003d n Σ i \u003d 1 n (xi) 2 + n · xn + 1 2 + Σ i \u003d 1 n (xi) 2 + xn + 1 2 - - Σ i \u003d 1 nxi 2 + 2 xn + 1 Σ i \u003d 1 nxi + xn + 1 2 \u003d \u003d Σ i \u003d 1 n (xi) 2 - Σ i \u003d 1 nxi 2 + n · xn + 1 2 - xn + 1 Σ i \u003d 1 nxi + Σ i \u003d 1 n (xi) 2 \u003d \u003d Σ i \u003d 1 n (xi) 2 - Σ i \u003d 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 +. . . + Xn + 1 2 - 2 xn + 1 x 1 + xn 2 \u003d \u003d n Σ i \u003d 1 n (xi) 2 - Σ i \u003d 1 nxi 2 + + (xn + 1 - x 1) 2 + (xn + 1 - x 2) 2 +. . . + (X n - 1 - x n) 2\u003e 0

Вираз, укладену в фігурні дужки, буде більше 0 (виходячи з того, що ми припускали в пункті 2), і інші складові будуть більше 0, оскільки всі вони є квадратами чисел. Ми довели нерівність.

відповідь: знайдені a і b будуть відповідати найменшим значенням функції F (a, b) \u003d Σ i \u003d 1 n (y i - (a x i + b)) 2, значить, вони є шуканими параметрами методу найменших квадратів (МНК).

Якщо ви помітили помилку в тексті, будь ласка, виділіть її та натисніть Ctrl + Enter

Вибравши вид функції регресії, тобто вид даної моделі залежності Y від Х (або Х від У), наприклад, лінійну модель y x \u003d a + bx, необхідно визначити конкретні значення коефіцієнтів моделі.

При різних значеннях а і b можна побудувати нескінченну кількість залежностей виду y x \u003d a + bx тобто на координатної площині є нескінченна кількість прямих, нам же необхідна така залежність, яка відповідає спостережуваним значенням найкращим чином. Таким чином, завдання зводиться до підбору найкращих коефіцієнтів.

Лінійну функцію a + bx шукаємо, виходячи лише з певної кількості наявних спостережень. Для знаходження функції з найкращим відповідністю спостережуваними значеннями використовуємо метод найменших квадратів.

Позначимо: Y i - значення, обчислене за рівнянням Y i \u003d a + bx i. y i - виміряне значення, ε i \u003d y i -Y i - різниця між вимірами і обчисленими за рівнянням значенням, ε i \u003d y i -a-bx i.

У методі найменших квадратів потрібно, щоб ε i, різниця між вимірюваними y i і обчисленими за рівнянням значенням Y i, була мінімальною. Отже, знаходимо коефіцієнти а і b так, щоб сума квадратів відхилень спостережуваних значень від значень на прямій лінії регресії виявилася найменшою:

Досліджуючи на екстремум цю функцію аргументів а і за допомогою похідних, можна довести, що функція приймає мінімальне значення, якщо коефіцієнти а і b є рішеннями системи:

(2)

Якщо розділити обидві частини нормальних рівнянь на n, то отримаємо:

Враховуючи що (3)

отримаємо , Звідси, підставляючи значення a до першого рівняння, отримаємо:

При цьому b називають коефіцієнтом регресії; a називають вільним членом рівняння регресії і обчислюють за формулою:

Отримана пряма є оцінкою для теоретичної лінії регресії. маємо:

Отже, є рівнянням лінійної регресії.

Регресія може бути прямий (b\u003e 0) і зворотної (b Приклад 1. Результати вимірювання величин X і Y дані в таблиці:

x i -2 0 1 2 4
y i 0.5 1 1.5 2 3

Припускаючи, що між X і Y існує лінійна залежність y \u003d a + bx, способом найменших квадратів визначити коефіцієнти a і b.

Рішення. Тут n \u003d 5
x i \u003d -2 + 0 + 1 + 2 + 4 \u003d 5;
x i 2 \u003d 4 + 0 + 1 + 4 + 16 \u003d 25
x i y i \u003d -2 0.5 + 0 1 + 1 1.5 +2 +2 +4 +3 \u003d 16.5
y i \u003d 0.5 + 1 + 1.5 + 2 + 3 \u003d 8

і нормальна система (2) має вигляд

Вирішуючи цю систему, отримаємо: b \u003d 0.425, a \u003d 1.175. Тому y \u003d 1.175 + 0.425x.

Приклад 2. Є вибірка з 10 спостережень економічних показників (X) і (Y).

x i 180 172 173 169 175 170 179 170 167 174
y i 186 180 176 171 182 166 182 172 169 177

Потрібно знайти вибіркове рівняння регресії Y на X. Побудувати вибіркову лінію регресії Y на X.

Рішення. 1. Проведемо упорядкування даних за значеннями x i і y i. Отримуємо нову таблицю:

x i 167 169 170 170 172 173 174 175 179 180
y i 169 171 166 172 180 176 177 182 182 186

Для спрощення обчислень складемо розрахункову таблицю, в яку занесемо необхідні чисельні значення.

x i y i x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
Σx i \u003d 1729 Σy i \u003d 1761 Σx i 2 299105 Σx i y i \u003d 304696
x \u003d 172.9 y \u003d 176.1 x i 2 \u003d 29910.5 xy \u003d 30469.6

Відповідно до формули (4), обчислюємо коефіцієнта регресії

а за формулою (5)

Таким чином, вибіркове рівняння регресії має вигляд y \u003d -59.34 + 1.3804x.
Нанесемо на координатної площині точки (x i; y i) і відзначимо пряму регресії.


рис 4

На рис.4 видно, як розташовуються спостережувані значення щодо лінії регресії. Для чисельної оцінки відхилень y i від Y i, де y i спостерігаються, а Y i визначаються регресією значення, складемо таблицю:

x i y i Y i Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Значення Y i обчислені відповідно до рівняння регресії.

Помітне відхилення деяких можна побачити значень від лінії регресії пояснюється малим числом спостережень. При дослідженні ступеня лінійної залежності Y від X число спостережень враховується. Сила залежності визначається величиною коефіцієнта кореляції.

переглядів

Зберегти в Однокласники зберегти ВКонтакте