Ang tradisyonal na paraan ng pinakamaliit na mga parisukat. Linear regression.

Ang tradisyonal na paraan ng pinakamaliit na mga parisukat. Linear regression.

Ang hindi bababa sa mga parisukat na paraan (MNC) ay nagbibigay-daan sa iyo upang suriin ang iba't ibang mga halaga gamit ang mga resulta ng isang hanay ng mga sukat na naglalaman ng mga random na mga error.

Katangian ng mnk.

Ang pangunahing ideya ng pamamaraang ito ay bilang ang criterion para sa katumpakan ng paglutas ng problema, ang kabuuan ng mga parisukat ng mga pagkakamali, na nagsisikap nilang mabawasan ang mga itinuturing. Kapag ginagamit ang pamamaraang ito, maaaring magamit ang parehong numerical at analytical na diskarte.

Sa partikular, bilang isang numerical na pagpapatupad, ang paraan ng pinakamaliit na mga parisukat ay nagpapahiwatig ng isang mas malaking bilang ng mga hindi kilalang mga sukat hangga't maaari random variable. Bukod dito, ang higit pang mga kalkulasyon, mas tumpak ang magiging solusyon. Sa hanay ng computing (pinagmulan ng data), isa pang hanay ng mga pinaghihinalaang solusyon ay nakuha, mula sa kung saan ang pinakamahusay na ay napili. Kung ang isang pluralidad ng mga solusyon sa parameterize, pagkatapos ay ang paraan ng pinakamaliit na mga parisukat ay nabawasan sa paghahanap para sa pinakamainam na halaga ng mga parameter.

Bilang isang analytical diskarte sa pagpapatupad ng MNA sa isang pluralidad ng pinagmulan ng data (sukat) at ang tinatayang hanay ng mga solusyon, ang ilang (functional) ay tinutukoy, na maaaring ipinahayag ng formula na nakuha bilang isang tiyak na teorya na nangangailangan ng kumpirmasyon. Sa kasong ito, ang paraan ng hindi bababa sa mga parisukat ay nabawasan sa paghahanap ng isang minimum na functional na ito sa hanay ng mga parisukat ng mga error ng pinagmulan ng data.

Tandaan na hindi ang mga pagkakamali mismo, katulad ng mga parisukat ng mga pagkakamali. Bakit? Ang katotohanan ay madalas na deviations ng mga sukat mula sa. tumpak na halaga May parehong positibo at negatibo. Kapag tinutukoy ang average na simpleng summation, maaari itong humantong sa isang hindi tamang konklusyon tungkol sa kalidad ng pagtatasa, dahil ang mutual na pagkasira ng positibo at negatibong mga halaga ay magbabawas ng kapangyarihan ng sampling ng hanay ng mga sukat. At, dahil dito, ang katumpakan ng pagtatasa.

Upang hindi mangyari, at ibuod ang mga parisukat ng mga deviations. Bukod pa rito, upang i-level ang sukat ng sinusukat na halaga at ang huling pagtatasa, mula sa kabuuan ng mga parisukat ng mga pagkakamali

Ilang mga aplikasyon ng MNK.

Ang MNC ay malawakang ginagamit sa iba't ibang larangan. Halimbawa, sa teorya ng posibilidad at mga istatistika ng matematika, ang pamamaraan ay ginagamit upang matukoy ang katangiang ito ng isang random na variable, bilang isang average na parisukat na paglihis na tumutukoy sa lapad ng hanay ng mga random na halaga ng pagkakaiba.

Hindi bababa sa paraan ng parisukat Ginagamit upang tantiyahin ang mga parameter, ang equation ng pagbabalik.

Ang isa sa mga pamamaraan para sa pag-aaral ng stochastic ugnayan sa pagitan ng mga palatandaan ay isang pagtatasa ng pagbabalik.
Pagsusuri ng pagbabalik ay ang pagtatapos ng equation ng pagbabalik na kung saan average na halaga Ang isang random na variable (sign-result), kung ang halaga ng isa pang (o iba pang) mga variable (mga kadahilanan) ay kilala. Kabilang dito ang mga sumusunod na hakbang:

  1. pagpili ng form ng komunikasyon (uri ng analytical equation ng pagbabalik);
  2. pagtatantya ng mga parameter ng equation;
  3. pagtatasa ng kalidad ng analytical regression equation.
Kadalasan, ang isang linear form ay ginagamit upang ilarawan ang statistical connection ng mga palatandaan. Ang babala sa linear na komunikasyon ay dahil sa isang malinaw na interpretasyon sa ekonomiya ng mga parameter nito, limitado sa pamamagitan ng mga variable sa pamamagitan ng mga variable at sa karamihan ng mga kaso, ang mga nonlinear na paraan ng komunikasyon para sa mga kalkulasyon ay binago (sa pamamagitan ng logarithming o pagpapalit ng mga variable) sa isang linear form.
Sa kaso ng isang linear pair bond, ang equation ng pagbabalik ay kukuha ng form: y i \u003d a + b · x i + u i. Ang mga parameter ng equation na ito A at B ay tinatayang ayon sa statistical observation X at Y. Ang resulta ng naturang pagtatasa ay ang equation:, kung saan - mga pagtatantya ng mga parameter A at B, - ang halaga ng resultang tampok (variable) na nakuha ng equation ng pagbabalik (kinakalkula na halaga).

Kadalasan upang tantyahin ang mga parameter na ginagamit paraan ng hindi bababa sa mga parisukat (MNC).
Ang hindi bababa sa mga paraan ng parisukat ay nagbibigay ng pinakamahusay na (mayaman, mahusay at naka-unlock) na mga pagtatantya ng mga parameter ng equation ng pagbabalik. Ngunit kung ang ilang mga kinakailangan ay ginaganap na may kaugnayan sa isang random na termino (U) at isang independiyenteng variable (x) (tingnan ang mga background ng MNC).

Ang problema ng pagsusuri sa mga parameter ng linear pares equation sa pamamagitan ng hindi bababa sa paraan ng parisukat Binubuo ito sa mga sumusunod: upang makuha ang mga naturang pagtatantya ng mga parameter, kung saan ang kabuuan ng mga parisukat ng mga deviations ng aktwal na mga halaga ng epektibong pag-sign - y ako sa kinakalkula na mga halaga ay minimal.
Pormal. criterion mnk. Maaari mong isulat tulad nito: .

Pag-uuri ng hindi bababa sa mga pamamaraan ng parisukat

  1. Hindi bababa sa paraan ng parisukat.
  2. Ang pinakamataas na paraan ng matapat (para sa isang normal na klasikal na linear regression model, ang normalidad ng mga residues ng pagbabalik ay ipinagpaliban).
  3. Ang pangkalahatan na paraan ng mas maliit na mga parisukat ng Omna ay ginagamit sa kaso ng autocorrelation ng mga error at sa kaso ng heterosdasticity.
  4. Ang paraan ng suspendido pinakamaliit na mga parisukat (isang espesyal na kaso ng Omna na may mga residues ng Heter-visasic).

Inilarawan namin ang kakanyahan classic pinakamaliit na paraan ng parisukat graphically. Upang gawin ito, nagtatayo kami ng iskedyul ng punto ayon sa mga obserbasyon (x i, y i, i \u003d 1; n) sa isang hugis-parihaba na sistema ng coordinate (tulad ng isang punto tsart ay tinatawag na ugnayan field). Susubukan naming pumili ng isang tuwid na linya na pinakamalapit sa mga punto ng field ng ugnayan. Ayon sa hindi bababa sa paraan ng parisukat, ang linya ay napili upang ang kabuuan ng mga parisukat ng vertical distansya sa pagitan ng mga punto ng field ng ugnayan at ang linyang ito ay magiging minimal.

Mathematical record ng gawaing ito: .
Ang mga halaga ng y i at x i \u003d 1 ... n ay kilala sa amin, ang mga ito ay observational data. Sa function s, sila ay constants. Ang mga variable sa tampok na ito ay ang nais na mga pagtatantya ng parameter - ,. Upang makahanap ng isang minimum na 2-variable na mga function, ito ay kinakailangan upang kalkulahin ang mga pribadong derivatives ng function na ito para sa bawat isa ng mga parameter at equate sa kanila zero, i.e. .
Bilang resulta, nakakakuha kami ng isang sistema ng 2 normal linear na equation:
Paglutas ang sistemang ito, hanapin ang nais na mga pagtatantya ng parameter:

Ang katumpakan ng pagkalkula ng mga parameter ng equation ng pagbabalik ay maaaring masuri sa pamamagitan ng paghahambing ng mga halaga (marahil ilang pagkakaiba dahil sa mga kalkulasyon ng rounding).
Upang makalkula ang mga pagtatantya ng parameter, maaari kang bumuo ng Table 1.
Ang tanda ng koepisyent ng pagbabalik ay nagpapahiwatig ng direksyon ng komunikasyon (kung ang b\u003e 0, ang linya ay direktang, kung b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Pormal na ang halaga ng parameter A ay ang average na halaga ng Y na may x katumbas ng zero. Kung ang signator ay walang at hindi maaaring magkaroon ng zero na halaga, pagkatapos ay ang interpretasyon sa itaas ng parameter at walang kahulugan.

Pagtatantya ng higpit ng komunikasyon sa pagitan ng mga palatandaan Ito ay isinasagawa gamit ang linear pares correlation koepisyent - R x, y. Maaari itong kalkulahin ng formula: . Bilang karagdagan, ang koepisyent ng linear pairing correlation ay maaaring matukoy sa pamamagitan ng koepisyent ng pagbabalik B: .
Ang lugar ng mga pinahihintulutang halaga ng linear coefficient ng pares correlation mula -1 hanggang +1. Ang pag-sign ng koepisyent ng ugnayan ay nagpapahiwatig ng direksyon ng komunikasyon. Kung r x, y\u003e 0, pagkatapos ay ang koneksyon ay tuwid; Kung r x, y.<0, то связь обратная.
Kung ang koepisyent na ito ay malapit sa isa, ang koneksyon sa pagitan ng mga tampok ay maaaring interpreted bilang medyo malapit na linear. Kung ang modyul nito ay katumbas ng isang yunit ê R x, y ê \u003d 1, ang koneksyon sa pagitan ng mga palatandaan ay functional linear. Kung ang mga palatandaan x at y ay linearly independiyenteng, pagkatapos r x, y ay malapit sa 0.
Upang makalkula ang R x, maaari ring gamitin ang Table 1.

Upang masuri ang kalidad ng nakuha na equation ng pagbabalik, ang teoretikal na pagpapasiya koepisyent ay kinakalkula - R 2 yx:

,
kung saan ang d 2 ay ang pagpapakalat ng y; ipinaliwanag ng equation ng pagbabalik;
e 2 - Residual (Unexplained Regression Equation) dispersion y;
s 2 y ay isang kabuuang (kumpleto) dispersion y.
Ang coefficient ng pagpapasiya ay nagpapakilala sa proporsyon ng pagkakaiba-iba (pagpapakalat) ng epektibong pag-sign Y, ipinaliwanag ng pagbabalik (at, dahil dito, ang kadahilanan x), sa pangkalahatang pagkakaiba-iba (pagpapakalat) y. Ang determinasyon koepisyent R 2 YX ay tumatagal ng mga halaga mula 0 hanggang 1. Gayunman, ang halaga ng 1-R 2 yx ay nagpapakilala sa bahagi ng pagpapakalat na sanhi ng impluwensya ng iba pang mga hindi nakikitang mga kadahilanan sa modelo at ang mga error sa pagtutukoy.
Sa ipinares linear regression r 2 yx \u003d r 2 yx.

Halimbawa.

Pang-eksperimentong data sa mga variable na halaga H. at W. Na humantong sa talahanayan.

Bilang resulta ng kanilang pagkakahanay, ang isang function ay nakuha

Gamit hindi bababa sa paraan ng parisukat, tinatayang ang data na ito ay linear na pag-asa y \u003d Ax + B. (Maghanap ng mga parameter ngunit. at b.). Alamin kung alin sa dalawang linya ang mas mahusay (sa kahulugan ng hindi bababa sa paraan ng parisukat) ay nakahanay sa pang-eksperimentong data. Gumawa ng pagguhit.

Ang kakanyahan ng hindi bababa sa mga parisukat na paraan (MNC).

Ang gawain ay upang mahanap ang mga coefficients. linear dependency., kung saan ang pag-andar ng dalawang variable ngunit. at b. Tumatagal ang pinakamaliit na halaga. Iyon ay, may data ngunit. at b. Ang kabuuan ng mga parisukat ng mga deviations ng experimental data mula sa direktang linya ay ang pinakamaliit. Ito ang buong kakanyahan ng hindi bababa sa paraan ng parisukat.

Kaya, ang halimbawa ng solusyon ay bumaba sa paghahanap ng extremum function ng dalawang variable.

Nagpapakita ng formula para sa paghahanap ng mga coefficients.

Ang isang sistema ng dalawang equation na may dalawang unknowns ay pinagsama at nalutas. Nakahanap kami ng mga pribadong derivatives sa variable ngunit. at b., equate ang mga derivatives sa zero.

Lutasin ang nagresultang sistema ng mga equation sa pamamagitan ng anumang paraan (halimbawa para sa isang paraan ng pagpapalit o) at nakakuha kami ng mga formula para sa paghahanap ng mga coefficients gamit ang hindi bababa sa mga parisukat na paraan (MNC).

May data Ngunit. at B. function. Tumatagal ang pinakamaliit na halaga. Ang katunayan ng katotohanang ito ay ibinigay.

Iyon ang buong paraan ng hindi bababa sa mga parisukat. Formula para sa paghahanap ng isang parameter. a. Naglalaman ng mga halaga ,, at parameter n. - Bilang ng mga pang-eksperimentong data. Ang mga halaga ng mga sums ay inirerekomenda upang makalkula nang hiwalay. Koepisyent. b. Matatagpuan pagkatapos ng pagkalkula a..

Panahon na upang matandaan ang tungkol sa pinagmulan ng halimbawa.

Desisyon.

Sa aming halimbawa N \u003d 5.. Punan ang isang talahanayan para sa kaginhawahan ng pagkalkula ng mga halaga na kasama sa formula ng nais na coefficients.

Ang mga halaga sa ikaapat na linya ng talahanayan ay nakuha sa pamamagitan ng pagpaparami ng mga halaga ng 2nd string sa mga halaga ng 3rd string para sa bawat numero I..

Ang mga halaga sa ikalimang linya ng talahanayan ay nakuha sa pamamagitan ng pagtatayo ng mga halaga ng 2nd string para sa bawat numero. I..

Ang mga halaga ng huling haligi ng talahanayan ay ang mga halaga ng mga halaga sa pamamagitan ng mga linya.

Ginagamit namin ang mga formula ng hindi bababa sa paraan ng parisukat para sa paghahanap ng mga coefficients ngunit. at b.. Pinalitan namin ang kaukulang mga halaga mula sa huling haligi ng talahanayan:

Kaya, y \u003d 0.165x + 2.184. - Ang nais na approximating tuwid na linya.

Nananatili itong malaman kung alin sa mga linya y \u003d 0.165x + 2.184. O. Mas mahusay na humigit-kumulang sa unang data, iyon ay, tinatantya ng paraan ng pinakamaliit na mga parisukat.

Pagtatasa ng error ng hindi bababa sa paraan ng parisukat.

Nangangailangan ito upang kalkulahin ang mga kabuuan ng mga parisukat ng mga deviations ng data ng pinagmulan mula sa mga linyang ito. at Ang isang mas maliit na halaga ay tumutugma sa isang linya na mas mahusay sa kahulugan ng mas maliit na paraan ng square approximates ang source data.

Dahil, pagkatapos ay tuwid y \u003d 0.165x + 2.184. Mas mahusay na nagdudulot ng data ng pinagmulan.

Graphic ilustrasyon ng hindi bababa sa mga parisukat na paraan (MNC).

Sa mga chart lahat ng bagay ay ganap na nakikita. Ang pulang linya ay ang natagpuang tuwid y \u003d 0.165x + 2.184., asul na linya Ang mga pink na tuldok ay ang pinagmulan ng data.

Ano ang kinakailangan para sa lahat ng mga approximations?

Ako mismo ay ginagamit upang malutas ang mga problema ng smoothing data, interpolation at extrapolation problema (sa unang halimbawa ay maaaring hilingin upang mahanap ang naobserbahang halaga y. para sa x \u003d 3. o para sa x \u003d 6. Ayon sa pamamaraan ng MND). Ngunit ipaalam sa amin makipag-usap nang higit pa tungkol sa ito mamaya sa isa pang seksyon ng site.

Katibayan.

Kaya para makita ngunit. at b. Ang pag-andar ay kinuha ang pinakamaliit na halaga, kinakailangan na sa puntong ito ang matrix ng parisukat na anyo ng ikalawang kaugalian para sa pag-andar Ito ay positibong tinukoy. Ipakita ito.

Ang ikalawang kaugalian ay:

I.e.

Dahil dito, ang Quadratic Form Matrix

at ang mga halaga ng mga elemento ay hindi nakasalalay sa Ngunit. at B..

Ipinakikita namin na ang matrix ay positibong tinukoy. Upang gawin ito, ito ay kinakailangan na ang mga angular na mga menor de edad ay positibo.

Corner menor ng unang order. . Ang hindi pagkakapantay-pantay ay mahigpit, dahil ang mga puntos ay magkatugma. Sa hinaharap, ibig sabihin natin.

Ikalawang-order sulok Minor

Patunayan namin iyan paraan ng matematika induction.

Output.: Natagpuan ang mga halaga Ngunit. at B. tumutugma sa pinakamaliit na halaga ng pag-andar Samakatuwid, ang nais na mga parameter para sa paraan ng pinakamaliit na mga parisukat.

Pagkatapos ng pagkakahanay, nakuha namin ang pag-andar ng sumusunod na form: G (x) \u003d x + 1 3 + 1.

Maaari naming tinatayang ang data na ito gamit ang linear dependence y \u003d isang X + B, kalkulahin ang kaukulang mga parameter. Upang gawin ito, kakailanganin naming ilapat ang tinatawag na hindi bababa sa paraan ng parisukat. Ito ay kinakailangan din upang gumawa ng isang pagguhit upang suriin kung aling linya ay mas mahusay na ihanay ang pang-eksperimentong data.

Ano ang eksaktong ang MNC (ang hindi bababa sa paraan ng parisukat)

Ang pangunahing bagay na kailangan naming gawin ay upang mahanap ang mga coefficients ng linear na pag-asa, kung saan ang halaga ng function ng dalawang variable F (A, B) \u003d σ i \u003d 1 n (yi - (axi + b)) 2 ay maging pinakamaliit. Sa ibang salita, sa ilang mga halaga ng A at B, ang kabuuan ng mga parisukat ng mga deviations ng naisumite na data mula sa resultang direktang ay may pinakamababang halaga. Ito ang kahulugan ng mas maliit na paraan ng parisukat. Ang kailangan lang nating gawin upang malutas ang halimbawa ay upang mahanap ang extremum function ng dalawang variable.

Paano mag-output ng mga formula para sa pagkalkula ng mga coefficients.

Upang i-output ang formula para sa pagkalkula ng mga coefficients, ito ay kinakailangan upang sumulat ng libro at malutas ang sistema ng mga equation na may dalawang mga variable. Upang gawin ito, kinakalkula namin ang mga pribadong derivatives ng mga expression f (a, b) \u003d σ i \u003d 1 n (y i - (isang x i + b)) 2 ng A at B at equate ang mga ito sa 0.

Δ f (a, b) δ a \u003d 0 δ f (a, b) δ b \u003d 0 ⇔ - 2 σ i \u003d 1 n (yi - (axi + b)) xi \u003d 0 - 2 σ i \u003d 1 n ( yi - (axi + b)) \u003d 0 ⇔ a σ i \u003d 1 nxi 2 + b σ i \u003d 1 nxi \u003d σ i \u003d 1 nxiyia σ i \u003d 1 nxi + σ i \u003d 1 nb \u003d σ i \u003d 1 nyi ⇔ a Σ i \u003d 1 nxi 2 + b σ i \u003d 1 nxi \u003d σ i \u003d 1 nxiyia σ i \u003d 1 nxi + nb \u003d σ i \u003d 1 nyi

Upang malutas ang sistema ng mga equation, maaari mong gamitin ang anumang mga pamamaraan, halimbawa, isang pagpapalit o isang paraan ng craver. Bilang isang resulta, kailangan naming makakuha ng mga formula kung saan ang mga coefficients ayon sa hindi bababa sa mga parisukat na paraan ay kinakalkula.

n σ i \u003d 1 n x i y i - σ i \u003d 1 n x i σ i \u003d 1 n y i n σ i \u003d 1 n - σ i \u003d 1 n x i 2 b \u003d σ i \u003d 1 n y i - a σ i \u003d 1 n x i n

Kinakalkula namin ang mga variable na halaga kung saan gumagana
F (a, b) \u003d σ i \u003d 1 n (y i - (isang x i + b)) 2 ay kukuha ng pinakamababang halaga. Sa ikatlong talata, patunayan namin kung bakit ito ay pareho.

Ito ang paggamit ng mas maliit na paraan ng square sa pagsasanay. Ang formula nito, na ginagamit upang maghanap ng parameter a, kasama ang σ i \u003d 1 n x i, σ i \u003d 1 n y i, σ i \u003d 1 n x i i i, σ i \u003d 1 n x i 2, and parameter
N - Ang bilang ng mga pang-eksperimentong data ay ipinahiwatig. Pinapayuhan ka namin na kalkulahin ang bawat halaga nang hiwalay. Ang halaga ng koepisyent B ay kinakalkula kaagad pagkatapos ng isang.

Bumalik muli sa orihinal na halimbawa.

Halimbawa 1.

Narito kami ay limang. Upang gawing mas madali upang kalkulahin ang mga kinakailangang halaga na kasama sa mga formula ng mga coefficients, punan ang talahanayan.

i \u003d 1. i \u003d 2. i \u003d 3. i \u003d 4. i \u003d 5. Σ I \u003d 1 5.
X I. 0 1 2 4 5 12
Y I. 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i. 0 2 , 4 5 , 2 11 , 2 15 33 , 8
X i 2. 0 1 4 16 25 46

Desisyon

Kabilang sa ikaapat na linya ang data na nakuha sa pamamagitan ng pagpaparami ng mga halaga mula sa ikalawang hanay hanggang sa ikatlong halaga para sa bawat indibidwal ko. Ang ikalimang linya ay naglalaman ng data mula sa pangalawang, nakataas sa parisukat. Ang huling haligi ay nagbubuod sa mga halaga ng mga indibidwal na linya.

Ginagamit namin ang hindi bababa sa paraan ng parisukat upang kalkulahin ang mga coefficients na kailangan mo at b. Upang gawin ito, palitan namin ang nais na mga halaga mula sa huling haligi at kinakalkula namin ang halaga:

n σ i \u003d 1 nxiyi - σ i \u003d 1 nxi σ i \u003d 1 nyin σ i \u003d 1 n - σ i \u003d 1 nxi 2 b \u003d σ i \u003d 1 nyi - a σ i \u003d 1 nxin ⇒ a \u003d 5 · 33 8 - 12 · 12, 9 5 · 46 - 12 2 B \u003d 12, 9 - A · 12 5 ⇒ A ≈ 0, 165 b ≈ 2, 184

Kailangan namin na ang nais na approximating tuwid ay magiging hitsura y \u003d 0, 165 x + 2, 184. Ngayon kailangan nating matukoy kung aling linya ang magiging mas mahusay na humigit-kumulang sa data - g (x) \u003d x + 1 3 + 1 o 0, 165 x + 2, 184. Susuriin namin ang paggamit ng hindi bababa sa paraan ng parisukat.

Upang makalkula ang error, kailangan nating hanapin ang mga kabuuan ng mga parisukat ng mga deviation ng data mula sa direktang σ 1 \u003d σ i \u003d 1 n (yi - (axi + bi)) 2 at σ 2 \u003d σ i \u003d 1 n (yi - G (XI)) 2, ang minimum na halaga ay tumutugma sa isang mas angkop na linya.

σ 1 \u003d σ i \u003d 1 n (yi - (axi + bi)) 2 \u003d \u003d σ i \u003d 1 5 (yi - (0, 165 xi + 2, 184)) 2 ≈ 0, 019 σ 2 \u003d σ i \u003d 1 n (yi - g (xi)) 2 \u003d \u003d σ i \u003d 1 5 (yi - (xi + 1 3 + 1)) 2 ≈ 0, 096

Sagot: Dahil σ 1.< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
Y \u003d 0, 165 x + 2, 184.

Ang hindi bababa sa mga parisukat na paraan ay malinaw na ipinapakita sa graphic ilustrasyon. Sa tulong ng pulang linya, tuwid g (x) \u003d x + 1 3 + 1, asul - y \u003d 0, 165 x + 2, 184 ay minarkahan. Ang unang data ay ipinahiwatig ng mga kulay rosas na tuldok.

Ipaliwanag natin kung ano ang kinakailangan ng eksaktong pagtatantya ng isang katulad na uri.

Maaari silang magamit sa mga gawain na nangangailangan ng pag-smooth ng data, pati na rin sa mga kung saan ang data ay dapat na interpolated o extrapolated. Halimbawa, sa problema, disassembled sa itaas, posible upang mahanap ang halaga ng naobserbahang halaga y sa x \u003d 3 o sa x \u003d 6. Ang ganitong mga halimbawa ay nakatuon kami ng isang hiwalay na artikulo.

Patunay ng pamamaraan ng MNK.

Para sa pag-andar na gawin ang pinakamababang halaga sa kinakalkula A at B, kinakailangan na sa puntong ito ang matrix ng parisukat na anyo ng kaugalian function ng form F (A, B) \u003d σ i \u003d 1 n ( Yi - (Axi + B)) 2 ay positibo na tinukoy. Ipakita natin kung paano ito dapat magmukhang.

Halimbawa 2.

Mayroon kaming pangalawang kaugalian:

d 2 f (a; b) \u003d δ 2 f (a; b) δ a 2 d 2 a + 2 δ 2 f (a; b) δ a δ bdadb + δ 2 f (a; b) δ b 2 d 2 B.

Desisyon

δ 2 f (a; b) δ a 2 \u003d δ δ f (a; b) δ a δ a \u003d \u003d δ - 2 σ i \u003d 1 n (yi - (axi + b)) xi δ a \u003d 2 σ i \u003d 1 n (xi) 2 δ 2 f (a; b) δ a δ b \u003d δ δ f (a; b) δ a δ b \u003d \u003d δ - 2 σ i \u003d 1 n (yi - (axi + b) ) xi δ b \u003d 2 σ i \u003d 1 nxi δ 2 f (a; b) δ b 2 \u003d δ δ f (a; b) δ b δ b \u003d δ - 2 σ i \u003d 1 n (yi - (axi + b)) δ b \u003d 2 σ i \u003d 1 n (1) \u003d 2 n

Sa ibang salita, maaari itong maisulat bilang: D 2 F (a; b) \u003d 2 σ i \u003d 1 n (xi) 2 d 2 a + 2 · 2 σ xii \u003d 1 nd и db + (2 n) d 2 b.

Nakuha namin ang matrix ng quadratic form m \u003d 2 σ i \u003d 1 n (x i) 2 2 σ i \u003d 1 n x i 2 σ i \u003d 1 n x i 2 n.

Sa kasong ito, ang mga halaga ng mga indibidwal na elemento ay hindi mag-iiba depende sa A at B. Ang matrix ba ay positibong tinukoy? Upang sagutin ang tanong na ito, suriin kung positibo ang mga menor de edad nito.

Kalkulahin ang unang-order na sulok ng unang order: 2 σ i \u003d 1 n (x i) 2\u003e 0. Dahil ang mga punto ay hindi ako nag-tutugma, ang hindi pagkakapantay-pantay ay mahigpit. Magkakaroon tayo ng isip para sa karagdagang mga kalkulasyon.

Kalkulahin ang angular minor ng pangalawang order:

d e t (m) \u003d 2 σ i \u003d 1 n (x i) 2 2 σ i \u003d 1 n x i 2 σ i \u003d 1 n x i 2 n \u003d 4 n σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n x i 2

Pagkatapos nito, binuksan namin ang patunay ng hindi pagkakapantay-pantay n σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n x i 2\u003e 0 Paggamit ng matematika induction.

  1. Suriin kung ang hindi pagkakapantay-pantay na ito ay may bisa para sa arbitrary n. Kumuha ng 2 at kalkulahin:

2 σ i \u003d 1 2 (xi) 2 - σ i \u003d 1 2 xi 2 \u003d 2 x 1 2 + x 2 2 - x 1 + x 2 2 \u003d x 1 2 - 2 x 1 x 2 + x 2 2 \u003d x 1 + x 2 2\u003e 0.

Mayroon kaming tapat na pagkakapantay-pantay (kung ang mga halaga ng x 1 at x 2 ay hindi coincided).

  1. Ipinapalagay namin na ang hindi pagkakapantay-pantay na ito ay magiging tapat sa n, i.e. n σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n x i 2\u003e 0 ay may bisa.
  2. Ngayon pinatutunayan namin ang hustisya sa N + 1, i.e. Aling (n + 1) σ i \u003d 1 n + 1 (xi) 2 - σ i \u003d 1 n + 1 xi 2\u003e 0, kung ang n σ i \u003d 1 n (xi) 2 ay σ i \u003d 1 nxi 2\u003e 0.

Kalkulahin:

(n + 1) σ i \u003d 1 n + 1 (xi) 2 - σ i \u003d 1 n + 1 xi 2 \u003d (n + 1) σ i \u003d 1 n (xi) 2 + xn + 1 2 - σ i \u003d 1 nxi + xn + 1 2 \u003d n σ i \u003d 1 n (xi) 2 + n · xn + 1 2 + σ i \u003d 1 n (xi) 2 + xn + 1 2 - - σ i \u003d 1 nxi 2 + 2 xn + 1 σ i \u003d 1 nxi + xn + 1 2 \u003d σ i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + n · xn + 1 2 - xn + 1 σ i \u003d 1 nxi + σ i \u003d 1 n (xi) 2 \u003d \u003d σ i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 +. . . + XN + 1 2 - 2 xn + 1 x 1 + xn 2 \u003d \u003d n σ i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + + (xn + 1 - x 1) 2 + (xn + 1 - x 2) 2 +. . . + (x n - 1 - x n) 2\u003e 0

Ang expression concluded sa kulot bracket ay mas malaki kaysa sa 0 (batay sa kung ano ang ipinapalagay namin sa talata 2), at ang natitirang mga tuntunin ay mas malaki kaysa sa 0, dahil ang mga ito ay ang lahat ng mga parisukat ng mga numero. Napatunayan namin ang hindi pagkakapantay-pantay.

Sagot: Natagpuan a at b ay tumutugma sa pinakamaliit na halaga ng function f (a, b) \u003d σ i \u003d 1 n (yi - (axi + b)) 2, nangangahulugan ito na sila ang nais na mga parameter ng hindi bababa sa mga parisukat na paraan ( Mnk).

Kung napansin mo ang isang pagkakamali sa teksto, mangyaring piliin ito at pindutin ang Ctrl + Enter

Sa pamamagitan ng pagpili ng isang uri ng function ng pagbabalik, i.e. Ang uri ng modelo ng pagtitiwala ng pagtitiwala Y mula sa x (o x mula y), halimbawa, ang linear model y x \u003d a + bx, kinakailangan upang matukoy ang mga tiyak na halaga ng mga coefficients ng modelo.

Sa iba't ibang mga halaga, A at B, isang walang katapusang bilang ng mga dependences ng form YX \u003d A + BX ay maaaring constructed sa coordinate eroplano mayroong isang walang katapusang bilang ng mga direktang, kailangan din namin tulad ng isang pag-asa na tumutugma sa mga naobserbahang halaga sa pinakamahusay na posibleng paraan. Kaya, ang gawain ay nabawasan sa pagpili ng mga pinakamahusay na coefficients.

Linear function A + BX hinahanap namin, batay lamang sa ilang mga umiiral na obserbasyon. Upang makahanap ng isang function na may pinakamahusay na pagsunod sa mga naobserbahang halaga, ginagamit namin ang paraan ng pinakamaliit na mga parisukat.

Nagtatakda: y i - ang halaga na kinakalkula ng equation y i \u003d a + bx i. Y ako ang sinusukat halaga, ε i \u003d y i -y ako - ang pagkakaiba sa pagitan ng sinusukat at kinakalkula ng mga halaga ng equation, ε i \u003d y i -a-bx i.

Sa hindi bababa sa mga parisukat na paraan, ε i, ang pagkakaiba sa pagitan ng sinusukat y ako at ang mga halaga na kinakalkula ng mga halaga ng equation y ako ay minimal. Samakatuwid, nakita namin ang mga coefficients A at B upang ang kabuuan ng mga parisukat ng deviations ng naobserbahang mga halaga mula sa mga halaga sa tuwid na linya ng pagbabalik ay naging pinakamaliit:

Paggalugad ng function na ito ng mga argumento A at paggamit ng mga derivatives sa extremum, maaari itong patunayan na ang function ay tumatagal ng minimum na halaga kung ang coefficients A at B ay mga solusyon sa system:

(2)

Kung hatiin namin ang parehong bahagi ng normal na mga equation sa n, pagkatapos ay makuha namin ang:

Isinasaalang-alang iyon (3)

Tumanggap Mula dito, substituting ang halaga A sa unang equation, nakukuha namin:

Kasabay nito, ang B ay tinatawag na koepisyent ng pagbabalik; A ay tinatawag na isang libreng miyembro ng equation ng pagbabalik at kalkulahin ayon sa formula:

Ang resultang direktang ay isang pagtatantya para sa teoretikal na linya ng pagbabalik. Meron kami:

Kaya, Ito ay ang equation ng linear regression.

Ang pagbabalik ay maaaring tuwid (b\u003e 0) at baligtarin (halimbawa B Halimbawa 1. Ang mga resulta ng pagsukat ng mga halaga ng X at Y ay ibinibigay sa talahanayan:

x I. -2 0 1 2 4
y I. 0.5 1 1.5 2 3

Sa pag-aakala na sa pagitan ng x at y may isang linear dependence y \u003d a + bx, kung saan ang paraan ng hindi bababa sa mga parisukat ay matukoy ang mga coefficients a at b.

Desisyon. Narito n \u003d 5.
x i \u003d -2 + 0 + 1 + 2 + 4 \u003d 5;
x i 2 \u003d 4 + 0 + 1 + 4 + 16 \u003d 25
x i y i \u003d -2 0.5 + 0 1 + 1 1.5 + 2 2 + 4 3 \u003d 16.5
y i \u003d 0.5 + 1 + 1.5 + 2 + 3 \u003d 8

at ang normal na sistema (2) ay may form

Paglutas ng sistemang ito, nakuha namin: B \u003d 0.425, A \u003d 1.175. Samakatuwid, y \u003d 1.175 + 0.425x.

Halimbawa 2. May isang sample ng 10 obserbasyon ng mga pang-ekonomiyang tagapagpahiwatig (x) at (y).

x I. 180 172 173 169 175 170 179 170 167 174
y I. 186 180 176 171 182 166 182 172 169 177

Kinakailangan na makahanap ng isang pumipili na equation ng pagbabalik sa X. Bumuo ng isang pumipili na linya ng pagbabalik Y sa X.

Desisyon. 1. Ayusin namin ang data sa X I at Y I halaga. Nakukuha namin ang isang bagong talahanayan:

x I. 167 169 170 170 172 173 174 175 179 180
y I. 169 171 166 172 180 176 177 182 182 186

Upang gawing simple ang mga kalkulasyon, gagawin namin ang kinakalkula na talahanayan kung saan dalhin mo ang mga kinakailangang numerical value.

x I. y I. x i 2. x i y i.
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
Σx i \u003d 1729. ΣY I \u003d 1761. Σx i 2 299105. Σx i y i \u003d 304696.
x \u003d 172.9. y \u003d 176.1. x I 2 \u003d 29910.5. xy \u003d 30469.6.

Ayon sa Formula (4), kalkulahin ang koepisyent ng pagbabalik

at ayon sa formula (5)

Kaya, ang pagbabalik ng equation ay may form y \u003d -59.34 + 1.3804x.
Application sa coordinate plane ng punto (x i; y i) at tandaan ang direktang pagbabalik.


Figure 4.

Ang Figure 4 ay nagpapakita kung paano matatagpuan ang mga naobserbahang halaga ay may kaugnayan sa linya ng pagbabalik. Para sa mga de-numerong pagtatantya ng mga deviations y ako mula sa y ako, kung saan ako ay sinusunod, at ako tinutukoy ng pagbabalik ng halaga, ay isang talahanayan:

x I. y I. Y I. Y i -y I.
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Ang mga halaga ng y ako ay kinakalkula ayon sa equation ng pagbabalik.

Ang isang kapansin-pansin na paglihis ng ilang mga naobserbahang halaga mula sa linya ng pagbabalik ay ipinaliwanag sa pamamagitan ng isang maliit na bilang ng mga obserbasyon. Sa pag-aaral ng antas ng linear dependence Y mula X, ang bilang ng mga obserbasyon ay isinasaalang-alang. Ang lakas ng pag-asa ay tinutukoy ng koepisyent ng ugnayan.

Views.

I-save sa mga kaklase I-save ang Vkontakte.