Calculul metodei celor mai mici pătrate. Unde se aplică metoda cea mai mică pătrată

Calculul metodei celor mai mici pătrate. Unde se aplică metoda cea mai mică pătrată

Metodă de cele mai mici pătrate (MNA, engleză. Cele mai mici pătrate obișnuite, OLS) -- metoda matematicăFolosit pentru a rezolva diverse sarcini bazate pe minimizarea sumei pătratelor de deviații ale anumitor funcții de la variabilele dorite. Poate fi folosit pentru a "rezolva" sistemele redefinite de ecuații (atunci când numărul de ecuații depășește numărul de necunoscuți), pentru a căuta soluții în cazul sistemelor neliniare convenționale (ne-redefinite) de ecuații, pentru armonizarea valorilor punctului De o anumită funcție. MNA este una dintre metodele de analiză de bază de regresie pentru evaluarea parametrilor necunoscuți ai modelelor de regresie pe date selective.

Esența metodei celei mai mici pătrate

Să presupunem că setul de variabile necunoscute (parametrii) este un set de funcții din acest set de variabile. Sarcina este de a selecta astfel de valori x astfel încât valorile acestor funcții să fie cât mai aproape de unele valori. În esență, vorbim despre "soluții" ale sistemului redefinit de ecuații în sensul specificat al proximității maxime față de partea stângă și cea dreaptă a sistemului. Esența MNA este de a alege ca o "măsură de proximitate" suma pătratelor abaterilor părților stângi și drepte. Astfel, esența MNK poate fi exprimată după cum urmează:

În cazul în care sistemul de ecuații are o soluție, atunci cel puțin suma pătratelor va fi o soluție zero și precisă a sistemului de ecuații analitic sau, de exemplu, prin diferite metode de optimizare numerică pot fi găsite. Dacă sistemul este suprasolidat, acesta este, vorbind despre incredibil, numărul de ecuații independente este mai mare decât numărul de variabile dorite, sistemul nu are o soluție exactă, iar metoda cea mai mică pătrată vă permite să găsiți un vector "optim" În sensul apropierii maxime a vectorilor și sau a apropierii maxime a vectorului anormal la zero (proximitatea se înțelege în sensul distanței euclidene).

Exemplu - Sistemul de ecuații liniare

În special, metoda celor mai mici pătrate poate fi utilizată pentru a "rezolva" un sistem de ecuații liniare

În cazul în care matricea nu este pătrată, ci o dimensiune dreptunghiulară (mai precis rangul matricei A este mai mare decât numărul variabilelor dorite).

Un astfel de sistem de ecuații, în general, nu are nicio soluție. Prin urmare, acest sistem poate fi "rezolvat" numai în sensul alegerii unui astfel de vector pentru a minimiza "distanța" între vectori și. Pentru a face acest lucru, puteți aplica criteriul pentru minimizarea sumei pătratelor diferenței dintre părțile stângi și cele drepte ale ecuațiilor sistemului, adică. Este ușor să arătăm că soluția la această problemă de minimizare duce la soluționarea următorului sistem de ecuații

Folosind operatorul de transmisie PSEUDO, soluția poate fi rescrisă după cum urmează:

unde este o matrice pseudo-masculină pentru.

Această sarcină poate fi, de asemenea, "rezolvată" folosind așa-numitul MNC ponderat (vezi mai jos), când ecuațiile diferite ale sistemului primesc o greutate diferită din considerente teoretice.

Fundamentarea strictă și stabilirea limitelor aplicabilității semnificative a metodei Dana A. Markov și A. N. Kolmogorov.

MNG în analiza de regresie (armonizare de date) [Editare | Editați textul Vicky] Să existe valori ale unor variabile (acestea pot fi rezultatele observațiilor, experimentelor etc.) și ale variabilelor corespunzătoare. Sarcina este de a se asigura că relația dintre și aproximativ o anumită funcție cunoscută unor parametri necunoscuți este de fapt, adică găsirea de fapt cele mai bune valori Parametrii, cea mai apropiată valorile la valorile reale. De fapt, acest lucru este redus la cazul "soluțiilor" sistemului redefinit de ecuații relative:

În analiza de regresie și, în special, există modele probabiliste de relații între variabile și în econometrie

unde - așa-numitele erori ale modelului aleator.

În consecință, abaterile valorilor observate din model se presupune deja în modelul însuși. Esența MNA (obișnuită, clasică) este găsirea unor astfel de parametri în care suma pătratelor de deviații (erorile pentru modelele de regresie este adesea menționată ca reziduuri de regresie) va fi minimă:

unde este engleza. Suma reziduală a pătratelor este definită ca:

În general, soluția la această problemă poate fi realizată prin metode de optimizare numerică (minimizare). În acest caz, ei vorbesc despre MNG neliniar (NLS sau NLS - engleză. Cel mai puțin pătrate neliniare). În multe cazuri, puteți obține o soluție analitică. Pentru a rezolva problema minimizării, este necesar să se găsească puncte staționare ale funcției prin direcționarea acestuia în funcție de parametrii necunoscuți, derivați derivați la zero și rezolvarea sistemului rezultat al ecuațiilor:

MNA în cazul regresiei liniare [Editare | Editați textul Wiki]

Lăsați dependența de regresie să fie liniară:

Fie Y o coloană vectorială a observării variabilei explicative și este selecția de observare a factorilor (liniile matricei - vectori de factori în această observație, conform coloanelor - valorile vectoriale ale acestui factor în toate observațiile) . Reprezentarea matricei modelului liniar este:

Apoi, vectorul estimat al variabilei explicative și reziduurile de regresie vor fi egale

În consecință, suma pătratelor de reziduuri de regresie va fi egală cu

Diferențierea acestei caracteristici de către vectorul parametrilor și derivații de echilibru la zero, obținem un sistem de ecuații (în formă de matrice):

În forma matricei decriptate, acest sistem de ecuații este după cum urmează:


unde toate sumele sunt luate în toate valorile valide.

Dacă modelul include o constantă (ca de obicei), de aceea, în colțul din stânga sus al matricei sistemului de ecuație, există o serie de observații și în celelalte elemente ale primei linii și prima coloană - pur și simplu cantitatea de valori variabile: și primul element al părții drepte a sistemului -.

Soluția acestui sistem de ecuații și oferă o formulă generală pentru estimările MN pentru un model liniar:

În scopuri analitice, aceasta din urmă reprezentare a acestei formule este utilă (în sistemul de ecuații în împărțirea pe n, în loc de cantitățile să apară aritmetica medie). Dacă datele sunt centrate în modelul de regresie, atunci în această reprezentare, prima matrice are sens al unei matrice de covariance selectivă de factori și al doilea vector al covarianței factorilor cu o variabilă dependentă. Dacă, în plus, datele sunt încă informate cu privire la viteza (care este, în cele din urmă standardizată), apoi prima matrice are sensul matricei de corelare selectivă a factorilor, al doilea vector al corelațiilor selective ale factorilor cu o variabilă dependentă .

O proprietate importantă a estimărilor MNA pentru modelele cu constantă - linia de regresie construită trece prin centrul de gravitate a datelor de probă, adică egalitatea se efectuează:

În special, ca o ultimă soluție, atunci când singurul regressor este o constantă, obținem că evaluarea MNC a unui singur parametru (de fapt constantă) este egală cu valoarea medie a variabilei explicabile. Adică, media aritmetică, cunoscută pentru proprietățile sale bune din legile numărului mari, este, de asemenea, o estimare MNK - satisface criteriul unui minim al sumei pătratelor abaterilor de la ea.

Cele mai simple evenimente private [Editare | Editați textul Wiki]

În cazul regresiei liniare asociate, atunci când este estimată dependența liniară a unei variabile de la altul, formulele de calcul sunt simplificate (puteți face fără algebră de matrice). Sistemul de ecuații este:

De aici este ușor să găsiți evaluări ale coeficienților:

În ciuda faptului că, în cazul general al unui model cu o constantă preferat, în unele cazuri, este cunoscut din considerente teoretice pe care constatatea ar trebui să fie zero. De exemplu, în fizică, dependența dintre tensiune și curent are forma; Măsurarea tensiunii și a rezistenței curentului, este necesară estimarea rezistenței. În acest caz, vorbim despre model. În acest caz, în loc de sistemul de ecuații, avem singura ecuație

În consecință, formula pentru estimarea singurul coeficient are forma

Proprietățile statistice ale estimărilor MNK [Editare | Editați textul Wiki]

În primul rând, observăm că pentru modelele liniare ale estimărilor MNA sunt estimări liniare, după cum rezultă din formula de mai sus. Estimările MNK sunt necesare și implementarea suficientă a celor mai importante condiții pentru analiza de regresie: condiționată de factori așteaptă matematică a unei erori aleatorii ar trebui să fie zero. Această condiție, în special, este efectuată, dacă așteptarea matematică a erorilor aleatorii este zero, iar factorii și erorile aleatorii sunt variabile aleatorii independente.

Prima condiție poate fi considerată întotdeauna pentru modelele cu o constantă, deoarece constanta preia așteptările matematice nonzero a erorilor (prin urmare, sunt preferabile modele cu o constantă în general). Cea mai mică covariance de regresie pătrată

Cea de-a doua condiție este condiția factorilor exogeni - principal. Dacă această proprietate nu este îndeplinită, se poate presupune că aproape orice estimare va fi extrem de nesatisfăcătoare: nici măcar nu vor fi legali (adică chiar și o cantitate foarte mare de date nu permite obținerea unor estimări calitative în acest caz). În cazul clasic, se face o presupunere mai puternică a determinării factorilor, spre deosebire de o eroare aleatorie, care înseamnă automat îndeplinirea stării exogenței. În general, pentru consistența estimărilor, este suficient să se efectueze o afecțiune de exogență împreună cu convergența matricei la o anumită matrice nedegenerată, cu o creștere a dimensiunii eșantionului la infinit.

În plus față de coerență și non-capacită, estimări (obișnuite), MNC au fost, de asemenea, eficiente (cele mai bune din clasa estimărilor lineare nestarmate) necesită proprietăți suplimentare ale unei erori aleatorii:

Permanent (egal) dispersie a erorilor aleatorii în toate observațiile (lipsa heterosdasticității):

Nici o corelație (autocorelația) a erorilor aleatorii în diferite observații între ele

Aceste ipoteze pot fi formulate pentru matricea de covariance a erorilor aleatorii.

Modelul liniar care satisface astfel de condiții se numește clasic. MNK-Evaluare pentru regresia liniară clasică sunt cele mai eficiente estimări din clasa tuturor estimărilor liniare neincluse (în literatura de specialitate în limba engleză, uneori utilizează cel mai bun estimator neobișnuit liniar - cea mai bună evaluare liniară neobișnuită; Teorema Gauss este mai des dată în literatura internă. Markova). Deoarece este ușor de arătat, matricea de covariance a șanselor coeficienților va fi egală cu:

Eficiența înseamnă că această matrice de covariance este "minimă" (orice combinație liniară de coeficienți și, în special, coeficienții înșiși, au o dispersie minimă), adică în clasa estimărilor incredibile liniare ale celei mai bune estimări ale MNK. Elementele diagonale ale acestei matrice - dispersarea estimărilor coeficienților sunt parametrii importanți ai calității estimărilor. Cu toate acestea, este imposibil să se calculeze matricea de covariance, deoarece dispersia erorilor aleatorii nu este cunoscută. Se poate dovedi că estimarea nerestricționată și bogată (pentru un model clasic liniar) estimarea dispersiei erorilor aleatorii este valoarea:

Înlocuirea acestei valori în formula pentru matricea de covariance și obține o estimare a matricei de covariance. Estimările obținute sunt, de asemenea, atribuite și bogate. De asemenea, este important ca evaluarea dispersiei de eroare (și, prin urmare, dispersiile coeficienților) și parametrii modelului de estimare sunt independenți valori aleatoriiAcest lucru vă permite să obțineți statistici de testare pentru a testa ipotezele despre coeficienții modelului.

Trebuie remarcat faptul că, dacă ipotezele clasice nu sunt îndeplinite, estimările MNK ale parametrilor nu sunt estimările cele mai eficiente (rămânând negarantare și consecvente). Cu toate acestea, evaluarea matricei de covariance este chiar mai deteriorată - devine schimbată cu ieftin. Aceasta înseamnă că concluziile statistice despre calitatea modelului construit în acest caz pot fi extrem de nesigure. Una dintre opțiunile de rezolvare a ultimei probleme este utilizarea de evaluări speciale ale matricei de covariance, care sunt bogate în încălcările ipotezelor clasice (erori standard sub formă de erori albe și standard sub formă de USTA nouă). O altă abordare este de a aplica așa-numitul MN Generalizat.

Generalizat MNC [Editare | Editați textul Wiki]

Articol principal: Metoda generalizată de cele mai mici pătrate

Metoda de cel puțin pătrate permite o generalizare largă. În loc să minimizeze suma pătratelor de reziduuri, puteți minimiza o formă patratic definită pozitiv din vectorul rezidual, unde - unele matrice de greutate simetrice definite pozitive. MNC normal este un caz particular al acestei abordări, când matricea de greutate este proporțională cu o singură matrice. Așa cum este cunoscut din teoria matricelor simetrice (sau a operatorilor) pentru astfel de matrice, există o descompunere. Prin urmare, funcționalitatea specificată poate fi reprezentată după cum urmează.

aceasta este, această funcționalitate poate fi reprezentată ca suma pătratelor unor reziduuri convertite ". Astfel, puteți selecta clasa de metode de cel puțin pătrate - Metode LS (cele mai mici pătrate).

A fost dovedită (Teorema Aitken), care, pentru un model generalizat de regresie liniară (în care nu sunt impuse nicio limitare a matricei de covariară a erorilor aleatorii) sunt cele mai eficiente (în clasa estimărilor liniare fără legătură) sunt estimări ale T.N. Generalizat MNC (OMNA, GLS - cel mai puțin generalizat pătrate) - Metode LS cu o matrice de greutate egală cu matricea de covariance inversă a erorilor aleatorii :.

Se poate demonstra că formula pentru estimările OMNA ale parametrilor modelului liniar are forma

Matricea de covariance a acestor estimări va fi egală

De fapt, esența OMNA este o transformare specifică (liniară) (p) a datelor sursă și utilizarea MNC obișnuită la datele transformate. Scopul acestei transformări este pentru ca erorile aleatorie ale datelor convertite să satisfacă deja ipotezele clasice.

MNC ponderate [Editare | Editați textul Wiki]

În cazul unei matrice în greutate diagonală (și, prin urmare, matricea de covariance a erorilor aleatorii) avem așa-numitul MNA ponderat (WLS - cel mai puțin pătrate). În acest caz, suma ponderată a pătratelor de reziduuri de model este minimizată, adică fiecare observație primește "greutate", dispersia proporțională inversă a unei erori aleatorii în această observație:

De fapt, datele sunt convertite prin cântărirea observațiilor (diviziune prin magnitudine proporțională cu intenția deviație standard Erori aleatorii) și MNA obișnuită se aplică datelor suspendate.

Prin alegerea unui tip de funcție de regresie, adică. Tipul modelului de dependență al dependenței Y de la x (sau x de la y), de exemplu, modelul liniar y x \u003d a + bx, este necesar să se determine valorile specifice ale coeficienților modelului.

La valori diferite, A și B, un număr infinit de dependențe de formularul YX \u003d A + BX poate fi construit pe planul de coordonare Există un număr infinit de direct, de asemenea, avem nevoie de o asemenea dependență care corespunde valorilor observate în cel mai bun mod posibil. Astfel, sarcina este redusă la selectarea celor mai buni coeficienți.

Funcția liniară A + Bx Căutăm, pe baza unor observații existente. Pentru a găsi o funcție cu cea mai bună conformitate cu valorile observate, folosim metoda celor mai mici pătrate.

Denotă: Y I - Valoarea calculată de ecuația y i \u003d a + bx i. Y i este valoarea măsurată, ε i \u003d y i -y i - diferența dintre măsurile măsurate și calculate de valorile ecuației, ε i \u003d y i -a-bx i.

În metoda celor mai mici pătrate, ε I, diferența dintre măsurarea Y I și valorile calculate de valorile ecuației Y Am fost minimă. Prin urmare, găsim coeficienții A și B, astfel încât suma pătratelor abaterilor valorilor observate de la valorile de pe linia dreaptă a regresiei sa dovedit a fi cea mai mică:

Explorarea acestei funcții a argumentelor A și utilizarea derivaților la extremum, se poate dovedi că funcția ia valoarea minimă dacă coeficienții A și B sunt soluții de sistem:

(2)

Dacă împărțim ambele părți ale ecuațiilor normale pe n, atunci obținem:

Având în vedere că (3)

A primi De aici, substituirea valorii A în prima ecuație, obținem:

În același timp, B se numește coeficientul de regresie; A se numește membru liber al ecuației de regresie și se calculează în conformitate cu formula:

Direct direct rezultat este o estimare pentru linia teoretică de regresie. Avem:

Asa de, Este ecuația regresiei liniare.

Regresia poate fi dreaptă (b\u003e 0) și inversă (exemplul B 1. Rezultatele măsurătorilor ale valorilor X și Y sunt date în tabel:

x I. -2 0 1 2 4
y. 0.5 1 1.5 2 3

Presupunând că între x și y există o dependență liniară y \u003d a + bx, care metodă de cel puțin pătrate determină coeficienții A și b.

Decizie. Aici n \u003d 5
x i \u003d -2 + 0 + 1 + 2 + 4 \u003d 5;
x I 2 \u003d 4 + 0 + 1 + 4 + 16 \u003d 25
x i y i \u003d -2 0,5 + 0 1 + 1 1,5 + 2 2 + 4 3 \u003d 16,5
y i \u003d 0,5 + 1 + 1,5 + 2 + 3 \u003d 8

și sistemul normal (2) are forma

Rezolvarea acestui sistem, obținem: B \u003d 0,425, a \u003d 1.175. Prin urmare, y \u003d 1.175 + 0.425x.

Exemplul 2. Există un eșantion de 10 observații privind indicatorii economici (X) și (Y).

x I. 180 172 173 169 175 170 179 170 167 174
y. 186 180 176 171 182 166 182 172 169 177

Este necesar să găsiți o ecuație de regresie selectivă pe X. Construiți o linie selectivă de regresie la X.

Decizie. 1. Vom organiza date despre valorile X I și Y I. Avem un nou tabel:

x I. 167 169 170 170 172 173 174 175 179 180
y. 169 171 166 172 180 176 177 182 182 186

Pentru a simplifica calculele, vom face tabelul calculat în care aduceți valorile numerice necesare.

x I. y. x i 2. x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
Σx i \u003d 1729 Σy i \u003d 1761 Σx I 2 299105 Σx i y i \u003d 304696
x \u003d 172.9. y \u003d 176.1. x I 2 \u003d 29910,5 xy \u003d 30469.6.6.6.

Conform formulei (4), calculați coeficientul de regresie

Și conform formulei (5)

Astfel, ecuația selectivă de regresie are forma Y \u003d -59.34 + 1.3804x.
Aplicarea pe planul de coordonate a punctului (x I; y i) și notați regresia directă.


Figura 4.

Figura 4 arată modul în care valorile observate sunt situate în raport cu linia de regresie. Pentru estimarea numerică a abaterilor de la Y I, unde se observă Y I și am determinat de regresia valorii, va fi o masă:

x I. y. Y. I-am
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Valorile lui i sunt calculate în conformitate cu ecuația de regresie.

O abatere vizibilă a unor valori observate de la linia de regresie este explicată printr-un număr mic de observații. În studiul gradului dependența liniară Y din x Numărul de observații este luat în considerare. Rezistența dependenței este determinată de coeficientul de corelație.

Care este aplicația mai largă în diferite domenii ale științei și activității practice. Poate fi fizică, chimie, biologie, economie, sociologie, psihologie și așa mai departe, așa mai departe. Voința de soarta trebuie adesea să se ocupe de economie și, prin urmare, vă voi executa un junior într-o țară uimitoare numită Econometric. \u003d) ... Cum nu vrei?! Există foarte bine - trebuie doar să decideți! ... dar aici este faptul că probabil că doriți cu siguranță - este de a învăța să rezolvăm sarcinile metodă de cele mai mici pătrate. Și în special cititorii diligenți vor învăța să le rezolve nu numai în mod inconfundabil, dar și foarte repede ;-) dar mai întâi stabilirea generală a sarcinii + Exemplu similar:

Să presupunem că în unele domenii, sunt investigați indicatorii care au o expresie cantitativă. În acest caz, există toate motivele să credem că indicatorul depinde de indicator. Această asistență poate fi o ipoteză științifică, precum și pe baza elementară bun simț. Lăsați, totuși, știința deoparte și explorați mai multe zone de aperitive - și anume, magazinele alimentare. Denotă de:

- zona comercială a magazinului de produse alimentare, mp.,
- cifra de afaceri anuală a magazinului de produse alimentare, milioane de ruble.

Este clar că cu cât suprafața magazinului este mai mare, cu atât mai mult în majoritatea cazurilor va exista mai mult cifra de afaceri.

Să presupunem că, după efectuarea observațiilor / experimentelor / numărătorului / dansurilor cu o tamburină la dispoziția noastră se numără datele numerice:

Cu oaspeți, cred că totul este clar: - aceasta este zona din primul magazin, - cifra de afaceri anuală, - zona celui de-al doilea magazin, - cifra de afaceri anuală etc. Apropo, nu este necesar să avem acces la materiale secrete - o estimare destul de precisă a cifrei de afaceri poate fi obținută prin mijloace statistici matematice. Cu toate acestea, nu suntem distrași, cursul spionajului comercial este deja plătit \u003d)

Datele despre tabar pot fi, de asemenea, scrise sub formă de puncte și descriu în obișnuința pentru noi. sistemul cartesian .

Răspundeți la o întrebare importantă: câte puncte sunt necesare pentru cercetarea de înaltă calitate?

Cu cât mai mare cu atât mai bine. Setul minim admisibil este compus din 5-6 puncte. În plus, cu o cantitate mică de date, rezultatele "anormale" nu pot fi incluse în eșantion. Deci, de exemplu, un mic magazin de elită poate ajuta mai mult "colegii lor", distorsionând astfel modelul general, care este obligat să găsească!

Dacă trebuie doar să alegeți o funcție, programa care trece cât mai aproape de puncte . Această caracteristică este numită aproximând (armonizare - aproximare) sau funcția teoretică . În general, aici apare imediat un "solicitant" evident - un grad înalt, al cărui program trece prin toate punctele. Dar această opțiune este complicată și adesea doar incorectă (pentru că programul va fi "buclă" tot timpul și va reflecta prost tendința principală).

Astfel, funcția dorită ar trebui să fie destul de simplă și, în același timp, reflectă dependența în mod adecvat. Cum ghiciți, una dintre metodele de găsire a acestor funcții și este numită metodă de cele mai mici pătrate. Mai întâi îl vom analiza în general. Lăsați o anumită funcție să aducă datele experimentale:


Cum să estimați acuratețea acestei aproximări? Calculați și diferențe (abateri) între valorile experimentale și funcționale (Învățarea desenului). Primul gând care vine în minte este de a evalua cât de mare este suma, dar problema este că diferențele pot fi negative (de exemplu, ) Și abaterile ca urmare a acestei rezumate vor fi separate reciproc. Prin urmare, ca o estimare a acurateței aproximării, este potrivit să acceptați suma module. Abateri:

sau în forma răsucite: (Brusc cineva nu știe: - Aceasta este pictograma sumară și variabila auxiliară "Counter", care ia valori de la 1 la).

Abordarea punctelor experimentale diverse funcții, Vom primi valori diferite și, evident, în cazul în care această sumă este mai mică - funcția este mai precisă.

Această metodă există și se numește metoda de cel mai mic module. Cu toate acestea, în practică, a primit mult mai mult distribuție metoda cea mai mică pătratăîn care posibilele valori negative nu sunt eliminate de modul, ci construirea abaterilor în piață:

, după care eforturile sunt îndreptate spre selecția unei astfel de funcții, astfel încât suma pătratelor de deviații Era cât mai puțin posibil. De fapt, deci numele metodei.

Și acum ne întoarcem la altul un moment important: După cum sa menționat mai sus, funcția selectată ar trebui să fie destul de simplă - dar există și o mulțime de astfel de funcții: liniar , hiperbolic, exponențială, logaritm, patratic etc. Și, desigur, i-ar dori imediat să "reducă domeniul de activitate". Ce clasă de funcții de a alege pentru cercetare? Recepție primitivă, dar eficientă:

- Cel mai ușor de portret În desen și analizați locația lor. Dacă acestea tind să fie plasate într-o linie dreaptă, atunci ar trebui să căutați ecuația Direct. cu valori optime și. Cu alte cuvinte, provocarea este de a găsi astfel de coeficienți - astfel încât suma pătratelor deviațiilor a fost cea mai mică.

Dacă punctele sunt situate, de exemplu, de către hyperball., nu este clar că funcția liniară va da o armonizare proastă. În acest caz, căutăm cele mai "profitabile" coeficienți pentru ecuația hiperbolului - cei care dau suma minimă de pătrate .

Acum, rețineți că în ambele cazuri vorbim funcțiile a două variabileale căror argumente sunt parametrii dependențelor dorite:

Și, în esență, trebuie să rezolvăm sarcina standard - să găsim funcția minimă a două variabile.

Amintiți-vă exemplul nostru: să presupunem că punctele "magazin" tind să fie amplasate într-o linie dreaptă și există toate motivele să presupunem că dependența liniară Cifra de afaceri a mărfurilor din zona comercială. Vom găsi astfel de coeficienți "A" și vom "fi" la suma pătratelor de deviații A fost cel mai mic. Totul este ca de obicei - mai întâi derivații privați ai ordinului 1. Conform regulă de liniaritate Puteți să vă diferențieți direct sub pictograma sumei:

Dacă doriți să utilizați aceste informații pentru un eseu sau cursuri - voi fi foarte recunoscător pentru link-ul din lista de surse, astfel de calcule detaliate vor găsi puțin unde:

Să facem un sistem standard:

Reducem fiecare ecuație pe "Deuce" și, în plus, "colaps" sumele:

Notă : Analiza independent de ce "a" și "be" poate fi scoasă din pictograma sumelor. Apropo, se poate face oficial cu suma

Rescrieți sistemul în formularul "aplicat":

După aceea, algoritmul de rezolvare a sarcinii noastre este început:

Coordonatele punctelor Știm? Noi stim. Cantitate Putem găsi? Uşor. Face mai simplu sistem de două ecuații liniare cu două necunoscute("A" și "fi"). Sistemul rezolvă, de exemplu, metoda Cramer.Ca rezultat, primim un punct staționare. Control o condiție suficientă a extremumului, vă puteți asigura că în acest moment funcția Ajunge exact minim. Verificarea este asociată cu calcule suplimentare și, prin urmare, lăsați-o pentru scene (Dacă este necesar, cadru lipsă poate fi vizualizat). Facem concluzia finală:

Funcţie cel mai bun mod (cel puțin în comparație cu orice altă funcție liniară) Se leagă punctele experimentale . Aproximativ vorbind, programul ei trece cât mai aproape de aceste puncte. În tradiție econometries. Funcția de aproximare rezultată este, de asemenea, numită ecuarea regresiei liniare asociate .

Problema examinată are o mare valoare practică. Într-o situație cu exemplul nostru, ecuația vă permite să preziceți ce cifră de afaceri comercială ("IGarek") va fi la magazin, cu o valoare diferită a zonei de tranzacționare (Tom sau altul înseamnă "x"). Da, prognoza rezultată va fi doar o prognoză, dar în multe cazuri va fi destul de precisă.

Voi da doar o singură sarcină cu numere "reale", deoarece nu există dificultăți în ea - toate calculele la nivelul programului școlar 7-8 clasa. În 95% din cazuri, veți fi invitați să găsiți o funcție liniară, dar la sfârșitul articolului voi arăta că nu este mai dificil să găsiți ecuațiile hiperblelor optime, expozanților și alte funcții.

De fapt, rămâne să distribuiți chifle promise - astfel încât ați învățat să rezolvați astfel de exemple nu numai cu exactitate, ci și rapid. Aflați cu atenție standardul:

O sarcină

Ca urmare a studiului relației dintre doi indicatori, au fost obținute următoarele perechi de numere:

Metoda de pătrate mai mici găsește o funcție liniară care aduce cel mai bine empiric (cu experienta) date. Faceți un desen pe care în sistemul de coordonare dreptunghiulară cartesian pentru a construi puncte experimentale și grafic al funcției apropiate . Găsiți suma pătratelor de deviere între valorile empirice și teoretice. Aflați dacă funcția va fi mai bună (din punctul de vedere al metodei cele mai mici pătrate) Aplicați punctele experimentale.

Rețineți că valorile "ICS" sunt naturale și are o semnificație semnificativă caracteristică, pe care o voi spune puțin mai târziu; Dar ei, desigur, pot fi fracționate. În plus, în funcție de conținutul unei sarcini ca "ICX", iar valorile "ignorabile" pot fi complet sau parțial negative. Ei bine, avem o sarcină "fără față și o începem decizie:

Coeficienții optimi funcții vor găsi ca o soluție a sistemului:

Pentru a înregistra o înregistrare mai compactă, variabila "contra" poate fi omisă, deoarece este clar că sumarea este efectuată de la 1 la.

Calculul cantităților necesare este mai convenabil pentru a se asigura într-o formă tabelară:


Calculele pot fi efectuate pe microcalculator, dar este mult mai bine să utilizați Excel - și mai rapid și fără erori; Urmărim un scurt videoclip:

Astfel, primim următoarele sistem:

Aici puteți multiplica a doua ecuație pentru 3 și de la prima ecuație pentru a scădea a doua. Dar acest noroc - în practică, sistemul este mai des înzestrat, iar în astfel de cazuri economisește metoda Cramer.:
Astfel încât sistemul are o singură soluție.

Efectuați un cec. Înțeleg că nu vreau, dar de ce să pierd greșelile unde nu pot fi absolut ratate? Înlocuiți soluția găsită în partea stângă a fiecărei ecuații de sistem:

Părțile drepte ale ecuațiilor respective sunt obținute, înseamnă că sistemul este rezolvat corect.

Astfel, funcția de aproximare dorită: - de la toate funcțiile liniare Datele experimentale se apropie cel mai bine.

Spre deosebire de drept Dependența magazinului de afaceri din piața sa, dependența găsită este invers (principiul "mai mult - cel mai puțin"), iar acest fapt este imediat detectat de negativ coeficientul unghiular. Funcţie ne spune că, cu o creștere a unui anumit indicator pe o unitate, valoarea indicatorului dependent scade in medie0,65 unități. După cum se spune, cu atât este mai mare prețul de hrișcă, cu atât mai puțin este vândut.

Pentru a construi un grafic al unei funcții de aproximare, vom găsi două dintre valorile sale:

Și faceți un desen:


Linia construită numită trend Linie. (și anume - linia de tendință liniară, adică în cazul general, tendința nu este neapărat o linie dreaptă). Toate expresia familiară "Fii în tendință", și, cred că acest termen nu are nevoie de comentarii suplimentare.

Calculați suma pătratelor de abateri între valorile empirice și teoretice. Geometric - aceasta este suma pătratelor de lungimea segmentelor "zmeură" (două dintre ele sunt atât de mici încât nu sunt chiar vizibile).

Calculele ne permiteți-ne în tabel:


Ele pot fi făcute din nou manual, doar în cazul în care voi aduce un exemplu pentru primul punct:

Dar mult mai eficient pentru a face o manieră cunoscută:

Încă o dată, repetați: care este sensul rezultatului? De toate funcțiile liniare funcţie Indicatorul este cel mai mic, adică în familia sa, aceasta este cea mai bună aproximare. Și aici, apropo, întrebarea finală a problemei nu este accidentală: ce se întâmplă dacă funcția exponențială propusă Va fi mai bine să aduceți punctele experimentale?

Noi găsim suma corespunzătoare a pătratelor de deviații - de a distinge, voi indica scrisoarea lor "Epsilon". Tehnica este exact aceeași:


Și din nou la fiecare calcul al incendiului pentru primul punct:

În Excel, folosim caracteristica standard Exp. (Sintaxa poate fi vizualizată în EXE HELP).

Ieșire: Prin urmare, funcția exponențială aduce punctele experimentale mai rău decât direct .

Dar trebuie remarcat faptul că "mai rău" este nu înseamnă, Ce s-a întâmplat. Acum a construit un grafic al acestei funcții exponențiale - și el trece, de asemenea, aproape de puncte - Da, astfel încât fără un studiu analitic și este dificil de spus, ce funcție este mai precisă.

Pe această decizie este finalizată și mă întorc la întrebarea valorilor naturale ale argumentului. În diverse studii, ca regulă, economică sau sociologică, naturală "ICES" luni numerice, ani sau alte intervale egale de timp. Luați în considerare, de exemplu, o astfel de sarcină.

Exemplu.

Date experimentale privind valorile variabile H. și W. Condusă în tabel.

Ca urmare a alinierii lor, a fost obținută o funcție

Folosind. Metoda cea mai mică pătrată, aproximativ dependența liniară a datelor y \u003d ax + b (Găsiți parametri dar și b.). Aflați care dintre cele două linii este mai bună (în sensul metodei cele mai mici pătrate) aliniază datele experimentale. Face un desen.

Esența metodei cele mai mici pătrate (MNC).

Sarcina este de a găsi coeficienții dependenței liniare în care funcția a două variabile dar și b. Ia cea mai mică valoare. Adică cu date dar și b. Suma pătratelor deviațiilor datelor experimentale de la linia directă va fi cea mai mică. Aceasta este întreaga esență a metodei celor mai mici pătrate.

Astfel, soluția de exemplu se reduce la găsirea funcției extremum a două variabile.

Afișează formula pentru identificarea coeficienților.

Un sistem de două ecuații cu două necunoscute este compilat și rezolvat. Găsim derivați privați în variabilă dar și b., echivalează acești derivați la zero.

Rezolvați sistemul rezultat al ecuațiilor prin orice metodă (de exemplu pentru o metodă de substituție Sau) și obținem formule pentru identificarea coeficienților folosind metoda cea mai mică pătrată (MNC).

Cu date. dar și B. funcţie Ia cea mai mică valoare. Dovada acestui fapt este dat.

Aceasta este întreaga metodă de cel puțin pătrate. Formula pentru găsirea unui parametru a. conține cantități ,, și parametru n. - Numărul de date experimentale. Valorile acestor sume sunt recomandate pentru a calcula separat. Coeficient b. Situat după calcul a..

Este timpul să vă amintiți despre exemplul sursei.

Decizie.

În exemplul nostru N \u003d 5.. Completați un tabel pentru confortul de calcul al cantităților care sunt incluse în formula coeficienților doritori.

Valorile din cea de-a patra linie a tabelului sunt obținute prin înmulțirea valorilor șirului al doilea la valorile șirului 3 pentru fiecare număr I..

Valorile din linia a cincea a tabelului sunt obținute prin construirea valorilor a 2-a șir pentru fiecare număr. I..

Valorile ultimei coloane a tabelului sunt sumele valorilor pe linii.

Folosim formulele metodei celei mai mici pătrate pentru găsirea coeficienților dar și b.. Înlocuim valorile corespunzătoare din ultima coloană a tabelului:

Prin urmare, y \u003d 0,165x + 2.184 - linia dreaptă apropiată.

Rămâne să afli care dintre linii y \u003d 0,165x + 2.184 sau Este mai bine să apropiați datele inițiale, adică este estimată prin metoda celor mai mici pătrate.

Evaluarea erorii metodei celei mai mici pătrate.

Acest lucru necesită calcularea sumelor pătratelor abaterilor datelor sursă din aceste linii. și O valoare mai mică corespunde unei linii mai bune în sensul metodei pătrate mai mici aproximează datele sursă.

De atunci, apoi drept y \u003d 0,165x + 2.184 Mai bine aduce datele sursă.

Ilustrare grafică a metodei cele mai mici pătrate (MNC).

Pe grafice totul este perfect vizibil. Linia roșie este foarte dreaptă y \u003d 0,165x + 2.184, linia albastră este Pozele roz sunt datele sursă.

Ce este necesar pentru toate aceste aproximări?

Folosesc personal pentru a rezolva problemele de a netezi datele, interpolarea și problemele de extrapolare (în exemplul inițial ar putea cere să găsească valoarea observată y. pentru x \u003d 3. sau pentru x \u003d 6. Conform metodei MND). Dar să vorbim mai multe despre acest lucru mai târziu într-o altă secțiune a site-ului.

Dovezi.

Așa cum sa găsit dar și b. Funcția a luat cea mai mică valoare, este necesar ca, în acest moment, matricea formei patrate a celei de-a doua ordine diferențială pentru funcția A fost definită pozitiv. Arat-o.

Diferența de ordinul doi este:

Adică

În consecință, matricea formei patrate este

iar valorile elementelor nu depind de dar și B..

Arătăm că matricea este definită pozitiv. Pentru aceasta, este necesar ca minorii unghiulari să fie pozitivi.

Colțul minor al primei ordini . Inegalitatea este strictă, deoarece punctele sunt nepotrivite. În viitor, vom însemna.

Second-Comandă Minor

Doveim că metoda de inducție matematică.

Ieșire: Valori găsite dar și B. corespund celei mai mici valori a funcției Prin urmare, sunt parametrii doritori pentru metoda celor mai mici pătrate.

Este utilizat pe scară largă într-o econometrie sub forma unei interpretări economice clare a parametrilor săi.

Regresia liniară se reduce la găsirea ecuației formularului

sau

Vizualizați ecuația permite valorile parametrilor specificate h.au valori teoretice ale caracteristicilor productive, substituind valorile reale ale factorului h..

Construcția regresiei liniare este redusă la evaluarea parametrilor săi - darși în.Estimările parametrilor regresiei liniare pot fi găsite prin diferite metode.

O abordare clasică a evaluării parametrilor de regresie liniară se bazează pe metodă de cele mai mici pătrate(MNC).

MNA vă permite să obțineți astfel de estimări ale parametrilor darși în,la care suma pătratelor de deviere a valorilor reale ale revoluției (y)de la decontare (teoretică) mi-Nimimna:

Pentru a găsi un minim de funcții, este necesar să se calculeze derivații de frecvență pentru fiecare dintre parametri darși b.și echivalează cu zero.

Denotă de S, atunci:

Conversia formulei, obținem următorul sistem de ecuații normale pentru a evalua parametrii dar și în:

Sistemul de soluționare a ecuațiilor normale (3.5) sau prin metoda de excludere în mod consecvent a variabilelor sau prin metoda determinanților, vom găsi estimările dorite ale parametrilor darși în.

Parametru în numit coeficientul de regresie. Valoarea sa arată modificarea medie a rezultatului cu o modificare a unui factor pe unitate.

Ecuația de regresie este întotdeauna completată de un indicator al etanșeității comunicării. Când utilizați regresie liniară, un coeficient de corelație liniară acționează ca un astfel de indicator. Există modificări diferite ale formulării coeficientului de corelare liniară. Unele dintre ele sunt mai jos:

După cum se știe, coeficientul de corelație liniară se află în limitele: -1 1.

Pentru a evalua calitatea selecției funcției liniare, pătratul este calculat

Coeficientul de corelație liniară numit coeficientul de determinare.Coeficientul de determinare caracterizează fracțiunea dispersiei producției y,explicată de regresie, într-o dispersie generală a unei caracteristici eficiente:

În consecință, suma 1 - caracterizează proporția de dispersuri-c y,cauzate de influența celorlalți care nu sunt înregistrate în modelul de factori.

Întrebări pentru auto-control

1. Esența celei mai mici metode pătrate?

2. Câte variabile sunt regresia pereche?

3. Ce coeficient este procurarea legăturii dintre modificări?

4. Ce limite determină coeficientul de determinare?

5. Evaluarea parametrului B în analiza corelației și regresiei?

1. Christopher Dugger. Introducere în economie. - M.: INFRA-M, 2001 - 402 P.

2. S.A. Borodich. Econometrie. Minsk LLC "Noi cunoștințe" 2001.


3. R.U. Rakhmetov Curs scurt pe econometrie. Tutorial. Almaty. 2004. -78C.

4. I.I. Eliseeva .Economic. - M.: "Finanțe și statistici", 2002

5. Informații lunare și jurnal analitic.

Modele economice neliniare. Modele de regresie nonlinear. Transformarea variabilelor.

Modele economice neliniare ..

Transformarea variabilelor.

Coeficientul de elasticitate.

Dacă există relații neuronale între fenomenele economice, ele sunt exprimate utilizând funcțiile neliniare corespunzătoare: de exemplu, hi-pebula echilaterală , parabolele de gradul al doilea și D.R.

Există două clase de regresii neliniare:

1. Regresia, neliniar față de cele incluse în analiza variabilelor explicative, dar liniară în funcție de parametrii estimați, de exemplu:

Polinomii de diferite grade -;

Hiperbolă echilaterală -;

Funcția jumătate fiziografică -.

2. Regresie, neliniar pe parametrii estimați, de exemplu:

Putere -;

Indicativ -;

Exponențială -.

Cantitatea totală de pătrate de deviații ale valorilor individuale ale caracteristica de performanță w.din valoarea medie este cauzată de efectul multor motive. În mod condiționat, împărțiți întregul set de motive pentru două grupuri: factorul X studiat.și alti factori.

Dacă factorul nu afectează rezultatul, atunci linia de regresie din program este paralelă cu axa ohși

Apoi, întreaga dispersie a semnului productiv se datorează impactului altor factori, iar cantitatea totală de pătrate de abateri va coincide cu reziduul. Dacă alți factori nu afectează rezultatul, atunci uleiul este conectatdin h.funcțional și suma reziduală a pătratelor este zero. În acest caz, suma pătratelor de deviații explicate prin regresie coincide cu pătratul total al pătratelor.

Deoarece nu toate punctele din câmpul de corelare se află pe linia de regresie, ea are întotdeauna loc împrăștia ca cauzată de influența factorului h., adică regresia w.de x,așa cauzată de acțiunea altor motive (variație inexplicabilă). Aprobabilitatea liniei de regresie pentru prognoza depinde de faptul că parte din variația totală a caracteristica w.reprezentând variația explicată

Evident, dacă suma pătratelor de deviații cauzate de regresie va fi mai mare decât suma reziduală a pătratelor, ecuația de regresie este semnificativă statistic și factor h.are un impact semnificativ asupra rezultatului y.

, adică cu numărul de libertate de variație independentă a caracteristicilor. Numărul de grade de libertate este asociat cu numărul de unități ale combinației de n și cu numărul de constante determinate de acesta. În ceea ce privește problema studiată, numărul de grade de libertate ar trebui să demonstreze cât de multe răspunsuri independente de la p.

Evaluarea importanței ecuației de regresie ca întreg este dată cu puterea F.-Criteria Fisher. În același timp, modelul zero este prezentat, ceea ce este coeficient zero, adică. b \u003d.0 și, prin urmare, un factor h.nu afectează rezultatul y.

Calculul direct al criteriului F este precedat de analiza dispersiei. Locul central în el ocupă descompunerea sumei totale a pătratelor abaterilor variabile w.din medie w.în două părți - "explicat" și "inexplicabil":

Suma totală a pătratelor de deviații;

Suma pătratelor deviației explicate prin regresie;

Suma reziduală a pătratelor de deviere.

Orice sumă a pătratelor de abateri este asociată cu numărul de pas-de , adică cu numărul de libertate de variație independentă a caracteristicilor. Numărul de grade de libertate este asociat cu numărul de unități de agregate n. și cu numărul de constante determinate de acesta. În ceea ce privește problema studiată, numărul libertății de libertate ar trebui să demonstreze cât de mult un răspuns independent de la p.posibilă necesară pentru formarea cantității de pătrate.

Dispersia unui grad de libertateD..

F-Criterii:

Ipoteza Eli Zero este corectă, atunci factorul și dispersia reziduală nu diferă una de cealaltă. Pentru H 0, este necesar pentru refuzarea, astfel încât dispersia factorului să depășească reziduul de mai multe ori. Statisticile în limba engleză a lui Snedacor o dată - Tabele de lucru Valori critice F.- Neads la diferite niveluri de ipoteză zero și diverse număr de grade. Valoarea tabelului F.-Criteria este raportul maxim de dispersie, care poate avea loc pentru divergența acestora pentru acest nivel de probabilitate de ipoteză zero. Calculată F.- Relația este recunoscută ca fiind fiabilă, dacă este mai tabară.

În acest caz, ipoteza zero despre absența semnelor de semne este respinsă și încheiată cu privire la semnificația acestei conexiuni: F de fapt\u003e tab masaH 0 deviază.

Dacă valoarea va fi mai puțin tabară F fapt \u003c, f tab , Probabilitatea de ipoteză zero este mai mare decât nivelul specificat și nu poate fi respins fără riscul serios de a încheia o concluzie greșită cu privire la disponibilitatea comunicării. În acest caz, ecuația de regresie este considerată nesemnificativă statistic. N despre nu se abatează.

Eroare de coeficient de regresie standard

Pentru a evalua semnificația coeficientului de regresie, este comparată cu eroarea sa standard, adică valoarea reală este determinată t.-Crediteria studentului: care este apoi comparată cu o valoare tabară la un anumit nivel de semnificație și numărul de grade de libertate ( n.- 2).

Parametrul de eroare standard dar:

Semnificația coeficientului de corelare liniară este testată pe baza valorii de eroare coeficient de corelație t r:

Semnul general de dispersie h.:

Regresie liniară multiplă

Modelul clădirii

Regresie multiplă reprezintă regresia unei caracteristici eficiente cu doi și număr mare de factori, adică modelul speciei

Regresia poate da bun rezultat La modelarea, dacă influența altor factori care afectează obiectul studiului poate fi neglijată. Comportamentul variabilelor economice individuale nu poate fi monitorizat, adică nu asigură egalitatea tuturor celorlalte condiții pentru evaluarea influenței celui în studiu. În acest caz, ar trebui să încercați să identificați influența altor factori prin introducerea acestora în model, adică post-rotire a ecuației de regresie multiple: y \u003d A + B 1 x 1 + B 2 + ... + B P X P + .

Scopul principal al regresiei multiple este de a construi un model cu un număr mare de factori, determinând în același timp efectul fiecăruia separat, precum și impactul cumulativ asupra indicatorului simulat. Specificația modelului include două cercuri de întrebări: selecția factorilor și alegerea tipului de ecuație de regresie

Vizualizări

Salvați la colegii de clasă Salvați Vkontakte