La méthode traditionnelle des plus petits carrés. Régression linéaire

La méthode traditionnelle des plus petits carrés. Régression linéaire

La méthode des moindres carrés (MNC) vous permet d'évaluer différentes valeurs en utilisant les résultats d'un ensemble de mesures contenant des erreurs aléatoires.

Caractéristique de mnk.

L'idée principale de cette méthode est que comme le critère de précision de résolution du problème, la somme des carrés d'erreurs, qu'ils s'efforcent de minimiser sont considérées. Lorsque vous utilisez cette méthode, une approche numérique et analytique peut être appliquée.

En particulier, en tant que mise en œuvre numérique, la méthode des plus petits carrés implique un plus grand nombre de mesures inconnues autant que possible. variable aléatoire. De plus, plus les calculs sont les plus précis seront la solution. Dans cet ensemble de calcul (données source), un autre ensemble de solutions alléguées est obtenue, à partir duquel le meilleur est ensuite sélectionné. Si une pluralité de solutions à paramétrer, le procédé des plus petits carrés est réduit à la recherche de la valeur optimale des paramètres.

Comme une approche analytique de la mise en œuvre de la MNA sur une pluralité de données sources (mesures) et l'ensemble de solutions estimé, certaines (fonctionnelles) sont déterminées, qui peuvent être exprimées par la formule obtenue comme une certaine hypothèse nécessitant une confirmation. Dans ce cas, la méthode de moindres carrés est réduite à la recherche d'un minimum de ce fonctionnel sur l'ensemble des carrés d'erreurs de données source.

Notez que pas les erreurs elles-mêmes, à savoir les carrés d'erreurs. Pourquoi? Le fait est que souvent des écarts de mesures de valeur précise Il y a à la fois positif et négatif. Lors de la détermination de la sommation simple moyenne, cela peut conduire à une conclusion incorrecte sur la qualité de l'évaluation, car la destruction mutuelle de valeurs positives et négatives réduira la puissance de l'échantillonnage de l'ensemble des mesures. Et, par conséquent, l'exactitude de l'évaluation.

Afin de ne pas arriver et résumez les carrés des déviations. En outre, pour niveler la dimension de la valeur mesurée et l'évaluation finale, de la somme des carrés des erreurs

Quelques applications MNK

MNC est largement utilisé dans divers domaines. Par exemple, dans la théorie des statistiques de probabilité et de mathématiques, la méthode est utilisée pour déterminer cette caractéristique d'une variable aléatoire, comme une déviation quadratique moyenne qui détermine la largeur de la plage de valeurs de variance aléatoire.

Méthode la moins carrée Utilisé pour estimer les paramètres, l'équation de régression.

Une des méthodes d'étude des liens stochastiques entre les signes est une analyse de régression.
L'analyse de régression est la conclusion de l'équation de régression avec laquelle valeur moyenne Une variable aléatoire (signer-résultat), si la valeur d'une autre (ou d'une autre) variables (facteurs) est connue. Il comprend les étapes suivantes:

  1. sélection du formulaire de communication (type d'équation de régression analytique);
  2. estimation des paramètres de l'équation;
  3. Évaluation de la qualité de l'équation de régression analytique.
Le plus souvent, une forme linéaire est utilisée pour décrire la connexion statistique des signes. L'avertissement de la communication linéaire est dû à une interprétation économique claire de ses paramètres, limitée par des variables par variables et dans la plupart des cas, des formes non linéaires de communication pour les calculs sont transformées (par logarithanding ou remplaçant les variables) sous une forme linéaire.
Dans le cas d'une liaison de paire linéaire, l'équation de régression prendra la forme: y i \u003d a + b · x i + u i. Les paramètres de cette équation A et B sont estimés en fonction de l'observation statistique X et Y. Le résultat d'une telle évaluation est l'équation: où - estimations des paramètres A et B, - la valeur de la fonctionnalité résultante obtenue par l'équation de régression (valeur calculée).

Le plus souvent pour estimer les paramètres d'utilisation méthode de moindres carrés (MNC).
La méthode des moindres carrés donne les meilleures estimations (riches, efficaces et déverrouillées) des paramètres de l'équation de régression. Mais seulement si certaines conditions préalables sont effectuées relatives à un terme aléatoire (U) et à une variable indépendante (x) (voir les arrière-plans du MNC).

Le problème de l'évaluation des paramètres de l'équation de paire linéaire par la méthode des moindres carrés Il consiste en ce qui suit: Pour obtenir de telles estimations des paramètres, à laquelle la somme des carrés des écarts des valeurs réelles du signe effectif i sur les valeurs calculées est minime.
Officiellement critère mnk. Vous pouvez écrire comme ça: .

Classification des méthodes de moindres carrés

  1. Méthode la moins carrée.
  2. La méthode de véridice maximale (pour un modèle de régression linéaire classique normal, la normalité des résidus de régression est reportée).
  3. La méthode généralisée de plus petits carrés d'Omna est utilisée en cas d'autocorrélation d'erreurs et dans le cas de l'hétérosdasticité.
  4. La méthode de suspension les plus petites carrés (un cas particulier d'Omna avec des résidus hétéros-visases).

Nous illustrons l'essence méthode carrée classique la plus petite graphique. Pour ce faire, nous construisons une planification ponctuelle selon les observations (x i, y i, i \u003d 1; n) dans un système de coordonnées rectangulaire (un tel tableau à point est appelé champ de corrélation). Nous allons essayer de choisir une ligne droite la plus proche des points du champ de corrélation. Selon la méthode des moindres carrés, la ligne est sélectionnée de manière à ce que la somme des carrés des distances verticales entre les points du champ de corrélation et cette ligne soit minimale.

Enregistrement mathématique de cette tâche: .
Les valeurs de y i et x i \u003d 1 ... n sont connues de nous, ce sont des données d'observation. Dans la fonction S, ils sont des constantes. Les variables de cette fonctionnalité sont les estimations de paramètres souhaitées - ,. Pour trouver au minimum les fonctions de 2 variables, il est nécessaire de calculer les dérivés privés de cette fonction pour chacun des paramètres et les assimiler zéro, c'est-à-dire .
En conséquence, nous obtenons un système de 2 normal équations linéaires:
Résolution ce système, Trouvez les estimations de paramètres souhaitées:

L'exactitude du calcul des paramètres de l'équation de régression peut être testée en comparant les montants (peut-être une certaine divergence due aux calculs d'arrondi).
Pour calculer les estimations des paramètres, vous pouvez construire le tableau 1.
Signe de coefficient de régression indique la direction de la communication (si B\u003e 0, la ligne est directe, si b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formalement la valeur du paramètre A est la valeur moyenne de y avec x égale à zéro. Si le signataire n'a pas et ne peut pas avoir de valeur nulle, alors l'interprétation ci-dessus du paramètre et n'a pas de sens.

Estimation de l'étanchéité de la communication entre les signes Il est réalisé en utilisant le coefficient de corrélation de paire linéaire - R x, y. Il peut être calculé par la formule: . De plus, le coefficient de corrélation de couplage linéaire peut être déterminé à travers le coefficient de régression B: .
La zone de valeurs admissibles du coefficient linéaire de corrélation de paires de -1 à +1. Le signe de coefficient de corrélation indique la direction de la communication. Si r x, y\u003e 0, alors la connexion est droite; Si r x, y<0, то связь обратная.
Si ce coefficient est proche d'un, la connexion entre les caractéristiques peut être interprétée comme assez étroite linéaire. Si son module est égal à une unité ê R x, y ê \u003d 1, la connexion entre les signes est fonctionnelle linéaire. Si les signes X et Y sont indépendants linéairement, alors r x, y est proche de 0.
Pour calculer R x, y peut également utiliser le tableau 1.

Pour évaluer la qualité de l'équation de régression obtenue, le coefficient de détermination théorique est calculé - R 2 YX:

,
où d 2 est la dispersion de y; expliqué par l'équation de régression;
e 2 - Dispersion résiduelle (équation de régression inexpliquée) Y;
s 2 Y est une dispersion totale (complète) Y.
Le coefficient de détermination caractérise la proportion de variation (dispersion) du signe efficace Y, expliqué par la régression (et, par conséquent, le facteur X), dans la variation générale (dispersion) y. Le coefficient de détermination R 2 YX prend des valeurs de 0 à 1. En conséquence, la valeur de 1-R 2 YX caractérise la fraction de la dispersion Y provoquée par l'influence d'autres facteurs non comptabilisés dans le modèle et les erreurs de spécification.
Avec une régression linéaire appariée R 2 YX \u003d R 2 YX.

Exemple.

Données expérimentales sur les valeurs variables H. et W. Conduit dans la table.

À la suite de leur alignement, une fonction a été obtenue

Utilisant Méthode la moins carrée, approximate de cette dépendance linéaire de données y \u003d hache + b (Trouvez des paramètres mais et b.). Découvrez laquelle des deux lignes est meilleure (dans le sens de la méthode des moindres carrés) aligne les données expérimentales. Faites un dessin.

L'essence de la méthode des moindres carrés (MNC).

La tâche est de trouver les coefficients dépendance linéaire, dans lequel la fonction de deux variables mais et b. Prend la plus petite valeur. C'est-à-dire avec des données mais et b. La somme des carrés des écarts des données expérimentales de la ligne directe sera la plus petite. C'est l'essence de la méthode des moindres carrés.

Ainsi, la solution d'exemple se présente pour trouver la fonction extremum de deux variables.

Affiche la formule pour trouver des coefficients.

Un système de deux équations avec deux inconnues est compilé et résolu. Nous trouvons des dérivés privés dans la variable mais et b., assimilez ces dérivés à zéro.

Résoudre le système d'équations résultant par n'importe quel procédé (par exemple pour une méthode de substitution ou) et nous obtenons des formules pour trouver des coefficients utilisant la méthode des moindres carrés (MNC).

Avec des données mais et B. une fonction Prend la plus petite valeur. La preuve de ce fait est donnée.

C'est la méthode entière de moindres carrés. Formule pour trouver un paramètre uNE. contient des quantités, et des paramètres n. - Nombre de données expérimentales. Les valeurs de ces sommes sont recommandées pour calculer séparément. Coefficient b. Situé après le calcul uNE..

Il est temps de se souvenir de l'exemple source.

Décision.

Dans notre exemple N \u003d 5.. Remplissez une table pour la commodité de calcul des quantités incluses dans la formule des coefficients souhaités.

Les valeurs de la quatrième ligne de la table sont obtenues en multipliant les valeurs de la 2e chaîne aux valeurs de la 3ème chaîne pour chaque numéro. JE..

Les valeurs de la cinquième ligne de la table sont obtenues par la construction des 2nd valeurs de chaîne pour chaque numéro. JE..

Les valeurs de la dernière colonne de la table sont les sommes de valeurs par des lignes.

Nous utilisons les formules de la méthode des moindres carrés pour trouver des coefficients mais et b.. Nous substituons les valeurs correspondantes de la dernière colonne de la table:

D'où, y \u003d 0.165x + 2.184 - la ligne droite souhaitée souhaitée.

Il reste à savoir laquelle des lignes y \u003d 0.165x + 2.184 ou alors Il est préférable de se rapprocher des données initiales, c'est-à-dire qu'elle est estimée par la méthode des plus petits carrés.

Évaluation de l'erreur de la méthode des moindres carrés.

Cela nécessite de calculer les sommes des carrés des écarts des données source de ces lignes. et Une valeur plus petite correspond à une ligne meilleure dans le sens de la méthode carrée plus petite se rapproche des données source.

Depuis, alors droit y \u003d 0.165x + 2.184 Mieux apporte les données source.

Illustration graphique de la méthode des moindres carrés (MNC).

Sur les graphiques, tout est parfaitement visible. La ligne rouge est la droite trouvée y \u003d 0.165x + 2.184, la ligne bleue est Les points roses sont les données source.

Qu'est-ce qui est nécessaire pour toutes ces approximations?

Personnellement, j'utilise pour résoudre les problèmes de lissage des données, d'interpolation et d'extrapolation (dans l'exemple initial pourraient demander à trouver la valeur observée y. pour x \u003d 3. ou pour x \u003d 6. Selon la méthode MND). Mais parlons-en plus à ce sujet plus tard dans une autre section du site.

Preuve.

Donc, comme pour trouvé mais et b. La fonction a pris la plus petite valeur, il est nécessaire que, à ce stade, la matrice de la forme quadratique du différentiel de deuxième ordre pour la fonction C'était défini positivement. Montre le.

Le différentiel de second ordre est:

C'est à dire

Par conséquent, la matrice de forme quadratique est

et les valeurs des éléments ne dépendent pas de mais et B..

Nous montrons que la matrice est définie positivement. Pour ce faire, il est nécessaire que les mineurs angulaires soient positifs.

Coin mineur du premier ordre . L'inégalité est stricte, car les points sont incompatibles. À l'avenir, nous voulons dire.

Coin de second ordre mineur

Nous prouvons que méthode d'induction mathématique.

Production: Valeurs trouvées mais et B. correspondent à la plus petite valeur de la fonction Par conséquent, sont les paramètres souhaités pour la méthode des plus petits carrés.

Après alignement, nous obtenons la fonction du formulaire suivant: g (x) \u003d x + 1 3 + 1.

Nous pouvons approcher ces données à l'aide de la dépendance linéaire Y \u003d A x + B, calculez les paramètres correspondants. Pour ce faire, nous devrons appliquer la méthode de soi-disant moindre carrée. Il sera également nécessaire de faire un dessin pour vérifier quelle ligne va mieux aligner les données expérimentales.

Quel est exactement le MNC (la méthode des moindres carrés)

La principale chose que nous devons faire est de trouver de tels coefficients de dépendance linéaire, dans laquelle la valeur de la fonction de deux variables f (a, b) \u003d σ i \u003d 1 n (yi - (axi + b)) 2 volonté être le plus petit. En d'autres termes, à certaines valeurs d'A et B, la somme des carrés des écarts des données soumises de la valeur directe résultante aura une valeur minimale. C'est la signification de la méthode carrée plus petite. Tout ce que nous devons faire pour résoudre l'exemple est de trouver la fonction extremum de deux variables.

Comment produire des formules pour calculer les coefficients

Afin de générer la formule de calcul des coefficients, il est nécessaire de compiler et de résoudre le système d'équations avec deux variables. Pour ce faire, nous calculons les dérivés privés des expressions f (a, b) \u003d σ i \u003d 1 n (y i - (A x i + b)) 2 par a et b et les assimilez à 0.

Δ f (a, b) δ a \u003d 0 Δ f (a, b) δ b \u003d 0 ⇔ - 2 σ i \u003d 1 n (yi - (axi + b)) xi \u003d 0 - 2 σ i \u003d 1 n ( yi - (axi + b)) \u003d 0 ⇔ une σ i \u003d 1 nxi 2 + b σ i \u003d 1 nxi \u003d σ i \u003d 1 nxiyia σ i \u003d 1 nxi + σ i \u003d 1 nb \u003d σ i \u003d 1 nyi ⇔ un Σ i \u003d 1 nxi 2 + b σ i \u003d 1 nxi \u003d σ i \u003d 1 nxiyia σ i \u003d 1 nxi + nb \u003d σ i \u003d 1 nyi

Pour résoudre le système d'équations, vous pouvez utiliser n'importe quelle méthode, par exemple une substitution ou une méthode de craveur. En conséquence, nous devons obtenir des formules avec lesquelles les coefficients selon la méthode des moindres carrés sont calculés.

n σ i \u003d 1 n x je y i - σ i \u003d 1 n x i σ i \u003d 1 n y i n σ i \u003d 1 n - σ i \u003d 1 n x i 2 b \u003d σ i \u003d 1 n y - a σ i \u003d 1 n x i n

Nous avons calculé des valeurs variables à quelle fonction
F (A, B) \u003d σ i \u003d 1 N (Y i - (A x i + b)) 2 prendra la valeur minimale. Dans le troisième paragraphe, nous prouvons pourquoi il est précisément la même chose.

C'est l'utilisation de la méthode carrée plus petite dans la pratique. Sa formule, qui est utilisée pour rechercher un paramètre A, comprend σ i \u003d 1 n x i, σ i \u003d 1 n y i, σ i \u003d 1 n x i i i, σ i \u003d 1 n x i 2, et le paramètre
N - Le nombre de données expérimentales est indiqué. Nous vous conseillons de calculer chaque montant séparément. La valeur du coefficient B est calculée immédiatement après une.

Retournez à nouveau à l'exemple original.

Exemple 1.

Ici nous avons n est cinq. Pour faciliter le calcul des quantités nécessaires incluses dans les formules des coefficients, remplissez la table.

i \u003d 1. i \u003d 2. i \u003d 3. I \u003d 4. I \u003d 5. Σ i \u003d 1 5
X I. 0 1 2 4 5 12
Y I. 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x je y je 0 2 , 4 5 , 2 11 , 2 15 33 , 8
X i 2. 0 1 4 16 25 46

Décision

La quatrième ligne comprend les données obtenues en multipliant les valeurs de la deuxième ligne aux troisièmes valeurs pour chaque individu i. La cinquième ligne contient des données de la seconde, élevées au carré. La dernière colonne résume les valeurs des lignes individuelles.

Nous utilisons la méthode des moindres carrés pour calculer les coefficients dont vous avez besoin et b. Pour ce faire, nous substituons les valeurs souhaitées de la dernière colonne et nous calculons le montant:

n Σ i \u003d 1 nxiyi - σ i \u003d 1 nxi σ i \u003d 1 Nyin σ i \u003d 1 n - σ i \u003d 1 nxi 2 b \u003d σ i \u003d 1 nyi - un σ i \u003d 1 nxin ⇒ a \u003d 5 · 33 8 - 12 · 12, 9 5 · 46 - 12 2 B \u003d 12, 9 - A · 12 5 ⇒ A ≈ 0, 165 B ≈ 2, 184

Nous avions besoin que l'approximation souhaitée souhaité ressemble à Y \u003d 0, 165 x + 2, 184. Maintenant, nous devons déterminer quelle ligne sera préférable de se rapprocher des données - g (x) \u003d x + 1 3 + 1 ou 0, 165 x + 2, 184. Nous évaluerons en utilisant la méthode des moindres carrés.

Pour calculer l'erreur, nous devons trouver les sommes des carrés des écarts de données de la σ directe 1 \u003d X i \u003d 1 n (Yi - (Axi + Bi)) 2 et σ 2 \u003d σ i \u003d 1 n (yi - g (xi)) 2, la valeur minimale correspond à une ligne plus approprié.

σ 1 \u003d X i \u003d 1 n (yi - (axi + bi)) 2 \u003d \u003d σ i \u003d 1 5 (yi - (0, 165 xi + 2, 184)) 2 ≈ 0, 019 σ 2 \u003d X i \u003d 1 N (yi - g (xi)) 2 \u003d \u003d σ i \u003d 1 5 (Yi - (XI + 1 3 + 1)) 2 0, 096

Répondre: Depuis σ 1.< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
Y \u003d 0, 165 x + 2, 184.

La méthode des moindres carrés est clairement montrée dans l'illustration graphique. Avec l'aide de la ligne rouge, droite g (x) \u003d x + 1 3 + 1, bleu - y \u003d 0, 165 x + 2, 184 est marquée. Les données initiales sont indiquées par des points roses.

Expliquons quelle est exactement l'approximation d'un type similaire.

Ils peuvent être utilisés dans des tâches nécessitant un lissage des données, ainsi que dans ceux où les données doivent être interpolées ou extrapolées. Par exemple, dans le problème, désassemblé ci-dessus, il serait possible de trouver la valeur de la valeur observée Y à x \u003d 3 ou à x \u003d 6. De tels exemples nous avons consacré un article distinct.

Preuve de la méthode MNK

Pour que la fonction de prendre la valeur minimum à la valeur calculée de A et B, il est nécessaire que, à ce stade de la matrice de la forme quadratique de la fonction différentielle de la forme F (a, b) \u003d σ i \u003d 1 n ( Yi - (Axi + B)) 2 a été défini positivement. Montrons comment ça devrait ressembler.

Exemple 2.

Nous avons un différentiel de deuxième ordre:

d 2 F (A; B) \u003d δ 2 F (A; B) Δ A 2 D 2 A + 2 Δ 2 F (A; B) δ A Δ BDADB + Δ 2 F (A; B) Δ B 2 D 2 B.

Décision

δ 2 f (a, b) δ a 2 \u003d δ δ f (a, b) δ a δ a \u003d \u003d δ - 2 σ i \u003d 1 n (yi - (axi + b)) xi δ a \u003d 2 σ i \u003d 1 N (xi) 2 δ 2 F (A; B) Δ A Δ B \u003d Δ Δ F (A; B) δ A δ b \u003d \u003d δ - 2 σ i \u003d 1 N (Yi - (Axi + B) ) xi δ b \u003d 2 i \u003d 1 nxi δ 2 f (a; b) δ b 2 \u003d δ δ f (a; b) δ b δ b \u003d δ - 2 σ i \u003d 1 n (yi - (Axi + b)) Δ b \u003d 2 σ i \u003d 1 n (1) \u003d 2 N

En d'autres termes, il peut être écrit comme suit: D 2 F (A; B) \u003d 2 σ I \u003d 1 N (xi) 2 D 2 A + 2 · 2 σ xii \u003d 1 ND è DB + (2 N) D 2 b.

Nous avons obtenu la matrice de la forme quadratique m \u003d 2 σ i \u003d 1 n (x i) 2 2 σ i \u003d 1 n x i 2 σ i \u003d 1 n x i 2 n.

Dans ce cas, les valeurs des éléments individuels ne varieront pas en fonction de A et de B. Cette matrice est-elle définie positive? Pour répondre à cette question, vérifiez si ses mineurs de coin sont positifs.

Calculez le coin de premier ordre de la première commande: 2 σ i \u003d 1 n (x i) 2\u003e 0. Puisque les points que je ne coïncident pas, l'inégalité est stricte. Nous aurons cela à l'esprit pour des calculs supplémentaires.

Calculez le mineur angulaire du deuxième ordre:

d E T (m) \u003d 2 Σ i \u003d 1 n (x i) 2 2 σ i \u003d 1 n x i 2 Σ i \u003d 1 n x i 2 n \u003d 4 n Σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n i x 2

Après cela, nous nous tournons vers la preuve de l'inégalité n σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n x i 2\u003e 0 en utilisant l'induction mathématique.

  1. Vérifiez si cette inégalité sera valide pour l'arbitraire n. Prenez 2 et calculez:

2 Σ i \u003d 1 2 (xi) 2 - σ i \u003d 1 2 xi 2 \u003d 2 x 1 2 + x 2 2 - x 1 + x 2 2 \u003d x 1 2 - 2 x 1 x 2 + x 2 2 \u003d x 1 + x 2 2\u003e 0

Nous avons une égalité fidèle (si les valeurs X 1 et X 2 ne sont pas coïnées).

  1. Nous supposons que cette inégalité sera fidèle à N, c'est-à-dire n σ i \u003d 1 n (x i) 2 - σ i \u003d 1 n x i 2\u003e 0 est valide.
  2. Maintenant, nous prouvons la justice à N + 1, c'est-à-dire qui (n + 1) σ i \u003d 1 n + 1 (xi) 2 - σ i \u003d 1 n + 1 xi 2\u003e 0, si le n σ i \u003d 1 n (xi) 2 est σ i \u003d 1 nxi 2\u003e 0.

Calculer:

(n + 1) Σ i \u003d 1 n + 1 (xi) 2 - σ i \u003d 1 n + 1 xi 2 \u003d (n + 1) σ i \u003d 1 n (xi) 2 + xn + 1 2 - σ i \u003d 1 nxi + xn + 1 2 \u003d n σ i \u003d 1 n (xi) 2 + n · xn + 1 2 + σ i \u003d 1 n (xi) 2 + xn + 1 2 - - σ i \u003d 1 nxi 2 + 2 xn + 1 σ i \u003d 1 nxi + xn + 1 2 \u003d X i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + n · xn + 1 2 - xn + 1 σ i \u003d 1 nxi + σ i \u003d 1 n (xi) 2 \u003d \u003d σ i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 +. . . + Xn + 1 2 - 2 xn + 1 x 1 + xn 2 \u003d \u003d n Σ i \u003d 1 n (xi) 2 - σ i \u003d 1 nxi 2 + + (xn + 1 - x 1) 2 + (x + 1 - x 2) 2 +. . . + (x n - 1 - x n) 2\u003e 0

L'expression conclue par des supports bouclés sera supérieure à 0 (sur la base de ce que nous avons supposé au paragraphe 2) et les termes restants seront supérieurs à 0, car ils sont tous des carrés de chiffres. Nous avons prouvé l'inégalité.

Répondre: Trouvé a et b correspond à la plus petite valeur de la fonction f (a, b) \u003d σ i \u003d 1 n (yi - (axi + b)) 2, cela signifie que ce sont les paramètres souhaités de la méthode des moindres carrés ( Mnk).

Si vous remarquez une erreur dans le texte, sélectionnez-la et appuyez sur Ctrl + Entrée.

En choisissant un type de fonction de régression, c'est-à-dire Le type de modèle de dépendance de la dépendance Y de x (ou x de y), par exemple, le modèle linéaire Y X \u003d A + BX, il est nécessaire de déterminer les valeurs spécifiques des coefficients de modèle.

A différentes valeurs, A et B, un nombre infini de dépendances de la forme YX \u003d A + BX peut être construit sur le plan de coordonnées Il existe un nombre infini de direct, nous avons également besoin d'une telle dépendance qui correspond aux valeurs observées. de la meilleure façon possible. Ainsi, la tâche est réduite à la sélection des meilleurs coefficients.

Fonction linéaire A + BX Nous recherchons uniquement sur certaines observations existantes. Pour trouver une fonction avec la meilleure conformité avec les valeurs observées, nous utilisons la méthode des plus petits carrés.

Notez: y i - la valeur calculée par l'équation y i \u003d a + bx i. Y I est la valeur mesurée, ε i \u003d y i -y i - la différence entre les mesures mesurées et calculées par les valeurs d'équation, ε i \u003d y i -a-bx i.

Dans la méthode des moindres carrés, ε i, la différence entre les mesurées Y I et les valeurs calculées par les valeurs d'équation Y, j'étais minime. Par conséquent, nous trouvons les coefficients a et b afin que la somme des carrés des écarts des valeurs observées des valeurs de la ligne droite de la régression s'est avérée être la plus petite:

Explorer cette fonction d'arguments A et utilisant des dérivés à l'extrême, il peut être prouvé que la fonction prend la valeur minimale si les coefficients A et B sont des solutions système:

(2)

Si nous divisons les deux parties d'équations normales sur N, alors nous obtenons:

Étant donné que (3)

Recevoir D'ici, substituer la valeur A dans la première équation, nous obtenons:

Dans le même temps, B s'appelle le coefficient de régression; A s'appelle un membre libre de l'équation de régression et calculez selon la formule:

Le direct qui en résulte est une estimation de la ligne théorique de régression. On a:

Donc, C'est l'équation de la régression linéaire.

La régression peut être droite (B\u003e 0) et inverse (B exemple 1. Les résultats de mesure des valeurs X et Y sont donnés dans le tableau:

x I. -2 0 1 2 4
y I. 0.5 1 1.5 2 3

En supposant qu'entre X et Y, il existe une dépendance linéaire Y \u003d A + BX, quelle méthode de moindres carrés déterminent les coefficients A et B.

Décision. Ici n \u003d 5
x i \u003d -2 + 0 + 1 + 2 + 4 \u003d 5;
x i 2 \u003d 4 + 0 + 1 + 4 + 16 \u003d 25
x I y i \u003d -2 0,5 + 0 1 + 1 1,5 + 2 2 + 4 3 \u003d 16.5
y i \u003d 0.5 + 1 + 1,5 + 2 + 3 \u003d 8

et le système normal (2) a la forme

Résoudre ce système, nous obtenons: B \u003d 0,425, A \u003d 1,175. Par conséquent, y \u003d 1,175 + 0,425x.

Exemple 2. Il existe un échantillon de 10 observations d'indicateurs économiques (x) et (y).

x I. 180 172 173 169 175 170 179 170 167 174
y I. 186 180 176 171 182 166 182 172 169 177

Il est nécessaire de trouver une équation de régression sélective sur X. Construire une ligne sélective de régression Y à X.

Décision. 1. Nous organiserons des données sur les valeurs X I et Y I. Nous avons une nouvelle table:

x I. 167 169 170 170 172 173 174 175 179 180
y I. 169 171 166 172 180 176 177 182 182 186

Pour simplifier les calculs, nous effectuerons la table calculée dans laquelle vous apportez les valeurs numériques nécessaires.

x I. y I. x i 2. x je y je
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
Σx i \u003d 1729 Σy i \u003d 1761 Σx I 2 299105 Σx je y i \u003d 304696
x \u003d 172.9 y \u003d 176.1. x i 2 \u003d 29910.5 xy \u003d 30469.6

Selon la formule (4), calculez le coefficient de régression

et selon la formule (5)

Ainsi, l'équation sélective de la régression a la forme Y \u003d -59.34 + 1.3804X.
Application sur le plan de coordonnées du point (x i; y i) et notez la régression directe.


Figure 4.

La figure 4 montre comment les valeurs observées sont situées par rapport à la ligne de régression. Pour l'estimation numérique des écarts y i de y i i, où je suis observé, et je suis déterminé par la régression de la valeur, sera une table:

x I. y I. Y I. Y i -y je
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Les valeurs de Y I sont calculées en fonction de l'équation de régression.

Une déviation notable de certaines valeurs observées de la ligne de régression est expliquée par un petit nombre d'observations. Dans l'étude du degré de dépendance linéaire Y de X, le nombre d'observations est pris en compte. La force de la dépendance est déterminée par le coefficient de corrélation.

Vues

Enregistrer sur les camarades de classe sauver vkontakte