この関数を次数 2 の多項式で近似してみましょう。 これを行うには、正規方程式系の係数を計算します。
, ,
次の形式を持つ通常の最小二乗法システムを作成してみましょう。
このシステムの解決策は簡単に見つかります:、、、。
したがって、2 次の多項式が見つかります。
理論情報
ページに戻る<Введение в вычислительную математику. Примеры>
例 2。 多項式の最適な次数を見つける。
ページに戻る<Введение в вычислительную математику. Примеры>
例 3。 経験的依存関係のパラメータを見つけるための正規方程式系の導出。
係数と関数を決定するための連立方程式を導出してみましょう 、二乗平均平方根近似を実行します。 与えられた関数ポイントで。 関数を作ってみましょう そして彼女のためにそれを書き留めてください 必要な条件極値:
通常のシステムは次の形式になります。
未知のパラメータに対する線形方程式系が得られ、これは簡単に解けます。
理論情報
ページに戻る<Введение в вычислительную математику. Примеры>
例。
変数の値に関する実験データ バツそして でを表に示します。
それらを整列させた結果、次のような機能が得られます。
使用する 最小二乗法、これらのデータを線形依存によって近似します。 y=ax+b(パラメータを見つける あそして b)。 2 つの線のどちらが (最小二乗法の意味で) 実験データとよりよく一致しているかを見つけます。 図面を作成します。
最小二乗法 (LSM) の本質。
タスクは、2 つの変数の関数が次のような線形依存係数を見つけることです。 あそして b受け入れる 最小値。 つまり、与えられた あそして b見つかった直線からの実験データの偏差の二乗の合計が最小になります。 これが最小二乗法の要点です。
したがって、この例を解くことは、結局 2 つの変数の関数の極値を見つけることになります。
係数を見つけるための公式の導出。
2 つの未知数を含む 2 つの方程式系がコンパイルされ、解決されます。 関数の偏導関数を求める 変数による あそして b、これらの微分値をゼロとみなします。
結果として得られる連立方程式を、任意の方法 (たとえば、 置換法によるまたは Cramer の方法)、最小二乗法 (LSM) を使用して係数を見つけるための式を取得します。
与えられた あそして b関数 は最小値をとります。 この事実の証拠は、ページの最後にある本文に記載されています。
これが最小二乗法全体の方法です。 パラメータを求める公式 ある sum 、 、 、およびパラメータが含まれます n— 実験データの量。 これらの金額の値を個別に計算することをお勧めします。
係数 b計算後に見つかった ある.
元の例を思い出してみましょう。
解決。
私たちの例では n=5。 必要な係数の式に含まれる量を計算する便宜のために、表に記入します。
表の4行目の値は、各数値ごとに2行目の値と3行目の値を乗算して得られます。 私.
表の 5 行目の値は、各数値の 2 行目の値を 2 乗することで得られます。 私.
表の最後の列の値は、各行の値の合計です。
最小二乗法の公式を使用して係数を見つけます あそして b。 テーブルの最後の列の対応する値をそれらに代入します。
したがって、 y = 0.165x+2.184— 目的の近似直線。
どの行を見つけるかはまだ残っています y = 0.165x+2.184または 元のデータをより適切に近似します。つまり、最小二乗法を使用して推定を行います。
最小二乗法の誤差推定。
これを行うには、これらの行からの元のデータの偏差の二乗の合計を計算する必要があります。 そして 、値が小さいほど、最小二乗法の意味で元のデータによりよく近似する線に対応します。
以来、まっすぐ y = 0.165x+2.184元のデータによりよく近似します。
最小二乗法 (LS) 法の図解。
すべてがグラフにはっきりと表示されます。 赤い線は見つかった直線です y = 0.165x+2.184、青い線は , ピンクの点が元のデータです。
なぜこれが必要なのか、なぜこのような近似が必要なのでしょうか?
私は個人的に、データの平滑化、内挿、外挿の問題を解決するためにこれを使用しています (元の例では、観測値の値を見つけるように求められる場合があります) yで x=3またはいつ x=6最小二乗法を使用します)。 ただし、これについては後ほどサイトの別のセクションで詳しく説明します。
ページの先頭へ
証拠。
見つかったときに あそして b関数が最小値をとる場合、この時点で関数の 2 次微分の 2 次形式の行列が次のようになっている必要があります。 は正定でした。 見せてみましょう。
2 次微分の形式は次のとおりです。
あれは
したがって、二次形式の行列は次の形式になります。
そして要素の値は依存しません あそして b.
行列が正定値であることを示しましょう。 これを行うには、マイナー角度が正でなければなりません。
一次角度マイナー 。 点が一致しないため、不等式は厳密です。 以下では、これを暗示します。
二次角のマイナー
それを証明しましょう 数学的帰納法という方法で。
結論: 見つかった値 あそして b関数の最小値に対応します したがって、 は最小二乗法に必要なパラメータです。
それを理解する時間がありませんか?
ソリューションを注文する
ページの先頭へ
最小二乗法を使用して予測を作成します。 問題解決の例
外挿 方法です 科学研究、過去と現在の傾向、パターン、予測オブジェクトの将来の開発へのつながりの普及に基づいています。 外挿方法には次のものがあります。 移動平均法、指数平滑法、最小二乗法。
エッセンス 最小二乗法 量を最小限に抑えることにあります 二乗偏差観測値と計算値の間。 計算された値は、選択した式、つまり回帰式を使用して求められます。 実際の値と計算値の間の距離が小さいほど、回帰式に基づく予測はより正確になります。
研究対象の現象の本質、つまり時系列に反映される変化の理論的分析は、曲線を選択するための基礎として機能します。 場合によっては、シリーズのレベルの増加の性質に関する考慮事項が考慮されます。 したがって、生産高の伸びが予想される場合、 等差数列、その後、直線で平滑化が実行されます。 成長が見られることが判明した場合 等比数列の場合、指数関数を使用して平滑化を行う必要があります。
最小二乗法の実際の公式 : Y t+1 = a*X + b, ここで、 t + 1 – 予測期間。 Уt+1 – 予測指標。 a と b は係数です。 バツ - シンボル時間。
係数 a と b の計算は、次の式を使用して実行されます。
ここで、Uf – ダイナミクスシリーズの実際の値。 n – 時系列レベルの数。
最小二乗法を使用して時系列を平滑化すると、研究対象の現象の発展パターンを反映するのに役立ちます。 トレンドの分析表現では、時間は独立変数とみなされ、系列のレベルはこの独立変数の関数として機能します。
現象の発展は、開始点から何年が経過したかによって決まります。ではなく、どのような要因がその発展にどのような方向に、どのような強さで影響を与えたかによって決まります。 ここから、時間の経過とともに発生する現象は、これらの要因の作用の結果であることが明らかです。
曲線のタイプを正確に確立すると、分析の時間依存性のタイプは最も重要なものの 1 つとなります。 複雑なタスク事前予測分析 .
トレンドを記述する関数の種類の選択は、そのパラメーターが最小二乗法によって決定され、ほとんどの場合、多数の関数を構築し、関数の値に従ってそれらを相互に比較することによって経験的に実行されます。平均二乗誤差。次の式で計算されます。
ここで、UV はダイナミクス系列の実際の値です。 Ur – ダイナミクス系列の計算された (平滑化された) 値。 n – 時系列レベルの数。 p – 傾向 (開発傾向) を説明する式で定義されたパラメーターの数。
最小二乗法の欠点 :
- 研究対象の経済現象を数式を使用して説明しようとする場合、予測は短期間であれば正確であるため、新しい情報が入手可能になったら回帰式を再計算する必要があります。
- 標準的なコンピュータ プログラムを使用して解決できる回帰式を選択する複雑さ。
最小二乗法を使用して予測を作成する例
タスク 。 この地域の失業率を特徴づけるデータがあります (%)
- 移動平均、指数平滑法、最小二乗法を使用して、11 月、12 月、1 月の地域の失業率の予測を作成します。
- それぞれの方法を使用して、結果の予測の誤差を計算します。
- 結果を比較して結論を導き出します。
最小二乗法による解法
これを解決するには、次のテーブルを作成しましょう。 必要な計算:
ε = 28.63/10 = 2.86% 予測精度高い。
結論 : 計算結果の比較 移動平均法 , 指数平滑法 指数平滑法を使用して計算した場合の平均相対誤差は 20 ~ 50% の範囲内に収まると言えます。 これは、この場合の予測の精度が十分に満足できるものであることを意味します。
1 番目と 3 番目のケースでは、平均相対誤差が 10% 未満であるため、予測精度は高くなります。 しかし、移動平均法を使用すると、この方法を使用した場合の平均相対誤差が最小であるため、より信頼性の高い結果 (11 月の予測 - 1.52%、12 月の予測 - 1.53%、1 月の予測 - 1.49%) を得ることが可能になりました。 ,13%。
最小二乗法
このトピックに関する他の記事:
使用したソースのリスト
- 社会的リスクの診断、課題、脅威、社会的影響の予測に関する科学的および方法論的な推奨事項。 ロシア国立社会大学。 モスクワ。 2010年。
- ウラジミロワ L.P. 市況の予測と計画: 教科書。 手当。 M.: 出版社「Dashkov and Co」、2001年。
- ノビコバ N.V.、ポズデエワ OG 国民経済の予測: 教育および方法論のマニュアル。 エカテリンブルク: ウラル出版社。 州 エコ。 大学、2007年。
- スラットスキン L.N. ビジネス予測に関するMBAコース。 M.: アルピナ ビジネス ブック、2006 年。
MNCプログラム
データを入力してください
データと近似値 y = a + b x
私- 実験点の数;
x i- ある点における固定パラメータの値 私;
はい、私- ある点で測定されたパラメータの値 私;
ωi- 1点での重量測定 私;
はい、計算します。- 測定値と回帰計算値の差 y時点で 私;
S x i (x i)- 誤差の推定 x i測定するとき y時点で 私.
データと近似値 y = k x
私 | x i | はい、私 | ωi | はい、計算します。 | Δyi | S x i (x i) |
---|
チャートをクリックしてください
MNCオンラインプログラムのユーザーズマニュアル。
データ フィールドに、1 つの実験点における `x` と `y` の値を各行に入力します。 値は空白文字 (スペースまたはタブ) で区切る必要があります。
3 番目の値は、点「w」の重みになります。 ポイントの重みが指定されていない場合、それは 1 に等しくなります。 ほとんどの場合、実験点の重みは不明であるか、計算されていません。 すべての実験データは同等であると考えられます。 場合によっては、研究された値の範囲内の重みがまったく等しくなく、理論的に計算することさえできます。 たとえば、分光測光法では、単純な公式を使用して重量を計算できますが、人件費を削減するためにこれはほとんど無視されます。
データは、Microsoft Office の Excel や Open Office の Calc などのオフィス スイートのスプレッドシートからクリップボード経由で貼り付けることができます。 これを行うには、スプレッドシートでコピーするデータの範囲を選択し、クリップボードにコピーして、このページのデータ フィールドにデータを貼り付けます。
最小二乗法を使用して計算するには、2 つの係数 'b' (線の傾斜角の正接) と 'a' (線によって切られる 'y' 軸上の値) を決定するために少なくとも 2 つの点が必要です。
計算された回帰係数の誤差を推定するには、実験点の数を 2 つ以上に設定する必要があります。
最小二乗法 (LSM)。
実験点の数が多いほど、(スチューデント係数の減少により) 係数の統計的評価がより正確になり、推定値が一般サンプルの推定値に近づきます。
各実験ポイントで値を取得するには多大な人件費がかかることが多いため、管理可能な推定値が得られ、過剰な人件費につながらない妥協した数の実験が実行されることがよくあります。 原則として、2 つの係数を持つ線形最小二乗依存の実験点の数は、5 ~ 7 点の範囲で選択されます。
線形関係のための最小二乗法の簡単な理論
値のペア [`y_i`, `x_i`] の形式の一連の実験データがあるとします。ここで、「i」は 1 から `n` までの 1 つの実験測定の番号です。 `y_i` - 点 `i` での測定値の値。 `x_i` - 点 `i` で設定したパラメータの値。
例として、オームの法則の作用を考えてみましょう。 各部の電圧(電位差)を変えることで 電子回路、この領域を通過する電流の量を測定します。 物理学では、実験的に見つかった依存関係がわかります。
`I = U/R`、
ここで、「I」は現在の強さです。 `R` - 抵抗。 「U」 - 電圧。
この場合、「y_i」は測定された電流値、「x_i」は電圧値です。
別の例として、溶液中の物質の溶液による光の吸収を考えてみましょう。 化学では次の式が得られます。
`A = ε l C`、
ここで、「A」は - 光学密度解決; `ε` - 溶質の透過率。 `l` - 光が溶液の入ったキュベットを通過するときの経路長。 「C」は溶解物質の濃度です。
この場合、「y_i」は光学濃度「A」の測定値、「x_i」は指定した物質の濃度値です。
仕様 `x_i` の相対誤差が測定値 `y_i` の相対誤差よりも大幅に小さい場合を考えます。 また、すべての測定値「y_i」がランダムで正規分布していると仮定します。つまり、 従う 通常の法律配布物。
`x` に対する `y` の線形依存関係の場合、理論的な依存関係を次のように書くことができます。
「y = a + b x」。
幾何学的な観点から、係数「b」は線の傾斜角の「x」軸に対する正接を示し、係数「a」は線との交点における「y」の値を示します。 `y` 軸 (`x = 0` における)。
回帰直線パラメータを見つける。
実験では、常に固有の測定誤差により、「y_i」の測定値が理論上の直線上に正確に存在することはできません。 実生活。 したがって、一次方程式は連立方程式で表す必要があります。
`y_i = a + b x_i + ε_i` (1)、
ここで、「ε_i」は「i」番目の実験における「y」の未知の測定誤差です。
依存関係 (1) とも呼ばれます。 回帰、つまり 統計的に有意な 2 つの量の相互依存性。
依存関係を復元するタスクは、実験点 [`y_i`, `x_i`] から係数 `a` と `b` を見つけることです。
係数「a」と「b」を見つけるには、通常、これが使用されます 最小二乗法(MNC)。 これは最尤原則の特殊なケースです。
(1)を「ε_i = y_i - a - b x_i」の形に書き換えてみましょう。
この場合、二乗誤差の合計は次のようになります。
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`。 (2)
最小二乗法(最小二乗法)の原理は、パラメータ「a」と「b」に関する合計(2)を最小化することです。.
最小値は、係数 `a` と `b` に関する合計 (2) の偏導関数が 0 に等しいときに達成されます。
`frac(部分Φ)(部分a) = frac(部分sum_(i=1)^(n) (y_i - a - b x_i)^2)(部分a) = 0`
`frac(部分Φ)(部分b) = frac(部分sum_(i=1)^(n) (y_i - a - b x_i)^2)(部分b) = 0`
導関数を展開すると、2 つの未知数を含む 2 つの方程式系が得られます。
`sum_(i=1)^(n) (2a + 2bx_i — 2y_i) = sum_(i=1)^(n) (a + bx_i — y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`
括弧を開いて、必要な係数に関係なく金額を残りの半分に転送すると、次のシステムが得られます。 一次方程式:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`
結果のシステムを解くと、係数 `a` と `b` の式が見つかります。
`a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)
`b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.2)
これらの公式には、`n > 1` (直線は少なくとも 2 つの点を使用して作成できる) のとき、および行列式 `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) のときに解があります。 )^(n) x_i)^2 != 0`、つまり 実験内の「x_i」点が異なる場合(つまり、線が垂直ではない場合)。
回帰直線係数の誤差の推定
係数「a」と「b」を計算する際の誤差をより正確に評価するには、次のことが望ましいです。 たくさんの実験のポイント。 「n = 2」の場合、係数の誤差を推定することは不可能です。 近似直線は 2 点を一意に通過します。
エラー 確率変数「V」が定義されています 誤差蓄積の法則
`S_V^2 = sum_(i=1)^p (frac(部分 f)(部分 z_i))^2 S_(z_i)^2`,
ここで、「p」はエラー「S_(z_i)」を含むパラメータ「z_i」の数であり、エラー「S_V」に影響します。
`f` は、`z_i` に対する `V` の依存関係の関数です。
係数 'a' と 'b' の誤差の誤差累積の法則を書き留めてみましょう。
`S_a^2 = sum_(i=1)^(n)(frac(部分 a)(部分 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(部分 a) )(部分 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(部分 a)(部分 y_i))^2 `、
`S_b^2 = sum_(i=1)^(n)(frac(部分 b)(部分 y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(部分 b) )(部分 x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(部分 b)(部分 y_i))^2 `、
なぜなら `S_(x_i)^2 = 0` (エラー `x` は無視できるものであると以前に予約しました)。
`S_y^2 = S_(y_i)^2` - 誤差 (分散、二乗) 標準偏差) 'y' の測定において、誤差は 'y' のすべての値で均一であると仮定します。
得られる式に「a」と「b」を計算する式を代入します。
`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)
`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i — sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)
実際の実験のほとんどでは、「Sy」の値は測定されません。 これを行うには、計画内の 1 つまたは複数のポイントで複数の測定 (実験) を並行して実行する必要があり、実験の時間 (場合によってはコスト) が増加します。 したがって、通常、回帰直線からの「y」の偏差はランダムであると考えられると想定されます。 この場合の分散推定値「y」は、次の式を使用して計算されます。
`S_y^2 = S_(y,rest)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`。
「n-2」という除数が表示されるのは、実験データの同じサンプルを使用して 2 つの係数を計算したため、自由度の数が減少したためです。
この評価はとも呼ばれます 残差分散回帰直線 `S_(y,rest)^2` に対する相対値。
係数の有意性はスチューデントの t 検定を使用して評価されます
`t_a = frac(|a|) (S_a)`、`t_b = frac(|b|) (S_b)`
計算された基準「t_a」、「t_b」が表にまとめられた基準「t(P, n-2)」より小さい場合、対応する係数は所定の確率「P」でゼロと大きく異ならないと考えられます。
線形関係の記述の質を評価するには、フィッシャー基準を使用して `S_(y,rest)^2` と `S_(bar y)` を平均と比較します。
`S_(bar y) = frac(sum_(i=1)^n (y_i — bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i — (sum_(i= 1)^n y_i) /n)^2) (n-1)` - 平均に対する分散「y」の標本推定値。
依存性を説明するための回帰式の有効性を評価するために、フィッシャー係数が計算されます。
`F = S_(bar y) / S_(y,rest)^2`、
これは表形式のフィッシャー係数 `F(p, n-1, n-2)` と比較されます。
「F > F(P, n-1, n-2)」の場合、回帰式を使用した関係「y = f(x)」の記述と平均を使用した記述の差は、確率で統計的に有意であると見なされます。 「ぱ」。 それらの。 回帰は、平均値付近の「y」の広がりよりも依存性をよりよく表します。
チャートをクリックしてください
テーブルに値を追加するには
最小二乗法。 最小二乗法とは、未知のパラメータ a、b、c、許容される関数の依存関係を決定することを意味します。
最小二乗法とは、未知のパラメータの決定を指します。 a、b、c、…受け入れられた機能的依存
y = f(x,a,b,c,…),
これにより、誤差の二乗平均 (分散) の最小値が得られます。
, (24)
ここで、x i 、y i は実験から得られた数値のペアのセットです。
いくつかの変数の関数の極値の条件は、その偏導関数がゼロに等しいという条件であるため、パラメータは a、b、c、…は方程式系から決定されます。
; ; ; … (25)
関数の種類に応じてパラメータを選択するには最小二乗法が使用されることに注意してください。 y = f(x)定義済み
理論的考察から、経験式がどうあるべきかについて結論を引き出すことができない場合は、まず第一に、視覚的表現に導かれる必要があります。 グラフィック表現観測されたデータ。
実際には、ほとんどの場合、次のタイプの関数に限定されます。
1) リニア ;
2) 二次関数 a.
例。
変数の値に関する実験データ バツそして でを表に示します。
それらを整列させた結果、次のような機能が得られます。
使用する 最小二乗法、これらのデータを線形依存によって近似します。 y=ax+b(パラメータを見つける あそして b)。 2 つの線のどちらが (最小二乗法の意味で) 実験データとよりよく一致しているかを見つけます。 図面を作成します。
最小二乗法 (LSM) の本質。
タスクは、2 つの変数の関数が次のような線形依存係数を見つけることです。 あそして b は最小値をとります。 つまり、与えられた あそして b見つかった直線からの実験データの偏差の二乗の合計が最小になります。 これが最小二乗法の要点です。
したがって、この例を解くことは、結局 2 つの変数の関数の極値を見つけることになります。
係数を見つけるための公式の導出。
2 つの未知数を含む 2 つの方程式系がコンパイルされ、解決されます。 変数に関する関数の偏導関数を求める あそして b、これらの微分値をゼロとみなします。
結果として得られる連立方程式を、任意の方法 (たとえば、 置換法によるまたは ) を実行し、最小二乗法 (LSM) を使用して係数を見つけるための式を取得します。
与えられた あそして b関数 は最小値をとります。 この事実の証明が与えられる。
これが最小二乗法全体の方法です。 パラメータを求める公式 ある sum 、 、 、およびパラメータが含まれます n- 実験データの量。 これらの金額の値を個別に計算することをお勧めします。 係数 b計算後に見つかった ある.
元の例を思い出してみましょう。
解決。
私たちの例では n=5。 必要な係数の式に含まれる量を計算する便宜のために、表に記入します。
表の4行目の値は、各数値ごとに2行目の値と3行目の値を乗算して得られます。 私.
表の 5 行目の値は、各数値の 2 行目の値を 2 乗することで得られます。 私.
表の最後の列の値は、各行の値の合計です。
最小二乗法の公式を使用して係数を見つけます あそして b。 テーブルの最後の列の対応する値をそれらに代入します。
したがって、 y = 0.165x+2.184- 希望する近似直線。
どの行を見つけるかはまだ残っています y = 0.165x+2.184または 元のデータをより適切に近似します。つまり、最小二乗法を使用して推定を行います。
最小二乗法の誤差推定。
これを行うには、これらの行からの元のデータの偏差の二乗の合計を計算する必要があります。 そして 、値が小さいほど、最小二乗法の意味で元のデータによりよく近似する線に対応します。
以来、まっすぐ y = 0.165x+2.184元のデータによりよく近似します。
最小二乗法 (LS) 法の図解。
すべてがグラフにはっきりと表示されます。 赤い線は見つかった直線です y = 0.165x+2.184、青い線は , ピンクの点が元のデータです。
なぜこれが必要なのか、なぜこのような近似が必要なのでしょうか?
私は個人的に、データの平滑化、内挿、外挿の問題を解決するためにこれを使用しています (元の例では、観測値の値を見つけるように求められる場合があります) yで x=3またはいつ x=6最小二乗法を使用します)。 ただし、これについては後ほどサイトの別のセクションで詳しく説明します。
証拠。
見つかったときに あそして b関数が最小値をとる場合、この時点で関数の 2 次微分の 2 次形式の行列が次のようになっている必要があります。 は正定でした。 見せてみましょう。
特定の関数を他のより単純な関数で近似表現できるため、多くの用途があります。 LSM は観測値の処理に非常に役立ち、ランダム誤差を含む他の測定結果に基づいてある量を推定するために積極的に使用されます。 この記事では、Excel で最小二乗計算を実装する方法を学習します。
具体的な例を使って問題を説明する
2 つの指標 X と Y があるとします。さらに、Y は X に依存します。OLS は回帰分析の観点から興味深いものであるため (Excel ではそのメソッドは組み込み関数を使用して実装されています)、すぐに次の指標の検討に進む必要があります。具体的な問題。
したがって、X を食料品店の小売スペース (単位は次のとおり) とします。 平方メートル、Y は年間売上高で、単位は数百万ルーブルです。
ある小売スペースがある場合、その店舗の売上高 (Y) を予測する必要があります。 明らかに、ハイパーマーケットは露店よりも多くの商品を販売しているため、関数 Y = f (X) は増加しています。
予測に使用される初期データの正確性について一言
n 店舗のデータを使用して構築されたテーブルがあるとします。
数学的統計によると、少なくとも 5 ~ 6 個のオブジェクトのデータを調べれば、結果はほぼ正確になります。 また、「異常」な結果は使用できません。 特に、エリートの小規模ブティックの売上高は、「マスマーケット」クラスの大型小売店の売上高の数倍になる場合があります。
メソッドの本質
テーブル データは、点 M 1 (x 1, y 1)、...M n (x n、y n) の形式でデカルト平面上に表すことができます。 ここで、問題の解決策は、点 M 1、M 2、...M n のできるだけ近くを通過するグラフを持つ近似関数 y = f (x) を選択することに帰着します。
もちろん、高次の多項式を使用することもできますが、このオプションは実装が難しいだけでなく、検出する必要がある主な傾向を反映していないため、単純に不正確です。 最も合理的な解決策は、実験データ、より正確には係数 a と b を最もよく近似する直線 y = ax + b を検索することです。
精度評価
どのような近似であっても、その精度を評価することが特に重要です。 点 x i の関数値と実験値の差 (偏差) を e i で表すことにします。つまり、 e i = y i - f (x i) です。
明らかに、近似の精度を評価するには、偏差の合計を使用できます。つまり、X の Y に対する依存性を近似的に表す直線を選択するときは、次の値が最小のものを優先する必要があります。考慮中のすべての点での合計 e i。 ただし、プラスの偏差とともにマイナスの偏差も存在するため、すべてがそれほど単純であるわけではありません。
この問題は、偏差モジュールまたはその二乗を使用して解決できます。 最後のメソッドが最も多く受信されました 幅広い用途。 など、多くの分野で使用されています。 回帰分析(Excel では、その実装は 2 つの組み込み関数を使用して実行されます)、その有効性は長い間証明されてきました。
最小二乗法
ご存知のとおり、Excel には、選択した範囲内にあるすべての値の値を計算できるオート SUM 関数が組み込まれています。 したがって、式 (e 1 2 + e 2 2 + e 3 2 + ... e n 2) の値を計算することを妨げるものは何もありません。
数学的表記では、これは次のようになります。
最初に直線を使用して近似することが決定されたため、次のようになります。
したがって、量 X と Y の特定の依存性を最もよく表す直線を見つけるタスクは、2 つの変数の関数の最小値を計算することになります。
これを行うには、新しい変数 a および b に関する偏導関数をゼロとみなして、次の形式の 2 つの未知数を含む 2 つの方程式で構成される原始系を解く必要があります。
2 による除算や合計の操作など、いくつかの単純な変換を行うと、次のようになります。
たとえば、Cramer の方法を使用してこれを解くと、次のようになります。 静止点特定の係数 a * および b * を使用します。 これは、店舗の売上高を予測するための最小値です。 ある地域、直線 y = a * x + b * が適切です。これは次のとおりです。 回帰モデル問題の例の場合。 もちろん、正確な結果を見つけることはできませんが、ストアクレジットで特定のエリアを購入することが有益かどうかを知るのに役立ちます。
Excel で最小二乗法を実装する方法
Excelには最小二乗法を使って値を計算する機能があります。 これは、「TREND」(既知の Y 値、既知の X 値、新しい X 値、定数) の形式をとります。 Excel で OLS を計算する式をテーブルに適用してみましょう。
これを行うには、Excel の最小二乗法による計算結果を表示するセルに「=」記号を入力し、「TREND」関数を選択します。 開いたウィンドウで、適切なフィールドに入力し、以下を強調表示します。
- Y の既知の値の範囲 (この場合、取引高のデータ);
- 範囲 x 1, …x n、つまり小売スペースのサイズ。
- x の既知の値と未知の値の両方。売上高のサイズを調べる必要があります (ワークシート上のそれらの位置については、以下を参照してください)。
さらに、数式には論理変数「Const」が含まれています。 対応するフィールドに 1 を入力すると、b = 0 と仮定して計算を実行する必要があることを意味します。
複数の x 値の予測を調べる必要がある場合は、数式を入力した後に「Enter」を押す必要はなく、キーボードで「Shift」+「Control」+「Enter」の組み合わせを入力する必要があります。
いくつかの機能
回帰分析は初心者でも簡単に行うことができます。 Excelの数式未知の変数の配列の値を予測する「TREND」は、最小二乗法について聞いたことがない人でも使用できます。 その作品の特徴のいくつかを知るだけで十分です。 特に:
- 変数 y の既知の値の範囲を 1 つの行または列に配置すると、x の既知の値を持つ各行 (列) がプログラムによって別個の変数として認識されます。
- TREND ウィンドウが既知の x の範囲を示していない場合、関数が エクセルプログラムは、それを整数で構成される配列として扱います。その数は、変数 y の指定された値の範囲に対応します。
- 「予測」値の配列を出力するには、傾向を計算する式を配列数式として入力する必要があります。
- x の新しい値が指定されていない場合、TREND 関数はそれらが既知の値と等しいとみなします。 それらが指定されていない場合は、配列 1 が引数として使用されます。 2; 3; 4;…、これはすでに指定されたパラメータ y の範囲に一致します。
- 新しい x 値を含む範囲は、同じまたは もっと指定された y 値を持つ範囲としての行または列。 言い換えれば、独立変数に比例する必要があります。
- 既知の x 値を持つ配列には複数の変数を含めることができます。 ただし、 私たちが話しているのは 1 つだけについては、x と y の指定された値の範囲が比例している必要があります。 複数の変数の場合、指定された y 値の範囲が 1 つの列または 1 行に収まる必要があります。
予測機能
いくつかの関数を使用して実装されます。 そのうちの1つは「PREDICTION」と呼ばれます。 「TREND」に似ており、最小二乗法を使用した計算結果が得られます。 ただし、Y の値が不明な X が 1 つだけです。
これで、線形傾向に従って特定のインジケーターの将来の値を予測できるダミー用の Excel の数式がわかりました。
最小二乗法
このトピックの最後のレッスンでは、最も有名なアプリケーションについて学びます。 FNPで最も幅広い用途が見つかります。 さまざまな分野科学と 実践的な活動。 これには、物理学、化学、生物学、経済学、社会学、心理学などが考えられます。 運命の意志で、私はしばしば経済に対処しなければならないので、今日はあなたのために、と呼ばれる素晴らしい国への旅行を手配します。 計量経済学=) ...欲しくないわけがない?! そこはとても良いことです。あとは決心をするだけです。 ...しかし、おそらくあなたが間違いなく望んでいることは、問題の解決方法を学ぶことです。 最小二乗法。 そして、特に勤勉な読者は、正確に解決できるだけでなく、非常に早く解決できるようになります ;-) まず最初に 問題の一般的な説明+ 付随する例:
ある分野において、定量的な表現を持つ指標を研究するとします。 同時に、指標が指標に依存すると考える十分な理由があります。 この仮定は、科学的な仮説である場合もあれば、初歩的な根拠に基づいている場合もあります。 常識。 ただし、科学のことは脇に置いて、もっと食欲をそそる分野、つまり食料品店を探索してみましょう。 で表しましょう:
– 食料品店の小売り面積、平方メートル、
– 食料品店の年間売上高、100万ルーブル。
それは完全に明らかです より広いエリア店舗にあるほど、ほとんどの場合、売上高は大きくなります。
観察/実験/計算/タンバリンダンスを実行した後、自由に使える数値データがあると仮定します。
食料品店の場合、すべてが明らかだと思います。 - これは 1 番目の店舗の面積、 - その年間売上高、 - 2 番目の店舗の面積、 - 年間売上高など。 ちなみに、機密資料にアクセスする必要はまったくありません。取引高のかなり正確な評価は、次の方法で取得できます。 数学的統計
。 ただし、気を散らさないようにしましょう。商業スパイコースはすでに支払い済みです =)
表形式のデータは、ポイントの形式で記述し、使い慣れた形式で表現することもできます。 デカルト座標系 .
お答えします 重要な質問: 定性調査には何点必要ですか?
大きければ大きいほどいい。 最小許容セットは 5 ~ 6 点で構成されます。 また、データ量が少ない場合には、「異常な」結果をサンプルに含めることができません。 したがって、たとえば、小規模なエリート店は「その同僚」よりも桁違いに多くの収入を得ている可能性があり、それによって、見つける必要がある一般的なパターンが歪められてしまうのです。
非常に簡単に言うと、関数を選択する必要があります。 スケジュールポイントのできるだけ近くを通過する 。 この関数は呼び出されます 近似する (近似値 - 近似値)または 理論関数 。 一般的に言えば、ここでは明らかな「候補」がすぐに現れます。それは、グラフがすべての点を通過する高次多項式です。 しかし、このオプションは複雑であり、単純に間違っていることがよくあります。 (グラフは常に「ループ」し、主要な傾向をほとんど反映していないため).
したがって、求められる関数は非常に単純であると同時に、依存関係を適切に反映している必要があります。 ご想像のとおり、このような関数を見つけるためのメソッドの 1 つは、 最小二乗法。 まずはその本質を見てみましょう 一般的な見解。 いくつかの関数を実験データに近似させます。
この近似の精度を評価するにはどうすればよいでしょうか? 実験値と関数値の差(偏差)も計算してみましょう。 (私たちは絵を勉強します)。 最初に思い浮かぶのは、その合計がどれくらい大きいかを見積もることですが、問題はその差がマイナスになる可能性があることです。 (例えば、 )
そして、そのような合計の結果としての偏差は互いに打ち消し合います。 したがって、近似の精度の推定値として、次の合計が求められます。 モジュール偏差:
または折りたたまれた状態: (知らない人がいる場合に備えて: は合計アイコンであり、 – 補助「カウンター」変数。1 から 1 までの値を取ります。 ) .
実験点をさまざまな関数で近似すると、次のようになります。 さまざまな意味そして明らかに、この量が小さいほど、その関数はより正確になります。
そのようなメソッドが存在し、それは呼ばれます 最小弾性法。 しかし、実際にはそれははるかに普及しています 最小二乗法、可能性のある負の値はモジュールによってではなく、偏差を二乗することによって除去されます。
、その後、偏差の二乗和が次のような関数を選択することを目的としています。 できるだけ小さいものでした。 実際、これがメソッドの名前の由来です。
そして今、私たちは別のことに戻ります 大事なポイント: 上で述べたように、選択された関数は非常に単純である必要がありますが、そのような関数も多数あります。 線形 , 双曲線 , 指数関数的 , 対数 , 二次関数 等 そしてもちろん、ここではすぐに「活動領域を縮小」したいと思います。 研究にはどのクラスの関数を選択すればよいですか? 原始的ですが、 効果的なテクニック:
– 最も簡単な方法は点を描くことです 図面上でその位置を分析します。 直線で走る傾向がある場合は、次の点を探す必要があります。 直線の方程式 と 最適値そして 。 言い換えれば、タスクは、偏差の二乗和が最小になるような SUCH 係数を見つけることです。
たとえば、点が次のような位置にある場合、 誇張の場合、線形関数の近似が不十分であることは明らかです。 この場合、双曲線方程式の最も「有利な」係数を探します。 - 与える人 最小額正方形 .
どちらの場合も、次のことについて話していることに注意してください。 2 つの変数の関数、その引数は 検索された依存関係パラメーター:
そして本質的に私たちは決定する必要があります 標準タスク- 探す 2 変数の最小関数.
例を思い出してください。「店舗」ポイントは直線上に配置される傾向があり、次のことを信じる十分な理由があるとします。 線形依存性小売スペースからの売上高。 偏差の二乗和が次のようになるような係数「a」と「be」を見つけてみましょう。 一番小さかったです。 すべてはいつも通りです - まずは 1階偏導関数。 によると 直線性の法則合計アイコンのすぐ下で区別できます。
この情報をエッセイや定期レポートに使用したい場合は、このような詳細な計算がいくつかの場所に記載されている情報源リストのリンクを参照してください。
作曲してみましょう 標準システム:
各式を「2」で減らし、さらに合計を「分解」します。
注記 : 合計アイコンを超えて「a」と「be」が取り出せる理由を独自に分析します。 ちなみに、正式にはこれは合計で行うことができます
システムを「応用」形式で書き直してみましょう。
その後、問題を解決するためのアルゴリズムが現れ始めます。
点の座標はわかっていますか? 私たちは知っています。 金額 見つけられるでしょうか? 簡単に。 最も単純なものを作りましょう 2 つの未知数における 2 つの線形方程式系(「a」と「be」)。 たとえば、次のようなシステムを解決します。 クレーマー法、その結果として静止点が得られます。 チェック中 極値の十分条件、この時点で関数が 正確に届く 最小。 このチェックには追加の計算が含まれるため、舞台裏に残しておきます。 (必要に応じて、不足しているフレームを表示できます)ここ ) 。 最終的な結論は次のとおりです。
関数 一番いい方法 (少なくとも他の線形関数と比較して)実験ポイントを近づける 。 大まかに言えば、そのグラフはこれらの点のできるだけ近くを通過します。 伝統的に 計量経済学結果の近似関数も呼ばれます 一対の線形回帰式 .
検討中の問題には大きな問題があります 実用的な重要性。 この例の状況では、式は次のようになります。 取引高を予測できます (「イグレック」)店舗は何らかの値の販売面積を持っています (「x」の何らかの意味)。 はい、結果として得られる予測は単なる予測ですが、多くの場合、非常に正確であることが判明します。
難しいことは何もないので、「実数」の問題を 1 つだけ分析します。すべての計算は 7 年生から 8 年生の学校のカリキュラムのレベルです。 95% のケースでは、一次関数だけを見つけるように求められますが、記事の最後で、最適な双曲線、指数関数、およびその他の関数の方程式を見つけることはそれほど難しくないことを示します。
実際、残っているのは、約束された特典を配布することだけです。そうすれば、そのような例題を正確に解決できるだけでなく、迅速に解決できるようになります。 私たちはこの規格を注意深く研究しています。
タスク
2 つの指標間の関係を研究した結果、次の数値のペアが得られました。
最小二乗法を使用して、経験的な値に最もよく近似する一次関数を見つけます。 (経験者)データ。 デカルト座標で描画を作成します。 長方形システム座標を計算し、実験点と近似関数のグラフを作成します。 。 経験値と理論値の間の偏差の二乗和を求めます。 機能が改善されるかどうかを確認する (最小二乗法の観点から)実験ポイントを近づけます。
「x」の意味は自然なものであり、これには特有の意味のある意味があることに注意してください。これについては後ほど説明します。 もちろん、小数にすることもできます。 また、特定のタスクの内容によっては、「X」と「ゲーム」の両方の値が完全または部分的にマイナスになる場合があります。 さて、私たちには「顔の見えない」任務が与えられ、それを始めます 解決:
システムの解として最適な関数の係数を見つけます。
よりコンパクトに記録するために、「カウンター」変数は省略できます。これは、合計が 1 から まで実行されることがすでに明らかであるためです。
必要な金額を表形式で計算すると便利です。
計算は微電卓でも実行できますが、Excel を使用した方が速く、エラーも発生しないため、はるかに優れています。 短いビデオを見る:
したがって、次のようになります。 システム:
ここで、2 番目の式に 3 を掛けて、 最初の式から項ごとに 2 番目の式を減算します。。 しかし、これは幸運です。実際には、システムは贈り物ではないことが多く、そのような場合にはそれが節約になります。 クレーマー法:
これは、システムに独自のソリューションがあることを意味します。
確認しよう。 そうしたくないのはわかりますが、絶対に見逃せないミスをなぜスキップするのでしょうか? 見つかった解をシステムの各方程式の左辺に代入してみましょう。
対応する方程式の右辺が得られます。これは、システムが正しく解決されたことを意味します。
したがって、必要な近似関数は次のようになります。 – から みんな 一次関数 実験データを最もよく近似するのは彼女です。
とは異なり 真っ直ぐ 店舗の売上高の面積への依存性。検出された依存性は次のとおりです。 逆行する (原則「多ければ多いほど少ない」)、そしてこの事実は否定的な意見によってすぐに明らかになります。 スロープ 。 関数 特定のインジケーターが 1 単位増加すると、依存するインジケーターの値が減少することを示します 平均 0.65単位ずつ。 よく言われるように、ソバの価格が高くなると、ソバは売れなくなります。
近似関数のグラフをプロットするには、その 2 つの値を見つけます。
そして描画を実行します。
構築された直線を次のように呼びます。 トレンドライン
(つまり、直線的な傾向線。つまり、一般的な場合、傾向は必ずしも直線であるとは限りません)。 「トレンドに乗る」という表現は誰もがよく知っている言葉であり、この言葉について補足する必要はないと思います。
経験値と理論値の間の偏差の二乗和を計算してみましょう。 幾何学的には、これは「ラズベリー」セグメントの長さの二乗の合計です。 (そのうちの2つは小さすぎて見えません).
計算を表にまとめてみましょう。
繰り返しになりますが、念のために手動で行うこともできます。最初の点については例を示します。
しかし、すでに知られている方法でそれを行う方がはるかに効果的です。
もう一度繰り返します。 得られた結果にはどのような意味があるのでしょうか?から すべての線形関数 y関数 インジケーターは最小です。つまり、そのファミリーの中で最良の近似値です。 ちなみに、この問題の最後の疑問は偶然ではありません。提案された指数関数が次の場合はどうなるでしょうか。 実験点を近づけた方が良いでしょうか?
対応する偏差の二乗和を見つけてみましょう。区別するために、それらを文字「イプシロン」で示します。 テクニックは全く同じです:
もう一度、念のため、最初の点の計算をします。
うちはエクセルを使ってます 標準機能 経験値 (構文は Excel ヘルプにあります).
結論: 、これは、指数関数が実験点を直線よりも悪く近似していることを意味します。 .
ただし、ここで「さらに悪い」ということに注意してください。 まだという意味ではない、 なにが問題ですか。 これのグラフを作成しました 指数関数– そしてポイントの近くも通過します - 分析的な研究がなければ、どの関数がより正確であるかを言うのは難しいほどです。
これで解決策は終わり、議論の自然値の問題に戻ります。 さまざまな研究 (通常は経済学または社会学) では、月、年、またはその他の等しい時間間隔を表すために自然な「X」が使用されます。 たとえば、次の問題を考えてみましょう。
今年上半期の店舗の小売売上高については、次のデータが利用可能です。
分析的な直線配置を使用して、7 月の売上高を決定します.
はい、問題ありません。月に 1、2、3、4、5、6 の番号を付け、通常のアルゴリズムを使用します。その結果、方程式が得られます。唯一のことは、時間に関しては通常、 「て」という文字 (ただし、これは重要ではありません)。 結果として得られた方程式は、今年上半期の貿易売上高が平均 27.74 ユニット増加したことを示しています。 月あたり。 7月の天気予報を出してみましょう (月 7):d.e.
そして、このようなタスクは無数にあります。 ご希望の方は追加サービスをご利用いただけます。 エクセル電卓 (デモ版)、 どれの 分析された問題はほぼ瞬時に解決されます。プログラムの実用バージョンが利用可能です 引き換えにまたはのための シンボリック手数料.
レッスンの終わりに 簡単な情報 o 他のタイプの依存関係を見つける。 実際のところ、基本的なアプローチと解決アルゴリズムは同じであるため、語ることはあまりありません。
実験点の配置が双曲線に似ていると仮定します。 次に、最適な双曲線の係数を見つけるには、関数の最小値を見つける必要があります。詳細な計算を実行すれば、誰でも同様のシステムに到達できます。
正式な技術的観点から見ると、それは「線形」システムから得られます。 (アスタリスクで示しましょう)「x」を に置き換えます。 さて、量を計算してから、最適な係数「a」と「be」を求めます。 すぐ近くにある.
ポイントが信じられる十分な理由がある場合 が対数曲線に沿って配置されている場合、最適な値を見つけるために関数の最小値を見つけます。 。 正式には、システム内の (*) を次のように置き換える必要があります。
Excelで計算を行う場合は、関数を使用します。 LN。 正直に言うと、検討中のケースごとに計算機を作成するのは特に難しいことではありませんが、計算を自分で「プログラム」した方がよいでしょう。 役立つレッスンビデオ。
指数依存性の場合、状況はもう少し複雑になります。 問題を線形の場合に還元するために、関数の対数をとり、次を使用します。 対数の性質:
ここで、結果の関数を線形関数と比較すると、システム内では (*) を に、- を に置き換える必要があるという結論に達します。 便宜上、次のように表します。
この系は と に関して解決されるため、根を求めた後は係数自体を求めることを忘れないように注意してください。
実験ポイントを近づけるために 最適な放物線を見つける必要があります 3 変数の最小関数。 標準的なアクションを実行すると、次のような「動作」が得られます。 システム:
はい、もちろん、ここにはさらに多くの量がありますが、お気に入りのアプリケーションを使用する場合はまったく難しいことはありません。 最後に、Excel を使用して簡単にチェックして構築する方法を説明します。 正しい行トレンド: 散布図を作成し、マウスで任意の点を選択します。 右クリックしてオプションを選択します 「トレンドラインを追加」。 次に、タブでグラフの種類を選択します。 「オプション」オプションを有効にする 「方程式を図に表示」。 わかりました
いつものように、記事の最後はこんな感じで終わりたいと思います 美しい言葉でと、思わず「トレンディーに!」と入力しそうになった。 しかし、彼は時間が経つにつれて考えを変えました。 それはステレオタイプだからではありません。 誰にとってはどうなのかは分かりませんが、私はアメリカ、特にヨーロッパの促進されたトレンドにはあまり乗りたくありません =) したがって、皆さんそれぞれが自分の路線を貫いてほしいと思います。
http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html
最小二乗法は、最も一般的で最も開発された方法の 1 つです。 線形計量経済モデルのパラメータを推定する方法の単純さと効率。 同時に、それを使用して構築されたモデルは、パラメータの品質に関する多くの要件を満たしていない可能性があり、その結果、プロセス開発のパターンを「適切に」反映していない可能性があるため、使用する場合はある程度の注意が必要です。十分。
最小二乗法を使用して線形計量経済モデルのパラメータを推定する手順をさらに詳しく考えてみましょう。 このようなモデルは一般に、式 (1.2) で表すことができます。
y t = a 0 + a 1 x 1t +...+ a n x nt + ε t。
パラメータ a 0 、 a 1 、...、 a n を推定するときの初期データは、従属変数の値のベクトルです y= (y 1 , y 2 , ... , y T)」および独立変数の値の行列
ここで、1 で構成される最初の列はモデル係数に対応します。
最小二乗法は、それに基づいて得られるパラメータ推定値が以下を満たさなければならないという基本原則に基づいてその名前が付けられました。 モデル誤差の二乗和は最小限である必要があります。
最小二乗法を使用した問題の解決例
例2.1。この貿易企業には 12 店舗のネットワークがあり、その活動に関する情報が表に示されています。 2.1.
企業の経営者は、年間売上高が店舗の小売面積にどのように依存するかを知りたいと考えています。
表2.1
店舗番号 | 年間売上高、100万ルーブル。 | 小売面積、千㎡ |
19,76 | 0,24 | |
38,09 | 0,31 | |
40,95 | 0,55 | |
41,08 | 0,48 | |
56,29 | 0,78 | |
68,51 | 0,98 | |
75,01 | 0,94 | |
89,05 | 1,21 | |
91,13 | 1,29 | |
91,26 | 1,12 | |
99,84 | 1,29 | |
108,55 | 1,49 |
最小二乗法による解。番目の店舗の年間売上高を 100 万ルーブルとします。 - 4 番目の店舗の小売面積、千平方メートル。
図2.1。 例 2.1 の散布図
変数間の関数関係の形式を決定するために、散布図を作成します (図 2.1)。
散布図に基づいて、年間売上高は小売スペースに正の依存性があると結論付けることができます (つまり、 が増加すると y も増加します)。 機能的な接続の最も適切な形式は次のとおりです。 線形.
さらなる計算のための情報を表に示します。 2.2. 最小二乗法を使用して、線形 1 因子計量経済モデルのパラメータを推定します。
表2.2
t | yt | ×1t | yt2 | ×1t2 | x 1t y t |
19,76 | 0,24 | 390,4576 | 0,0576 | 4,7424 | |
38,09 | 0,31 | 1450,8481 | 0,0961 | 11,8079 | |
40,95 | 0,55 | 1676,9025 | 0,3025 | 22,5225 | |
41,08 | 0,48 | 1687,5664 | 0,2304 | 19,7184 | |
56,29 | 0,78 | 3168,5641 | 0,6084 | 43,9062 | |
68,51 | 0,98 | 4693,6201 | 0,9604 | 67,1398 | |
75,01 | 0,94 | 5626,5001 | 0,8836 | 70,5094 | |
89,05 | 1,21 | 7929,9025 | 1,4641 | 107,7505 | |
91,13 | 1,29 | 8304,6769 | 1,6641 | 117,5577 | |
91,26 | 1,12 | 8328,3876 | 1,2544 | 102,2112 | |
99,84 | 1,29 | 9968,0256 | 1,6641 | 128,7936 | |
108,55 | 1,49 | 11783,1025 | 2,2201 | 161,7395 | |
S | 819,52 | 10,68 | 65008,554 | 11,4058 | 858,3991 |
平均 | 68,29 | 0,89 |
したがって、
したがって、他の条件が同じであれば、小売スペースが 1,000 平方メートル増加すると、平均年間売上高は 6,788 万 7,100 ルーブル増加します。
例2.2。同社の経営陣は、年間売上高が店舗の販売面積 (例 2.1 を参照) だけでなく、平均訪問者数にも依存することに気づきました。 関連情報を表に示します。 2.3.
表2.3
解決。 1 番目の店舗への 1 日当たりの平均訪問者数を千人として表しましょう。
変数間の関数関係の形式を決定するために、散布図を作成します (図 2.2)。
散布図に基づいて、年間売上高は 1 日あたりの平均訪問者数に正の依存性があると結論付けることができます (つまり、 が増加すると y も増加します)。 関数依存の形式は線形です。
米。 2.2. 例 2.2 の散布図
表2.4
t | ×2t | ×2t2 | yt×2t | ×1t×2t |
8,25 | 68,0625 | 163,02 | 1,98 | |
10,24 | 104,8575 | 390,0416 | 3,1744 | |
9,31 | 86,6761 | 381,2445 | 5,1205 | |
11,01 | 121,2201 | 452,2908 | 5,2848 | |
8,54 | 72,9316 | 480,7166 | 6,6612 | |
7,51 | 56,4001 | 514,5101 | 7,3598 | |
12,36 | 152,7696 | 927,1236 | 11,6184 | |
10,81 | 116,8561 | 962,6305 | 13,0801 | |
9,89 | 97,8121 | 901,2757 | 12,7581 | |
13,72 | 188,2384 | 1252,0872 | 15,3664 | |
12,27 | 150,5529 | 1225,0368 | 15,8283 | |
13,92 | 193,7664 | 1511,016 | 20,7408 | |
S | 127,83 | 1410,44 | 9160,9934 | 118,9728 |
平均 | 10,65 |
一般に、2 要素計量経済モデルのパラメータを決定する必要があります。
y t = a 0 + a 1 x 1t + a 2 x 2t + ε t
さらなる計算に必要な情報を表に示します。 2.4.
最小二乗法を使用して、線形 2 要素計量経済モデルのパラメーターを推定してみましょう。
したがって、
係数 =61.6583 の推定は、他の条件が同じであれば、小売スペースが 1,000 m 2 増加すると、年間売上高が平均 6,165 万 8300 ルーブル増加することを示しています。
係数推定値 = 2.2748 は、他の条件が同じであれば、1,000 人あたりの平均訪問者数が増加していることを示しています。 1 日当たりの年間売上高は平均 227 万 4800 ルーブル増加します。
例2.3。表に示されている情報を使用します。 2.2 および 2.4、1 要素計量経済モデルのパラメータを推定する
ここで、 は 1 番目の店舗の年間売上高の中心値、100 万ルーブルです。 - t 番目の店舗への 1 日の平均訪問者数の中心値 (1,000 人)。 (例 2.1 ~ 2.2 を参照)。
解決。 追加情報計算に必要な、を表に示します。 2.5.
表2.5
-48,53 | -2,40 | 5,7720 | 116,6013 | |
-30,20 | -0,41 | 0,1702 | 12,4589 | |
-27,34 | -1,34 | 1,8023 | 36,7084 | |
-27,21 | 0,36 | 0,1278 | -9,7288 | |
-12,00 | -2,11 | 4,4627 | 25,3570 | |
0,22 | -3,14 | 9,8753 | -0,6809 | |
6,72 | 1,71 | 2,9156 | 11,4687 | |
20,76 | 0,16 | 0,0348 | 3,2992 | |
22,84 | -0,76 | 0,5814 | -17,413 | |
22,97 | 3,07 | 9,4096 | 70,4503 | |
31,55 | 1,62 | 2,6163 | 51,0267 | |
40,26 | 3,27 | 10,6766 | 131,5387 | |
額 | 48,4344 | 431,0566 |
式 (2.35) を使用すると、次のようになります。
したがって、
http://www.cleverstudents.ru/articles/mnk.html
例。
変数の値に関する実験データ バツそして でを表に示します。
それらを整列させた結果、次のような機能が得られます。
使用する 最小二乗法、これらのデータを線形依存によって近似します。 y=ax+b(パラメータを見つける あそして b)。 2 つの線のどちらが (最小二乗法の意味で) 実験データとよりよく一致しているかを見つけます。 図面を作成します。
解決。
私たちの例では n=5。 必要な係数の式に含まれる量を計算する便宜のために、表に記入します。
表の4行目の値は、各数値ごとに2行目の値と3行目の値を乗算して得られます。 私.
表の 5 行目の値は、各数値の 2 行目の値を 2 乗することで得られます。 私.
表の最後の列の値は、各行の値の合計です。
最小二乗法の公式を使用して係数を見つけます あそして b。 テーブルの最後の列の対応する値をそれらに代入します。
したがって、 y = 0.165x+2.184- 希望する近似直線。
どの行を見つけるかはまだ残っています y = 0.165x+2.184または元のデータをよりよく近似します。つまり、最小二乗法を使用して推定します。
証拠。
見つかったときに あそして b関数が最小値をとる場合、この時点で関数の 2 次微分の 2 次形式の行列が次のようになっている必要があります。 は正定でした。 見せてみましょう。
2 次微分の形式は次のとおりです。
あれは
したがって、二次形式の行列は次の形式になります。
そして要素の値は依存しません あそして b.
行列が正定値であることを示しましょう。 これを行うには、マイナー角度が正でなければなりません。
一次角度マイナー 。 点があるため、不等式は厳密です。
これは、科学や実践活動のさまざまな分野で最も広く応用されています。 これには、物理学、化学、生物学、経済学、社会学、心理学などが考えられます。 運命の意志で、私はしばしば経済に対処しなければならないので、今日はあなたのために、と呼ばれる素晴らしい国への旅行を手配します。 計量経済学=) ...欲しくないわけがない?! そこはとても良いことです。あとは決心をするだけです。 ...しかし、おそらくあなたが間違いなく望んでいることは、問題の解決方法を学ぶことです。 最小二乗法。 そして、特に勤勉な読者は、正確に解決できるだけでなく、非常に早く解決できるようになります ;-) まず最初に 問題の一般的な説明+ 付随する例:
ある分野において、定量的な表現を持つ指標を研究するとします。 同時に、指標が指標に依存すると考える十分な理由があります。 この仮定は、科学的な仮説である場合もあれば、基本的な常識に基づいている場合もあります。 ただし、科学のことは脇に置いて、もっと食欲をそそる分野、つまり食料品店を探索してみましょう。 で表しましょう:
– 食料品店の小売り面積、平方メートル、
– 食料品店の年間売上高、100万ルーブル。
店舗面積が大きければ大きいほど、ほとんどの場合、売上高も大きくなるのは明らかです。
観察/実験/計算/タンバリンダンスを実行した後、自由に使える数値データがあると仮定します。
食料品店の場合、すべてが明らかだと思います。 - これは 1 番目の店舗の面積、 - その年間売上高、 - 2 番目の店舗の面積、 - 年間売上高など。 ちなみに、機密資料にアクセスする必要はまったくありません。取引高のかなり正確な評価は、次の方法で取得できます。 数学的統計。 ただし、気を散らさないようにしましょう。商業スパイコースはすでに支払い済みです =)
表形式のデータは、ポイントの形式で記述し、使い慣れた形式で表現することもできます。 デカルト座標系 .
重要な質問に答えてみましょう。 定性調査には何点必要ですか?
大きければ大きいほどいい。 最小許容セットは 5 ~ 6 点で構成されます。 また、データ量が少ない場合には、「異常な」結果をサンプルに含めることができません。 したがって、たとえば、小規模なエリート店は「その同僚」よりも桁違いに多くの収入を得ている可能性があり、それによって、見つける必要がある一般的なパターンが歪められてしまうのです。
非常に簡単に言うと、関数を選択する必要があります。 スケジュールポイントのできるだけ近くを通過する 。 この関数は呼び出されます 近似する (近似値 - 近似値)または 理論関数 。 一般的に言えば、ここでは明らかな「候補」がすぐに現れます。それは、グラフがすべての点を通過する高次多項式です。 しかし、このオプションは複雑であり、単純に間違っていることがよくあります。 (グラフは常に「ループ」し、主要な傾向をほとんど反映していないため).
したがって、求められる関数は非常に単純であると同時に、依存関係を適切に反映している必要があります。 ご想像のとおり、このような関数を見つけるためのメソッドの 1 つは、 最小二乗法。 まず、その本質を一般的に見てみましょう。 いくつかの関数を実験データに近似させます。
この近似の精度を評価するにはどうすればよいでしょうか? 実験値と関数値の差(偏差)も計算してみましょう。 (私たちは絵を勉強します)。 最初に思い浮かぶのは、その合計がどれくらい大きいかを見積もることですが、問題はその差がマイナスになる可能性があることです。 (例えば、 )
そして、そのような合計の結果としての偏差は互いに打ち消し合います。 したがって、近似の精度の推定値として、次の合計が求められます。 モジュール偏差:
または折りたたまれた状態: (知らない人のために説明します: – これは合計アイコンです、そして – 1 から までの値を取る補助「カウンター」変数です).
実験点を異なる関数で近似すると、異なる値が得られます。明らかに、この合計が小さいほど、その関数はより正確です。
そのようなメソッドが存在し、それは呼ばれます 最小弾性法。 しかし、実際にはそれははるかに普及しています 最小二乗法、可能性のある負の値はモジュールによってではなく、偏差を二乗することによって除去されます。
、その後、偏差の二乗和が次のような関数を選択することを目的としています。 できるだけ小さいものでした。 実際、これがメソッドの名前の由来です。
ここで、別の重要な点に戻ります。上で述べたように、選択された関数は非常に単純である必要がありますが、そのような関数も多数あります。 線形 , 双曲線, 指数関数的, 対数, 二次関数 等 そしてもちろん、ここではすぐに「活動領域を縮小」したいと思います。 研究にはどのクラスの関数を選択すればよいですか? 原始的だが効果的なテクニック:
– 最も簡単な方法は点を描くことです 図面上でその位置を分析します。 直線で走る傾向がある場合は、次の点を探す必要があります。 直線の方程式 最適な値と 。 言い換えれば、タスクは、偏差の二乗和が最小になるような SUCH 係数を見つけることです。
たとえば、点が次のような位置にある場合、 誇張の場合、線形関数の近似が不十分であることは明らかです。 この場合、双曲線方程式の最も「有利な」係数を探します。 – 平方和が最小になるもの .
どちらの場合も、次のことについて話していることに注意してください。 2 つの変数の関数、その引数は 検索された依存関係パラメーター:
そして基本的に、標準的な問題を解決する必要があります。 2 変数の最小関数.
例を思い出してください。「店舗」ポイントは直線上に配置される傾向があり、次のことを信じる十分な理由があるとします。 線形依存性小売スペースからの売上高。 偏差の二乗和が次のようになるような係数「a」と「be」を見つけてみましょう。 一番小さかったです。 すべてはいつも通りです - まずは 1階偏導関数。 によると 直線性の法則合計アイコンのすぐ下で区別できます。
この情報をエッセイや定期レポートに使用したい場合は、このような詳細な計算がいくつかの場所に記載されている情報源リストのリンクを参照してください。
標準システムを作成しましょう。
各式を「2」で減らし、さらに合計を「分解」します。
注記 : 合計アイコンを超えて「a」と「be」が取り出せる理由を独自に分析します。 ちなみに、正式にはこれは合計で行うことができます
システムを「応用」形式で書き直してみましょう。
その後、問題を解決するためのアルゴリズムが現れ始めます。
点の座標はわかっていますか? 私たちは知っています。 金額 見つけられるでしょうか? 簡単に。 最も単純なものを作りましょう 2 つの未知数における 2 つの線形方程式系(「a」と「be」)。 たとえば、次のようなシステムを解決します。 クレーマー法、その結果として静止点が得られます。 チェック中 極値の十分条件、この時点で関数が 正確に届く 最小。 このチェックには追加の計算が含まれるため、舞台裏に残しておきます。 (必要に応じて、不足しているフレームを表示できます)。 最終的な結論は次のとおりです。
関数 一番いい方法 (少なくとも他の線形関数と比較して)実験ポイントを近づける 。 大まかに言えば、そのグラフはこれらの点のできるだけ近くを通過します。 伝統的に 計量経済学結果の近似関数も呼ばれます 一対の線形回帰式 .
検討中の問題は実用上非常に重要です。 この例の状況では、式は次のようになります。 取引高を予測できます (「イグレック」)店舗は何らかの値の販売面積を持っています (「x」の何らかの意味)。 はい、結果として得られる予測は単なる予測ですが、多くの場合、非常に正確であることが判明します。
難しいことは何もないので、「実数」の問題を 1 つだけ分析します。すべての計算は 7 年生から 8 年生の学校のカリキュラムのレベルです。 95% のケースでは、一次関数だけを見つけるように求められますが、記事の最後で、最適な双曲線、指数関数、およびその他の関数の方程式を見つけることはそれほど難しくないことを示します。
実際、残っているのは、約束された特典を配布することだけです。そうすれば、そのような例題を正確に解決できるだけでなく、迅速に解決できるようになります。 私たちはこの規格を注意深く研究しています。
タスク
2 つの指標間の関係を研究した結果、次の数値のペアが得られました。
最小二乗法を使用して、経験的な値に最もよく近似する一次関数を見つけます。 (経験者)データ。 実験点を構築するための図面と、デカルト直交座標系の近似関数のグラフを作成します。 。 経験値と理論値の間の偏差の二乗和を求めます。 機能が改善されるかどうかを確認する (最小二乗法の観点から)実験ポイントを近づけます。
「x」の意味は自然なものであり、これには特有の意味のある意味があることに注意してください。これについては後ほど説明します。 もちろん、小数にすることもできます。 また、特定のタスクの内容によっては、「X」と「ゲーム」の両方の値が完全または部分的にマイナスになる場合があります。 さて、私たちには「顔の見えない」任務が与えられ、それを始めます 解決:
システムの解として最適な関数の係数を見つけます。
よりコンパクトに記録するために、「カウンター」変数は省略できます。これは、合計が 1 から まで実行されることがすでに明らかであるためです。
必要な金額を表形式で計算すると便利です。
計算は微電卓でも実行できますが、Excel を使用した方が速く、エラーも発生しないため、はるかに優れています。 短いビデオを見る:
したがって、次のようになります。 システム:
ここで、2 番目の式に 3 を掛けて、 最初の式から項ごとに 2 番目の式を減算します。。 しかし、これは幸運です。実際には、システムは贈り物ではないことが多く、そのような場合にはそれが節約になります。 クレーマー法:
これは、システムに独自のソリューションがあることを意味します。
確認しよう。 そうしたくないのはわかりますが、絶対に見逃せないミスをなぜスキップするのでしょうか? 見つかった解をシステムの各方程式の左辺に代入してみましょう。
対応する方程式の右辺が得られます。これは、システムが正しく解決されたことを意味します。
したがって、必要な近似関数は次のようになります。 – から すべての線形関数実験データを最もよく近似するのは彼女です。
とは異なり 真っ直ぐ 店舗の売上高の面積への依存性。検出された依存性は次のとおりです。 逆行する (原則「多ければ多いほど少ない」)、そしてこの事実は否定的な意見によってすぐに明らかになります。 スロープ。 関数 特定のインジケーターが 1 単位増加すると、依存するインジケーターの値が減少することを示します 平均 0.65単位ずつ。 よく言われるように、ソバの価格が高くなると、ソバは売れなくなります。
近似関数のグラフをプロットするには、その 2 つの値を見つけます。
そして描画を実行します。
構築された直線を次のように呼びます。 トレンドライン
(つまり、直線的な傾向線。つまり、一般的な場合、傾向は必ずしも直線であるとは限りません)。 「トレンドに乗る」という表現は誰もがよく知っている言葉であり、この言葉について補足する必要はないと思います。
偏差の二乗和を計算してみましょう 経験値と理論値の間。 幾何学的には、これは「ラズベリー」セグメントの長さの二乗の合計です。 (そのうちの2つは小さすぎて見えません).
計算を表にまとめてみましょう。
繰り返しになりますが、念のために手動で行うこともできます。最初の点については例を示します。
しかし、すでに知られている方法でそれを行う方がはるかに効果的です。
もう一度繰り返します。 得られた結果にはどのような意味があるのでしょうか?から すべての線形関数 y関数 インジケーターは最小です。つまり、そのファミリーの中で最良の近似値です。 ちなみに、この問題の最後の疑問は偶然ではありません。提案された指数関数が次の場合はどうなるでしょうか。 実験点を近づけた方が良いでしょうか?
対応する偏差の二乗和を見つけてみましょう。区別するために、それらを文字「イプシロン」で示します。 テクニックは全く同じです:
もう一度、念のため、最初の点の計算をします。
Excelでは標準関数を使用します 経験値 (構文は Excel ヘルプにあります).
結論: 、これは、指数関数が実験点を直線よりも悪く近似していることを意味します。 .
ただし、ここで「さらに悪い」ということに注意してください。 まだという意味ではない、 なにが問題ですか。 今、私はこの指数関数のグラフを構築しました - そしてそれはまた点の近くを通過します - 分析的な研究がなければ、どの関数がより正確であるかを言うのは難しいほどです。
これで解決策は終わり、議論の自然値の問題に戻ります。 さまざまな研究 (通常は経済学または社会学) では、月、年、またはその他の等しい時間間隔を表すために自然な「X」が使用されます。 たとえば、次の問題を考えてみましょう。