プロット 統計の分散を決定する方法。 グループ分散、グループ間分散、および合計分散の計算 (分散の加算ルールに基づく)

統計の分散を決定する方法。 グループ分散、グループ間分散、および合計分散の計算 (分散の加算ルールに基づく)

統計では、現象やプロセスを分析するときに、調査対象の指標の平均レベルに関する情報だけでなく、 個々の単位の値のばらつきまたはばらつき 、つまり 重要な特性研究対象の集団。

最も変動しやすいのは、さまざまな期間およびさまざまな場所での株価、需要と供給、および金利です。

変動を特徴付ける主な指標 、範囲、分散、標準偏差、変動係数です。

変動範囲 特性の最大値と最小値の差を表します。 R = Xmax – Xmin。 この指標の欠点は、形質の変動の限界のみを評価し、これらの境界内の変動性を反映していないことです。

分散 この欠点が欠けています。 これは、属性値の偏差の平均二乗として計算されます。 平均サイズ:

分散を計算する簡単な方法 次の式 (単純かつ重み付け) を使用して実行されます。

これらの公式の適用例はタスク 1 と 2 に示されています。

実際に広く使用されている指標は次のとおりです。 標準偏差 :

平均 標準偏差と定義されている 平方根分散から求められ、研究対象の特性と同じ次元を持ちます。

考慮された指標により、変動の絶対値を取得できます。 研究対象の特性の測定単位で評価します。 彼らとは異なり、 変動係数 変動を相対的な観点、つまり平均レベルと比較して測定します。多くの場合、これが望ましいです。

変動係数の計算式。

「統計のばらつきの指標」というトピックの問題の解決例

問題 1 。 この地域の銀行の月間平均預金額に対する広告の影響を調査する際、2 つの銀行が調査されました。 受け取った 次の結果:

定義する:
1) 各銀行について: a) 月あたりの平均預金額。 b) 貢献の分散。
2) 2 つの銀行を合わせた平均月間預金額。
3) 広告に応じて 2 つの銀行の預金の差異。
4) 広告を除くすべての要因に応じた 2 つの銀行の預金差異。
5) 加算ルールを使用した合計分散。
6) 決定係数。
7) 相関関係。

解決

1) 広告付き銀行の計算表を作成してみよう 。 平均月次デポジットを決定するには、間隔の中間点を見つけます。 この場合、開いた間隔 (最初) の値は、それに隣接する間隔 (2 番目) の値と条件付きで等しくなります。

加重算術平均の式を使用して平均預金サイズを求めます。

29,000/50 = 580 摩擦。

次の式を使用して寄与の分散を求めます。

23 400/50 = 468

同様のアクションを実行します 広告のない銀行の場合 :

2) 2 つの銀行の平均預金額を一緒に求めてみましょう。 Хср =(580×50+542.8×50)/100 = 561.4 こすります。

3)公式:σ 2 =pq(代替属性の分散の公式)を使用して、広告に応じて2つの銀行の預金の分散を求める。 ここで、p=0.5 は広告に依存する要因の割合です。 q=1-0.5であれば、σ 2 =0.5×0.5=0.25となる。

4) 他の要因の割合が 0.5 であるため、広告を除くすべての要因に応じた 2 つの銀行の預金の分散も 0.25 になります。

5) 加算ルールを使用して合計分散を決定します。

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 事実 + σ 2 残り = 552.08+345.96 = 898.04

6) 決定係数 η 2 = σ 2 事実 / σ 2 = 345.96/898.04 = 0.39 = 39% - 貢献の大きさは広告に 39% 依存します。

7) 経験的相関比 η = √η 2 = √0.39 = 0.62 – 関係は非常に近いです。

問題 2 。 市場性のある製品の規模に応じて企業をグループ化します。

以下を決定します。 1) 市場性のある製品の価値の分散。 2)標準偏差。 3) 変動係数。

解決

1) 提示された条件による 間隔シリーズ配布物。 これは離散的に表現する必要があります。つまり、間隔 (x") の中央を見つけます。閉じた間隔のグループでは、単純な算術平均を使用して中央を見つけます。上限があるグループでは、この上限との差として次の間隔の半分のサイズ (200-(400 -200):2=100)。

下限があるグループの場合 - この下限と前の間隔の半分のサイズの合計 (800+(800-600):2=900)。

次の式を使用して、市場性のある製品の平均価格を計算します。

Хср = k×((Σ((x"-a):k)×f):Σf)+a。ここで、a=500 は最高周波数でのオプションのサイズ、k=600-400=200 は最大周波数でのオプションのサイズです。最高周波数での間隔のサイズ 結果を表に入れてみましょう。

したがって、調査対象期間の商業生産高の平均値は、一般にХср = (-5:37)×200+500=472.97千ルーブルに等しくなります。

2) 次の式を使用して分散を求めます。

σ 2 = (33/37)*2002-(472.97-500)2 = 35,675.67-730.62 = 34,945.05

3) 標準偏差: σ = ±√σ 2 = ±√34,945.05 ≈ ±186.94 千ルーブル。

4) 変動係数: V = (σ /Хср)*100 = (186.94 / 472.97)*100 = 39.52%

統計で使用される多くの指標の中で、分散の計算に注目する必要があります。 この計算を手動で実行するのはかなり面倒な作業であることに注意してください。 幸いなことに、Excel には計算手順を自動化できる機能があります。 これらのツールを使用するためのアルゴリズムを見てみましょう。

分散は変動の指標であり、数学的期待からの偏差の平均二乗です。 したがって、平均値を中心とした数値の広がりを表します。 分散の計算は次のいずれかで実行できます。 人口、そして選択的に。

方法1:人口に基づく計算

一般集団について Excel でこの指標を計算するには、次の関数を使用します。 DISP.G。 この式の構文は次のとおりです。

DISP.G(数値1;数値2;…)

合計 1 ~ 255 個の引数を使用できます。 引数は次のとおりです。 数値、およびそれらが含まれるセルへの参照。

数値データの範囲に対してこの値を計算する方法を見てみましょう。


方法 2: サンプルによる計算

母集団に基づいて値を計算するのとは異なり、サンプルを計算する場合、分母は数値の合計ではなく、1 少ない数を示します。 これはエラー修正の目的で行われます。 Excel ではこの微妙な違いが考慮されます。 特別な機能、このタイプの計算を目的としています - DISP.V。 その構文は次の式で表されます。

DISP.B(数値1;数値2;…)

前の関数と同様に、引数の数も 1 ~ 255 の範囲で指定できます。


ご覧のとおり、Excel プログラムを使用すると、分散の計算が非常に簡単になります。 この統計は、アプリケーションによって母集団またはサンプルから計算できます。 この場合、すべてのユーザー操作は実際には処理する数値の範囲を指定することになり、主な作業は Excel 自体が行います。 間違いなくお金の節約になりますよ かなりの量ユーザーの時間。

統計のばらつきは、特性の 2 乗の個別値として求められます。 初期データに応じて、単純な重み付き分散公式を使用して決定されます。

1. (グループ化されていないデータの場合) は次の式を使用して計算されます。

2. 加重分散 (変動系列の場合):

ここで、n は周波数 (係数 X の再現性) です。

分散を求める例

このページでは説明します 標準的な例分散を見つけるには、他の問題を調べて分散を見つけることもできます

例 1. 次のデータは、20 人の通信制学生のグループで利用できます。 特性の分布の区間系列を構築し、特性の平均値を計算し、そのばらつきを調べる必要があります。

間隔グループを作成しましょう。 次の式を使用して間隔の範囲を決定しましょう。

ここで、X max はグループ化特性の最大値です。
X min – グループ化特性の最小値。
n – 間隔の数:

n=5 を受け入れます。 ステップは次のとおりです: h = (192 - 159)/ 5 = 6.6

間隔グループを作成しましょう

さらに計算を行うために、補助テーブルを作成します。

X'i は間隔の真ん中です。 (たとえば、間隔の中央 159 – 165.6 = 162.3)

加重算術平均の式を使用して生徒の平均身長を決定します。

次の式を使用して分散を求めてみましょう。

分散公式は次のように変形できます。

この式から次のことがわかります 分散は次の値に等しい オプションの二乗の平均と二乗と平均の差。

の差異 バリエーションシリーズ モーメント法を使用した等間隔の計算は、分散の 2 番目のプロパティ (すべてのオプションを間隔の値で割る) を使用して次の方法で計算できます。 分散の決定モーメント法を使用して計算され、次の式を使用する方が労力が少なくなります。

ここで、i は間隔の値です。
A は従来のゼロであり、最高周波数の間隔の中央を使用すると便利です。
m1 は 1 次モーメントの 2 乗です。
m2 - 二次モーメント

(統計的母集団において、相互に排他的な選択肢が 2 つだけになるように特性が変化する場合、そのような変動性は代替と呼ばれます) は、次の式を使用して計算できます。

で置き換える この式分散 q =1- p の場合、次のようになります。

差異の種類

合計差異変動を引き起こすすべての要因の影響下で、集団全体にわたる特性の変動を測定します。 偏差の二乗平均に等しい 個体値特徴 x は x の全体平均から求められ、単純分散または加重分散として定義できます。

ランダムな変動を特徴づけます。 変動の一部は説明されていない要因の影響によるものであり、グループの基礎を形成する要因属性には依存しません。 このような分散は、グループ X 内の属性の個々の値のグループの算術平均からの偏差の二乗平均に等しく、単純分散または加重分散として計算できます。

したがって、 グループ内分散測定グループ内の形質の変動であり、次の式で決定されます。

ここで、xi はグループ平均です。
ni はグループ内のユニットの数です。

たとえば、作業場での労働生産性のレベルに対する労働者の資格の影響を研究するタスクで決定する必要があるグループ内差異は、考えられるすべての要因(機器の技術的状態、設備の可用性)によって引き起こされる各グループの生産量の差異を示しています。工具や材料、労働者の年齢、労働強度など。)、資格カテゴリーの違いを除きます(グループ内ではすべての労働者が同じ資格を持っています)。

グループ内分散の平均は、ランダム、つまり、グループ化要因を除く他のすべての要因の影響下で発生した変動の部分を反映します。 次の式を使用して計算されます。

グループの基礎を形成する因子記号の影響による、結果として得られる特性の系統的な変動を特徴付けます。 これは、全体の平均からのグループ平均の偏差の二乗平均に等しい。 グループ間分散は次の式を使用して計算されます。

統計に分散を加えるルール

によると 分散の追加ルール合計分散は、グループ内分散とグループ間分散の平均の合計に等しくなります。

このルールの意味すべての要因の影響下で生じる分散の合計は、他のすべての要因の影響下で生じる分散とグループ化要因によって生じる分散の合計に等しいということです。

分散を加算する公式を使用すると、2 つの既知の分散から 3 番目の未知の分散を求めることができ、グループ化特性の影響の強さを判断することもできます。

分散特性

1. 特性のすべての値が同じ一定量だけ減少(増加)した場合、分散は変化しません。
2. 特性のすべての値が同じ n 倍減少 (増加) した場合、分散はそれに対応して n^2 倍減少 (増加) します。

分散液の種類:

合計差異この変動を引き起こしたすべての要因の影響下での集団全体の特性の変動を特徴づけます。 この値は次の式で求められます。

ここで、 は調査対象の母集団全体の算術平均です。

グループ内の平均分散説明されていない要因の影響下で発生する可能性があり、グループ化の基礎を形成する要因属性に依存しないランダムな変動を示します。 この分散は次のように計算されます。まず、個々のグループの分散が計算され ()、次にグループ内の平均分散が計算されます。

ここで、n i はグループ内のユニットの数です。

グループ間分散(グループ平均の分散) は系統的な変動を特徴づけます。 グループ化の基礎となる因子符号の影響下で生じる、研究対象の特性の値の違い。

ここで、 は別のグループの平均値です。

3 つのタイプの分散はすべて相互に関連しています。合計分散は、平均グループ内分散とグループ間分散の合計に等しくなります。

プロパティ:

25 変動の相対尺度

振動係数

相対的 線形偏差

変動係数

係数。 発振 ○平均を中心とした特性の極値の相対的な変動を反映します。 リリース リン。 オフ。 平均値からの絶対偏差の符号の平均値の割合を特徴付けます。 係数。 変動は、平均の典型性を評価するために使用される変動の最も一般的な尺度です。

統計では、変動係数が 30 ~ 35% を超える集団は不均一であるとみなされます。

    分布シリーズの規則性。 配布の瞬間。 分布形状指標

一連の変動では、周波数と変動する特性の値の間に関係があります。特性が増加すると、周波数の値は最初に一定の制限まで増加し、その後減少します。 このような変化はと呼ばれます 分布パターン。

分布の形状は、歪度と尖度の指標を使用して研究されます。 これらの指標を計算する際には、分布モーメントが使用されます。

k 次モーメントは、ある定数値からの特性の変動値の k 次の偏差の平均です。 瞬間の次数は k の値によって決まります。 変動系列を分析する場合、最初の 4 次のモーメントの計算に制限されます。 モーメントを計算する場合、周波数または周波数を重みとして使用できます。 定数値の選択に応じて、初期モーメント、条件モーメント、中心モーメントが区別されます。

配布形態の指標:

非対称(として)分布の非対称性の程度を特徴付ける指標 .

したがって、(左側の)負の非対称性では、 。 (右側) 正の非対称性あり .

中心モーメントを使用して非対称性を計算できます。 それから:

,

ここでμ 3 – 3次中心モーメント。

- 尖度 (E ) と比較した関数グラフの急峻さを特徴づけます。 正規分布同じ変動の強さで:

,

ここで、μ 4 は 4 次の中心モーメントです。

    正規分布の法則

正規分布 (ガウス分布) の場合、分布関数は次の形式になります。

期待- 標準偏差

正規分布は対称であり、次の関係によって特徴付けられます: Xav=Me=Mo

正規分布の尖度は 3、歪度係数は 0 です。

正規分布曲線は多角形(対称な釣鐘状の直線)です。

    分散液の種類。 差異を追加するためのルール。 経験的決定係数の本質。

元の母集団が何らかの重要な特性に従ってグループに分割される場合、次のタイプの分散が計算されます。

    元の母集団の合計分散:

ここで、 は元の母集団の全体の平均値、 f は元の母集団の頻度です。 総分散は、元の母集団の全体の平均値からの特性の個々の値の偏差を特徴付けます。

    グループ内分散:

ここで、 j はグループの番号、 は各 j 番目のグループの平均値、 は j 番目のグループの頻度です。 グループ内分散は、各グループ内の形質の個別の値のグループ平均値からの偏差を特徴付けます。 すべてのグループ内分散から、次の式を使用して平均が計算されます。ここで、 は各 j 番目のグループの単位数です。

    グループ間分散:

グループ間分散は、元の母集団の全体平均からのグループ平均の偏差を特徴付けます。

分散加算ルール元の母集団の分散の合計は、グループ間の分散とグループ内の分散の平均の合計に等しくなければならないということです。

経験的決定係数は、グループ化特性の変動による調査対象の特性の変動の割合を示し、次の式を使用して計算されます。

    条件付きゼロから数えて平均値や分散を求める方法(モーメント法)

モーメント法による分散の計算は、分散の公式と 3 および 4 の特性の使用に基づいています。

(3. 属性 (オプション) のすべての値がある定数 A だけ増加 (減少) した場合、新しい母集団の分散は変化しません。

4. 属性 (オプション) のすべての値が K 倍増加 (乗算) される場合 (K は定数)、新しい母集団の分散は K 2 倍増加 (減少) します。)

モーメント法を使用して、等間隔の変動系列の分散を計算する式を取得します。

A - 条件付きゼロ、最大頻度のオプションに等しい (最大頻度の間隔の中央)

モーメント法による平均値の計算も、平均の性質を利用したものです。

    選択的観察の概念。 サンプリング法を使用して経済現象を研究する段階

標本観察とは、元の母集団のすべての単位が検査および研究されるのではなく、一部の単位のみが検査および研究される観察であり、母集団の一部の検査の結果は元の母集団全体に適用されます。 さらなる調査と研究のためにユニットが選択される母集団は、と呼ばれます。 一般的なそして、この全体性を特徴づけるすべての指標は次のように呼ばれます。 一般的な.

一般的な平均からのサンプル平均の偏差の考えられる限界は、と呼ばれます。 サンプリングエラー.

選択されたユニットのセットは次のように呼ばれます。 選択的そして、この全体性を特徴付けるすべての指標は次のように呼ばれます。 選択的.

サンプル調査には次の段階が含まれます。

研究対象(大衆経済現象)の特徴。 母集団が小さい場合、サンプリングは推奨されません。包括的な調査は必要ありません。

サンプルサイズの計算。 最適なボリュームを決定することが重要です。 最低コストでサンプリング誤差を許容範囲内に収める。

ランダム性と比例性の要件を考慮した観測単位の選択。

サンプリング誤差の推定に基づく代表性の証拠。 ランダムなサンプルの場合、誤差は数式を使用して計算されます。 ターゲットサンプルの代表性は、以下を使用して評価されます。 定性的方法(比較、実験);

サンプル母集団の分析。 生成されたサンプルが代表性の要件を満たしている場合、分析指標 (平均、相対など) を使用して分析されます。

分散確率変数- 特定のスプレッドの尺度 確率変数、つまり彼女 逸脱数学的な期待から。 統計では、分散を表すために表記 (シグマ二乗) がよく使用されます。 に等しい分散の平方根は次のように呼ばれます。 標準偏差または標準スプレッド。 標準偏差は、標準偏差と同じ単位で測定されます。 ランダムな値、分散はこの測定単位の二乗で測定されます。

サンプル全体を推定するために 1 つの値 (平均値、最頻値、中央値など) だけを使用するのは非常に便利ですが、このアプローチは誤った結論につながりやすいです。 この状況の理由は、値自体にあるのではなく、1 つの値がデータ値の広がりをまったく反映していないという事実にあります。

たとえば、サンプルでは次のようになります。

平均値は5です。

ただし、サンプル自体には、値が 5 の要素は 1 つもありません。サンプル内の各要素がその平均値にどの程度近づいているかを知る必要がある場合があります。 言い換えれば、値の分散を知る必要があります。 データの変化の程度を知ることで、より適切に解釈できるようになります 平均値, 中央値そして ファッション。 サンプル値がどの程度変化するかは、分散と標準偏差を計算することで決定されます。



標準偏差と呼ばれる分散と分散の平方根は、サンプル平均からの平均偏差を特徴付けます。 これら 2 つの量のうち、 最高値それは持っています 標準偏差。 この値は、サンプルの中央の要素から要素までの平均距離と考えることができます。

分散を有意義に解釈するのは困難です。 ただし、この値の平方根は標準偏差であり、簡単に解釈できます。

標準偏差は、最初に分散を決定し、次に分散の平方根を取ることによって計算されます。

たとえば、図に示すデータ配列の場合、次の値が取得されます。

写真1

ここで、差の二乗の平均値は 717.43 です。 標準偏差を取得するには、この数値の平方根を取るだけです。

結果は約 26.78 になります。

標準偏差は、項目のサンプル平均からの平均距離として解釈されることに注意してください。

標準偏差は、平均がサンプル全体をどの程度よく説明しているかを測定します。

あなたが PC アセンブリ生産部門の責任者だとしましょう。 四半期報告書によると、前四半期の生産台数は 2,500 台でした。 これは良いことですか、それとも悪いことですか? このデータの標準偏差をレポートに表示するように要求しました (またはレポートにこの列がすでに存在しています)。 たとえば、標準偏差の数値は 2000 です。部門の責任者であるあなたにとって、生産ラインにはより適切な管理が必要であることが明らかです (組み立てられた PC の数の偏差が大きすぎます)。

標準偏差が大きい場合、データは平均値の周囲に広く分散し、標準偏差が小さい場合、データは平均値の近くに集中することを思い出してください。

4つの統計 DISP関数()、VAR()、STDEV()、および STDEV() – セル範囲内の数値の分散と標準偏差を計算するように設計されています。 一連のデータの分散と標準偏差を計算する前に、そのデータが母集団を表すのか母集団のサンプルを表すのかを判断する必要があります。 一般母集団からのサンプルの場合は関数 VAR() と STDEV() を使用し、一般母集団の場合は関数 VAR() と STDEV() を使用する必要があります。

人口 関数

DISPR()

スタンドトロンプ()
サンプル

DISP()

STDEV()

分散 (および標準偏差) は、前述したように、データセットに含まれる値が算術平均の周囲にどの程度分散しているかを示します。

分散または標準偏差の値が小さい場合は、すべてのデータが算術平均の周囲に集中していることを示します。 非常に重要これらの値は、データが広範囲の値に分散していることを示しています。

分散を有意義に解釈するのは非常に困難です (小さい値、大きい値は何を意味するのでしょうか?)。 パフォーマンス タスク 3データセットの分散の意味をグラフ上に視覚的に表示できます。

タスク

· 演習 1.

· 2.1。 分散と標準偏差という概念を与えます。 統計データ処理の象徴的な名称です。

· 2.2. 図 1 に従ってワークシートに記入し、必要な計算を行います。

・2.3. 計算に使用される基本的な式を教えてください

· 2.4。 すべての指定 ( 、 、 ) について説明します。

・2.5。 説明する 実用的な重要性分散と標準偏差の概念。

タスク2。

1.1. 一般母集団とサンプルという概念を示します。 期待値および統計データ処理のための算術平均記号指定。

1.2. 図2に従ってワークシートを作成し、計算してください。

1.3. (一般母集団およびサンプルの) 計算に使用される基本的な式を提供します。

図2

1.4. サンプルで 46.43 や 48.78 などの算術平均値を取得できる理由を説明してください (付録ファイルを参照)。 結論を導き出します。

タスク3。

異なるデータセットを持つ 2 つのサンプルがありますが、それらの平均は同じになります。

図3

3.1. 図 3 に従ってワークシートに記入し、必要な計算を行います。

3.2. 基本的な計算式を教えてください。

3.3. 図 4、5 に従ってグラフを作成します。

3.4. 取得した依存関係を説明します。

3.5. 2 つのサンプルのデータに対して同様の計算を実行します。

オリジナルサンプル 11119999

2 番目のサンプルの算術平均が同じになるように 2 番目のサンプルの値を選択します。次に例を示します。

2 番目のサンプルの値を自分で選択します。 図 3、4、5 と同様の計算とグラフを並べます。計算で使用された基本的な式を示します。

適切な結論を導き出します。

必要なすべての画像、グラフ、数式、簡単な説明を含むレポートの形式ですべてのタスクを完了します。

注: グラフの構成については、図と簡単な説明を使用して説明する必要があります。



サイトの新着情報

>

最も人気のある