ランドスケープデザイン 統計における分散の特性。 確率変数の期待値と分散

統計における分散の特性。 確率変数の期待値と分散

しかし、この特性だけでは研究には不十分です。 確率変数。 2 人の射手がターゲットに向けて射撃することを想像してみましょう。 1 人は正確にシュートを打って中心近くに命中しますが、もう 1 人は...ただ楽しんでいて、狙うことさえしません。 しかし、面白いのは彼が 平均結果は最初の射手とまったく同じになります。 この状況は、通常、次の確率変数によって示されます。

「狙撃兵」の数学的期待値は に等しいですが、「興味深い人」の場合、これもゼロです。

したがって、どこまで到達するかを定量化する必要があります。 散らばっているターゲットの中心に対する弾丸 (ランダム変数値) (数学的期待値)。 まあ、そして 散乱ラテン語から翻訳する以外に方法はありません 分散 .

これがどのように決定されるかを見てみましょう 数値特性レッスンの最初の部分の例の 1 つを使用します。

そこでこのゲームの残念な数学的期待が見つかりました。そして今度はその分散を計算する必要があります。 で示されるを通して 。

勝敗が平均値と比べてどの程度「ばらついている」のかを調べてみましょう。 明らかに、このためには計算する必要があります 違い確率変数の値そして彼女 数学的期待:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

ここで、結果を合計する必要があるように見えますが、この方法は適切ではありません。左側の変動が右側の変動と互いに打ち消し合うためです。 たとえば、「アマチュア」シューティングゲーム (上記の例)違いは次のとおりです 、そして追加するとゼロになるため、彼の射撃の分散の推定値は得られません。

この問題を回避するには、次のことを検討できます モジュール違いはありますが、技術的な理由により、このアプローチは両者を二乗したときに定着します。 解決策を表に定式化する方が便利です。

そしてここで計算が始まります 加重平均偏差の二乗の値。 それは何ですか? それは彼らのものだよ 期待値、これは散乱の尺度です。

意味差異。 定義から、次のことがすぐにわかります。 分散を負にすることはできません– 練習のためにメモしてください!

期待値の求め方を覚えておきましょう。 差の二乗に対応する確率を掛けます。 (表の続き):
– 比喩的に言えば、これは「牽引力」です。
そして結果を要約します:

賞金に比べて結果が大きすぎると思いませんか? そうです。これを 2 乗しました。ゲームの次元に戻るには、平方根を抽出する必要があります。 この量はと呼ばれます 標準偏差 ギリシャ文字の「シグマ」で表されます。

この値は時々呼ばれます 標準偏差 .

その意味は何でしょうか? 平均によって数学的期待から左右に逸脱した場合 標準偏差:

– 確率変数の最も可能性の高い値がこの間隔に「集中」します。 私たちが実際に観察していること:

ただし、散乱を分析するときは、ほとんどの場合、分散の概念を使用することがあります。 ゲームに関連してそれが何を意味するかを理解してみましょう。 矢の場合、ターゲットの中心に対する命中率の「精度」について話している場合、ここでの分散は 2 つのことを特徴づけます。

まず、賭け金が増加するにつれて分散も増加することは明らかです。 したがって、たとえば、10 倍に増加すると、数学的期待値は 10 倍に増加し、分散は 100 倍に増加します。 (これは二次量なので)。 ただし、ゲームのルール自体は変わっていないことに注意してください。 大まかに言えば、以前は 10 ルーブル賭けていたのに、現在は 100 ルーブルに賭けているレートだけが変わりました。

2 番目の、より興味深い点は、差異がプレイ スタイルを特徴付けるということです。 ゲームの賭けをメンタル的に修正する ある一定のレベルで何が何だか見てみましょう:

分散が低いゲームは慎重なゲームです。 プレイヤーは、一度にあまり負けたり勝ちすぎたりしない、最も信頼性の高いスキームを選択する傾向があります。 例えばルーレットの赤黒系。 (記事の例 4 を参照) ランダム変数) .

分散性の高いゲーム。 彼女はよく呼ばれます 分散性のゲーム。 これは、プレイヤーが「アドレナリン」スキームを選択する、冒険的または攻撃的なプレイ スタイルです。 せめて覚えておきましょう 「マーチンゲール」、この場合、賭けられる金額は、前のポイントの「静かな」ゲームよりも桁違いに大きくなります。

ポーカーの状況は示唆的です。いわゆる きついゲーム資金に関して慎重で「不安定」な傾向があるプレーヤー (バンクロール)。 当然のことですが、彼らのバンクロールは大きく変動しません(変動が小さい)。 逆に、プレイヤーの分散が大きい場合、そのプレイヤーは攻撃的です。 彼はしばしばリスクを冒し、多額の賭けをし、巨額の銀行を破るか、粉々に身を失う可能性があります。

同じことが外国為替などでも起こります - 例はたくさんあります。

さらに、すべての場合において、ゲームが 1 ペニーでプレイされるか数千ドルでプレイされるかは問題ではありません。 どのレベルにも分散の低いプレーヤーと高いプレーヤーがいます。 そうですね、私たちが覚えているように、平均的な勝ちには「責任」があります。 期待値.

おそらく、差異を見つけるのは長くて骨の折れるプロセスであることに気づいたでしょう。 しかし、数学は寛大です。

分散を求める公式

この式はは分散の定義から直接導出され、それをすぐに使用します。 私たちのゲームを上に置いた看板をコピーします。

そして見つかった数学的期待。

2 番目の方法で分散を計算してみましょう。 まず、数学的な期待値、つまり確率変数の 2 乗を求めてみましょう。 による 数学的期待値の決定:

この場合:

したがって、式によれば次のようになります。

彼らが言うように、違いを感じてください。 そして、実際には、もちろん、この公式を使用する方が良いです (条件で別の必要がない限り)。

私たちは次のことを解決し、設計するテクニックを習得します。

例6

その数学的な期待値、分散、標準偏差を求めます。

このタスクはどこにでもあり、通常、意味のあるものはありません。
番号の付いたいくつかの電球が狂った空間で一定の確率で点灯することを想像してみてください:)

解決:基本的な計算を表にまとめておくと便利です。 まず、先頭2行に初期データを書き込みます。 次に積を計算し、最後に右側の列の合計を計算します。

実際、ほぼすべての準備が整いました。 3 行目は、既製の数学的期待値を示しています。 .

次の式を使用して分散を計算します。

そして最後に、標準偏差:
– 個人的には、通常、小数点第 2 位に四捨五入します。

すべての計算は電卓で実行できますが、Excel で実行することもできます。

ここで間違えるのは難しいです:)

答え:

希望する人は、自分の生活をさらに簡素化し、私のサービスを活用できます。 電卓 (デモ)即座に解決するだけでなく、 この仕事、しかしまた構築します テーマ別グラフィックス (すぐに到着します)。 プログラムは次のとおりです。 ライブラリからダウンロードする– 少なくとも 1 つダウンロードしている場合 教材、または取得 別の方法。 プロジェクトをサポートしていただきありがとうございます!

いくつかのタスク 独立した決定:

例 7

定義に従って、前の例の確率変数の分散を計算します。

同様の例:

例8

離散確率変数は、その分布法則によって指定されます。

はい、確率変数の値は非常に大きくなる可能性があります (実際の作品の例), ここでは、可能であれば Excel を使用します。 ちなみに、例 7 のように、より速く、より信頼性が高く、より楽しいです。

解決策と回答はページの下部にあります。

レッスンの 2 番目の部分の終わりに、もう 1 つ見ていきます。 典型的なタスク、小さな判じ絵とさえ言えるかもしれません。

例9

離散確率変数は、 と 、 の 2 つの値のみを取ることができます。 確率、数学的期待値、分散は既知です。

解決: 未知の確率から始めましょう。 確率変数は 2 つの値しかとれないため、対応するイベントの確率の合計は次のようになります。

そしてそれ以来、そして 。

残っているのは見つけることだけです...、言うのは簡単です:) でもまあ、さあ、行きましょう。 数学的期待の定義によると、次のようになります。
– 既知の量を代入します。

– そして、この方程式からは、通常の方向に書き換えることができることを除いて、それ以上何も絞り出すことはできません。

または:

について さらなるアクション, 推測できると思います。 システムを構成して解決しましょう。

小数- もちろん、これは完全な恥辱です。 両方の方程式を 10 倍します。

そして 2 で割ります:

その方が良いです。 最初の方程式から次のように表されます。
(これはより簡単な方法です)– 2 番目の式に代入します。


私たちは構築しています 二乗そして簡略化します:

乗算:

結果は、 二次方程式、その判別式がわかります。
- 素晴らしい!

すると 2 つの解決策が得られます。

1) もし 、 それ ;

2) もし 、 それ 。

最初の値のペアは条件を満たします。 高い確率ですべてが正しいですが、それでも、分布法則を書き留めてみましょう。

そしてチェックを実行します。つまり、期待値を見つけます。

統計におけるばらつきを一般化する主な指標は、分散と標準偏差です。

分散これ 算術平均 全体の平均からの各特性値の二乗偏差。 分散は通常、偏差の二乗平均と呼ばれ、 2 で表されます。 ソース データに応じて、単純平均または加重算術平均を使用して分散を計算できます。

 重み付けされていない (単純な) 分散。

 分散の重み付け。

標準偏差 これは絶対サイズの一般化された特性です バリエーション 集合体のサイン。 これは、属性と同じ測定単位 (メートル、トン、パーセント、ヘクタールなど) で表されます。

標準偏差は分散の平方根であり、 で表されます。

 重み付けされていない標準偏差。

 加重標準偏差。

標準偏差は、平均値の信頼性の尺度です。 標準偏差が小さいほど、算術平均は母集団全体をよりよく反映しています。

標準偏差の計算の前に、分散の計算が行われます。

加重分散を計算する手順は次のとおりです。

1) 加重算術平均を決定します。

2) 平均からのオプションの偏差を計算します。

3) 平均からの各オプションの偏差を二乗します。

4) 偏差の 2 乗に重み (度数) を掛けます。

5) 結果の生成物を要約します。

6) 結果の量を重みの合計で割ります。

例2.1

加重算術平均を計算してみましょう。

平均からの偏差の値とその二乗が表に示されています。 分散を定義しましょう。

標準偏差は次のようになります。

ソースデータが間隔の形式で表示される場合 配信シリーズ の場合は、まず属性の離散値を決定してから、説明されている方法を適用する必要があります。

例2.2

小麦収量に応じた集団農場の播種面積の分布に関するデータを使用した、区間系列の分散の計算を示します。

算術平均は次のとおりです。

分散を計算してみましょう。

6.3. 個別データに基づく計算式による分散の計算

計算手法 差異 複雑で、オプションや頻度の値が大きいと面倒になる可能性があります。 分散の特性を利用して計算を簡略化できます。

分散液は次のような性質を持っています。

1. 変化する特性の重み (周波数) を特定の回数だけ減少または増加しても、分散は変化しません。

2. 特性の各値を同じ一定量ずつ増減します。 分散は変わりません。

3. 各属性値を一定の回数だけ増減します kそれぞれ、分散を減少または増加させます k 2回 標準偏差 で k一度。

4. 任意の値に対する特性の分散は、平均値と任意の値の差の 2 乗あたりの算術平均に対する分散よりも常に大きくなります。

もし  0 の場合、次の等式が得られます。

つまり、特性の分散は、特性値の平均二乗と平均の二乗の差に等しくなります。

分散を計算する場合、各プロパティは独立して使用することも、他のプロパティと組み合わせて使用​​することもできます。

分散を計算する手順は簡単です。

1) 決定する 算術平均 :

2) 算術平均を二乗します。

3) シリーズの各バリアントの偏差を二乗します。

バツ 2 .

4) オプションの二乗和を求めます。

5) オプションの二乗和をその数で割ります。つまり、平均二乗を求めます。

6) 特性の平均二乗と平均の二乗の差を求めます。

例3.1労働者の生産性に関しては、次のデータが利用可能です。

次の計算をしてみましょう。

分散確率変数- 特定のスプレッドの尺度 確率変数、つまり彼女 逸脱数学的な期待から。 統計では、分散を表すために表記 (シグマ二乗) がよく使用されます。 に等しい分散の平方根は次のように呼ばれます。 標準偏差または標準スプレッド。 標準偏差は確率変数自体と同じ単位で測定され、分散はその単位の二乗で測定されます。

サンプル全体を推定するために 1 つの値 (平均値、最頻値、中央値など) だけを使用するのは非常に便利ですが、このアプローチでは誤った結論が導き出されやすくなります。 この状況の理由は、値自体にあるのではなく、1 つの値がデータ値の広がりをまったく反映していないという事実にあります。

たとえば、サンプルでは次のようになります。

平均値は5です。

ただし、サンプル自体には、値が 5 の要素は 1 つもありません。サンプル内の各要素がその平均値にどの程度近づいているかを知る必要がある場合があります。 言い換えれば、値の分散を知る必要があります。 データの変化の程度を知ることで、より適切に解釈できるようになります 平均値, 中央値そして ファッション。 サンプル値がどの程度変化するかは、分散と標準偏差を計算することで決定されます。



標準偏差と呼ばれる分散と分散の平方根は、サンプル平均からの平均偏差を特徴付けます。 これら 2 つの量のうち、 最高値それは持っています 標準偏差 。 この値は、サンプルの中央の要素から要素までの平均距離と考えることができます。

分散を有意義に解釈するのは困難です。 ただし、この値の平方根は標準偏差であり、簡単に解釈できます。

標準偏差は、最初に分散を決定し、次に分散の平方根を取ることによって計算されます。

たとえば、図に示すデータ配列の場合、次の値が取得されます。

写真1

ここで、差の二乗の平均値は 717.43 です。 標準偏差を取得するには、この数値の平方根を取るだけです。

結果は約 26.78 になります。

標準偏差は、項目のサンプル平均からの平均距離として解釈されることに注意してください。

標準偏差は、平均がサンプル全体をどの程度よく説明しているかを測定します。

あなたが PC アセンブリ生産部門の責任者だとしましょう。 四半期報告書によると、前四半期の生産台数は 2,500 台でした。 これは良いことですか、それとも悪いことですか? このデータの標準偏差をレポートに表示するように要求しました (またはレポートにこの列がすでに存在しています)。 たとえば、標準偏差の数値は 2000 です。部門の責任者であるあなたにとって、生産ラインにはより適切な管理が必要であることが明らかです (組み立てられた PC の数の偏差が大きすぎます)。

標準偏差が大きい場合、データは平均値の周囲に広く分散し、標準偏差が小さい場合、データは平均値の近くに集中することを思い出してください。

4つの統計 DISP関数()、VAR()、STDEV()、および STDEV() – セル範囲内の数値の分散と標準偏差を計算するように設計されています。 一連のデータの分散と標準偏差を計算する前に、そのデータが母集団を表すのか母集団のサンプルを表すのかを判断する必要があります。 一般母集団からのサンプルの場合は関数 VAR() と STDEV() を使用し、一般母集団の場合は関数 VAR() と STDEV() を使用する必要があります。

人口 関数

DISPR()

スタンドトロンプ()
サンプル

DISP()

STDEV()

分散 (および標準偏差) は、前述したように、データセットに含まれる値が算術平均の周囲にどの程度分散しているかを示します。

分散または標準偏差の値が小さい場合は、すべてのデータが算術平均付近に集中していることを示します。 非常に重要これらの値は、データが広範囲の値に分散していることを示しています。

分散を有意義に解釈するのは非常に困難です (小さい値、大きい値は何を意味するのでしょうか?)。 パフォーマンス タスク 3データセットの分散の意味をグラフ上に視覚的に表示できます。

タスク

· 演習 1.

· 2.1。 分散と標準偏差という概念を与えます。 統計データ処理の象徴的な名称です。

· 2.2. 図 1 に従ってワークシートに記入し、必要な計算を行います。

・2.3. 計算に使用される基本的な式を教えてください

· 2.4。 すべての指定 ( 、 、 ) について説明します。

・2.5。 説明する 実用的な重要性分散と標準偏差の概念。

タスク2。

1.1. 一般母集団とサンプルという概念を示します。 統計データ処理のための数学的期待値とその算術平均の記号的指定。

1.2. 図2に従ってワークシートを作成し、計算してください。

1.3. (一般母集団とサンプルの) 計算に使用される基本的な式を提供します。

図2

1.4. サンプルで 46.43 や 48.78 などの算術平均値を取得できる理由を説明してください (付録ファイルを参照)。 結論を導き出します。

タスク3。

異なるデータセットを持つ 2 つのサンプルがありますが、それらの平均は同じになります。

図3

3.1. 図 3 に従ってワークシートに記入し、必要な計算を行います。

3.2. 基本的な計算式を教えてください。

3.3. 図 4、5 に従ってグラフを作成します。

3.4. 取得した依存関係を説明します。

3.5. 2 つのサンプルのデータに対して同様の計算を実行します。

オリジナルサンプル 11119999

2 番目のサンプルの算術平均が同じになるように 2 番目のサンプルの値を選択します。次に例を示します。

2 番目のサンプルの値を自分で選択します。 図 3、4、5 と同様の計算とグラフを並べます。計算で使用された基本的な式を示します。

適切な結論を導き出します。

必要なすべての図、グラフ、式、簡単な説明を含むレポートの形式ですべてのタスクを完了します。

注: グラフの構成については、図と簡単な説明を使用して説明する必要があります。

統計では、現象やプロセスを分析するときに、調査対象の指標の平均レベルに関する情報だけでなく、 個々の単位の値のばらつきまたはばらつき 、つまり 重要な特性研究対象の集団。

最も変動しやすいのは、さまざまな期間およびさまざまな場所での株価、需要と供給、および金利です。

変動を特徴付ける主な指標 、範囲、分散、標準偏差、変動係数です。

変動範囲 特性の最大値と最小値の差を表します。 R = Xmax – Xmin。 この指標の欠点は、形質の変動の境界のみを評価し、これらの境界内の変動性を反映していないことです。

分散 この欠点が欠けています。 これは、特性値の平均値からの偏差の平均二乗として計算されます。

分散を計算する簡単な方法 次の式 (単純かつ重み付け) を使用して実行されます。

これらの公式の適用例は、タスク 1 と 2 に示されています。

実際に広く使用されている指標は次のとおりです。 標準偏差 :

標準偏差は分散の平方根として定義され、調査対象の特性と同じ次元を持ちます。

考慮された指標により、変動の絶対値を取得できます。 研究対象の特性の測定単位で評価します。 彼らとは異なり、 変動係数 変動を相対的な観点、つまり平均レベルと比較して測定します。多くの場合、これが望ましいです。

変動係数の計算式。

「統計のばらつきの指標」というトピックの問題の解決例

問題1 。 この地域の銀行の月間平均預金額に対する広告の影響を調査する際、2 つの銀行が調査されました。 受け取った 次の結果:

定義する:
1) 各銀行について: a) 月あたりの平均預金額。 b) 貢献の分散。
2) 2 つの銀行を合わせた平均月間預金額。
3) 広告に応じて 2 つの銀行の預金の差異。
4) 広告を除くすべての要因に応じた 2 つの銀行の預金差異。
5) 加算ルールを使用した合計分散。
6) 決定係数。
7) 相関関係。

解決

1) 広告付き銀行の計算表を作成してみよう 。 平均月次デポジットを決定するには、間隔の中間点を見つけます。 この場合、開いた間隔 (最初) の値は、それに隣接する間隔 (2 番目) の値と条件付きで等しくなります。

加重算術平均の式を使用して平均預金サイズを求めます。

29,000/50 = 580 摩擦。

次の式を使用して寄与度の分散を求めます。

23 400/50 = 468

同様のアクションを実行します 広告のない銀行の場合 :

2) 2 つの銀行の平均預金額を一緒に求めてみましょう。 Хср =(580×50+542.8×50)/100 = 561.4 こすります。

3)公式:σ 2 =pq(代替属性の分散の公式)を使用して、広告に応じて2つの銀行の預金の分散を求める。 ここで、p=0.5 は広告に依存する要因の割合です。 q=1-0.5であれば、σ 2 =0.5×0.5=0.25となる。

4) 他の要因の割合が 0.5 であるため、広告を除くすべての要因に応じて 2 つの銀行の預金の分散も 0.25 になります。

5) 定義しましょう 合計分散加算ルールを使用します。

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 事実 + σ 2 残り = 552.08+345.96 = 898.04

6) 決定係数 η 2 = σ 2 事実 / σ 2 = 345.96/898.04 = 0.39 = 39% - 貢献の大きさは広告に 39% 依存します。

7) 経験的相関比 η = √η 2 = √0.39 = 0.62 – 関係は非常に近いです。

問題 2 。 市場性のある製品の規模に応じて企業をグループ化します。

以下を決定します。 1) 市場性のある製品の価値の分散。 2)標準偏差。 3) 変動係数。

解決

1) 提示された条件による 間隔シリーズ配布物。 これは離散的に表現する必要があります。つまり、間隔 (x") の中央を見つけます。閉じた間隔のグループでは、単純な算術平均を使用して中央を見つけます。上限があるグループでは、この上限との差として次の間隔の半分のサイズ (200-(400 -200):2=100)。

下限があるグループの場合 - この下限と前の間隔の半分のサイズの合計 (800+(800-600):2=900)。

次の式を使用して、市場性のある製品の平均価格を計算します。

Хср = k×((Σ((x"-a):k)×f):Σf)+a。ここで、a=500 は最高周波数でのオプションのサイズ、k=600-400=200 は最大周波数でのオプションのサイズです。最高周波数での間隔のサイズ 結果を表に入れてみましょう。

それで、 平均値調査対象期間の市場性のある製品は一般にХср = (-5:37)×200+500=472.97千ルーブルに相当します。

2) 次の式を使用して分散を求めます。

σ 2 = (33/37)*2002-(472.97-500)2 = 35,675.67-730.62 = 34,945.05

3) 標準偏差: σ = ±√σ 2 = ±√34,945.05 ≈ ±186.94 千ルーブル。

4) 変動係数: V = (σ /Хср)*100 = (186.94 / 472.97)*100 = 39.52%

確率変数の分散は、この変数の値の広がりの尺度です。 分散が低いということは、値が近くに集まっていることを意味します。 大きな分散は、値の広がりが大きいことを示します。 確率変数の分散の概念は統計学で使用されます。 たとえば、2 つの値の分散 (男性患者と女性患者の間など) を比較すると、変数の有意性を検定できます。 分散は、統計モデルを構築するときにも使用されます。分散が低い場合は、値が過剰適合していることを示す可能性があるためです。

ステップ

標本分散の計算

  1. サンプル値を記録します。ほとんどの場合、統計学者は特定の母集団のサンプルにしかアクセスできません。 たとえば、統計学者は原則として、ロシアのすべての自動車を維持するためのコストを分析するのではなく、数千台の自動車の無作為サンプルを分析します。 このようなサンプルは車の平均価格を決定するのに役立ちますが、おそらく、結果として得られる値は実際の値からは程遠いものになります。

    • たとえば、カフェで 6 日間に販売されたパンの数をランダムな順序で分析してみましょう。 サンプルは次のようになります: 17、15、23、7、9、13。カフェの営業日に販売されたパンのデータがないため、これは母集団ではなくサンプルです。
    • 値のサンプルではなく母集団が与えられた場合は、次のセクションに進みます。
  2. 標本分散を計算する式を書き留めます。分散は、特定の量の値の広がりの尺度です。 分散値がゼロに近づくほど、値はより近くにグループ化されます。 値のサンプルを使用する場合は、次の式を使用して分散を計算します。

    • s 2 (\displaystyle s^(2)) = ∑[(x i (\displaystyle x_(i))- バツ) 2 (\displaystyle ^(2))] / (n - 1)
    • s 2 (\displaystyle s^(2))– これが分散です。 分散は次のように測定されます。 平方単位測定。
    • x i (\displaystyle x_(i))– サンプル内の各値。
    • x i (\displaystyle x_(i)) x̅ を引いて二乗し、結果を加算する必要があります。
    • x̅ – サンプル平均 (サンプル平均)。
    • n – サンプル内の値の数。
  3. サンプル平均を計算します。それは x̅ として表されます。 サンプル平均は単純な算術平均として計算されます。サンプル内のすべての値を合計し、その結果をサンプル内の値の数で割ります。

    • この例では、サンプルの値を追加します: 15 + 17 + 23 + 7 + 9 + 13 = 84
      次に、結果をサンプル内の値の数 (この例では 6 つ) で割ります: 84 ÷ 6 = 14。
      サンプル平均 x̅ = 14。
    • サンプル平均は、サンプル内の値が分布する中心値です。 サンプル内の値がサンプル平均の周囲にある場合、分散は小さくなります。 それ以外の場合、分散は大きくなります。
  4. サンプルの各値からサンプル平均を減算します。今度は差を計算してみます x i (\displaystyle x_(i))- x̅、ここで x i (\displaystyle x_(i))– サンプル内の各値。 得られた各結果は、サンプル平均からの特定の値の偏差の程度、つまり、この値がサンプル平均からどの程度離れているかを示します。

    • 私たちの例では:
      x 1 (\displaystyle x_(1))- x̅ = 17 - 14 = 3
      x 2 (\displaystyle x_(2))- x̅ = 15 - 14 = 1
      x 3 (\displaystyle x_(3))- x = 23 - 14 = 9
      x 4 (\displaystyle x_(4))- x̅ = 7 - 14 = -7
      x 5 (\displaystyle x_(5))- x̅ = 9 - 14 = -5
      x 6 (\displaystyle x_(6))- x̅ = 13 - 14 = -1
    • 得られた結果の正しさは、それらの合計がゼロに等しいため、簡単にチェックできます。 負の値(平均値からより小さい値までの距離)が完全に補正されるため、これは平均値の決定に関連しています。 正の値(平均値から大きな値までの距離)。
  5. 上で述べたように、差の合計は x i (\displaystyle x_(i))- x̅ はゼロに等しくなければなりません。 これは、平均分散が常にゼロであることを意味し、特定の量の値の広がりについては何の考えも与えません。 この問題を解決するには、それぞれの差を二乗します x i (\displaystyle x_(i))- バツ。 これにより、正の数のみが得られ、合計が 0 になることはありません。

    • 私たちの例では:
      (x 1 (\displaystyle x_(1))- バツ) 2 = 3 2 = 9 (\displaystyle ^(2)=3^(2)=9)
      (x 2 (\displaystyle (x_(2))- バツ) 2 = 1 2 = 1 (\displaystyle ^(2)=1^(2)=1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • 差の二乗を見つけました - x̅) 2 (\displaystyle ^(2))サンプル内の各値について。
  6. 差の二乗和を計算します。つまり、次のように書かれた式の部分を見つけます: ∑[( x i (\displaystyle x_(i))- バツ) 2 (\displaystyle ^(2))]。 ここで、記号 Σ は、各値の差の二乗和を意味します。 x i (\displaystyle x_(i))サンプルで。 あなたはすでに差の二乗を見つけました (x i (\displaystyle (x_(i))- バツ) 2 (\displaystyle ^(2))それぞれの値に対して x i (\displaystyle x_(i))サンプルで; あとはこれらの四角形を追加するだけです。

    • この例では: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. 結果を n - 1 で割ります。ここで、n はサンプル内の値の数です。少し前まで、統計学者は標本分散を計算するために、単純に結果を n で割っていました。 この場合、二乗分散の平均が得られます。これは、特定のサンプルの分散を説明するのに理想的です。 ただし、サンプルは値の母集団のほんの一部にすぎないことに注意してください。 別のサンプルを取得して同じ計算を実行すると、異なる結果が得られます。 結局のところ、(n だけではなく) n - 1 で除算すると、母集団分散のより正確な推定値が得られます。これが、あなたが関心のあることです。 n – 1 による除算は一般的になっているため、標本分散を計算する式に組み込まれています。

    • この例では、サンプルには 6 つの値、つまり n = 6 が含まれています。
      サンプルの分散 = s 2 = 166 6 − 1 = (\displaystyle s^(2)=(\frac (166)(6-1))=) 33,2
  8. 分散と標準偏差の差。式には指数が含まれているため、分散は分析対象の値の平方単位で測定されることに注意してください。 場合によっては、そのような規模の操作は非常に困難です。 このような場合は、次と等しい標準偏差を使用します。 平方根分散から。 これが、標本分散が次のように表される理由です。 s 2 (\displaystyle s^(2))、サンプルの標準偏差は次のようになります。 s (\displaystyle s).

    • この例では、サンプルの標準偏差は s = √33.2 = 5.76 です。

    母集団分散の計算

    1. いくつかの値のセットを分析します。セットには、検討中の数量のすべての値が含まれます。 たとえば、居住者の年齢を調査する場合 レニングラード地域の場合、人口にはこのエリアのすべての居住者の年齢が含まれます。 母集団を扱う場合は、テーブルを作成し、そこに母集団の値を入力することをお勧めします。 次の例を考えてみましょう。

      • ある部屋には6つの水槽があります。 各水槽には次の数の魚が含まれています。
        x 1 = 5 (\displaystyle x_(1)=5)
        x 2 = 5 (\displaystyle x_(2)=5)
        x 3 = 8 (\displaystyle x_(3)=8)
        x 4 = 12 (\displaystyle x_(4)=12)
        x 5 = 15 (\displaystyle x_(5)=15)
        x 6 = 18 (\displaystyle x_(6)=18)
    2. 母集団の分散を計算する式を書き留めます。合計には特定の数量のすべての値が含まれるため、以下の式で次の値を得ることができます。 正確な値母集団の差異。 母集団の分散と標本分散 (推定値にすぎません) を区別するために、統計学者はさまざまな変数を使用します。

      • σ 2 (\displaystyle ^(2)) = (∑(x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2)))/n
      • σ 2 (\displaystyle ^(2))– 人口分散 (「シグマ二乗」と読みます)。 分散は平方単位で測定されます。
      • x i (\displaystyle x_(i))– 各値の合計。
      • Σ – 和符号。 つまり、それぞれの値から x i (\displaystyle x_(i))μを引いて二乗し、その結果を加算する必要があります。
      • μ – 母集団の平均。
      • n – 母集団内の値の数。
    3. 母集団の平均を計算します。母集団を扱う場合、その平均はμ (μ) として表されます。 母集団平均は単純な算術平均として計算されます。母集団内のすべての値を合計し、その結果を母集団内の値の数で割ります。

      • 平均は常に算術平均として計算されるわけではないことに注意してください。
      • この例では、母集団の平均値は次のようになります。 μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\displaystyle (\frac (5+5+8+12+15+18)(6))) = 10,5
    4. 母集団の各値から母集団の平均を引きます。差の値がゼロに近づくほど、特定の値は母集団の平均に近づきます。 母集団の各値とその平均の差を見つけると、値の分布についての最初のアイデアが得られます。

      • 私たちの例では:
        x 1 (\displaystyle x_(1))- μ = 5 - 10.5 = -5.5
        x 2 (\displaystyle x_(2))- μ = 5 - 10.5 = -5.5
        x 3 (\displaystyle x_(3))- μ = 8 - 10.5 = -2.5
        x 4 (\displaystyle x_(4))- μ = 12 - 10.5 = 1.5
        x 5 (\displaystyle x_(5))- μ = 15 - 10.5 = 4.5
        x 6 (\displaystyle x_(6))- μ = 18 - 10.5 = 7.5
    5. 得られた各結果を二乗します。差の値は正と負の両方になります。 これらの値を数直線上にプロットすると、母集団平均の左右に位置します。 正の数値と負の数値は互いに打ち消し合うため、分散の計算には適していません。 したがって、それぞれの差を二乗して、正の数値のみを取得します。

      • 私たちの例では:
        (x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))各母集団値 (i = 1 から i = 6) について:
        (-5,5)2 (\displaystyle ^(2)) = 30,25
        (-5,5)2 (\displaystyle ^(2))、 どこ x n (\displaystyle x_(n))最後の値一般の人々の中で。
      • 得られた結果の平均値を計算するには、それらの合計を求め、それを n で割る必要があります:(( x 1 (\displaystyle x_(1)) - μ) 2 (\displaystyle ^(2)) + (x 2 (\displaystyle x_(2)) - μ) 2 (\displaystyle ^(2)) + ... + (x n (\displaystyle x_(n)) - μ) 2 (\displaystyle ^(2)))/n
      • では、上記の説明を変数を使って書き留めてみましょう: (∑( x i (\displaystyle x_(i)) - μ) 2 (\displaystyle ^(2))) / n を計算し、母集団分散を計算する式を取得します。


サイトの新着情報

>

最も人気のある