住宅の建物 Excelの標準偏差。 統計パラメータ

Excelの標準偏差。 統計パラメータ

この記事では次について話します 平均を見つける方法 標準偏差 。 この教材は数学を完全に理解するために非常に重要であるため、数学の家庭教師は、この教材の学習に別のレッスンまたは複数のレッスンを費やす必要があります。 この記事には、標準偏差とは何か、またその求め方を説明する詳細でわかりやすいビデオ チュートリアルへのリンクがあります。

標準偏差特定のパラメータを測定した結果として得られる値の広がりを評価することができます。 記号(ギリシャ文字「シグマ」)で示されます。

計算式は非常に簡単です。 標準偏差を求めるには、分散の平方根を求める必要があります。 そこで、「分散とは何ですか?」と尋ねる必要があります。

分散とは何ですか

分散の定義は次のようになります。 分散は、平均値からの値の二乗偏差の算術平均です。

分散を見つけるには、次の計算を順番に実行します。

  • 平均値を決定します (一連の値の単純な算術平均)。
  • 次に、各値から平均を引き、結果の差を 2 乗します (次のようになります) 二乗差).
  • 次のステップは、結果として得られる二乗差の算術平均を計算することです (正確に二乗する理由は以下でわかります)。

例を見てみましょう。 あなたとあなたの友人が犬の身長を (ミリメートル単位で) 測定することにしたとします。 測定の結果、高さ (枯れ部分) の測定値は、600 mm、470 mm、170 mm、430 mm、300 mm でした。

平均、分散、標準偏差を計算してみましょう。

まずは平均値を求めてみましょう。 すでにご存知のとおり、これを行うには、すべての測定値を合計し、測定数で割る必要があります。 計算の進行状況:

平均mm。

したがって、平均(算術平均)は 394 mm です。

次に、決定する必要があります 各犬の身長の平均からの偏差:

ついに、 分散を計算するには、結果として得られる差をそれぞれ 2 乗し、得られた結果の算術平均を求めます。

分散 mm 2 。

したがって、分散は 21704 mm 2 となります。

標準偏差の求め方

では、分散がわかっている場合、どのようにして標準偏差を計算できるのでしょうか? 覚えているように、その平方根を求めます。 つまり、標準偏差は次のようになります。

Mm (mm 単位の小数点以下を四捨五入)。

この方法を使用すると、一部の犬 (ロットワイラーなど) が非常に敏感であることがわかりました。 大きな犬。 しかし、非常に小さな犬もいます(たとえば、ダックスフントですが、彼らにそのことを告げるべきではありません)。

最も興味深いのは、標準偏差が関係していることです。 有用な情報。 これで、平均からの標準偏差 (その両側) をプロットした場合に得られる間隔内に、取得された高さ測定結果のどれが含まれるかを示すことができます。

つまり、標準偏差を使用して、どの値が正常 (統計的平均) であるか、どの値が異常に大きいか、または逆に小さいかを調べることを可能にする「標準」方法を取得します。

標準偏差とは何ですか

しかし...分析するとすべてが少し異なります サンプルデータ。 私たちの例では、 一般の人々。つまり、世界で私たちが興味を持った犬は、私たちの5匹の犬だけでした。

ただし、データがサンプル(大規模なデータから選択された値)である場合、 人口)、その場合は、別の方法で計算を行う必要があります。

値がある場合は、次のようになります。

平均の決定を含め、他のすべての計算も同様に実行されます。

たとえば、私たちの 5 匹の犬が犬の人口 (地球上のすべての犬) のサンプルにすぎない場合、次のように割る必要があります。 5ではなく4、つまり:

サンプルの分散 = mm2。

この場合、サンプルの標準偏差は次のようになります。 mm (最も近い整数に四捨五入)。

私たちの値がほんの小さなサンプルにすぎない場合、何らかの「修正」を行ったと言えます。

注記。 なぜ差を正確に二乗するのでしょうか?

しかし、分散を計算するときに差の二乗を正確に取るのはなぜでしょうか? いくつかのパラメータを測定するときに、次の一連の値を受け取ったとします。 4; -4; -4. 平均からの絶対偏差(差)を単純に加算すると...負の値は正の値で相殺されます。

.

このオプションは役に立たないことがわかりました。 それなら、偏差の絶対値 (つまり、これらの値のモジュール) を試してみる価値はあるでしょうか?

一見すると、それはうまくいきます(ちなみに、結果の値は平均絶対偏差と呼ばれます)が、すべての場合にそうとは限りません。 別の例を試してみましょう。 測定結果が次の値セットになるとします。7; 1; -6; -2. この場合、平均絶対偏差は次のようになります。

おお! ここでも 4 という結果が得られましたが、差の広がりははるかに大きくなっています。

ここで、差を二乗するとどうなるかを見てみましょう (そして、その合計の平方根をとります)。

最初の例では次のようになります。

.

2 番目の例では次のようになります。

さて、それはまったく別の問題です! 差の広がりが大きいほど、標準偏差も大きくなります...これが私たちが目指していたことです。

実際、 この方法点間の距離を計算するときと同じ考え方が使用されますが、適用方法が異なるだけです。

数学的な観点から見ると、正方形と 平方根偏差の絶対値から得られるよりも多くの利点が得られ、標準偏差を他の数学的問題に適用できるようになります。

セルゲイ・ヴァレリエヴィッチは標準偏差の求め方を教えてくれました

ばらつきを推定するための近似方法 バリエーションシリーズ- 制限と振幅の決定。ただし、シリーズ内のオプションの値は考慮されません。 一連の変動内の量的特性の変動性について一般に受け入れられている主な尺度は次のとおりです。 標準偏差 (σ - シグマ)。 標準偏差が大きいほど、この系列の変動の度合いは大きくなります。

標準偏差を計算する方法には、次の手順が含まれます。

1. 算術平均 (M) を求めます。

2. 逸脱を決定する 別途オプション算術平均 (d=V-M) から。 医療統計では、平均からの偏差をd(逸脱)と呼びます。 すべての偏差の合計はゼロです。

3. 各偏差 d 2 を二乗します。

4. 偏差の 2 乗に対応する周波数 d 2 *p を掛けます。

5. 積の合計 å(d 2 *p) を求めます。

6. 次の式を使用して標準偏差を計算します。

n が 30 より大きい場合、または n が 30 以下の場合 (n はすべてのオプションの数)。

標準偏差値:

1. 標準偏差は、相対的なバリアントの広がりを特徴付けます。 平均サイズ(つまり、変動系列の変動)。 シグマが大きいほど、この系列の多様性の度合いが高くなります。

2. 標準偏差は次の目的で使用されます。 比較評価計算対象となった変動系列に対する算術平均の一致度。

質量現象の変動は法則に従う 正規分布。 この分布を表す曲線は、滑らかな釣鐘型の対称曲線 (ガウス曲線) のように見えます。 確率論によれば、正規分布の法則に従う現象では、算術平均値と標準偏差の値の間には厳密な数学的関係が存在します。 同次変分系列における変量の理論的分布は、スリー シグマ ルールに従います。

横軸上の直交座標系で値をプロットすると、 定量的特性(バリアント)、縦軸は変動系列におけるバリアントの発生頻度であり、大きい値と小さい値を持つバリアントが算術平均の両側に均等に配置されます。



特性の正規分布では次のことが確認されています。

バリアント値の 68.3% が M±1 秒以内にあります

バリアント値の 95.5% が M±2 秒以内にあります

バリアント値の 99.7% が M±3 秒以内にあります

3. 標準偏差により、臨床パラメータと生物学的パラメータの正常値を確立できます。 医学では、通常、間隔 M±1 秒が研究対象の現象の正常範囲と見なされます。 算術平均からの推定値の偏差が 1 秒を超える場合は、調査されたパラメータが標準から偏差していることを示します。

4. 医学では、スリーシグマ則は小児科で子供の身体発達レベルの個別評価 (シグマ偏差法) や子供服の基準の開発に使用されます。

5. 標準偏差は、研究対象の特性の多様性の程度を特徴づけ、算術平均の誤差を計算するために必要です。

標準偏差の値は、通常、同じタイプの系列の変動性を比較するために使用されます。 2つの系列を比較すると さまざまな兆候(身長と体重、平均入院治療期間と入院死亡率など)、シグマサイズを直接比較することは不可能です。 , なぜなら 標準偏差は、絶対数で表される名前付きの値です。 このような場合には、 変動係数 (Cv)、これは相対値、つまり算術平均に対する標準偏差のパーセンテージです。

変動係数は次の式を使用して計算されます。

変動係数が大きいほど , この系列の変動は大きくなります。 変動係数が 30% を超える場合は、母集団の質的不均一性を示すと考えられています。

標準偏差

変動の最も完全な特性は平均二乗偏差であり、これは標準 (または標準偏差) と呼ばれます。 標準偏差() は平均二乗偏差の平方根に等しい 個体値算術平均からの符号:

標準偏差は次のように簡単です。

加重標準偏差はグループ化されたデータに適用されます。

正規分布条件下では、平均二乗偏差と平均線形偏差の間に次の比率が発生します: ~ 1.25。

標準偏差は、変動の主な絶対的な尺度であり、正規分布曲線の縦座標値の決定、サンプル観察の組織化に関連する計算、サンプル特性の精度の確立、およびサンプルの特性の評価に使用されます。同種の集団における特性の変動の限界。

18. 分散とその種類、標準偏差。

確率変数の分散- 与えられた確率変数の広がりの尺度、つまり、からの偏差 数学的期待。 統計では、またはという表記がよく使用されます。 平方根分散から通常呼ばれます 標準偏差, 標準偏差または標準スプレッド。

合計差異 (σ 2) は、この変動を引き起こしたすべての要因の影響下での形質全体の変動を測定します。 同時に、グループ化手法のおかげで、グループ化の特性による変動と説明されない要因の影響で生じる変動を特定して測定することができます。

グループ間分散 (σ 2 ミリグラム)系統的な変動、つまり、グループの基礎を形成する要因である形質の影響下で生じる研究された形質の値の違いを特徴付けます。

標準偏差(同義語: 標準偏差, 標準偏差, 二乗偏差; 関連用語: 標準偏差, 標準スプレッド) - 確率理論と統計において、数学的期待に対する確率変数の値のばらつきを示す最も一般的な指標。 値のサンプルの配列が限られている場合、数学的な期待値の代わりに、サンプルのセットの算術平均が使用されます。

標準偏差は、確率変数自体の単位で測定され、算術平均の標準誤差を計算するとき、構築時に使用されます。 信頼区間、統計的に仮説を検証するとき、間の線形関係を測定するとき。 ランダム変数。 確率変数の分散の平方根として定義されます。

標準偏差:

標準偏差 (確率変数の標準偏差の推定値 バツ分散の不偏推定に基づく数学的期待値と比較して):

分散はどこにあるのか。 - 選択範囲の 番目の要素。 - サンプルサイズ; - サンプルの算術平均:

どちらの推定値にも偏りがあることに注意してください。 一般的なケースでは、不偏な推定値を構築することは不可能です。 この場合、不偏分散推定値に基づく推定値は一貫しています。

19. 最頻値および中央値を決定するための本質、範囲および手順。

変動する特性の値の相対的な特性に関する統計における検出力平均に加えて、 内部構造分布系列では構造平均が使用され、主に次のように表されます。 ファッションと中央値.

ファッション- これはシリーズの最も一般的なバリエーションです。 ファッションは、たとえば、顧客の間で最も需要の高い服や靴のサイズを決定するために使用されます。 離散系列のモードは、最も高い周波数を持つバリアントです。 間隔変動系列の最頻値を計算する場合、最初に最頻値間隔 (最大頻度による) を決定し、次に次の式を使用して属性の最頻値の値を決定することが非常に重要です。

§ - ファッションの意味

§ - モーダル区間の下限

§ - 間隔値

§ - モーダル間隔周波数

§ - モーダルに先行する区間の頻度

§ - モーダルに続く区間の頻度

中央値 -これは属性の値です。ĸᴏᴛᴏᴩᴏᴇはランク付けされたシリーズの基礎にあり、分割されます このシリーズ 2つの等しい部分に分けます。

中央値を決定するには V 個別シリーズ 周波数が利用可能な場合は、最初に周波数の半和を計算し、次にその値に該当するバリアントの値を決定します。 (並べ替えられた系列に奇数の特性が含まれている場合、中央値は次の式を使用して計算されます。

M e = (n (フィーチャの合計数) + 1)/2、

フィーチャの数が偶数の場合、中央値は行の中央にある 2 つのフィーチャの平均と等しくなります)。

中央値を計算するとき インターバルバリエーションシリーズ用まず、中央値が位置する中央値の間隔を決定し、次の式を使用して中央値の値を決定します。

§ - 必要な中央値

§ - 中央値を含む区間の下限

§ - 間隔値

§ - 度数の合計または級数項の数

§ - 中央値に先行する間隔の累積頻度の合計

§ - 中央値間隔の頻度

。 最頻値と中央値を求めます。

解決: で この例では最頻値間隔は 25 ~ 30 歳の年齢層内にあります。これは、この間隔が最も高い頻度 (1054) を占めるためです。

モードの大きさを計算してみましょう。

これは、学生の最盛期年齢が 27 歳であることを意味します。

中央値を計算してみましょう。 間隔の中央値は 25 ~ 30 歳の年齢グループになります。これは、この間隔内に人口を 2 つの等しい部分に分割するオプション (Σf i /2 = 3462/2 = 1731) があるためです。 次に、必要な数値データを式に代入し、中央値の値を取得します。

これは、学生の半数が 27.4 歳未満、残りの半数が 27.4 歳以上であることを意味します。

最頻値と中央値に加えて、ランク付けされた系列を 4 つの等しい部分、十分位数 (10 部分) および百分位数 - 100 部分に分割する四分位数などの指標が使用されます。

20. サンプル観察の概念とその範囲。

選択的観察継続的な監視を使用する場合に適用されます 物理的に不可能データ量が多いため、または 経済的に実現不可能。 たとえば、乗客の流れ、市場価格、家計を調査する場合、物理的な不可能が発生します。 経済的不便は、例えば試食やレンガの強度試験など、破壊に関連する商品の品質を評価するときに発生します。

観察のために選択された統計単位は次のとおりです。 サンプル母集団または サンプル、およびその配列全体 - 一般人(GS)。 その中で サンプル内のユニット数示す n、そしてGS全体を通して - N。 態度 該当なし通常呼ばれる 相対的なサイズまたは サンプルシェア.

サンプル観察結果の品質は、 サンプルの代表性、つまり、GSの中でどれだけ代表的かということです。 サンプルの代表性を確保するには、次の事項を遵守することが非常に重要です。 ユニットのランダム選択の原理これは、サンプルに HS ユニットが含まれることが偶然以外の要因によって影響されることはないと仮定しています。

存在する 4通りのランダム選択サンプリングする:

  1. 実際はランダム選択または「ロト法」では、統計値にシリアル番号が割り当てられ、特定の物体(樽など)に記録され、それが容器(袋など)の中で混合され、ランダムに選択されます。 練習中 この方法乱数発生器または乱数の数学表を使用して実行されます。
  2. 機械式それぞれに応じて選択 ( いいえ/いいえ一般母集団の) 番目の値。 たとえば、100,000 個の値が含まれており、1,000 個を選択する必要がある場合、100,000 / 1000 = 100 番目の値がすべてサンプルに含まれます。 さらに、ランク付けされていない場合、最初の 1 つは最初の 100 位からランダムに選択され、他の数は 100 位大きくなります。 たとえば、最初のユニットが No.19 だった場合、次は No.119、その次は No.219、その次は No.319 というようになります。 人口単位がランク付けされる場合、最初に 50 番が選択され、次に 150 番、次に 250 番というように選択されます。
  3. 異種データ配列からの値の選択が実行されます 階層化された(層別) 法。最初に母集団を同種のグループに分割し、そこにランダムまたは機械的選択を適用します。
  4. 特別な方法サンプリングは シリアル選択とは、個々の値ではなく、その系列 (ある数値からある数値までの連続した値) をランダムまたは機械的に選択し、その中で継続的な観察が実行されることです。

サンプル観察の品質は次の要素にも依存します。 サンプルの種類: 繰り返されたまたは 再現不可能な。再選択サンプルに含まれる統計値またはその系列は、使用後に一般集団に戻され、新しいサンプルに含まれる可能性があります。 さらに、一般母集団のすべての値がサンプルに含まれる確率は同じです。 繰り返しのない選択サンプルに含まれる統計値またはその系列が使用後に一般母集団に戻らないため、後者の残りの値については、次のサンプルに含まれる確率が増加することを意味します。

非反復サンプリングではより正確な結果が得られるため、より頻繁に使用されます。 ただし、適用できない状況(乗客の流れ、消費者需要などの調査)があり、その場合は繰り返し選択が実行されます。

21. 最大観測サンプリング誤差、平均サンプリング誤差、それらの計算手順。

上記のサンプル母集団を形成する方法と、発生する代表性誤差について詳しく考えてみましょう。 適切にランダムサンプリングは、体系的な要素を一切使用せずに、母集団からランダムにユニットを選択することに基づいています。 技術的には、実際のランダム選択は、抽選 (宝くじなど) または乱数テーブルの使用によって実行されます。

適切なランダム選択が「純粋な形で」選択的観察の実践で使用されることはほとんどありませんが、これは他のタイプの選択の中で最初のものであり、選択的観察の基本原則を実装します。 サンプリング法の理論と単純なランダムサンプルの誤差公式に関するいくつかの問題を考えてみましょう。

サンプリングバイアス- ϶ᴛᴏ 一般集団におけるパラメータの値と標本観察の結果から計算された値との差。 平均的な定量的特性の場合、サンプリング誤差は次のように決定されることに注意することが重要です。

この指標は通常、最大サンプリング誤差と呼ばれます。 サンプル平均は、次の値を取ることができる確率変数です。 さまざまな意味どの単位がサンプルに含まれているかに基づいて決定されます。 したがって、サンプリング誤差も確率変数であり、さまざまな値をとる可能性があります。 このため、考えられるエラーの平均が決定されます - 平均サンプリング誤差、以下に依存します。

· サンプル サイズ: 数値が大きいほど、平均誤差は小さくなります。

· 調査対象の特性の変化の程度: 特性の変動が小さいほど、つまり分散が小さくなり、平均サンプリング誤差も小さくなります。

ランダムな再選択平均誤差が計算されます。 実際には、一般分散は正確にはわかりませんが、確率論では次のことが証明されています。 。 十分に大きな n の値は 1 に近いため、次のように仮定できます。 次に、平均サンプリング誤差を次のように計算する必要があります。 ただし、サンプルが小さい場合(n 個の場合)、<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

ランダムで非反復的なサンプリング指定された式は、 value によって調整されます。 この場合、平均の非反復サンプリング誤差は次のようになります。 そして 。 なぜなら が常に より小さい場合、乗数 () は常に 1 より小さくなります。これは、繰り返し選択した場合の平均誤差が、繰り返し選択した場合よりも常に小さいことを意味します。 機械的サンプリング一般人口が何らかの方法で順序付けされている場合に使用されます (たとえば、アルファベット順の有権者のリスト、電話番号、家とアパートの番号)。 単位の選択は、サンプリング パーセンテージの逆数値に等しい一定の間隔で実行されます。 したがって、2% のサンプルでは、​​一般母集団の 50 単位ごと = 1/0.02 が選択され、5% のサンプルでは、​​1/0.05 = 20 単位ごとに選択されます。

基準点はさまざまな方法で選択されます。ランダムに、間隔の中央から、基準点を変更して選択されます。 重要なことは、系統的なエラーを回避することです。 たとえば、5% のサンプルの場合、最初の単位が 13 番目の場合、次の単位は 33、53、73 などになります。

精度の点では、機械的な選択は実際のランダム サンプリングに近いです。 このため、機械的サンプリングの平均誤差を決定するには、適切なランダム選択式が使用されます。

典型的な選択調査対象の集団は、事前に同種の同様のグループに分割されます。 たとえば、企業を調査する場合は産業、サブセクター、人口を調査する場合は地域、社会、または年齢グループを調査します。 次に、各グループから独立した選択が機械的に、または純粋にランダムに行われます。

一般的なサンプリングでは、他の方法よりも正確な結果が得られます。 一般母集団を型指定すると、各類型グループがサンプル内で表現されることが保証され、平均サンプリング誤差に対するグループ間の分散の影響が排除されます。 したがって、分散を加算するルール () に従って典型的なサンプルの誤差を求める場合、グループ分散の平均のみを考慮することが非常に重要です。 次に、平均サンプリング誤差: 反復サンプリングの場合、非反復サンプリングの場合 、 どこ – サンプル内のグループ内分散の平均。

シリアル (またはネスト) の選択サンプル調査を開始する前に母集団を系列またはグループに分ける場合に使用されます。 これらのシリーズには、完成品、学生グループ、旅団のパッケージが含まれます。 試験対象のシリーズは機械的にまたは完全にランダムに選択され、シリーズ内で単元の継続的な試験が実行されます。 このため、平均サンプリング誤差は、次の式を使用して計算されるグループ間 (系列間) 分散にのみ依存します。 ここで、r は選択されたシリーズの数です。 – i 番目のシリーズの平均。 シリアルサンプリングの平均誤差は、反復サンプリングの場合、非反復サンプリングの場合で計算されます。 ここで、R はシリーズの総数です。 組み合わせた選択は、考慮された選択方法の組み合わせです。

あらゆるサンプリング方法の平均サンプリング誤差は、主にサンプルの絶対サイズに依存し、程度は低いですが、サンプルのパーセンテージにも依存します。 最初のケースでは 4,500 単位の母集団から、2 番目のケースでは 225,000 単位の母集団から 225 個の観測が行われたと仮定します。 どちらの場合も分散は 25 に等しくなります。最初のケースでは、5% を選択すると、サンプリング誤差は次のようになります。 2 番目のケースでは、0.1% 選択すると、次のようになります。

ただし、サンプリング パーセンテージが 50 分の 1 に減少すると、サンプル サイズは変わらないため、サンプリング誤差がわずかに増加しました。 サンプルサイズが 625 の観測値に増加したと仮定します。 この場合、サンプリング誤差は次のようになります。 同じ母集団サイズでサンプルを 2.8 倍に増やすと、サンプリング誤差のサイズは 1.6 倍以上減少します。

22.サンプル母集団を形成するための方法および方法。

統計では、標本母集団を形成するさまざまな方法が使用されますが、これは研究の目的によって決定され、研究対象の詳細によって異なります。

サンプル調査を実施するための主な条件は、サンプルに含まれる一般集団の各単位に対する機会均等の原則の違反から生じる系統的誤差の発生を防ぐことです。 系統的エラーの防止は、サンプル母集団を形成するための科学に基づいた方法を使用することによって達成されます。

一般母集団からユニットを選択するには次の方法があります。 1) 個別の選択 - サンプル用に個別のユニットが選択されます。 2) グループ選択 - サンプルには、研究対象の定性的に均一なグループまたは一連のユニットが含まれます。 3) 組み合わせ選択は、個人選択とグループ選択の組み合わせです。 選択方法は、サンプル母集団を形成するためのルールによって決定されます。

サンプルは次のようになります。

  • 実際にはランダムこれは、サンプル母集団が一般母集団からの個々の単位のランダムな (意図的ではない) 選択の結果として形成されるという事実にあります。 この場合、サンプル母集団内で選択されるユニットの数は、通常、受け入れられたサンプルの割合に基づいて決定されます。 サンプル比率は、サンプル母集団 n のユニット数と一般母集団 N のユニット数の比率 ᴛ.ᴇ です。
  • 機械的これは、サンプル母集団内の単位の選択が一般母集団から行われ、等間隔 (グループ) に分割されるという事実にあります。 この場合、母集団内の間隔のサイズはサンプル占有率の逆数に等しくなります。 したがって、2% のサンプルでは 50 番目の単位ごと (1:0.02) が選択され、5% のサンプルでは 20 番目の単位ごと (1:0.05) が選択されます。 ただし、選択の受け入れられた割合に従って、一般集団はいわば機械的に等しいグループに分割されます。 各グループから、サンプルとして 1 つのユニットのみが選択されます。
  • 典型的な -そこでは、まず一般集団が均質な典型的なグループに分割されます。 次に、各典型的なグループから純粋にランダムなサンプルまたは機械的なサンプルを使用して、サンプル母集団に含まれるユニットを個別に選択します。 典型的なサンプルの重要な特徴は、サンプル母集団内の単位を選択する他の方法と比較して、より正確な結果が得られることです。
  • シリアル- 一般集団が同じサイズのグループに分割されるシリーズ。 シリーズがサンプル母集団に選択されます。 シリーズ内では、シリーズに含まれるユニットの継続的な観察が行われます。
  • 組み合わせた- サンプリングは 2 段階で行う必要があります。 この場合、まず母集団をグループに分割します。 次にグループが選択され、その中で個々のユニットが選択されます。

統計では、サンプル母集団内の単位を選択するために次の方法が区別されます。

  • 単段サンプリング - 選択された各ユニットは、所定の基準 (適切なランダムおよび連続サンプリング) に従って直ちに調査の対象になります。
  • 多段式サンプリング - 個々のグループの一般母集団から選択が行われ、グループから個々のユニットが選択されます (サンプル母集団にユニットを選択する機械的な方法による典型的なサンプリング)。

さらに、:

  • 再選択- 返されたボールのスキームに従って。 この場合、サンプルに含まれる各ユニットまたはシリーズは一般集団に戻されるため、再びサンプルに含まれる可能性があります。
  • 非反復選択- 未返球スキームによる。 同じサンプルサイズでより正確な結果が得られます。

23. 非常に重要なサンプル サイズの決定 (スチューデントの t テーブルを使用)。

サンプリング理論の科学原則の 1 つは、十分な数の単位が選択されるようにすることです。 理論的には、この原理を観察することの極めて重要性は、確率論における極限定理の証明で示されています。これにより、十分でサンプルの代表性を保証するには、母集団からどのくらいの単位を選択すべきかを確立することが可能になります。

標準サンプリング誤差の減少、つまり推定の精度の向上には常にサンプル サイズの増加が伴います。したがって、サンプル観測を整理する段階で、そのサイズを決定する必要があります。観察結果に必要な精度を確保するには、サンプル母集団の割合を一定にする必要があります。 非常に重要なサンプル量の計算は、特定のタイプと選択方法に対応する最大サンプリング誤差 (A) の公式から導出された公式を使用して構築されます。 したがって、ランダムに繰り返されるサンプル サイズ (n) については、次のようになります。

この式の本質は、非常に重要な数値をランダムに繰り返しサンプリングする場合、サンプル サイズは信頼係数の 2 乗に正比例するということです。 (t2)と変分特性の分散(Δ2)は、最大サンプリング誤差(Δ2)の二乗に反比例します。 特に、最大誤差が 2 倍に増加すると、必要なサンプル サイズは 4 分の 1 に減少する必要があります。 3 つのパラメータのうち 2 つ (t と?) は研究者によって設定されます。 同時に、研究者は、目標に基づいて、

そして、サンプル調査の問題は、最適なオプションを確実にするために、これらのパラメータをどのような定量的な組み合わせに含めるのがより良いのか?という質問を解決する必要があります。 ある場合には、精度の尺度 (?) よりも得られた結果の信頼性 (t) に満足する場合もあれば、その逆の場合もあります。 最大サンプリング誤差の値に関する問題を解決することはさらに困難です。研究者はサンプル観測を設計する段階ではこの指標を持っていないため、実際には最大サンプリング誤差の値を設定するのが通例です。通常、属性の予想平均レベルの 10% 以内です。 推定平均値の確立には、以前の同様の調査からのデータを使用するか、サンプリング フレームからのデータを使用して小規模なパイロット サンプルを実施するなど、さまざまな方法でアプローチできます。

標本観測を設計するときに確立するのが最も難しいのは、式 (5.2) の 3 番目のパラメータ、つまり標本母集団の分散です。 この場合、以前の同様の調査やパイロット調査で得られた、研究者が利用できるすべての情報を使用することが非常に重要です。

サンプル調査にサンプリング単位のいくつかの特性の研究が含まれる場合、非常に重要なサンプルサイズを決定するという問題はさらに複雑になります。 この場合、原則として、各特性の平均レベルとその変動は異なります。この点で、どの特性のどの分散を優先するかを決定することは、目的と目的を考慮することによってのみ可能です。調査の結果。

サンプル観測を設計するとき、特定の研究の目的と観測結果に基づく結論の確率に従って、許容されるサンプリング誤差の所定の値が想定されます。

一般に、サンプル平均の最大誤差の式により、次のことが求められます。

‣‣‣ サンプル母集団の指標からの一般母集団の指標の考えられる偏差の大きさ。

‣‣‣ 必要な精度を確保するために必要なサンプル サイズ。この値では、起こり得る誤差の限界が特定の指定値を超えません。

‣‣‣ サンプル内の誤差が指定された制限を持つ確率。

学生の分布確率論では、これは絶対連続分布の 1 パラメーター族です。

24. 動的シリーズ (インターバル、モーメント)、動的シリーズを終了します。

ダイナミクスシリーズ- これらは、特定の時系列で表示される統計指標の値です。

各時系列には次の 2 つのコンポーネントが含まれています。

1) 期間の指標(年、四半期、月、日、または日付);

2) 研究対象のオブジェクトを特徴付ける指標期間または対応する日付について、と呼ばれます。 シリーズレベル.

系列レベルは、絶対値と平均値または相対値の両方で表されます。 インジケーターの性質への依存を考慮して、絶対値、相対値、平均値の動的な一連の値が構築されます。 相対値と平均値の動的系列は、絶対値の派生系列に基づいて構築されます。 ダイナミクスには区間と瞬間の系列があります。

動的間隔シリーズ特定の期間のインジケーターの値が含まれます。 一連の間隔では、レベルを合計して、より長い期間にわたる現象の量、いわゆる累積合計を取得できます。

ダイナミックモーメントシリーズ特定の時点(日付)におけるインジケーターの値を反映します。 瞬間系列では、ここでのレベルの合計には実際の内容が含まれないため、研究者は特定の日付間の系列のレベルの変化を反映する現象の違いだけに興味があるかもしれません。 ここでは累計は計算されません。

時系列を正しく構築するための最も重要な条件は次のとおりです。 シリーズレベルの比較可能性異なる時代に属します。 レベルは均質な量で提示されなければならず、現象のさまざまな部分が同等に完全にカバーされていなければなりません。

実際のダイナミクスの歪みを避けるために、統計研究では、時系列の統計分析に先立って予備計算が実行されます (ダイナミクス系列を閉じる)。 下 一連のダイナミクスを終了する 2 つ以上のシリーズの組み合わせを 1 つのシリーズとして理解することが一般に受け入れられており、そのレベルは異なる方法論を使用して計算されているか、領土の境界に対応していません。 ダイナミクス系列を閉じることは、ダイナミクス系列の絶対レベルを共通の基盤に持ってくることも意味し、これによりダイナミクス系列のレベルの比較不可能性が中和される。

25. 力学系列、係数、成長および成長率の比較可能性の概念。

ダイナミクスシリーズ- これらは、時間の経過に伴う自然現象および社会現象の発展を特徴付ける一連の統計指標です。 ロシア国家統計委員会が発行する統計コレクションには、表形式で多数の力学系列が含まれています。 動的シリーズにより、研究対象の現象の発展パターンを特定することができます。

Dynamics シリーズには 2 種類のインジケーターが含まれています。 時間インジケーター(年、四半期、月など) または時点 (年の初め、各月の初めなど)。 行レベルインジケーター。 動態系列のレベルの指標は、絶対値(製品生産量(トンまたはルーブル))、相対値(都市人口の割合(%))、平均値(業界労働者の年別平均給与)で表すことができます。 、など)。 表形式では、時系列には 2 つの列または 2 つの行が含まれます。

時系列を正しく構築するには、次のような多くの要件を満たす必要があります。

  1. 多くのダイナミクスのすべての指標は科学的に実証され、信頼できるものでなければなりません。
  2. 一連のダイナミクスの指標は、時間の経過とともに比較可能でなければなりません、ᴛ.ᴇ。 同じ期間または同じ日付で計算する必要があります。
  3. 多くのダイナミクスの指標は、地域全体で比較可能でなければなりません。
  4. 一連のダイナミクスの指標は、内容において同等でなければなりません、ᴛ.ᴇ。 単一の方法論に従って同様に計算されます。
  5. 多くの動態の指標は、考慮される農場の範囲全体で比較できる必要があります。 一連のダイナミクスのすべての指標は、同じ測定単位で指定する必要があります。

統計指標は、一定期間にわたって研究されているプロセスの結果、または特定の時点 ᴛ.ᴇ で研究されている現象の状態を特徴付けることができます。 インジケーターには、間隔 (周期的) と瞬間的なものがあります。 したがって、最初は力学系列は区間または瞬間のいずれかになります。 モーメント ダイナミクス シリーズには、等しい時間間隔と不等な時間間隔が含まれます。

元のダイナミクス系列は、一連の平均値と一連の相対値 (チェーンおよびベーシック) に変換できます。 このような時系列を派生時系列と呼びます。

ダイナミクス系列の平均レベルの計算方法は、ダイナミクス系列の種類によって異なります。 例を使用して、ダイナミクス系列の種類と平均レベルを計算するための式を検討します。

絶対的な利益 (Δy) は、シリーズの後続のレベルが前のレベルと比較して (グループ 3. - チェーンの絶対増加)、または初期レベル (グループ 4. - 基本の絶対増加) と比較して何単位変化したかを示します。 計算式は次のように記述できます。

系列の絶対値が減少すると、それぞれ「減少」または「減少」が発生します。

絶対的な成長指標は、たとえば 1998 年のことを示しています。 製品「A」の生産量は1997年と比較して増加しました。 4,000トン増加し、1994年と比較してᴦ。 - 34,000トン増加。 その他の年については、表を参照してください。 11.5グラム
ref.rfに投稿されました
3と4。

成長速度系列のレベルが前のレベル (5 段階目 - 成長または衰退の連鎖係数)、または初期レベル (6 段階目 - 成長または衰退の基本係数) と比較して何回変化したかを示します。 計算式は次のように記述できます。

成長率シリーズの次のレベルが前のレベル (グループ 7 - チェーン成長率) または最初のレベル (グループ 8 - 基本成長率) と比較して何パーセントであるかを示します。 計算式は次のように記述できます。

たとえば、1997 年のことです。 製品「A」の1996年と比較した生産量ᴦ。 105.5%に達しました(

成長速度レポート期間のレベルが前回のレベル (列 9 - チェーン成長率) または最初のレベル (列 10 - 基本成長率) と比較して何パーセント増加したかを示します。 計算式は次のように記述できます。

T pr = T r - 100% または T pr = 絶対成長率 / 前期のレベル * 100%

たとえば、1996 年のことです。 1995年との比較。 製品「A」は、1994 ᴦと比較して、3.8% (103.8% - 100%) または (8:210) x 100% 多く生産されました。 - 9% (109% - 100%)。

系列内の絶対レベルが減少すると、割合は 100% 未満になり、それに応じて減少率 (マイナス記号付きの増加率) が発生します。

1%増加の絶対値(グラム。
ref.rfに投稿されました
11) は、前の期間のレベルが 1% 増加するために、特定の期間に何個のユニットを生産する必要があるかを示します。 この例では、1995 年に ᴦ になります。 2.0千トンを生産する必要があり、1998年にはᴦになりました。 - 2.3千トン、ᴛ.ᴇ。 ずっと大きい。

1% 成長の絶対値は、次の 2 つの方法で決定できます。

§ 前の期間のレベルを 100 で割った値。

§ チェーンの絶対的な増加を、対応するチェーンの成長率で割ります。

1%増加の絶対値 =

特に長期にわたるダイナミクスでは、成長率と各パーセンテージの増加または減少の内容を組み合わせて分析することが重要です。

時系列を分析するために考慮された方法論は、レベルが絶対値(t、千ルーブル、従業員数など)で表される時系列と、レベルが表される時系列の両方に適用できることに注意してください。相対指標(欠陥の%、石炭の灰分%など)または平均値(c/haでの平均収量、平均給与など)で表されます。

動態系列を分析する際には、前または初期レベルと比較して各年ごとに計算される考慮された分析指標に加えて、期間の平均分析指標 (系列の平均レベル、年間絶対平均値) を計算することが非常に重要です。増加(減少)と年平均増加率および成長率。

一連のダイナミクスの平均レベルを計算する方法については上で説明しました。 私たちが検討しているインターバルダイナミクス系列では、系列の平均レベルは単純な算術平均の公式を使用して計算されます。

1994年から1998年の製品の年間平均生産量。 218.4千トンに達しました。

平均年間絶対成長率も算術平均の式を使用して計算されます。

標準偏差 - 概念と種類。 カテゴリ「平均二乗偏差」2017、2018の分類と特徴。

分散の平方根は平均からの標準偏差と呼ばれ、次のように計算されます。

標準偏差の式を基本的な代数変換すると、次の形式になります。

計算の練習では、この公式の方が便利であることがよくあります。

標準偏差は、平均線形偏差と同様に、特性の特定の値が平均値から平均してどれだけ逸脱しているかを示します。 標準偏差は常に平均線形偏差よりも大きくなります。 それらの間には次の関係があります。

この比率がわかれば、たとえば、既知の指標を使用して未知の指標を判断できますが、 (私 a を計算し、その逆も同様です。 標準偏差は、特性の変動の絶対的なサイズを測定し、特性の値と同じ測定単位 (ルーブル、トン、年など) で表されます。 これは変動の絶対的な尺度です。

のために 代替標識、 たとえば、高等教育の有無、保険の有無、分散と標準偏差の式は次のとおりです。

大学の学部の 1 つにおける学生の年齢別分布を特徴付ける離散系列のデータに基づく標準偏差の計算を示します (表 6.2)。

表6.2。

補助計算の結果は、表の列 2 ~ 5 に示されています。 6.2.

生徒の平均年齢 (年) は、加重算術平均の式 (列 2) によって決定されます。

生徒の個人年齢の平均からの二乗偏差は列 3 ~ 4 に含まれ、偏差二乗と対応する度数の積は列 5 に含まれます。

式 (6.2) を使用して、生徒の年齢の分散を求めます。

したがって、o = l/3.43 1.85 *oda、つまり 生徒の年齢の各具体的な値は平均から 1.85 歳離れています。

変動係数

その絶対値では、標準偏差は特性の変動の程度だけでなく、オプションの絶対レベルと平均にも依存します。 したがって、平均レベルが異なる変動系列の標準偏差を直接比較することは不可能です。 このような比較を行うには、算術平均における平均偏差 (線形または二次) の割合をパーセントで表して見つける必要があります。 計算する 変動の相対的な尺度。

線形変動係数 式で計算される

変動係数 次の式で決定されます。

変動係数では、研究対象の特性の異なる測定単位に関連する非比較性だけでなく、算術平均値の違いによって生じる非比較性も除去されます。 さらに、変動指標は母集団の均一性を特徴づけます。 変動係数が 33% を超えない場合、母集団は均一であると見なされます。

表によると。 6.2 と上記で得られた計算結果から、式 (6.3) に従って変動係数 % を決定します。

変動係数が 33% を超える場合、これは調査対象の母集団が不均一であることを示します。 このケースで得られた値は、年齢別の生徒の人口構成が均一であることを示しています。 したがって、変動の指標を一般化する重要な機能は、平均の信頼性を評価することです。 より少ない c1、 a2と V、 結果として得られる一連の現象がより均一になり、結果として得られる平均の信頼性が高まります。 数学的統計学で考えられる「スリーシグマの法則」によれば、正規分布またはそれに近い系列では、算術平均値から±3次を超えない乖離が1000件中997件発生します。 バツ そして a、バリエーションシリーズの一般的な初期アイデアを得ることができます。 たとえば、ある企業の従業員の平均給与が 25,000 ルーブルで、a が 100 ルーブルに等しい場合、確実に近い確率で、その企業の従業員の給与は範囲 (25,000 ルーブル) 内で変動すると言えます。 ± ± 3 x 100 ) つまり、 24,700ルーブルから25,300ルーブルまで。

統計分析を行うことは、計算なしには考えられません。 この記事では、Excel で分散、標準偏差、変動係数、その他の統計指標を計算する方法を見ていきます。

最大値と最小値

平均線形偏差

平均線形偏差は、分析されたデータセット内の絶対 (モジュロ) 偏差の平均です。 数式は次のとおりです。

ある– 平均線形偏差、

バツ– 分析された指標、

バツ– インジケーターの平均値、

n

Excel では、この関数は次のように呼ばれます。 スロットル.

SROTCL 関数を選択した後、計算を実行するデータ範囲を指定します。 「OK」をクリックします。

分散

(モジュール111)

おそらく誰もがそれを知っているわけではないので、説明しますが、これは数学的期待の周りのデータの広がりを特徴付ける尺度です。 ただし、通常はサンプルしか入手できないため、次の分散公式が使用されます。

s2– 観測データから計算されたサンプル分散、

バツ– 個々の価値観、

バツ– サンプルの算術平均、

n– 分析されたデータセット内の値の数。

対応する Excel 関数は次のとおりです。 DISP.G。 比較的小さなサンプル (最大約 30 の観測値) を分析する場合は、次の式で計算される を使用する必要があります。

ご覧のとおり、違いは分母のみです。 Excelには標本の不偏分散を計算する機能があります DISP.B.

希望のオプション(一般または選択)を選択し、範囲を指定して「OK」ボタンをクリックします。 偏差を事前に二乗するため、結果の値が非常に大きくなる場合があります。 統計における分散は非常に重要な指標ですが、通常は純粋な形ではなく、さらなる計算に使用されます。

標準偏差

標準偏差 (RMS) は分散の根です。 この指標は標準偏差とも呼ばれ、次の式を使用して計算されます。

一般人による

サンプルによる

単純に分散の根を求めることもできますが、Excel には標準偏差を求める既製の関数があります。 STDEV.Gそして STDEV.V(それぞれ一般母集団と標本母集団の場合)。

繰り返しますが、標準と標準偏差は同義語です。

次に通常通り、範囲を指定して「OK」をクリックします。 標準偏差は分析された指標と同じ測定単位を持っているため、元のデータと比較できます。 これについては以下で詳しく説明します。

変動係数

上で説明したすべての指標はソース データの規模に関連付けられており、分析対象の母集団の変動を比喩的に把握することはできません。 データ分散の相対的な尺度を取得するには、次を使用します。 変動係数を除算して計算されます。 標準偏差の上 平均。 変動係数の公式は簡単です。

Excel には変動係数を計算する既製の関数はありませんが、これは大きな問題ではありません。 計算は、標準偏差を平均で割るだけで実行できます。 これを行うには、数式バーに次のように書きます。

STANDARDEV.G()/AVERAGE()

データ範囲は括弧内に示されています。 必要に応じて、サンプル標準偏差 (STDEV.B) を使用します。

変動係数は通常、パーセンテージで表されるため、パーセンテージ形式の数式を使用してセルを囲むことができます。 必要なボタンは、「ホーム」タブのリボン上にあります。

目的のセルを強調表示して右クリックし、コンテキスト メニューから選択して形式を変更することもできます。

変動係数は、値のばらつきを示す他の指標とは異なり、データ変動の独立した非常に有益な指標として使用されます。 統計学では、変動係数が 33% 未満の場合、データセットは均一であり、33% を超える場合、データセットは不均一であると一般に認められています。 この情報は、データの予備的な特性評価や、さらなる分析の機会を特定するのに役立ちます。 さらに、パーセンテージとして測定される変動係数を使用すると、スケールや測定単位に関係なく、さまざまなデータのばらつきの程度を比較できます。 便利な物件。

振動係数

今日のデータ分散を示すもう 1 つの指標は、振動係数です。 平均値に対する変動幅(最大値と最小値の差)の比率です。 既製の Excel 式はないため、MAX、MIN、AVERAGE の 3 つの関数を組み合わせる必要があります。

振動係数は平均に対する変動の程度を示し、異なるデータセットを比較するためにも使用できます。

一般に、Excel を使用すると、多くの統計指標が非常に簡単に計算されます。 不明な点がある場合は、関数挿入の検索ボックスをいつでも使用できます。 Google がお手伝いします。



サイトの新着情報

>

最も人気のある