道具 Excelで2つの数式を使用して偏差のパーセンテージを計算する方法。

Excelで2つの数式を使用して偏差のパーセンテージを計算する方法。

こんにちは

この記事では、STANDARDEVAL 関数を使用して Excel で標準偏差がどのように機能するかを見てみることにしました。 私は非常に長い間説明やコメントをしていなかっただけで、単にそれがとても大変だったからです。 便利な機能高等数学を勉強する人向け。 そして、生徒を助けることは神聖なことであり、それを習得することがいかに難しいかを私は経験から知っています。 実際には、標準偏差関数は、販売される製品の安定性の判断、価格の作成、品揃えの調整や形成などに使用できます。 有用な分析あなたの売上。

Excel では、この分散関数のいくつかのバリエーションが使用されます。


数学理論

まず、その理論について少し説明します。 数学的言語機能を説明できます 標準偏差 Excel での使用や、販売統計データなどの分析に使用しますが、それについては後で詳しく説明します。 すぐに警告します、理解できない言葉をたくさん書きます...))))、テキストに以下のものがあれば、すぐに見てください 実用番組内で。

標準偏差は具体的に何をするのでしょうか? 標準偏差の推定値を生成します 確率変数彼女に対するX 数学的期待分散の不偏推定に基づいています。 わかりにくいと思いますが、生徒たちは私たちが実際に何について話しているのか理解できると思います。

まず、「標準偏差」を決定する必要があります。その後「標準偏差」を計算するには、次の式が役に立ちます。 この式は次のように説明できます。確率変数の測定値と同じ単位で測定され、構築時に標準算術平均誤差を計算するときに使用されます。 信頼区間、統計の仮説を検証するとき、または独立した量間の線形関係を分析するとき。 関数は次のように定義されます 平方根独立変数の分散から。

これで、次のように定義できます。 標準偏差は、分散の不偏推定に基づいた、数学的観点に対する確率変数 X の標準偏差の分析です。 式は次のように書かれます。
2 つの推定値にはいずれも偏りがあることに注意してください。 一般的な場合、不偏推定値を構築することは不可能です。 しかし、不偏分散の推定値に基づく推定値は一貫しています。

Excelでの実践実装

さて、退屈な理論から離れて、STANDARDEVAL 関数がどのように機能するかを実際に見てみましょう。 Excel の標準偏差関数のすべてのバリエーションを考慮するわけではありませんが、例で説明します。 例として、販売安定性統計がどのように決定されるかを見てみましょう。

まず、関数のスペルを確認してください。ご覧のとおり、関数は非常に単純です。

標準偏差.Г(_number1_;_number2_; ….)、ここで:


ここでサンプル ファイルを作成し、それに基づいてこの関数がどのように動作するかを考えてみましょう。 分析計算を実行するには、以下を使用する必要があるため、 3つの意味他の統計分析の原則と同様に、条件付きで 3 期間も取得しました。これは、1 年、四半期、1 か月、または 1 週間です。 私の場合は1ヶ月です。 信頼性を最大限に高めるために、できるだけ多く取得することをお勧めします たくさんの期間は 3 回以上です。 表内のすべてのデータは、式の操作と機能を明確にするために非常に単純化されています。

まず、月ごとの平均値を計算する必要があります。 これには AVERAGE 関数を使用し、式 = AVERAGE(C4:E4) を取得します。
ここで、実際には、STANDARDEVAL.G 関数を使用して標準偏差を見つけることができます。この値には、各期間の製品の売上を入力する必要があります。 結果は次の形式の式になります: =STANDARD DEVIATION.Г(C4;D4;E4)。
さて、半分の作業が終わりました。 次のステップは「変動」を作成することです。これは、平均値、標準偏差で割って、結果をパーセンテージに変換することによって取得されます。 次の表が得られます。
さて、基本的な計算は完了しました。あとは売上が安定しているかどうかを判断するだけです。 10% の偏差が安定しているとみなされる条件を考えてみましょう。10 ~ 25% は小さな偏差ですが、25% を超えると安定していません。 条件に従って結果を取得するには、論理関数を使用し、結果を取得するには次の式を記述します。

IF(H4<0,1;"стабильно";ЕСЛИ(H4<0,25;"нормально";"не стабильно"))

すべての範囲は明確にするために取ったものであり、タスクによってはまったく異なる条件が適用される場合があります。
データの視覚化を改善するには、テーブルに何千もの位置がある場合、必要な特定の条件を適用する機会を利用するか、配色で特定のオプションを強調表示するために使用する必要があります。これは非常に明確です。

まず、条件付き書式を適用するものを選択します。 「ホーム」コントロールパネルで「条件付き書式」を選択し、ドロップダウンメニューで「セルの強調表示ルール」を選択し、メニュー項目「テキストに次の内容が含まれる」をクリックします。 ダイアログボックスが表示されるので、条件を入力します。

たとえば、「安定」 - 緑、「通常」 - 黄色、「不安定」 - 赤などの条件を書き留めると、最初に何に注意を払うべきかを示す、美しくわかりやすい表が表示されます。

STDEV.Y 関数に VBA を使用する

興味のある人は誰でも、マクロを使用して計算を自動化し、次の関数を使用できます。

関数 MyStDevP(Arr) Dim x, aCnt&, aSum#, aAver#, tmp# For Each x In Arr aSum = aSum + x "配列要素の合計を計算 aCnt = aCnt + 1 "要素数を計算 Next x aAver = aSum / aCnt "平均値 For Each x In Arr tmp = tmp + (x - aAver) ^ 2 "配列要素の差の二乗和と平均値を計算 Next x MyStDevP = Sqr(tmp / aCnt ) "計算 STANDARDEV.G() 関数終了

関数 MyStDevP(Arr)

Dim x 、 aCnt & 、 aSum #、 aAver#、 tmp#

それぞれの x に到着

aSum = aSum + x "配列要素の合計を計算します

変動の最も完全な特性は平均二乗偏差であり、これは標準 (または標準偏差) と呼ばれます。 標準偏差() は、算術平均からの属性の個々の値の平均二乗偏差の平方根に等しくなります。

標準偏差は次のように簡単です。

加重標準偏差はグループ化されたデータに適用されます。

正規分布条件下での二乗平均平方根と平均線形偏差の間には、次の比率が発生します: ~ 1.25。

標準偏差は、変動の主な絶対的な尺度であり、正規分布曲線の縦座標値の決定、サンプル観察の組織化に関連する計算、サンプル特性の精度の確立、およびサンプルの特性の評価に使用されます。同種の集団における特性の変動の限界。

分散、その種類、標準偏差。

確率変数の分散— 与えられた確率変数の広がりの尺度、つまり数学的期待からの偏差。 統計では、またはという表記がよく使用されます。 分散の平方根は、標準偏差、標準偏差、または標準スプレッドと呼ばれます。

合計差異 (σ 2) は、この変動を引き起こしたすべての要因の影響下での形質全体の変動を測定します。 同時に、グループ化手法のおかげで、グループ化の特性による変動と説明されない要因の影響で生じる変動を特定して測定することができます。

グループ間分散 (σ 2 ミリグラム)系統的な変動、つまり、グループの基礎を形成する要因である特性の影響下で生じる、研究対象の特性の値の差異を特徴付けます。

標準偏差(同義語: 標準偏差、標準偏差、二乗偏差、関連用語: 標準偏差、標準スプレッド) - 確率論と統計において、数学的期待に対する確率変数の値のばらつきを示す最も一般的な指標。 値のサンプルの配列が限られている場合、数学的な期待値の代わりに、サンプルのセットの算術平均が使用されます。

標準偏差は確率変数自体の単位で測定され、算術平均の標準誤差を計算するとき、信頼区間を構築するとき、仮説を統計的に検定するとき、確率変数間の線形関係を測定するときに使用されます。 確率変数の分散の平方根として定義されます。


標準偏差:

標準偏差(確率変数の標準偏差の推定値 バツ分散の不偏推定に基づく数学的期待値と比較して):

分散はどこにあるのか。 — 選択範囲の 番目の要素。 - サンプルサイズ; — サンプルの算術平均:

どちらの推定値にも偏りがあることに注意してください。 一般的なケースでは、不偏な推定値を構築することは不可能です。 ただし、不偏分散推定値に基づく推定値は一貫しています。

最頻値と中央値を決定するための本質、範囲、手順。

統計における検出力平均に加えて、変動する特性の値と分布系列の内部構造を相対的に特徴付けるために、構造平均が使用されます。構造平均は主に次のように表されます。 ファッションと中央値.

ファッション- これはシリーズの最も一般的なバリエーションです。 ファッションは、たとえば、顧客の間で最も需要の高い服や靴のサイズを決定するために使用されます。 離散系列のモードは、最も高い周波数を持つモードです。 間隔変動系列の最頻値を計算するときは、まず最頻値間隔 (最大頻度に基づいて) を決定し、次に次の式を使用して属性の最頻値の値を決定する必要があります。

- - ファッション価値

- — モーダル区間の下限

- — 間隔サイズ

- — モーダル間隔周波数

- — モーダルに先行する間隔の頻度

- — モーダルに続く間隔の頻度

中央値 -これは、ランク付けされたシリーズの基礎となる属性の値であり、このシリーズを 2 つの等しい部分に分割します。

度数が存在する場合に離散系列の中央値を決定するには、まず度数の半和を計算し、次にその値に該当するバリアントの値を決定します。 (並べ替えられた系列に奇数の特徴が含まれている場合、中央値は次の式を使用して計算されます。

M e = (n (フィーチャの合計数) + 1)/2、

フィーチャの数が偶数の場合、中央値は行の中央にある 2 つのフィーチャの平均と等しくなります)。

計算するとき 中央値区間変動系列の場合、まず中央値が位置する区間の中央値を決定し、次に次の式を使用して中央値の値を決定します。

- — 必要な中央値

- - 中央値を含む間隔の下限

- — 間隔サイズ

- — 度数の合計または系列項の数

中央値に先行する間隔の累積頻度の合計

- — 中央値間隔の頻度

。 最頻値と中央値を求めます。

解決:
この例では、この間隔が最高の頻度 (1054) を占めるため、モーダル間隔は 25 ~ 30 歳の年齢グループ内になります。

モードの大きさを計算してみましょう。

これは、学生の最盛期年齢が 27 歳であることを意味します。

中央値を計算してみましょう。 この間隔内には人口を 2 つの等しい部分に分割するオプションがあるため (Σf i /2 = 3462/2 = 1731)、間隔の中央値は 25 ~ 30 歳の年齢グループになります。 次に、必要な数値データを式に代入し、中央値の値を取得します。

これは、学生の半数が 27.4 歳未満、残りの半数が 27.4 歳以上であることを意味します。

最頻値や中央値に加えて、ランク付けされた系列を 4 等分する四分位などの指標を使用できます。 十分位数- 10 部とパーセンタイル - 100 部あたり。

選択的観察の概念とその範囲。

選択的観察継続的な監視を使用する場合に適用されます 物理的に不可能データ量が多いため、または 経済的に実現不可能。 たとえば、乗客の流れ、市場価格、家計を調査する場合、物理的な不可能が発生します。 経済的不便は、例えば試食やレンガの強度試験など、破壊に関連する商品の品質を評価するときに発生します。

観察のために選択された統計単位はサンプリング フレームまたはサンプルを構成し、その配列全体が一般母集団 (GS) を構成します。 この場合、サンプル内のユニットの数は次のように表されます。 n、そしてHS全体で - N。 態度 該当なしサンプルの相対的なサイズまたは割合と呼ばれます。

サンプル観察の結果の質は、サンプルの代表性、つまり HS 内でのサンプルの代表性によって決まります。 サンプルの代表性を確保するには、次の事項を遵守する必要があります。 ユニットのランダム選択の原理これは、サンプルに HS ユニットが含まれることが偶然以外の要因によって影響されることはないと仮定しています。

存在する 4通りのランダム選択サンプリングする:

  1. 実際はランダム選択または「ロト法」では、統計量にシリアル番号が割り当てられ、特定の物体 (樽など) に記録され、それが何らかの容器 (袋など) で混合され、ランダムに選択されます。 実際には、この方法は乱数発生器または乱数の数学表を使用して実行されます。
  2. 機械式それぞれに応じて選択 ( いいえ/いいえ一般母集団の) 番目の値。 たとえば、100,000 個の値が含まれており、1,000 個を選択する必要がある場合、100,000 / 1000 = 100 番目の値がすべてサンプルに含まれます。 さらに、ランク付けされていない場合、最初の 1 つは最初の 100 位からランダムに選択され、他の数は 100 位大きくなります。 たとえば、最初のユニットが No.19 だった場合、次は No.119、その次は No.219、その次は No.319 というようになります。 人口単位がランク付けされる場合、最初に 50 番が選択され、次に 150 番、次に 250 番というように選択されます。
  3. 異種データ配列からの値の選択が実行されます 階層化された(層別) 法。最初に母集団を同種のグループに分割し、そこにランダムまたは機械的選択を適用します。
  4. 特別なサンプリング方法は、 シリアル選択とは、個々の値ではなく、その系列 (ある数値からある数値までの連続した値) をランダムまたは機械的に選択し、その中で継続的な観察が実行されることです。

サンプル観察の品質は次の要素にも依存します。 サンプルの種類: 繰り返されたまたは 再現不可能な。

再選択サンプルに含まれる統計値またはその系列は、使用後に一般集団に戻され、新しいサンプルに含まれる可能性があります。 さらに、母集団内のすべての値がサンプルに含まれる確率は同じです。

繰り返しのない選択サンプルに含まれる統計値またはその系列が使用後に一般母集団に戻らないため、後者の残りの値については、次のサンプルに含まれる確率が増加することを意味します。

非反復サンプリングではより正確な結果が得られるため、より頻繁に使用されます。 ただし、適用できない状況(乗客の流れ、消費者需要などの調査)があり、その場合は繰り返し選択が実行されます。

最大観測サンプリング誤差、平均サンプリング誤差、それらの計算手順。

上記のサンプル母集団を形成する方法と、その際に生じる誤差について詳しく考えてみましょう。 代表性 .
適切にランダムサンプリングは、体系的な要素を一切使用せずに、母集団からランダムにユニットを選択することに基づいています。 技術的には、実際のランダム選択は、抽選 (宝くじなど) または乱数テーブルの使用によって実行されます。

適切なランダム選択が「純粋な形で」選択観察の実践で使用されることはほとんどありませんが、これは他のタイプの選択の中でもオリジナルであり、選択観察の基本原理を実装しています。 サンプリング法の理論と単純なランダムサンプルの誤差公式に関するいくつかの問題を考えてみましょう。

サンプリングバイアスは、一般母集団のパラメータの値と標本観察の結果から計算された値との差です。 平均的な定量的特性の場合、サンプリング誤差は次のように決定されます。

この指標は限界サンプリング誤差と呼ばれます。
サンプル平均は、サンプルに含まれる単位に応じて異なる値をとる確率変数です。 したがって、サンプリング誤差も確率変数であり、さまざまな値をとる可能性があります。 したがって、考えられるエラーの平均が決定されます - 平均サンプリング誤差、以下に依存します。

サンプル サイズ: 数値が大きいほど、平均誤差は小さくなります。

研究対象の特性の変化の程度: 特性の変動が小さくなり、分散が小さくなるほど、平均サンプリング誤差も小さくなります。

ランダムな再選択平均誤差は次のように計算されます。
.
実際には、一般的な分散は正確にはわかりませんが、 確率論それは証明されました
.
十分に大きな n の値は 1 に近いため、次のように仮定できます。 次に、平均サンプリング誤差を計算できます。
.
ただし、サンプルが小さい場合(n 個の場合)、<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

ランダムで非反復的なサンプリング指定された式は、 value によって調整されます。 この場合、平均の非反復サンプリング誤差は次のようになります。
そして .
なぜなら が常に小さい場合、乗数 () は常に 1 より小さくなります。これは、非反復選択中の平均誤差は、反復選択中の平均誤差よりも常に小さいことを意味します。
機械的サンプリング一般人口が何らかの方法で順序付けされている場合に使用されます (たとえば、アルファベット順の有権者リスト、電話番号、家の番号、アパートの番号)。 単位の選択は、サンプリング パーセンテージの逆数に等しい一定の間隔で実行されます。 したがって、2% のサンプルでは、​​一般母集団の 50 単位ごと = 1/0.02 が選択され、5% のサンプルでは、​​1/0.05 = 20 単位ごとに選択されます。

基準点はさまざまな方法で選択されます。ランダムに、間隔の中央から、基準点を変更して選択されます。 重要なことは、系統的なエラーを回避することです。 たとえば、5% のサンプルの場合、最初の単位が 13 番目の場合、次の単位は 33、53、73 などになります。

精度の点では、機械的な選択は実際のランダム サンプリングに近いです。 したがって、機械的サンプリングの平均誤差を決定するには、適切なランダム選択式が使用されます。

典型的な選択 調査対象の集団は、事前に同種の同様のグループに分割されます。 たとえば、企業を調査する場合は、産業、サブセクターを調査することができ、人口を調査する場合は、地域、社会、年齢層を調査することができます。 次に、各グループからの独立した選択が機械的に、または純粋にランダムに行われます。

一般的なサンプリングでは、他の方法よりも正確な結果が得られます。 一般母集団を型指定すると、各類型グループがサンプル内で表現されることが保証され、平均サンプリング誤差に対するグループ間の分散の影響が排除されます。 したがって、分散を加算する規則 () に従って典型的なサンプルの誤差を求める場合、グループ分散の平均のみを考慮する必要があります。 この場合、平均サンプリング誤差は次のようになります。
再選択時
,
非繰り返し選択の場合
,
どこ - サンプル内のグループ内分散の平均。

シリアル (またはネスト) の選択 サンプル調査を開始する前に母集団を系列またはグループに分ける場合に使用されます。 これらのシリーズは、完成品、学生グループ、チームのパッケージ化することができます。 試験対象のシリーズは機械的にまたは完全にランダムに選択され、シリーズ内で単元の継続的な試験が実行されます。 したがって、平均サンプリング誤差は、次の式で計算されるグループ間 (系列間) 分散のみに依存します。

ここで、r は選択されたシリーズの数です。
- i 番目のシリーズの平均。

平均シリアルサンプリング誤差は次のように計算されます。

再選択時:
,
非繰り返し選択の場合:
,
ここで、R はエピソードの総数です。

組み合わせた選択考慮された選択方法の組み合わせです。

あらゆるサンプリング方法の平均サンプリング誤差は、主にサンプルの絶対サイズに依存し、程度は低いですが、サンプルのパーセンテージにも依存します。 最初のケースでは 4,500 単位の母集団から、2 番目のケースでは 225,000 単位の母集団から 225 個の観測が行われたと仮定します。 どちらの場合も分散は 25 に等しくなります。最初のケースでは、5% を選択すると、サンプリング誤差は次のようになります。

2 番目のケースでは、0.1% 選択すると、次のようになります。


したがって、サンプリング パーセンテージが 50 分の 1 に減少すると、サンプル サイズは変わらないため、サンプリング誤差がわずかに増加しました。
サンプルサイズが 625 の観測値に増加したと仮定します。 この場合、サンプリング誤差は次のようになります。

同じ母集団サイズでサンプルを 2.8 倍に増やすと、サンプリング誤差のサイズは 1.6 倍以上減少します。

サンプル母集団を形成するための方法および技術。

統計では、標本母集団を形成するさまざまな方法が使用されますが、これは研究の目的によって決定され、研究対象の詳細によって異なります。

サンプル調査を実施するための主な条件は、サンプルに含まれる一般集団の各単位に対する機会均等の原則の違反から生じる系統的誤差の発生を防ぐことです。 系統的エラーの防止は、サンプル母集団を形成するための科学に基づいた方法を使用することによって達成されます。

母集団からユニットを選択するには次の方法があります。

1) 個別の選択 - サンプルに対して個別のユニットが選択されます。

2) グループ選択 - サンプルには、研究対象の定性的に均一なグループまたは一連のユニットが含まれます。

3) 組み合わせ選択は、個人選択とグループ選択の組み合わせです。
選択方法は、サンプル母集団を形成するためのルールによって決定されます。

サンプルは次のとおりです。

  • 実際にはランダムこれは、サンプル母集団が一般母集団からの個々の単位のランダムな (意図的ではない) 選択の結果として形成されるという事実にあります。 この場合、サンプル母集団内で選択されるユニットの数は、通常、受け入れられたサンプルの割合に基づいて決定されます。 サンプル比率は、サンプル母集団 n のユニット数と一般母集団 N のユニット数の比です。つまり、
  • 機械的これは、サンプル母集団内の単位の選択が一般母集団から行われ、等間隔 (グループ) に分割されるという事実にあります。 この場合、母集団の間隔のサイズはサンプル比率の逆数に等しくなります。 したがって、2% のサンプルでは 50 番目の単位ごと (1:0.02) が選択され、5% のサンプルでは 20 番目の単位ごと (1:0.05) が選択されます。 したがって、受け入れられた選択の割合に従って、一般集団はいわば機械的に同じサイズのグループに分割されます。 各グループから、サンプルとして 1 つのユニットのみが選択されます。
  • 典型的な -そこでは、まず一般集団が均質な典型的なグループに分割されます。 次に、各典型的なグループから純粋にランダムなサンプルまたは機械的なサンプルを使用して、サンプル母集団に含まれるユニットを個別に選択します。 典型的なサンプルの重要な特徴は、サンプル母集団内の単位を選択する他の方法と比較して、より正確な結果が得られることです。
  • シリアル- 一般集団が同じサイズのグループに分割されるシリーズ。 シリーズがサンプル母集団に選択されます。 シリーズ内では、シリーズに含まれるユニットの継続的な観察が行われます。
  • 組み合わせた- サンプリングは 2 段階で行うことができます。 この場合、まず母集団をグループに分割します。 次にグループが選択され、グループ内で個々のユニットが選択されます。

統計では、サンプル母集団内の単位を選択するために次の方法が区別されます。:

  • 単段サンプリング - 選択された各ユニットは、所定の基準 (適切なランダムおよび連続サンプリング) に従って直ちに調査の対象になります。
  • 多段式サンプリング - 個々のグループの一般母集団から選択が行われ、グループから個々のユニットが選択されます (サンプル母集団にユニットを選択する機械的な方法による典型的なサンプリング)。

さらに、次のようなものもあります。

  • 再選択- 返されたボールのスキームに従って。 この場合、サンプルに含まれる各ユニットまたはシリーズは一般集団に戻されるため、再びサンプルに含まれる可能性があります。
  • 非反復選択- 未返球スキームによる。 同じサンプルサイズでより正確な結果が得られます。

必要なサンプル サイズを決定します (スチューデントの t テーブルを使用)。

サンプリング理論の科学原則の 1 つは、十分な数の単位が選択されるようにすることです。 理論的には、この原則に従う必要性は、確率論における極限定理の証明で示されており、これにより、十分でサンプルの代表性を保証するには、母集団からどのくらいの単位を選択すべきかを確立することが可能になります。

標準サンプリング誤差の減少、つまり推定の精度の向上は、常にサンプルサイズの増加を伴うため、サンプル観察を組織化する段階ですでに、サンプルのサイズを決定する必要があります。観察結果に必要な精度を確保するには、サンプル母集団を適切にする必要があります。 必要なサンプル サイズの計算は、特定のタイプと選択方法に対応する最大サンプリング誤差 (A) の公式から導出された公式を使用して構築されます。 したがって、ランダムに繰り返されるサンプル サイズ (n) については、次のようになります。

この式の本質は、必要な数をランダムに繰り返し選択すると、サンプル サイズが信頼係数の 2 乗に正比例するということです。 (t2)と変分特性の分散(Δ2)は、最大サンプリング誤差(Δ2)の二乗に反比例します。 特に、最大誤差が 2 倍に増加すると、必要なサンプル サイズを 4 分の 1 に減らすことができます。 3 つのパラメータのうち 2 つ (t と?) は研究者によって設定されます。

同時に、研究者は、これに基づいて、サンプル調査の目的と目的から、最適なオプションを確実にするには、これらのパラメータをどのような定量的な組み合わせに含めるのがより良いか?という質問を解決する必要があります。 ある場合には、精度の尺度 (?) よりも得られた結果の信頼性 (t) に満足する場合もあれば、その逆の場合もあります。 最大サンプリング誤差の値に関する問題を解決することはさらに困難です。これは、研究者がサンプル観測を設計する段階でこの指標を持っていないためです。したがって、実際には、最大サンプリング誤差の値を設定するのが通例です。通常、属性の予想平均レベルの 10% 以内です。 推定平均値の確立には、以前の同様の調査からのデータを使用するか、サンプリング フレームからのデータを使用して小規模なパイロット サンプルを実施するなど、さまざまな方法でアプローチできます。

標本観察を設計するときに確立するのが最も難しいのは、式 (5.2) の 3 番目のパラメータ、つまり標本母集団の分散です。 この場合、以前に実施された同様の調査やパイロット調査で得られた、研究者が自由に使えるすべての情報を使用する必要があります。

定義についての質問サンプリング調査にサンプリング単位のいくつかの特性の調査が含まれる場合、必要なサンプルサイズはさらに複雑になります。 この場合、原則として、各特性の平均レベルとその変動は異なるため、どの特性のどの分散を優先するかを決定することは、目的と目的を考慮することによってのみ可能です。調査。

サンプル観測を設計するとき、特定の研究の目的と観測結果に基づく結論の確率に従って、許容されるサンプリング誤差の所定の値が想定されます。

一般に、サンプル平均の最大誤差の式により、次のことが求められます。

サンプル母集団の指標から一般母集団の指標に起こり得る偏差の大きさ。

必要なサンプル サイズ。必要な精度を確保し、起こり得る誤差の限界が特定の指定値を超えないようにします。

サンプル内の誤差が指定された制限を持つ確率。

学生の分布確率論では、これは絶対連続分布の 1 パラメーター族です。

動的シリーズ (インターバル、モーメント)、終了動的シリーズ。

ダイナミクスシリーズ- これらは、特定の時系列で表示される統計指標の値です。

各時系列には次の 2 つのコンポーネントが含まれています。

1) 期間の指標 (年、四半期、月、日、または日付)。

2) 研究対象のオブジェクトを期間または対応する日付で特徴付ける指標。シリーズ レベルと呼ばれます。

シリーズのレベルを表現絶対値と平均値または相対値の両方。 インジケーターの性質に応じて、絶対値、相対値、平均値の時系列が構築されます。 相対値と平均値からの動的シリーズは、絶対値の派生シリーズに基づいて構築されます。 ダイナミクスには区間と瞬間の系列があります。

動的間隔シリーズ特定の期間のインジケーター値が含まれます。 一連の間隔では、レベルを合計して、より長い期間にわたる現象の量、いわゆる累積合計を取得できます。

ダイナミックモーメントシリーズ特定の時点(日付)におけるインジケーターの値を反映します。 瞬間系列では、ここでのレベルの合計には実際の内容が含まれないため、研究者は特定の日付間の系列のレベルの変化を反映する現象の違いだけに興味があるかもしれません。 ここでは累計は計算されません。

時系列を正しく構築するための最も重要な条件は、異なる期間に属する系列のレベルが比較できることです。 レベルは均質な量で提示されなければならず、現象のさまざまな部分が同等に完全にカバーされていなければなりません。

するために実際のダイナミクスの歪みを回避するために、統計調査では、時系列の統計分析に先立って予備計算が実行されます (ダイナミクス系列を閉じる)。 動的シリーズのクロージャは、2 つ以上のシリーズを 1 つのシリーズに結合するものとして理解され、そのレベルは異なる方法論を使用して計算されているか、領土の境界に対応していません。 ダイナミクス系列を閉じることは、ダイナミクス系列の絶対レベルを共通の基盤に持ってくることも意味し、これによりダイナミクス系列のレベルの比較不可能性が中和される。

ダイナミクス系列、係数、成長および成長率の比較可能性の概念。

ダイナミクスシリーズ— これらは、時間の経過に伴う自然現象および社会現象の発展を特徴付ける一連の統計指標です。 ロシア国家統計委員会が発行する統計コレクションには、表形式で多数の力学系列が含まれています。 動的シリーズにより、研究対象の現象の発展パターンを特定することができます。

Dynamics シリーズには 2 種類のインジケーターが含まれています。 時間インジケーター(年、四半期、月など) または時点 (年の初め、各月の初めなど)。 行レベルインジケーター。 動態系列のレベルの指標は、絶対値(製品生産量(トンまたはルーブル))、相対値(都市人口の割合(%))、平均値(産業労働者の年別平均賃金)で表すことができます。 、など)。 表形式では、時系列には 2 つの列または 2 つの行が含まれます。

時系列を正しく構築するには、次のような多くの要件を満たす必要があります。

  1. 一連のダイナミクスのすべての指標は科学に基づいており、信頼できるものでなければなりません。
  2. 一連のダイナミクスの指標は、時間の経過とともに比較できる必要があります。 同じ期間または同じ日付で計算する必要があります。
  3. 多くのダイナミクスの指標は、地域全体で比較可能でなければなりません。
  4. 一連のダイナミクスの指標は、内容が同等である必要があります。 単一の方法論に従って同様に計算されます。
  5. 多くの動態の指標は、考慮される農場の範囲全体で比較できる必要があります。 一連のダイナミクスのすべての指標は、同じ測定単位で指定する必要があります。

統計指標一定期間にわたって研究されているプロセスの結果、または特定の時点で研究されている現象の状態のいずれかを特徴付けることができます。 インジケーターには、間隔 (周期的) と瞬間的なものがあります。 したがって、最初のダイナミクス系列は区間または瞬間のいずれかになります。 また、モーメント ダイナミクス系列は、等しい時間間隔または不等な時間間隔を持つことができます。

元のダイナミクス系列は、一連の平均値と一連の相対値 (チェーンおよびベーシック) に変換できます。 このような時系列を派生時系列と呼びます。

ダイナミクスシリーズの平均レベルの計算方法は、ダイナミクスシリーズの種類によって異なります。 例を使用して、ダイナミクス系列の種類と平均レベルを計算するための式を検討します。

絶対的な利益 (Δy) は、シリーズの後続のレベルが前のレベルと比較して (グループ 3. - チェーンの絶対増加)、または初期レベル (グループ 4. - 基本の絶対増加) と比較して何単位変化したかを示します。 計算式は次のように記述できます。

系列の絶対値が減少すると、それぞれ「減少」または「減少」が発生します。

絶対的な成長の指標は、たとえば、1998 年には製品「A」の生産が 1997 年と比較して 4 千トン増加し、1994 年と比較して 34 千トン増加したことを示しています。 その他の年については、表を参照してください。 11.5グラム 3と4。

成長速度系列のレベルが前のレベル (5 段階目 - 成長または衰退の連鎖係数)、または初期レベル (6 段階目 - 成長または衰退の基本係数) と比較して何回変化したかを示します。 計算式は次のように記述できます。

成長率シリーズの次のレベルが前のレベル (グループ 7 - チェーン成長率) または最初のレベル (グループ 8 - 基本成長率) と比較して何パーセントであるかを示します。 計算式は次のように記述できます。

たとえば、1997 年の製品「A」の生産量は、1996 年と比較して 105.5% でした (

成長速度レポート期間のレベルが前回のレベル (列 9 - チェーン成長率) または最初のレベル (列 10 - 基本成長率) と比較して何パーセント増加したかを示します。 計算式は次のように記述できます。

T pr = T r - 100% または T pr = 絶対成長率 / 前期のレベル * 100%

たとえば、1996 年には 1995 年と比較して、製品「A」は 3.8% (103.8% - 100%) または (8:210)x100% 多く生産され、1994 年と比較すると 9% (109% - 100%)。

系列内の絶対レベルが減少すると、割合は 100% 未満になり、それに応じて減少率 (増加率にはマイナス記号が付きます) が発生します。

1%増加の絶対値(列 11) は、前の期間のレベルが 1% 増加するために、特定の期間に何ユニットを生産する必要があるかを示します。 私たちの例では、1995年には2.0千トン、1998年には2.3千トンを生産する必要がありました。 ずっと大きい。

1% 成長の絶対値は、次の 2 つの方法で決定できます。

前の期間のレベルを 100 で割ります。

チェーンの絶対的な増加を、対応するチェーンの成長率で割ります。

1%増加の絶対値 =

特に長期にわたるダイナミクスでは、成長率と各パーセンテージの増加または減少の内容を組み合わせて分析することが重要です。

時系列を分析するために考慮された方法論は、レベルが絶対値(t、千ルーブル、従業員数など)で表される時系列と、レベルが表される時系列の両方に適用できることに注意してください。相対指標(欠陥の%、石炭の灰分%など)または平均値(c/haでの平均収量、平均賃金など)で表されます。

動態系列を分析する際には、前または初期レベルと比較して各年ごとに計算される考慮された分析指標に加えて、その期間の平均分析指標、つまり系列の平均レベル、平均年間絶対増加率を計算する必要があります。 (減少)と平均年間成長率と成長率。

一連のダイナミクスの平均レベルを計算する方法については上で説明しました。 私たちが検討しているインターバルダイナミクス系列では、系列の平均レベルは単純な算術平均の公式を使用して計算されます。

1994年から1998年の製品の年間平均生産量。 218.4千トンに達しました。

平均年間絶対成長率も、単純な算術平均の公式を使用して計算されます。

年間の絶対増加量は年々 4 千トンから 12,000 トンまで変化しており (コラム 3 を参照)、1995 年から 1998 年の期間における生産量の年間平均増加量は次のとおりです。 8.5千トンに達しました。

平均成長率や平均成長率の算出方法については、より詳細な検討が必要となります。 表に示されている年次シリーズレベル指標の例を使用してそれらを検討してみましょう。

ダイナミクス シリーズの平均レベル。

動的シリーズ (または時系列)- これらは、連続する瞬間または期間における特定の統計指標の数値です(つまり、時系列に並べられています)。

ダイナミクス系列を構成する 1 つまたは別の統計指標の数値は、と呼ばれます。 シリーズレベル通常は文字で表されます y。 シリーズ第一期 y1イニシャルまたは 基礎の段階、そして最後のもの yn - 最後の。 レベルが関連する瞬間または期間は、次のように指定されます。 t.

ダイナミクス系列は通常、表またはグラフの形式で表され、時間スケールは横軸に沿って構築されます。 t、縦軸に沿って - 系列レベルのスケール y.

ダイナミクスシリーズの平均指標

一連のダイナミクスはそれぞれ特定のセットとして考えることができます n平均として要約できる時間変化する指標。 このような一般化された (平均的な) 指標は、さまざまな期間やさまざまな国などで特定の指標の変化を比較する場合に特に必要です。

ダイナミクス級数の一般化された特性は、まず第一に、次のような役割を果たすことができます。 中段レベル。 平均レベルの計算方法は、瞬間系列か区間系列(周期的)かによって異なります。

いつ 間隔系列の平均レベルは、系列のレベルの単純な算術平均の公式によって決定されます。

=
可能な場合は 一瞬を含む行 nレベル ( y1、y2、…、yn)日付(時刻)間の間隔が等しい場合、そのような系列は簡単に一連の平均値に変換できます。 この場合、各期間の開始時のインジケーター(レベル)は、同時に前の期間の終了時のインジケーターになります。 次に、各期間(日付間の間隔)のインジケーターの平均値は、値の合計の半分として計算できます。 期間の初めと終わり、つまり どうやって 。 このような平均の数は になります。 前述したように、一連の平均値については、算術平均を使用して平均レベルが計算されます。

したがって、次のように書くことができます。
.
分子を変換すると、次のようになります。
,

どこ Y1そして イン— 行の最初と最後のレベル。 イー— 中級レベル。

この平均は統計では次のように知られています。 平均的な年代順とりあえずシリーズ。 時間の経過とともに変化する指標から計算されるため、その名前は「クロノス」(時間、ラテン語)という言葉に由来しています。

不平等の場合日付間の間隔では、瞬間系列の時系列平均は、日付間の距離 (時間間隔) で重み付けされた、瞬間の各ペアのレベルの平均値の算術平均として計算できます。
.
この場合日付間の間隔でレベルが異なる値をとり、私たちは既知の 2 つのうちの 1 つであると想定されます ( イーそして yi+1) 平均を決定し、そこから分析期間全体の全体平均を計算します。
それぞれの値を仮定すると イー次まで変わらない (i+ 1)- 瞬間、つまり レベルの変化の正確な日付がわかっている場合は、加重算術平均の式を使用して計算を実行できます。
,

ここで、 はレベルが変化しない時間を示します。

ダイナミクスシリーズの平均レベルに加えて、シリーズのレベルの平均変化(基本メソッドおよびチェーンメソッド)、平均変化率など、他の平均指標も計算されます。

ベースライン平均絶対変化最後の基礎となる絶対的な変更を変更の数で割った商です。 あれは

連鎖平均絶対変化 系列のレベルは、すべてのチェーンの絶対的な変更の合計を変更の数で割った商です。

平均絶対変化の符号は、平均的な現象の変化の性質 (成長、衰退、安定) を判断するためにも使用されます。

基本およびチェーンの絶対変化を制御するためのルールから、基本およびチェーンの平均変化は等しくなければならないことがわかります。

絶対変化の平均に加えて、基本メソッドとチェーンメソッドを使用して相対平均も計算されます。

ベースライン平均相対変化次の式で決定されます。

チェーン平均相対変化次の式で決定されます。

当然のことながら、基本平均と連鎖平均の相対変化は同じでなければならず、それらを基準値 1 と比較することにより、平均的な現象の変化の性質 (成長、衰退、または安定) についての結論が導き出されます。
ベースまたはチェーンの平均相対変化から 1 を引くことにより、対応する 平均変化率、その兆候によって、この一連の力学に反映される研究対象の現象の変化の性質を判断することもできます。

季節変動と季節性指数。

季節変動は安定した年間変動です。

最大の効果を得るための経営の基本は、収益の最大化とコストの最小化です。 季節変動を研究することにより、年間の各レベルでの最大方程式の問題が解決されます。

季節変動を研究すると、相互に関連する 2 つの問題が解決されます。

1. 年内変動における現象の発展の詳細の特定。

季節波モデルを構築して季節変動を計測する、3.

季節変動を測定するには、通常、季節の七面鳥を数えます。 一般に、それらは力学級数の元の方程式と理論方程式の比によって決定され、比較の基礎として機能します。

季節変動にはランダムな偏差が重畳されるため、季節性指数を平均化してそれらを除去します。

この場合、年間サイクルの各期間について、一般化された指標が平均季節指標の形式で決定されます。

平均的な季節変動指数は、主要な発展傾向のランダムな偏差の影響を受けません。

トレンドの性質に応じて、平均季節性指数の式は次の形式になります。

1.開発の主な傾向が明確に表現された一連の年次内動向については、次のとおりです。

2. 増加または減少傾向がない、または重要ではない一連の年内変動の場合:

全体の平均はどこですか。

主要なトレンドを分析する方法。

時間の経過に伴う現象の発展は、さまざまな性質や影響力の強さの要因によって影響されます。 それらの中には本質的にランダムなものもあれば、ほぼ一定の影響を及ぼし、ダイナミクスの中で特定の発展傾向を形成するものもあります。

統計学の重要なタスクは、さまざまなランダム要因の影響から解放され、一連の傾向のダイナミクスを特定することです。 この目的のために、時系列は間隔の拡大、移動平均、分析平準化などの方法で処理されます。

区間拡大法これは、一連のダイナミクスのレベルを含む期間の拡大に基づいています。 短い期間に関連するデータを、より長い期間のデータに置き換えることです。 これは、シリーズの初期レベルが短期間に関連する場合に特に効果的です。 たとえば、日次イベントに関連する一連の指標は、週次、月次などに関連する一連の指標に置き換えられます。 これにより、より明確に表示されます 「現象の発展軸」。 拡大された間隔で計算された平均により、主要な開発傾向の方向と性質 (成長の加速または減速) を特定することができます。

移動平均法前のものと似ていますが、この場合、実際のレベルは、カバーする拡大間隔を順次移動(スライド)して計算された平均レベルに置き換えられます。 メートルシリーズレベル。

例えば、私たちが受け入れれば m=3、次に、最初にシリーズの最初の 3 つのレベルの平均が計算され、次に同じ数のレベルから、2 番目から開始し、次に 3 番目から開始するというように計算されます。 したがって、平均は力学系列に沿って「スライド」し、1 項ずつ移動します。 から計算 メートルメンバーの場合、移動平均は各区間の中央 (中心) を指します。

この方法では、ランダムな変動のみが除去されます。 シリーズに季節的な波がある場合、移動平均法を使用して平滑化した後でもその波は持続します。

分析的な調整。 ランダムな変動を排除し、傾向を特定するために、分析式を使用した系列レベルの平準化(または分析平準化)が使用されます。 その本質は、経験的(実際の)レベルを理論的レベルに置き換えることです。理論的レベルは、数学的傾向モデルとして採用された特定の方程式を使用して計算されます。理論的レベルは時間の関数として考慮されます。 この場合、各実際のレベルは次の 2 つの成分の合計と見なされます。 ここで、 は体系的な成分であり、特定の方程式で表されます。 は、傾向の周りの変動を引き起こす確率変数です。

分析的調整のタスクは次のようになります。

1. 実際のデータに基づいて、研究対象の指標の開発傾向を最も適切に反映できる仮説関数のタイプを決定します。

2. 経験データから指定された関数(方程式)のパラメータを求める

3. 見つかった理論的 (調整された) レベルの方程式を使用した計算。

特定の関数の選択は、原則として、経験的データのグラフ表示に基づいて行われます。

モデルは回帰式であり、そのパラメータは最小二乗法を使用して計算されます。

以下は、時系列を調整するために最も一般的に使用される回帰式であり、どの特定の開発傾向を反映するのに最も適しているかを示しています。

上記の方程式のパラメータを見つけるには、特別なアルゴリズムとコンピューター プログラムが必要です。 特に、直線方程式のパラメータを見つけるには、次のアルゴリズムを使用できます。

St = 0 になるように期間または時間の瞬間に番号が付けられている場合、上記のアルゴリズムは大幅に単純化され、次のようになります。

チャート上の整列したレベルは 1 つの直線上に位置し、特定の動的シリーズの実際のレベルから最も近い距離を通過します。 偏差の二乗和は、ランダム要因の影響を反映しています。

これを使用して、方程式の平均 (標準) 誤差を計算します。:

ここで、n は観測値の数、m は方程式内のパラメーターの数です (そのうちの 2 つ、b 1 と b 0 があります)。

主な傾向 (トレンド) は、体系的な要因が一連のダイナミクスのレベルにどのような影響を与えるかを示し、トレンド () の周りのレベルの変動は、残差要因の影響の尺度として機能します。

使用される時系列モデルの品質を評価するためにも使用されます。 フィッシャーの F 検定。 これは 2 つの分散の比、つまり回帰によって引き起こされる分散の比です。 研究対象の要因を、ランダムな理由によって引き起こされる分散に換算します。 残留分散:

拡張された形式では、この基準の式は次のように表すことができます。

ここで、n は観測値の数です。 行レベルの数、

m は方程式内のパラメータの数、y は系列の実際のレベル、

整列された行レベル - 中央の行レベル。

他のモデルよりも成功しているモデルが、必ずしも十分に満足できるとは限りません。 それは、その基準 F が既知の臨界限界を超える場合にのみ、そのように認識できます。 この境界は、F 分布テーブルを使用して確立されます。

指数の本質と分類。

統計学では、インデックスは、時間、空間、または基準との比較における現象の大きさの変化を特徴付ける相対的な指標として理解されます。

インデックス関係の主な要素はインデックス付きの値です。 指数化された値は、統計的母集団の特性の値として理解され、その変化が研究の対象となります。

インデックスを使用すると、次の 3 つの主要なタスクが解決されます。

1) 複雑な現象の変化の評価。

2) 複雑な現象の変化に対する個々の要因の影響を判断する。

3) 現象の大きさと、過去の期間の大きさ、別の領域の大きさ、および基準、計画、予測との比較。

指数は 3 つの基準に従って分類されます。

2) 母集団の要素の網羅度に応じて。

3) 一般的な指数の計算方法による。

内容別量を指数化する場合、指数は量的(量)指標の指数と定性的指標の指数に分けられます。 量的指標の指標 - 工業製品の物量、売上高の物量、従業員数などの指標 定性的指標の指標 - 価格、コスト、労働生産性、平均賃金などの指標

人口単位の網羅度に応じて、指数は個人と一般の 2 つのクラスに分類されます。 それらを特徴付けるために、インデックス メソッドを使用する際に採用されている次の規則を紹介します。

q- あらゆる製品の物理的な量(体積) ; R- 単価; z- 生産単価; t— 製品単位の生産に費やした時間 (労働強度) ; w- 単位時間当たりの価値で表した製品の生産。 v- 単位時間当たりの物理的な生産量。 T— 費やした合計時間または従業員の数。

インデックス付きの値がどの時代またはオブジェクトに属しているかを区別するために、対応するシンボルの右下に添字を配置するのが通例です。 したがって、たとえば、動態指数では、原則として、比較対象の期間 (現在、レポート) と比較対象の期間に下付き文字 1 が使用されます。

個別指数複雑な現象の個々の要素の変化 (たとえば、ある種類の製品の生産量の変化) を特徴付けるのに役立ちます。 それらは、ダイナミクスの相対値、義務の履行、インデックス値の比較を表します。

製品の物理的な体積の個別の指標が決定されます

分析の観点から見ると、特定の個々のダイナミクス指数は成長係数 (率) に似ており、基準期間と比較した現在の期間の指数値の変化を特徴づけます。つまり、指数が何倍増加 (減少) したかを示します。またはそれが何パーセントの増加(減少)であるか。 指数値は係数またはパーセンテージで表されます。

一般(複合)インデックス複雑な現象のすべての要素の変化を反映します。

集計インデックスインデックスの基本的な形式です。 分子と分母が「集合体」のセットであるため、集合体と呼ばれます。

平均指数とその定義。

集計インデックスに加えて、統計では別の形式の加重平均インデックスも使用されます。 この計算は、入手可能な情報では一般的な集計インデックスを計算できない場合に使用されます。 したがって、価格に関するデータはなくても、当期の製品の原価に関する情報があり、各製品の個別の価格指数がわかっている場合、一般的な価格指数を集合的なものとして決定することはできませんが、可能です。個々の平均値として計算します。 同様に、生産された個々の種類の製品の量は不明だが、基準期間の個別の指数と生産コストがわかっている場合、物理的な生産量の一般的な指数は加重平均として決定できます。価値。

平均指数 -これ個々の指数の平均として計算される指数。 集約インデックスは一般インデックスの基本形式であるため、平均インデックスは集約インデックスと同一である必要があります。 平均インデックスを計算する場合、算術平均と調和平均という 2 つの形式の平均が使用されます。

個々のインデックスの重みが集約インデックスの分母の項である場合、算術平均インデックスは集約インデックスと同一です。 この場合に限り、算術平均式を使用して計算された指数の値は、集計指数と等しくなります。

統計では膨大な数の指標が使用されますが、Excel での分散の計算もその 1 つです。 これを手動で行うと、時間がかかり、間違いが多くなる可能性があります。 今日は数式を単純な関数に分解する方法を見ていきます。 すべてを数分で実行できる、最もシンプル、最速、便利な計算方法をいくつか見てみましょう。

分散を計算する

確率変数の分散は、確率変数の数学的期待値からの確率変数の二乗偏差の数学的期待値です。

一般人口に基づいて計算します

マットを計算します。 プログラムが DISP.G 関数を使用するのを待機しています。その構文は「=DISP.G(Number1;Number2;…)」のようになります。

最大 255 個の引数を使用できますが、それ以上は使用できません。 引数には、素数またはそれが指定されているセルへの参照を指定できます。 Microsoft Excel で分散を計算する方法を見てみましょう。

1. 最初のステップは、計算結果を表示するセルを選択し、「関数の挿入」ボタンをクリックすることです。

2. 関数管理シェルが開きます。 そこで「DISP.G」関数を探す必要があります。この関数は「統計」または「完全なアルファベット順リスト」カテゴリにあります。 見つかったら選択して「OK」をクリックします。


3. 関数の引数を含むウィンドウが開きます。 その中で「数値 1」の行を選択し、シート上で数値系列のセル範囲を選択する必要があります。


4. すると、関数を入力したセルに計算結果が表示されます。

Excel で差異を簡単に見つける方法は次のとおりです。

サンプルに基づいて計算を行います

この場合、Excel の標本分散は、数値の合計数ではなく 1 を引いた分母を使用して計算されます。 これは、特別な関数 DISP.V を使用して小さなエラーに対して行われます。その構文は =DISP.V(Number1;Number2;...) です。 アクションのアルゴリズム:

  • 前の方法と同様に、結果のセルを選択する必要があります。
  • 関数ウィザードの「完全なアルファベット順リスト」または「統計」カテゴリの下に「DISP.B」があるはずです。


  • 次に、ウィンドウが表示されるので、前の方法と同じように進めてください。

ビデオ: Excel での分散の計算

結論

Excel での分散の計算は非常に簡単で、手動で計算するよりもはるかに高速で便利です。これは、数学的期待関数が非常に複雑で、その計算には多くの時間と労力がかかるためです。

この記事では次について話します 標準偏差の求め方。 この教材は数学を完全に理解するために非常に重要であるため、数学の家庭教師は、この教材の学習に別のレッスンまたは複数のレッスンを費やす必要があります。 この記事には、標準偏差とは何か、またその求め方を説明する詳細でわかりやすいビデオ チュートリアルへのリンクがあります。

標準偏差特定のパラメータを測定した結果として得られる値の広がりを評価することができます。 記号(ギリシャ文字「シグマ」)で示されます。

計算式は非常に簡単です。 標準偏差を求めるには、分散の平方根を求める必要があります。 そこで、「分散とは何ですか?」と尋ねる必要があります。

分散とは何ですか

分散の定義は次のようになります。 分散は、平均値からの値の二乗偏差の算術平均です。

分散を見つけるには、次の計算を順番に実行します。

  • 平均値を決定します (一連の値の単純な算術平均)。
  • 次に、各値から平均を引き、結果の差を 2 乗します (次のようになります) 二乗差).
  • 次のステップは、結果として得られる二乗差の算術平均を計算することです (正確に二乗する理由は以下でわかります)。

例を見てみましょう。 あなたとあなたの友人が犬の身長を (ミリメートル単位で) 測定することにしたとします。 測定の結果、高さ (枯れ部分) の測定値は、600 mm、470 mm、170 mm、430 mm、300 mm でした。

平均、分散、標準偏差を計算してみましょう。

まずは平均値を求めてみましょう。 すでにご存知のとおり、これを行うには、すべての測定値を合計し、測定数で割る必要があります。 計算の進行状況:

平均mm。

したがって、平均(算術平均)は 394 mm です。

次に、決定する必要があります 各犬の身長の平均からの偏差:

ついに、 分散を計算するには、結果として得られる差をそれぞれ 2 乗し、得られた結果の算術平均を求めます。

分散 mm 2 。

したがって、分散は 21704 mm 2 となります。

標準偏差の求め方

では、分散がわかっている場合、どのようにして標準偏差を計算できるのでしょうか? 覚えているように、その平方根を求めます。 つまり、標準偏差は次のようになります。

Mm (mm 単位の小数点以下を四捨五入)。

この方法を使用すると、一部の犬 (ロットワイラーなど) が非常に大型であることがわかりました。 しかし、非常に小さな犬もいます(たとえば、ダックスフントですが、彼らにそのことを告げるべきではありません)。

最も興味深いのは、標準偏差には有用な情報が含まれていることです。 これで、平均からの標準偏差 (その両側) をプロットした場合に得られる間隔内に、取得された高さ測定結果のどれが含まれるかを示すことができます。

つまり、標準偏差を使用して、どの値が正常 (統計的平均) であるか、どの値が異常に大きいか、または逆に小さいかを調べることを可能にする「標準」方法を取得します。

標準偏差とは何ですか

しかし...分析するとすべてが少し異なります サンプルデータ。 私たちの例では、 一般の人々。つまり、世界で私たちが興味を持った犬は、私たちの5匹の犬だけでした。

ただし、データがサンプル(大規模な母集団から選択された値)である場合、計算は別の方法で行う必要があります。

値がある場合は、次のようになります。

平均の決定を含め、他のすべての計算も同様に実行されます。

たとえば、私たちの 5 匹の犬が犬の人口 (地球上のすべての犬) のサンプルにすぎない場合、次のように割る必要があります。 5ではなく4、つまり:

サンプルの分散 = mm2。

この場合、サンプルの標準偏差は次のようになります。 mm (最も近い整数に四捨五入)。

私たちの値がほんの小さなサンプルにすぎない場合、何らかの「修正」を行ったと言えます。

注記。 なぜ差を正確に二乗するのでしょうか?

しかし、分散を計算するときに差の二乗を正確に取るのはなぜでしょうか? いくつかのパラメータを測定するときに、次の一連の値を受け取ったとします。 4; -4; -4. 平均からの絶対偏差(差)を単純に加算すると...負の値は正の値で相殺されます。

.

このオプションは役に立たないことがわかりました。 それなら、偏差の絶対値 (つまり、これらの値のモジュール) を試してみる価値はあるでしょうか?

一見すると、それはうまくいきます(ちなみに、結果の値は平均絶対偏差と呼ばれます)が、すべての場合にそうとは限りません。 別の例を試してみましょう。 測定結果が次の値セットになるとします。7; 1; -6; -2. この場合、平均絶対偏差は次のようになります。

おお! ここでも 4 という結果が得られましたが、差の広がりははるかに大きくなっています。

ここで、差を二乗するとどうなるかを見てみましょう (そして、その合計の平方根をとります)。

最初の例では次のようになります。

.

2 番目の例では次のようになります。

さて、それはまったく別の問題です! 差の広がりが大きいほど、標準偏差も大きくなります...これが私たちが目指していたことです。

実際、この方法は点間の距離を計算するときと同じ考え方を使用しますが、適用方法が異なるだけです。

また、数学的な観点から見ると、平方と平方根を使用すると、絶対偏差値から得られるより多くの利点が得られ、標準偏差が他の数学的問題に適用できるようになります。

セルゲイ・ヴァレリエヴィッチは標準偏差の求め方を教えてくれました

統計で使用される多くの指標の中で、分散の計算に注目する必要があります。 この計算を手動で実行するのはかなり面倒な作業であることに注意してください。 幸いなことに、Excel には計算手順を自動化できる機能があります。 これらのツールを使用するためのアルゴリズムを見てみましょう。

分散は変動の指標であり、数学的期待からの偏差の平均二乗です。 したがって、平均値付近の数値の広がりを表します。 分散の計算は、一般母集団とサンプルの両方に対して実行できます。

方法1:人口に基づく計算

一般集団について Excel でこの指標を計算するには、次の関数を使用します。 DISP.G。 この式の構文は次のとおりです。

DISP.G(数値1;数値2;…)

合計 1 ~ 255 個の引数を使用できます。 引数には、数値またはそれが含まれるセルへの参照を指定できます。

数値データの範囲に対してこの値を計算する方法を見てみましょう。


方法 2: サンプルによる計算

母集団に基づいて値を計算するのとは異なり、サンプルを計算する場合、分母は数値の合計ではなく、1 少ない数を示します。 これはエラー修正の目的で行われます。 Excel では、このタイプの計算用に設計された特別な関数 DISP.V でこのニュアンスが考慮されます。 その構文は次の式で表されます。

DISP.B(数値1;数値2;…)

前の関数と同様に、引数の数も 1 ~ 255 の範囲で指定できます。


ご覧のとおり、Excel プログラムを使用すると、分散の計算が非常に簡単になります。 この統計は、アプリケーションによって母集団またはサンプルから計算できます。 この場合、すべてのユーザー操作は実際には処理する数値の範囲を指定することになり、主な作業は Excel 自体が行います。 もちろん、これによりユーザーの時間が大幅に節約されます。



サイトの新着情報

>

最も人気のある