状態:
従業員の年齢構成(歳)に関するデータがあります: 18、38、28、29、26、38、34、22、28、30、22、23、35、33、27、24、30、32、28 、25、29、26、31、24、29、27、32、25、29、29。
- 区間分布系列を構築します。
- 建てる グラフィック画像行。
- 最頻値と中央値をグラフィカルに決定します。
解決:
1) スタージェスの公式によれば、母集団は 1 + 3.322 lg 30 = 6 つのグループに分割されなければなりません。
最高年齢 - 38 歳、最低年齢 - 18 歳。
区間の幅 区間の終端は整数でなければならないため、母集団を 5 つのグループに分割します。 間隔幅 - 4。
計算を容易にするために、データを昇順に並べます: 18、22、22、23、24、24、25、25、26、26、27、27、28、28、28、29、29、29、 29、29、30、30、31、32、32、33、34、35、38、38。
分布 年齢構成労働者
グラフ的には、系列をヒストグラムまたは多角形として表すことができます。 ヒストグラム - 棒グラフ。 列の底辺は間隔の幅です。 柱の高さは周波数に等しい。
ポリゴン (または分布ポリゴン) - 頻度グラフ。 ヒストグラムを使用してこれを作成するには、長方形の上辺の中点を接続します。 x の極値から間隔の半分に等しい距離で Ox 軸上の多角形を閉じます。
最頻値 (Mo) は、特定の母集団で最も頻繁に発生する、調査対象の特性の値です。
ヒストグラムからモードを決定するには、最も高い四角形を選択し、この四角形の右頂点から前の四角形の右上隅まで線を描き、モーダル四角形の左頂点から最上位の四角形まで線を引く必要があります。後続の長方形の左頂点。 これらの線の交点から、x 軸に対して垂線を引きます。 横軸はファッションになります。 Mo ≈ 27.5。 これは、この人口で最も一般的な年齢が 27 ~ 28 歳であることを意味します。
中央値 (Me) は、順序変化系列の中央にある、調査対象の特性の値です。
累積を使用して中央値を見つけます。 累積 - 累積された頻度のグラフ。 横座標は系列の変形です。 縦座標は累積された周波数です。
累積値の中央値を決定するには、累積度数の 50% (この場合は 15) に対応する縦軸に沿った点を見つけ、その点を通る直線を Ox 軸に平行に引きます。累積との交点に x 軸への垂線を描きます。 横軸は中央値です。 私は約25.9です。 これは、この人口の労働者の半数が 26 歳未満であることを意味します。
間隔分布系列を構築する場合、次の 3 つの疑問が解決されます。
- 1. どれくらいの間隔をあけるべきですか?
- 2. 間隔の長さはどれくらいですか?
- 3. 間隔の境界内に人口単位を含める手順は何ですか?
- 1. 間隔の数によって決定できます スタージェスの公式:
2. 間隔の長さ、または間隔ステップ、通常は次の式で決定されます。
どこ R-バリエーションの範囲。
3. 区間の境界内に含まれる人口単位の順序
異なる場合がありますが、区間系列を構築する場合は、分布を厳密に定義する必要があります。
たとえば、[) では、人口単位は下限の境界には含まれますが、上限には含まれず、次の区間に転送されます。 このルールの例外は最後の間隔であり、その上限にはランク付けされたシリーズの最後の番号が含まれます。
間隔の境界は次のとおりです。
- 閉じた - 属性の 2 つの極値を持つ。
- open - 属性の 1 つの極値を持つ (前にあんな数字とか、 以上あんな数字)。
理論的な内容を理解するために、以下を紹介します。 背景情報解決策のために エンドツーエンドのタスク。
営業マネージャーの平均数、彼らが販売した類似商品の数量、この製品の個別の市場価格、およびロシア連邦のいずれかの地域における第 1 四半期の 30 社の販売量に関する条件付きデータがあります。報告年の(表 2.1)。
表2.1
横断的なタスクの初期情報
番号 マネージャー、 |
価格、千ルーブル |
販売量、100万ルーブル。 |
||
番号 マネージャー、 |
販売された商品の数量、個。 |
価格、千ルーブル |
販売量、100万ルーブル。 |
|
初期情報と追加情報に基づいて、個別のタスクを設定します。 次に、それらを解決するための方法論と解決策そのものを紹介します。
横断的なタスク。 タスク 2.1
テーブルのソース データを使用します。 2.1 必須建てる 個別シリーズ販売された商品の量ごとの企業の分布(表 2.2)。
解決:
表2.2
報告年の第 1 四半期にロシア連邦のいずれかの地域で販売された商品の量ごとに企業を個別に分布した系列
横断的なタスク。 タスク 2.2
必須管理者の平均数に従って 30 社のランク付けシリーズを作成します。
解決:
15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.
横断的なタスク。 タスク 2.3
テーブルのソース データを使用します。 2.1、 必須:
- 1. 管理者の数による企業の分布の区間系列を構築します。
- 2. 企業の分布系列の頻度を計算します。
- 3. 結論を導き出します。
解決:
スタージェスの公式(2.5)を使って計算してみましょう 間隔の数:
したがって、6 つの間隔 (グループ) を取ります。
間隔の長さ、 または インターバルステップ、式を使用して計算します
注記。区間の境界に人口単位が含まれる順序は次のとおりです。I) では、人口単位は下位の境界には含まれますが、上位の境界には含まれず、次の区間に転送されます。 この規則の例外は最後の間隔 I ] であり、その上限にはランク付けされたシリーズの最後の番号が含まれます。
区間系列を作成します (表 2.3)。
インターバルシリーズ企業の分布ではなく、報告年の第 1 四半期におけるロシア連邦のいずれかの地域における管理者の平均数
結論。最大の企業グループは管理者の平均数が 25 ~ 30 人であるグループで、これには 8 社 (27%) が含まれています。 マネージャーの平均数が 40 ~ 45 人の最小グループには、1 社 (3%) のみが含まれています。
テーブルのソース データを使用します。 2.1、および管理者の数による企業分布の区間系列 (表 2.3)、 必須経営者の数と企業の売上高との関係を分析的にグループ化し、それに基づいて、これらの特性間の関係の有無についての結論を導き出します。
解決:
分析的なグループ化は、因子の特性に基づいて行われます。 この問題では、因子特性 (x) は管理者の数、結果特性 (y) は売上高です (表 2.4)。
今すぐ構築しましょう 分析的なグループ化(表 2.5)。
結論。構築された分析グループのデータに基づくと、営業マネージャーの数が増加すると、グループ内の企業の平均売上高も増加し、これらの特性間に直接的な関連性が存在することがわかります。
表2.4
分析グループを構築するための補助テーブル
管理者の数、人数、 |
会社番号 |
売上高、百万ルーブル、年 |
|
" = 59 f = 9.97 |
|||
I-™ 4 -ゆ.22 |
|||
74 '25 1PY1 U4 = 7 = 10,61 |
で = ’ =10,31 30 |
表2.5
報告年の第 1 四半期におけるロシア連邦のいずれかの地域における売上高の企業マネージャーの数への依存性
コントロールの質問- 1. 統計的観察の本質とは何ですか?
- 2. 統計的観察の段階に名前を付けます。
- 3. 統計観察の組織形態は何ですか?
- 4. 統計的観察の種類に名前を付けます。
- 5. 統計概要とは何ですか?
- 6. 統計レポートの種類に名前を付けます。
- 7. 統計的グループ化とは何ですか?
- 8. 統計グループの種類に名前を付けます。
- 9. 配信シリーズとは何ですか?
- 10. 名前 構造要素配信シリーズ。
- 11. 配信シリーズを構築する手順は何ですか?
多くの場合、統計母集団に多数の、またはそれ以上に無限の数のバリアントが含まれている場合 (ほとんどの場合、連続的な変動で発生します)、バリアントごとにユニットのグループを形成することは事実上不可能で非現実的です。 このような場合、統計単位をグループに結合することは、間隔に基づいてのみ可能です。 さまざまな特性の値に一定の制限があるこのようなグループ。 これらの限界は、各グループの上限と下限を示す 2 つの数字で示されます。 間隔を使用すると、間隔分布系列が形成されます。
インターバルラジアンはバリエーション シリーズであり、そのバリエーションはインターバルの形式で表示されます。
間隔シリーズは等間隔または不等間隔で形成できますが、このシリーズを構築するための原理の選択は主に統計母集団の代表性と利便性の程度に依存します。 母集団がユニット数の点で十分に大きく (代表的であり)、その構成が完全に均一である場合は、間隔の等価性に基づいて間隔系列の形成を行うことをお勧めします。 通常、この原理を使用して、変動範囲が比較的小さい母集団に対して区間系列が形成されます。 通常、最大オプションと最小オプションは互いに数回異なります。 この場合、等間隔の値は、形成された間隔の数に対する特性の変動幅の比によって計算される。 等しいと判断するには そして間隔の場合、スタージェスの公式を使用できます (通常、間隔特性と 多数統計集計における単位):
ここでx私は - 等間隔値。 X max、X min - 統計集計における最大および最小のオプション。 n . - 集合体のユニット数。
例. 初期(最小)オプションが1kmに等しいことがわかっている場合、モギレフ地域のクラスノポルスキー地区の100集落におけるセシウム137による放射性汚染の密度に応じて等間隔のサイズを計算することをお勧めします。 / km 2、決勝 (最大) - 65 ki/km 2. 式 5.1 を使用します。 我々が得る:
したがって、クラスノポルスキー地域のセシウム汚染 - 137 の集落の密度に関して等間隔の一連の間隔を形成するには、等間隔のサイズは 8 ki/km 2 にすることができます。
不均一な分布の条件下では、つまり 最大値と最小値のオプションが数百倍である場合、間隔シリーズを形成するときに、次の原則を適用できます。 不平等間隔。 通常、特性の値が大きくなるにつれて、不等間隔は増加します。
間隔の形状は閉じても開いてもかまいません。 閉まっている下限と上限の両方がある間隔を呼び出すのが慣例です。 開ける間隔には境界が 1 つだけあります。最初の間隔には上限があり、最後の間隔には下限があります。
特に不等間隔の場合は、次のことを考慮して間隔シリーズを評価することをお勧めします。 分布密度, 計算する最も簡単な方法は、ローカル周波数 (または周波数) と間隔のサイズの比です。
実際に間隔シリーズを形成するには、テーブル レイアウトを使用できます。 5.3.
表5.3. 区間系列を形成する手順 和解セシウム-137による放射能汚染の密度によるクラスノポルスキー地区
インターバル シリーズの主な利点は、その最大値です。 コンパクトさ。間隔分布シリーズで同時に 個別のオプション対応する区間に特徴が隠されている
直交座標系で間隔系列をグラフで表す場合、間隔の上限が横軸にプロットされ、系列の局所周波数が縦軸にプロットされます。 区間シリーズのグラフィック構造は、各区間に下限と上限の境界があり、2 つの横座標が 1 つの縦座標値に対応するという点で、分布多角形の構造とは異なります。 したがって、区間系列のグラフでは、多角形のように点ではなく、2 つの点を結ぶ線がマークされます。 この横線を縦線で結び、階段状の多角形の図形が得られます。これを俗に「多角形」といいます。 ヒストグラム分布(図5.3)。
で グラフィック構築十分に大きな統計母集団にわたる間隔系列では、ヒストグラムは次のようになります。 対称的な配布形態。 統計上の母集団が小さい場合には、原則として、 非対称棒グラフ。
場合によっては、多数の累積周波数を形成することが賢明です。 累積的な行。 累積系列は、離散または間隔分布系列に基づいて形成できます。 直交座標系で累積系列をグラフで表す場合、変化量が横軸にプロットされ、累積頻度 (周波数) が縦軸にプロットされます。 結果として得られる曲線は通常、次のように呼ばれます。 累積的な分布(図5.4)。
フォーメーションとグラフィック表現 さまざまな種類変動系列は主な計算の簡素化に貢献します。 統計的特徴トピック 6 で詳しく説明しますが、統計的な母集団の分布の法則の本質をより深く理解するのに役立ちます。 変動系列の分析が取得 特別な意味オプションと頻度(頻度)の関係を特定して追跡する必要がある場合。 この依存関係は、オプションごとのケース数がこのオプションのサイズに何らかの形で関係しているという事実に現れています。 変化する特性の値が増加すると、これらの値の周波数(周波数)は特定の体系的な変化を経験します。 これは、周波数(周波数)列の数値が無秩序に変動するのではなく、特定の方向に、特定の順序と順序で変化することを意味します。
周波数の変化に一定の体系性が見られる場合、これはパターンの特定に向かっていることを意味します。 周波数変化のシステム、順序、シーケンスは一般的な原因を反映しています。 一般的な条件、人口全体の特徴。
分布パターンが常に次のように与えられると想定すべきではありません。 完成形。 周波数が奇妙にジャンプしたり、時には増加したり、時には減少したりするバリエーションシリーズが非常に多くあります。 このような場合、研究者が扱っている分布の種類を調べることをお勧めします。この分布には固有のパターンがまったくないか、その性質がまだ明らかにされていません。最初のケースはまれですが、2 番目のケースはまれです。このケースはかなり一般的で、非常に広範囲にわたる現象です。
したがって、区間系列を形成するときは、 総数統計単位は小さくてもよく、各間隔には少数のオプションが含まれます (たとえば、1 ~ 3 単位)。 このような場合、パターンの発現を当てにすることはできません。 無作為の観察に基づいて自然な結果が得られるためには、法律が施行される必要があります 多数、つまり そのため、各間隔には数個ではなく、数十、数百の統計単位が存在します。 そのためには、できるだけ観測数を増やすように努めなければなりません。 これが一番 正しい方法大量プロセスにおけるパターンの検出。 そうでない場合は 本当のチャンス観測値の数を増やすと、分布系列の間隔の数を減らすことでパターンを特定できます。 変動系列内の間隔の数を減らすと、各間隔内の周波数の数が増加します。 これは、各統計単位のランダムな変動が重なり合って「平滑化」され、パターン化されることを意味します。
変動系列の形成と構築では、統計的母集団の分布の一般的かつ近似的な画像のみを取得できます。 たとえば、ヒストグラムは、特性の値とその頻度 (頻度) との関係を大まかな形で表現しているだけです。したがって、変動系列は本質的に、さらなる分析の基礎にすぎません。 徹底的な研究静的分布の内部規則性。
トピック 5 のテスト問題
1. バリエーションとは何ですか? 統計上の母集団における形質の変動の原因は何ですか?
2. 統計ではどのような種類のさまざまな特性が発生する可能性がありますか?
3. バリエーションシリーズとは何ですか? バリエーションシリーズにはどのような種類がありますか?
4. ランク付けされたシリーズとは何ですか? その利点と欠点は何ですか?
5. 離散シリーズとは何ですか?また、その長所と短所は何ですか?
6. インターバルシリーズを形成する手順は何ですか?その利点と欠点は何ですか?
7. ランク付けされた離散間隔分布系列のグラフ表現は何ですか?
8. 分布の累積値は何ですか?また、その特徴は何ですか?
研究室ワークその1。 統計データの一次加工
配信シリーズの構築
任意の 1 つの特性に従って人口単位をグループに順序立てて分布することを、と呼びます。 分布に近い 。 この場合、特性は定量的である可能性があり、その場合、系列は次のように呼ばれます。 変分 、定性的な場合、その系列は次のように呼ばれます。 限定的な 。 したがって、たとえば、ある都市の人口を、バリエーション シリーズの年齢グループごとに、または属性シリーズの専門職の所属ごとに分布させることができます (もちろん、より多くの高品質で質の高いデータが含まれます)。 定量的特性分布系列を構築するための属性の選択は、統計調査のタスクによって決定されます)。
あらゆるディストリビューション シリーズは、次の 2 つの要素によって特徴付けられます。
- オプション(x i) - これ 個体値サンプル集団内のユニットの特徴。 オプションの変分系列の場合、 数値、属性 - 定性の場合 (たとえば、x = 「公務員」)。
- 頻度(n 私) – 特定の属性値が何回出現するかを示す数値。 頻度が相対数 (つまり、対応する母集団要素の割合) として表される場合、 与えられた値オプション、母集団の総体積で)、その後、それは呼び出されます 相対頻度または 頻度.
バリエーション シリーズには次のようなものがあります。
- 離散研究対象の形質が特徴づけられるとき 特定の数(通常は全体)。
- 間隔、連続的に変化する特性に対して境界「から」と「まで」が定義されている場合。 離散的に変化する特性の値のセットが大きい場合は、間隔系列も構築されます。
間隔シリーズは、統計的研究の条件によって決まる場合、等しい長さの間隔 (等間隔シリーズ) と不等間隔の両方で構築できます。 たとえば、次の間隔を持つ一連の人口所得分布を考慮できます。<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:
ここで、k は間隔の数、n はサンプル サイズです。 (もちろん、この式では通常は小数が与えられ、その結果の数値に最も近い整数が間隔の数として選択されます。) この場合の間隔の長さは、次の式によって決定されます。
.
バリエーション シリーズは、次の形式でグラフィカルに表示できます。 ヒストグラム(一連の区間の各区間の上に、この区間の周波数に対応する高さの「列」が構築されます)、 分布ポリゴン(点と点を結ぶ破線( x i;私は) または 蓄積する(累積頻度に基づいて構築されます。つまり、各属性値について、指定された値よりも小さい属性値を持つオブジェクトのセットでの出現頻度が取得されます)。
Excel で作業する場合、次の関数を使用してバリエーション シリーズを構築できます。
チェック( データ配列) – サンプルサイズを決定します。 引数は、サンプル データが存在するセルの範囲です。
カウンティフ( 範囲; 基準) – 属性または変分系列を構築するために使用できます。 引数は、属性のサンプル値の配列の範囲と基準、つまり属性の数値またはテキスト値、または属性が配置されているセルの番号です。 結果は、サンプル内でのその値の出現頻度です。
頻度( データ配列。 間隔の配列) – バリエーション シリーズを構築するため。 引数はサンプル データ配列の範囲と間隔列です。 離散系列を作成する必要がある場合は、オプションの値がここに示されます。区間系列の場合は、区間の上限(「ポケット」とも呼ばれます)が示されます。 結果は周波数の列であるため、CTRL+SHIFT+ENTER を押して関数の入力を完了する必要があります。 関数を導入するときに間隔の配列を指定する場合、その中の最後の値を指定する必要はないことに注意してください。前の「ポケット」に含まれていなかったすべての値は、対応する「ポケット」に配置されます。 これは、最大のサンプル値を最後のポケットに自動的に配置しないという間違いを避けるのに役立つ場合があります。
さらに、(いくつかの特性に基づいて)複雑なグループ化を行う場合は、「ピボット テーブル」ツールを使用します。 これらを使用して属性シリーズやバリエーション シリーズを構築することもできますが、これによりタスクが不必要に複雑になります。 また、バリエーション シリーズとヒストグラムを作成するには、「分析パッケージ」アドインの「ヒストグラム」手順があります (Excel でアドインを使用するには、最初にアドインをダウンロードする必要があります。これらはデフォルトではインストールされません)。
次の例を使用して、一次データ処理のプロセスを説明します。
例1.1。 60 家族の量的構成に関するデータがあります。
変動系列と分布ポリゴンを構築する
解決.
Excel のテーブルを開いてみましょう。 データ配列を A1:L5 の範囲に入力してみましょう。 電子形式 (Word 形式など) で文書を学習している場合、これを行うには、データが含まれる表を選択してクリップボードにコピーし、セル A1 を選択してデータを貼り付けるだけです。これらのデータは自動的に占有されます。適切な範囲。 サンプル量 n - サンプル データの数を計算しましょう。これを行うには、セル B7 に =COUNT(A1:L5) という式を入力します。 式に目的の範囲を入力するには、キーボードから指定を入力する必要はなく、範囲を選択するだけで十分であることに注意してください。 セル B8 に =MIN(A1:L5)、セル B9 に =MAX(A1:L5) という式を入力して、サンプルの最小値と最大値を決定しましょう。
図1.1 例1. Excel表の統計データの一次処理
次に、間隔(分散値)の列と頻度の列に名前を入力して、変動系列を構築するためのテーブルを準備します。 間隔の列に、範囲 B12:B17 を占める最小値 (1) から最大値 (6) までの特性値を入力します。 周波数列を選択し、数式 =FREQUENCY(A1:L5,B12:B17) を入力し、CTRL+SHIFT+ENTER キーの組み合わせを押します。
図 1.2 例 1. バリエーション シリーズの構築
制御するには、SUM 関数 (「ホーム」タブの「編集」グループにある関数アイコン S) を使用して周波数の合計を計算しましょう。計算された合計は、セル B7 で以前に計算されたサンプル量と一致する必要があります。
次に、ポリゴンを作成しましょう。結果の周波数範囲を選択したら、「挿入」タブの「グラフ」コマンドを選択します。 デフォルトでは、横軸の値は序数になります。この場合は1から6で、これはオプションの値(料金カテゴリの数)と一致します。
グラフシリーズの名前「シリーズ 1」は、「デザイン」タブの同じ「データの選択」オプションを使用して変更するか、単に削除することができます。
図1.3。 例 1. 周波数ポリゴンの構築
例1.2。 50 の発生源からの汚染物質の排出に関するデータがあります。
10,4 | 18,6 | 10,3 | 26,0 | 45,0 | 18,2 | 17,3 | 19,2 | 25,8 | 18,7 |
28,2 | 25,2 | 18,4 | 17,5 | 41,8 | 14,6 | 10,0 | 37,8 | 10,5 | 16,0 |
18,1 | 16,8 | 38,5 | 37,7 | 17,9 | 29,0 | 10,1 | 28,0 | 12,0 | 14,0 |
14,2 | 20,8 | 13,5 | 42,4 | 15,5 | 17,9 | 19, | 10,8 | 12,1 | 12,4 |
12,9 | 12,6 | 16,8 | 19,7 | 18,3 | 36,8 | 15,0 | 37,0 | 13,0 | 19,5 |
等間隔系列を構成し、ヒストグラムを作成する
解決
データ配列を Excel シートに入力しましょう。データ配列は A1:J5 の範囲を占めます。前のタスクと同様に、サンプル サイズ n、サンプル内の最小値と最大値を決定します。 ここでは離散系列ではなく区間系列が必要であり、問題では区間の数が指定されていないため、スタージェスの公式を使用して区間の数 k を計算します。 これを行うには、セル B10 に数式 =1+3.322*LOG10(B7) を入力します。
図1.4。 例 2. 等間隔系列の構築
結果の値は整数ではなく、約 6.64 になります。 k=7 では間隔の長さが整数で表されるため (k=6 の場合とは異なり)、この値をセル C10 に入力して k=7 を選択します。 式 =(B9-B8)/C10 を入力して、セル B11 の間隔 d を計算します。
7 つの間隔のそれぞれの上限を示す間隔の配列を定義しましょう。 これを行うには、セル E8 に式 =B8+B11 を入力して、最初の間隔の上限を計算します。 セル E9 に数式 =E8+B11 を入力して、2 番目の間隔の上限を入力します。 間隔の上限の残りの値を計算するには、$ 記号を使用して入力した数式のセル B11 の数を修正し、セル E9 の数式が =E8+B$11 の形式になるようにし、セル E9 からセル E10 ~ E14 の内容。 取得された最後に値は、セル B9 で以前に計算されたサンプルの最大値と等しくなります。
図1.5。 例 2. 等間隔系列の構築
次に、例 1 で行ったように、FREQUENCY 関数を使用して「ポケット」の配列を埋めてみましょう。
図1.6。 例 2. 等間隔系列の構築
結果の変動系列を使用して、ヒストグラムを作成します。頻度列を選択し、[挿入] タブの [ヒストグラム] を選択します。 ヒストグラムを受け取ったら、その横軸のラベルを間隔の範囲内の値に変更しましょう。これを行うには、「デザイナー」タブの「データの選択」オプションを選択します。 表示されるウィンドウで、「水平軸ラベル」セクションの「変更」コマンドを選択し、マウスで選択してオプションの値の範囲を入力します。
図1.7。 例 2. ヒストグラムの作成
図1.8。 例 2. ヒストグラムの作成
数学統計- 科学的かつ実践的な結論を得るために統計データを処理、体系化し、使用する数学的方法に特化した数学の一分野。
3.1. 数学統計の基本概念
医学的および生物学的問題では、多くの場合、非常に多くの個人の特定の形質の分布を研究する必要があります。 この特性は個人ごとに異なる意味を持つため、確率変数となります。 たとえば、どの治療薬でも、異なる患者に適用すると効果が異なります。 ただし、この薬の有効性を理解するために、それを適用する必要はありません。 みんな病気。 比較的少数の患者グループに対する薬剤の使用結果を追跡し、得られたデータに基づいて、治療プロセスの重要な特徴(有効性、禁忌)を特定することが可能です。
人口- 研究対象となる何らかの属性によって特徴付けられる同種の要素のセット。 この標識は 継続的な分布密度のある確率変数 f(x)。
たとえば、特定の地域における病気の蔓延に関心がある場合、一般集団はその地域の人口全体です。 この病気に対する男性と女性の感受性を別々に調べたい場合は、2 つの一般集団を考慮する必要があります。
性質を勉強するには 人口その要素のいくつかを選択します。
サンプル- 検査(治療)のために選ばれた一般集団の一部。
これが混乱を引き起こさない場合、サンプルは次のように呼ばれます。 オブジェクトのセット、調査対象に選ばれ、 全体性
価値観試験中に得られた研究された特性。 これらの値はいくつかの方法で表すことができます。
単純な統計系列 -研究対象の特性の値が取得された順序で記録されます。
20 人の患者の額の皮膚の表面波速度 (m/s) を測定することによって得られた単純な統計系列の例を表に示します。 3.1.
表3.1。単純な統計系列
単純な統計シリーズは、調査結果を記録する主かつ最も完全な方法です。 何百もの要素を含めることができます。 このような全体像を一目で把握することは非常に困難です。 したがって、大きなサンプルは通常、グループに分割されます。 これを行うために、特性の変化領域をいくつか(N)に分割します。 間隔幅が等しく、これらの間隔に該当する属性の相対頻度 (n/n) を計算します。 各間隔の幅は次のとおりです。
間隔の境界には次の意味があります。
サンプル要素が 2 つの隣接する間隔の間の境界である場合、それは次のように分類されます。 左間隔。 このようにグループ化されたデータは 間隔統計系列。
は、属性値の間隔と、これらの間隔内での属性の相対的な出現頻度を示す表です。
私たちの場合、たとえば、次の間隔統計系列 (N = 5、 d= 4)、表。 3.2.
表 3.2.間隔統計系列
ここで、間隔 28-32 には 28 に等しい 2 つの値が含まれ (表 3.1)、間隔 32-36 には値 32、33、34、および 35 が含まれます。
間隔統計系列をグラフで表すことができます。 これを行うには、属性値の間隔が横軸に沿ってプロットされ、それぞれの軸上に、ベースと同様に、相対頻度に等しい高さの長方形が構築されます。 結果として得られる棒グラフは次のように呼ばれます。 ヒストグラム。
米。 3.1.棒グラフ
ヒストグラムでは、特性の分布の統計的パターンが非常に明確に表示されます。
サンプル サイズが大きく (数千)、列幅が小さい場合、ヒストグラムの形状はグラフの形状に近くなります。 分布密度サイン。
ヒストグラムの列の数は、次の式を使用して選択できます。
ヒストグラムを手動で作成するのは長いプロセスです。 したがって、それらを自動的に構築するコンピュータープログラムが開発されました。
3.2. 統計系列の数値特性
多くの統計手順では、母集団の期待値と分散 (または MSE) のサンプル推定値が使用されます。
標本平均(X) は、単純な統計系列のすべての要素の算術平均です。
私たちの例では バツ= 37.05 (m/秒)。
サンプル平均は次のとおりです最高の一般平均推定値M.
サンプル分散 s 2サンプル平均からの要素の偏差の二乗の合計を で割ったものに等しい。 n- 1:
この例では、s 2 = 25.2 (m/s) 2 です。
標本分散を計算するとき、式の分母は標本サイズ n ではなく、n-1 であることに注意してください。 これは、式 (3.3) の偏差を計算するときに、未知の数学的期待値の代わりに、その推定値が使用されるという事実によるものです。 標本平均。
標本の分散は 最高の一般分散 (σ 2) の推定。
サンプル標準偏差(s) は標本分散の平方根です。
私たちの例では s= 5.02 (m/秒)。
選択的 二乗平均平方根偏差は、一般的な標準偏差 (σ) の最良の推定値です。
サンプルサイズが無制限に増加すると、すべてのサンプルの特徴は一般母集団の対応する特徴に近づく傾向があります。
サンプルの特性を計算するにはコンピューターの公式が使用されます。 Excel では、これらの計算により統計関数 AVERAGE、VARIANCE が実行されます。 標準偏差
3.3. 間隔の評価
すべてのサンプルの特性は、 ランダム変数。これは、同じサイズの別のサンプルでは、サンプル特性の値が異なることを意味します。 したがって、選択的
特徴はただ 見積り人口の関連する特徴。
選択的評価の欠点は次のように補われます。 間隔推定、代表する 数値間隔その中で与えられた確率で Rd推定されたパラメータの真の値が見つかります。
させて U r - 一般母集団のパラメータ (一般平均、一般分散など)。
間隔の推定パラメータ U r は間隔と呼ばれます (U1、U2)、条件を満たす:
P(U < Ur < U2) = Рд. (3.5)
確率 Rd呼ばれた 信頼確率。
信頼確率 Pd - 推定量の真の値が次である確率 内部指定された間隔。
この場合の間隔は、 (U1、U2)呼ばれた 信頼区間推定されるパラメータの場合。
多くの場合、信頼確率の代わりに、関連する値 α = 1 - Р d が使用されます。これは、と呼ばれます。 重要度のレベル。
重要なレベル推定されたパラメータの真の値が次のとおりである確率です。 外信頼区間。
α および P d は、0.05 の代わりに 5%、0.95 の代わりに 95% など、パーセンテージで表される場合があります。
間隔推定では、まず適切な値を選択します。 信頼確率(通常は 0.95 または 0.99)、推定されるパラメーターの適切な値の範囲を見つけます。
間隔推定の一般的な特性をいくつか挙げてみましょう。
1. 重要度が低いほど (重要度が高くなるほど) R d)、間隔の推定値が広くなるほど。 したがって、有意水準が 0.05 の場合、一般平均の区間推定値は 34.7 になります。< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.
2. サンプルサイズが大きいほど ん、選択した有意水準での区間推定値が狭くなります。 たとえば、20 個の要素のサンプルから得られた全体平均 (β = 0.05) のパーセンテージ推定値を 5 とすると、34.7 となります。< M< 39,4.
サンプルサイズを 80 に増やすと、同じ有意水準 (35.5) でより正確な推定値が得られます。< M< 38,6.
一般に、信頼できる信頼度推定値を構築するには、推定されたランダム属性が母集団内に分布する法則の知識が必要です。 間隔推定がどのように構築されるかを見てみましょう 全体平均に従って集団内に分布する特性 普通法。
3.4. 正規分布則の一般平均の区間推定
正規分布法則による母集団の一般平均 M の区間推定値の構築は、次の特性に基づいています。 サンプリング量について n態度
自由度 ν = のスチューデント分布に従います。 n- 1.
ここ バツ- サンプル平均、および s- 選択的標準偏差。
スチューデント分布表またはそれに類似したコンピュータを使用すると、特定の信頼確率で次の不等式が成り立つような境界値を見つけることができます。
この不等式は、M の不等式に対応します。
どこ ε - 信頼区間の半値幅。
したがって、M の信頼区間の構築は次の順序で実行されます。
1. 信頼確率 Р d (通常は 0.95 または 0.99) を選択し、それに対して Student 分布表を使用してパラメータ t を見つけます。
2. 信頼区間 ε の半値幅を計算します。
3. 選択した信頼確率を使用して、一般平均の区間推定値を取得します。
簡単に書くと次のようになります。
間隔の推定値を見つけるためのコンピューター手順が開発されました。
学生分布表の使い方を説明します。 この表には 2 つの「入り口」があります。左の列は自由度 ν = と呼ばれます。 n-1、一番上の行が有意水準αです。 対応する行と列の交点でスチューデント係数を見つけます。 t.
このメソッドをサンプルに適用してみましょう。 学生分布表の一部を以下に示します。
表3.3. 学生分布表の一部
20 人のサンプルの単純な統計シリーズ (n= 20、ν =19) を表に示します。 3.1. このシリーズについては、式 (3.1 ~ 3.3) を使用して計算すると次のようになります。 バツ= 37,05; s= 5,02.
選びましょう α = 0.05 (Р d = 0.95)。 行「19」と列「0.05」の交差点に次のことがわかります。 t= 2,09.
式 (3.6) を使用して推定の精度を計算しましょう: ε = 2.09?5.02/λ /20 = 2.34。
区間推定値を作成しましょう。95% の確率で、未知の一般平均は次の不等式を満たします。
37,05 - 2,34 < M< 37,05 + 2,34, или M= 37.05 ± 2.34 (m/s)、R d = 0.95。
3.5. 統計的仮説を検証する方法
統計的仮説
統計的仮説とは何かを定式化する前に、次の例を検討してください。
特定の病気を治療する 2 つの方法を比較するために、それぞれ 20 人からなる 2 つの患者グループが選択され、これらの方法を使用して治療されました。 患者ごとに記録されました 手続きの数、その後、プラスの効果が得られました。 これらのデータに基づいて、各グループのサンプル平均 (X)、サンプル分散が求められました。 (s2)とサンプル標準偏差 (s)。
結果を表に示します。 3.4.
表3.4
プラスの効果を得るために必要な手順の数は確率変数であり、そのすべての情報は現在、指定されたサンプルに含まれています。
テーブルから 3.4 は、最初のグループの標本平均が 2 番目のグループよりも小さいことを示しています。 これは、同じ関係が一般平均にも当てはまることを意味しますか: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает 仮説の統計的テスト。
統計的仮説- それは母集団の特性に関する仮定です。
性質に関する仮説を検討していきます 二一般の人々。
人口が持っている場合 既知の、同一の推定値の分布と値に関する仮定 何らかのパラメータこの分布の仮説は次のように呼ばれます。 パラメトリック。たとえば、サンプルは次のような母集団から抽出されます。 通常の法律分布と等分散。 調べる必要がある 彼らは同じですかこれらの母集団の一般的な平均。
一般集団の分布の法則について何もわかっていない場合、その特性についての仮説が呼び出されます。 ノンパラメトリック。例えば、 彼らは同じですかサンプルが抽出される母集団の分布の法則。
帰無仮説と対立仮説。
仮説を検証するタスク。 重要なレベル
仮説を検証するときに使用される用語を理解しましょう。
H 0 - 帰無仮説 (懐疑論者の仮説) は仮説です 差異がないことについて比較されたサンプル間。 懐疑論者は、研究結果から得られたサンプル推定値間の差異は偶然によるものであると信じています。
H1- 対立仮説 (楽観的仮説) は、比較されたサンプル間の差異の存在に関する仮説です。 楽観主義者は、サンプル推定値間の差異は客観的な理由によって引き起こされ、一般母集団の差異に対応すると信じています。
統計的仮説のテストは、いくつかの仮説を構築できる場合にのみ実行可能です。 サイズ(基準)、公平性の場合の分配法則 H0有名な。 次に、この数量について指定できます 信頼区間、与えられた確率でその中に Rdその価値は下がります。 この間隔を次のように呼びます。 クリティカルエリア。基準値が臨界領域に該当する場合、仮説は受け入れられます。 N0。それ以外の場合、仮説 H 1 が受け入れられます。
医学研究では、P d = 0.95 または P d = 0.99 が使用されます。 これらの値は対応します 有意水準α = 0.05 または α = 0.01。
統計的仮説を検証する場合重要度のレベル(α) 帰無仮説が真である場合にそれを棄却する確率です。
仮説検証手順の本質的な目的は次のとおりであることに注意してください。 違いの検出そして彼らの不在を確認するものではありません。 基準値が臨界領域を超えたとき、私たちは「懐疑論者」に対して純粋な心でこう言うことができます。まあ、他に何が欲しいの?! 差異がない場合、95% (または 99%) の確率で、計算値は指定された制限内に収まります。 でもだめです!
そうですね、基準の値が臨界領域に該当する場合、仮説 H 0 が正しいと信じる理由はありません。 これはおそらく 2 つの考えられる理由のいずれかを示しています。
1. サンプルサイズが違いを検出できるほど大きくありません。 継続的な実験が成功をもたらす可能性があります。
2. 違いがあります。 しかし、それらは非常に小さいため、実用的な意味はありません。 この場合、実験を続ける意味はありません。
次に、医学研究で使用されるいくつかの統計的仮説を検討してみましょう。
3.6. 分散の等価性、フィッシャーの F 基準に関する仮説の検定
いくつかの臨床研究では、プラスの効果はそれほど多くないことが証明されています 大きさ調査対象のパラメータのうち、どれくらいの量か 安定、その変動を軽減します。 この場合、サンプル調査の結果に基づいて 2 つの一般的な分散を比較することについて疑問が生じます。 この問題は次を使用して解決できます フィッシャーのテスト。
問題の定式化
通常の法律配布物。 サンプルサイズ -
n1そして n2、あ サンプルの分散等しい s 1 と s 2 2 一般的な差異。
検証可能な仮説:
H0- 一般的な差異 同じだ;
H1- 一般的な差異 異なっています。
サンプルが次の母集団から抽出された場合に表示されます。 通常の法律分布、仮説が正しい場合 H0標本分散の比率はフィッシャー分布に従います。 したがって、公平性をチェックする基準としては、 H0値が取られます F、次の式で計算されます。
どこ s 1 と s 2 は標本分散です。
この比率は、分子の自由度 ν 1 = のフィッシャー分布に従います。 n1- 1 および分母の自由度の数 ν 2 = n 2 - 1。臨界領域の境界は、フィッシャー分布表またはコンピューター関数 BRASPOBR を使用して求められます。
表に示されている例の場合。 3.4 では、ν 1 = ν 2 = 20 - 1 = 19 が得られます。 F= 2.16/4.05 = 0.53。 α = 0.05 では、臨界領域の境界はそれぞれ = 0.40、 = 2.53 です。
基準値が臨界領域に該当するため、仮説が受け入れられます H0:一般的なサンプルの分散 同じだ。
3.7. 平均の平等に関する仮説の検証、学生の t 基準
比較タスク 平均実際的な重要性が正確である場合、2 つの一般集団が発生します。 大きさ研究されている特性。 たとえば、2 つの異なる方法による治療期間や、その使用によって生じる合併症の数を比較する場合です。 この場合、Student の t 検定を使用できます。
問題の定式化
一般集団から抽出された 2 つのサンプル (X 1) と (X 2) が得られました。 通常の法律配布と 同じ差異。サンプルサイズ - n 1 および n 2、 サンプルの意味 X 1 および X 2 に等しい、そして サンプルの分散- s 1 2 および s 2 2それぞれ。 比較する必要がある 一般的な平均。
検証可能な仮説:
H0- 一般的な平均 同じだ;
H1- 一般的な平均 異なっています。
仮説が正しい場合には、 H0 t 値は次の式で計算されます。
自由度 ν = ν 1 + + ν2 - 2 でスチューデントの法則に従って分布します。
ここで、ν 1 = n 1 - 1 - 最初のサンプルの自由度の数。 ν 2 = n 2 - 1 - 2 番目のサンプルの自由度の数。
クリティカル領域の境界は、t 分布テーブルまたはコンピューター関数 STUDRIST を使用して検出されます。 スチューデント分布はゼロに関して対称であるため、クリティカル領域の左右の境界の大きさは同じで、符号が逆になります。
表に示されている例の場合。 3.4 では、次のようになります。
ν 1 = ν 2 = 20 - 1 = 19; ν = 38、 t= -2.51。 α = 0.05 = 2.02 の場合。
基準値がクリティカル領域の左境界を超えているため、仮説を受け入れます。 H1:一般的な平均 異なっています。同時に、人口平均は 最初のサンプル少ない。
スチューデントの t 検定の適用性
Student の t 検定は、次のサンプルにのみ適用されます。 普通と集計します 一般的な差異は同じです。条件の少なくとも 1 つが違反されている場合、基準の適用性に疑問があります。 一般集団の正常性の要件は通常無視されます。 中心極限定理。実際、分子のサンプル平均間の差 (3.10) は、ν > 30 については正規分布していると考えることができます。しかし、分散の等価性の問題は検証できず、フィッシャー テストで差が検出されなかったという事実への言及は採用できません。考慮に入れてください。 ただし、t 検定は、十分な証拠はありませんが、母集団平均の差を検出するために広く使用されています。
以下で議論します ノンパラメトリック基準、これは同じ目的で正常に使用され、何も必要としません。 正常、どちらでもない 分散の平等。
3.8. 2 つのサンプルのノンパラメトリック比較: マン・ホイットニー基準
ノンパラメトリック検定は、2 つの母集団の分布法則の違いを検出するように設計されています。 一般的に違いに敏感な基準 平均、基準と呼ばれる シフト一般的に違いに敏感な基準 分散液、基準と呼ばれる 規模。マン・ホイットニー検定は次の基準を指します。 シフト 2 つの母集団の平均の差を検出するために使用されます。サンプルは次のとおりです。 ランキングスケール。測定された特性はこのスケール上に昇順で配置され、整数 1、2... で番号が付けられます。これらの番号は次のように呼ばれます。 ランク。等しい量には同じランクが割り当てられます。 重要なのは属性自体の値ではなく、 いつもの場所それは他の量の中でランク付けされます。
テーブル内 3.5. 表 3.4 の最初のグループは拡張形式 (1 行目) で表示され、ランク付けされ (2 行目)、同じ値のランクが算術平均に置き換えられます。 たとえば、最初の行の要素 4 と 4 にはランク 2 と 3 が与えられ、その後、次のように置き換えられました。 同じ価値観 2,5.
表3.5
問題の定式化
独立したサンプル (×1)そして (×2)未知の分布法則を使用して一般集団から抽出されました。 サンプルサイズ n1そして n2それぞれ。 サンプル要素の値は次のとおりです。 ランキングスケール。これらの一般集団が互いに異なるかどうかを確認する必要がありますか?
検証可能な仮説:
H0- サンプルは同じ一般集団に属します。 H1- サンプルはさまざまな一般集団に属します。
このような仮説をテストするには、(/-Mann-Whitney テストが使用されます。
まず、結合されたサンプル (X) が 2 つのサンプルからコンパイルされ、その要素がランク付けされます。 次に、最初のサンプルの要素に対応するランクの合計が求められます。 この量は仮説を検証するための基準です。
U= 最初のサンプルのランクの合計。 (3.11)
体積が 20 を超える独立したサンプルの場合、値 U従う 正規分布, 期待値その標準偏差は次のとおりです。
したがって、危険領域の境界は正規分布表に従って求められます。
表に示されている例の場合。 3.4 では、ν 1 = ν 2 = 20 - 1 = 19 が得られます。 U= 339、μ = 410、σ = 37。α = 0.05 の場合、左 = 338、右 = 482 となります。
基準の値は臨界領域の左境界を超えているため、仮説 H 1 が受け入れられます。つまり、一般集団は異なる分布法則を持っています。 同時に、人口平均は 最初のサンプル少ない。