研究対象の確率変数が連続的である場合、観測値のランキングやグループ化では識別できないことがよくあります。 キャラクターの特性その値を変化させます。 これを説明すると、 個体値 確率変数相互に必要なだけ異なる場合があるため、観測データ全体が異なる場合があります。 同じ価値観値が発生することはまれであり、変異の頻度は互いにほとんど異なりません。
建てるのも不適切 個別シリーズ離散確率変数の場合、取り得る値の数は多くなります。 このような場合は、ビルドする必要があります 間隔 バリエーションシリーズ 配布物。
このような系列を構築するには、確率変数の観測値の変動区間全体が系列に分割されます。 部分的な間隔 各部分間隔における値の出現頻度をカウントします。
間隔 バリエーションシリーズ それぞれに該当する変数の値の対応する頻度または相対頻度を持つ、確率変数のさまざまな値の間隔の順序付きセットを呼び出します。
間隔シリーズを作成するには、次のものが必要です。
- 定義する サイズ 部分的な間隔。
- 定義する 幅 間隔。
- 間隔ごとに設定します 上 そして 下限 ;
- 観察結果をグループ化します。
1 。 グループ化間隔の数と幅を選択するという問題は、それぞれのケースで解決する必要があります。 特定のケースベースの 目標 研究、 音量 サンプルと 変動の程度 サンプルの特徴です。
おおよその間隔数 k サンプルサイズのみに基づいて推定できる n 次のいずれかの方法で:
- 式によると スタージェス : k = 1 + 3.32 log n ;
- 表1を使用します。
表1
2 。 一般に、同じ幅のスペースが推奨されます。 間隔の幅を決定するには h 計算します:
- 変動範囲R - サンプル値: R = x 最大 - x 最小 ,
どこ エックスマックス そして xmin - 最大および最小のサンプリング オプション。
- 各間隔の幅 h 次の式で決定されます。 h = R/k .
3 . 結論 最初の間隔 x h1 最小サンプル オプションが選択されるようにする xmin はこの間隔のほぼ中央に位置します。 x h1 = x 最小 - 0.5 時間 .
中間間隔部分区間の長さを前の区間の終わりに加算することによって得られます。 h :
x hi = x hi-1 +h.
間隔境界の計算に基づく間隔スケールの構築は、値が得られるまで継続されます。 ×こんにちは は次の関係を満たします。
×こんにちは< x max + 0,5·h .
4 。 間隔スケールに従って、特性値がグループ化されます - 部分間隔ごとに周波数の合計が計算されます 私は に含まれるオプション 私 番目の間隔。 この場合、区間には、区間の下限以上上限未満の確率変数の値が含まれる。
ポリゴンとヒストグラム
明確にするために、さまざまな統計分布グラフが作成されています。
離散変動系列のデータに基づいて、 ポリゴン 周波数または相対周波数。
周波数ポリゴン ×1 ; n1 ), (×2 ; n2 ), ..., (Xのk ; ンク )。 周波数多角形を構築するには、オプションを横軸にプロットします。 x i 、縦軸は対応する周波数です 私は 。 ポイント ( x i ; 私は )を直線で結ぶと周波数多角形が得られます(図1)。
相対周波数の多角形セグメントが点を結ぶ破線と呼ばれます ( ×1 ; W1 ), (×2 ; W2 ), ..., (Xのk ; 週 )。 相対度数の多角形を構築するには、オプションを横軸にプロットします。 x i 、縦軸は対応する相対周波数です。 ウィ 。 ポイント ( x i ; ウィ ) を直線で結び、相対度数の多角形が得られます。
いつ 連続記号 構築することをお勧めします ヒストグラム .
頻度ヒストグラム底辺が長さの部分的な間隔である長方形で構成される階段状の図形と呼ばれます h 、高さは比率に等しい NIH(アメリカ国立衛生研究所 (周波数密度)。
頻度ヒストグラムを作成するには、部分間隔を横軸に配置し、横軸に平行なセグメントを間隔を置いてその上に描画します。 NIH(アメリカ国立衛生研究所 .
変数特性の変化の記述は分布系列を用いて行われます。
統計分布系列- これは、特定の変化する特性に従って、統計的母集団の単位を別々のグループに順序付けて分布するものです。
定性ベースに基づいて構築された統計シリーズはと呼ばれます 限定的な。 分布系列が定量的特性に基づいている場合、その系列は次のようになります。 変分.
次に、変動系列は離散系列と区間系列に分けられます。 中心部で 離散分布の行には、特定の値を取る離散 (不連続) 符号が存在します。 数値(犯罪件数、法的支援を求める国民の数)。 間隔分布系列は、特定の範囲 (有罪判決を受けた人の年齢、懲役期間など) から任意の値を取ることができる連続属性に基づいて構築されます。
統計分布系列には次の 2 つが含まれます。 必須要素– シリーズと周波数のオプション。 オプション (x i) – 分布系列でとる特性の個体値。 周波数 (私は)は、配信シリーズ内で特定のオプションが何回出現するかを示す数値です。 すべての頻度の合計は、母集団の体積と呼ばれます。
相対単位 (分数またはパーセンテージ) で表される周波数は、周波数と呼ばれます ( 私は)。 周波数が単位の小数として表現される場合、周波数の合計は 1 に等しく、パーセンテージとして表現される場合には 100 に等しくなります。 頻度を使用すると、母集団サイズが異なる変動系列を比較することができます。 周波数は次の式で求められます。
離散系列を構築するには、系列内で発生する特性のすべての個別の値がランク付けされ、各値の繰り返し頻度が計算されます。 分布系列は、2 つの行と列で構成され、そのうちの 1 つに系列バリアントの値が含まれるテーブルという考え方で作成されます。 x i、2 番目 – 周波数値 ふー。
離散変分系列を構築する例を考えてみましょう。
例3.1 。 内務省によると、N市では未成年者による犯罪が登録されている。
17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.
離散分布系列を構築します。
解決 .
まず、未成年者の年齢に関するデータをランク付けする必要があります。 それらを昇順に書き留めます。
13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17
表3.1
したがって、頻度は特定の年齢の人の数を反映します (たとえば、5 人は 13 歳、8 人は 14 歳など)。
工事 間隔分布系列は、定量的基準に従って等間隔グループ化と同様に実行されます。つまり、まず母集団を分割する最適なグループ数が決定され、グループごとの間隔の境界が確立され、頻度が計算されます。 。
次の例を使用して、間隔分布系列の構築を説明します。
例3.2 .
建てる 間隔シリーズ次の統計集計によると、事務所の弁護士の給与、千ルーブル:
16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4
解決。
特定の統計母集団に対する等間隔グループの最適な数を 4 とします (選択肢は 16 個あります)。 したがって、各グループのサイズは次のようになります。
各間隔の値は次のようになります。
間隔の境界は次の式で決定されます。
,
ここで、 はそれぞれ i 番目の間隔の下限と上限です。
区間境界の中間計算を省略し、その値(オプション)と各区間内の給与を持つ弁護士の数(頻度)を表 3.2 に入力します。これは、結果として得られる区間シリーズを示しています。
表3.2
統計的分布系列の分析は、グラフィカルな手法を使用して実行できます。 グラフ表示分布系列を使用すると、調査対象の母集団の分布パターンを多角形、ヒストグラム、累積の形式で表現することで明確に示すことができます。 リストされた各グラフを見てみましょう。
ポリゴン– 点と座標を接続する破線 ( x i;私は)。 通常、ポリゴンは離散分布系列を表すために使用されます。 これを構築するには、ランク付けされた属性の個々の値が X 軸にプロットされます。 x i、縦軸 - これらの値に対応する周波数。 その結果、横軸と縦軸に沿ってマークされたデータに対応する点を線分で結ぶと、多角形と呼ばれる折れ線が得られます。 周波数ポリゴンを構築する例を示します。
多角形の構築を説明するために、例 3.1 を解いて離散系列を構築した結果を見てみましょう - 図 1. 受刑者の年齢が横軸に沿ってプロットされ、所定の年齢の少年受刑者の数が横軸に沿ってプロットされています。縦軸。 この多角形を分析すると、次のように言えます。 最大の数有罪判決者 - 14 人は 15 歳です。
図 3.1 – 離散シリーズの周波数範囲。
一連の間隔に対して多角形を作成することもできます。この場合、間隔の中点が横軸に沿ってプロットされ、対応する周波数が縦軸に沿ってプロットされます。
棒グラフ– 長方形で構成される階段状の図形。その底辺は属性値の間隔であり、高さは対応する周波数に等しい。 ヒストグラムは、間隔分布系列を表示するためにのみ使用されます。 間隔が等しくない場合、ヒストグラムを作成する場合、縦軸にプロットされるのは頻度ではなく、対応する間隔の幅に対する頻度の比率です。 ヒストグラムは、棒の中点がセグメントで結ばれている場合、分布多角形に変換できます。
ヒストグラムの構築を説明するために、例 3.2 – 図 3.2 から区間系列を構築した結果を見てみましょう。
図 3.2 – 分布ヒストグラム 賃金弁護士。
変動系列のグラフ表現には、cumulate も使用されます。 累積する– 一連の累積周波数と座標との接続点を表す曲線 ( x i;だめだ)。 累積度数は、分布系列のすべての度数を順番に合計することによって計算され、指定された値以下の特性値を持つ母集団ユニットの数を示します。 例 3.2 (表 3.3) に示されている変分区間系列の累積頻度の計算を説明します。
表3.3
離散分布系列の累積を構築するには、ランク付けされた属性の個別の値が横軸に沿ってプロットされ、それらに対応する累積頻度が縦軸に沿ってプロットされます。 区間系列の累積曲線を作成する場合、最初の点は、最初の区間の下限に等しい横座標と 0 に等しい縦座標を持ちます。後続のすべての点は区間の上限に対応する必要があります。 表 3.3 - 図 3.3 のデータを使用して累積を作成しましょう。
図 3.3 – 弁護士の給与の累積分布曲線。
1. 統計分布系列の概念とその主な要素。
2. 統計分布系列の種類。 それらの簡単な説明。
3. 離散および間隔分布系列。
4. 離散分布系列を構築するための方法論。
5. 間隔分布系列を構築するための方法論。
6. グラフィックイメージディスクリート分布シリーズ。
7. 区間分布系列のグラフ表示。
タスク
問題1。 TGP グループの 25 人の生徒のセッションごとの成績については、次のデータが利用可能です: 5、4、4、4、3、2、5、3、4、4、4、3、2、5、2、5、 5、2、3、3、5、4、2、3、3。セッション中に受け取った成績に応じて、生徒の分布の離散的な変動系列を構築します。 結果の系列について、周波数、累積周波数、累積周波数を計算します。 結論を導き出します。
問題 2。 この植民地には 1,000 人の囚人がおり、年齢別の分布は次の表に示されています。
描く このシリーズグラフィカルに。 結論を導き出します。
問題 3。 囚人の投獄条件に関しては、次のデータが入手可能です。
5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.
懲役期間ごとの囚人の分布の区間系列を作成します。 結論を導き出します。
問題4。 以下のデータは、調査対象期間における地域の受刑者の年齢層別分布に関するものです。
このシリーズをグラフで描き、結論を導き出します。
より高い 職業教育
「ロシア国民経済アカデミーと
大統領の下での公務員
ロシア連邦"
(カルーガ支店)
自然科学および数学学科
テスト
「統計学」という学問では、
学生___メイボロダ・ガリーナ・ユリエヴナ______
国務学部通信部・市政グループ G-12-B
教師 ___________________ Hamer G.V.
教育科学候補者、准教授
カルーガ-2013
タスク1。
タスク1.1。 4
問題1.2。 16
問題1.3。 24
問題1.4。 33
タスク2。
タスク2.1。 43
タスク2.2。 48
問題2.3。 53
問題2.4。 58
タスク3。
タスク3.1。 63
問題3.2。 68
問題3.3。 73
問題3.4。 79
タスク4。
問題4.1。 85
問題4.2。 88
問題4.3。 90
問題4.4。 93
使用したソースのリスト。 96
タスク1。
タスク1.1。
この地域の企業の製品生産高と利益額については、以下のデータが入手可能である (表 1)。
表1
企業の生産高と利益額に関するデータ
企業番号 | 製品生産量、100万ルーブル。 | 利益、100万ルーブル | 企業番号 | 製品生産量、100万ルーブル。 | 利益、100万ルーブル |
63,0 | 6,7 | 56,0 | 7,2 | ||
48,0 | 6,2 | 81,0 | 9,6 | ||
39,0 | 6,5 | 55,0 | 6,3 | ||
28,0 | 3,0 | 76,0 | 9,1 | ||
72,0 | 8,2 | 54,0 | 6,0 | ||
61,0 | 7,6 | 53,0 | 6,4 | ||
47,0 | 5,9 | 68,0 | 8,5 | ||
37,0 | 4,2 | 52,0 | 6,5 | ||
25,0 | 2,8 | 44,0 | 5,0 | ||
60,0 | 7,9 | 51,0 | 6,4 | ||
46,0 | 5,5 | 50,0 | 5,8 | ||
34,0 | 3,8 | 65,0 | 6,7 | ||
21,0 | 2,1 | 49,0 | 6,1 | ||
58,0 | 8,0 | 42,0 | 4,8 | ||
45,0 | 5,7 | 32,0 | 4,6 |
初期データによると:
1. 等間隔の 5 つのグループを形成して、生産額に応じた一連の企業分布の統計を作成します。
分布系列グラフの構築: 多角形、ヒストグラム、累積。 最頻値と中央値の値をグラフィカルに決定します。
2. 企業の分布系列の特性を生産量別に計算します: 算術平均、分散、平均 標準偏差、変動係数。
結論を出します。
3. 分析グループ化の方法を使用して、製造された製品のコストと企業ごとの利益額の間の相関関係の存在と性質を確立します。
4. 経験的な相関比を使用して、生産コストと利益額の間の相関関係の近さを測定します。
一般的な結論を導き出します。
解決:
統計分布系列を構築しましょう
生産量による企業の分布を特徴付ける区間変動系列を構築するには、系列の区間の値と境界を計算する必要があります。
等間隔の系列を作成する場合、間隔のサイズ h次の式で決定されます。
x 最大そして x分– 最大かつ 最小値研究対象の企業集団の特徴。
k- 間隔系列グループの数。
グループ数 kタスク条件で指定します。 k= 5.
x 最大= 8,100万ルーブル、 x分= 2,100万ルーブル。
間隔サイズの計算:
百万ルーブル
間隔の値を順次加算することにより、 h = 1,200 万ルーブルになります。 区間の下限に到達すると、次のグループが得られます。
グループ 1: 2,100 ~ 3,300 万ルーブル。
グループ 2: 3,300 ~ 4,500 万ルーブル。
グループ 3: 4,500 ~ 5,700 万ルーブル。
グループ 4: 5,700 ~ 6,900 万ルーブル。
グループ 5: 6,900 ~ 8,100 万ルーブル。
区間系列を構築するには、各グループに含まれる企業の数を数える必要があります ( 周波数グループ).
生産量によって企業をグループ化するプロセスは、補助表 2 に示されています。この表の列 4 は、分析的なグループ化 (タスクの項目 3) を構築するために必要です。
表2
区間分布系列を構築するための表と
分析グループ
生産量別の企業グループ、百万ルーブル。 | 企業番号 | 製品生産量、100万ルーブル。 | 利益、100万ルーブル |
21-33 | 21,0 | 2,1 | |
25,0 | 2,8 | ||
28,0 | 3,0 | ||
32,0 | 4,6 | ||
合計 | 106,0 | 12,5 | |
33-45 | 34,0 | 3,8 | |
37,0 | 4,2 | ||
39,0 | 6,5 | ||
42,0 | 4,8 | ||
44,0 | 5,0 | ||
合計 | 196,0 | 24,3 | |
45-57 | 45,0 | 5,7 | |
46,0 | 5,5 | ||
47,0 | 5,9 | ||
48,0 | 6,2 | ||
49,0 | 6,1 | ||
50,0 | 5,8 | ||
51,0 | 6,4 | ||
52,0 | 6,5 | ||
53,0 | 6,4 | ||
54,0 | 6,0 | ||
55,0 | 6,3 | ||
56,0 | 7,2 | ||
合計 | 606,0 | 74,0 | |
57-69 | 58,0 | 8,0 | |
60,0 | 7,9 | ||
61,0 | 7,6 | ||
63,0 | 6,7 | ||
65,0 | 6,7 | ||
68,0 | 8,5 | ||
合計 | 375,0 | 45,4 | |
69-81 | 72,0 | 8,2 | |
76,0 | 9,1 | ||
81,0 | 9,6 | ||
合計 | 229,0 | 26,9 | |
合計 | 183,1 |
表 3 のグループ合計行「合計」に基づいて、生産量ごとの企業の分布の区間系列を表す最終的な表 3 が作成されます。
表3
生産量別企業の分布系列
結論。構築されたグループ分けは、生産量による企業の分布が均一ではないことを示しています。 最も一般的なのは、生産量が4,500万から5,700万ルーブルの企業です。 (12社)。 最も一般的ではないのは、生産量が6,900万から8,100万ルーブルの企業です。 (3社)。
分布系列グラフをプロットしてみましょう。
ポリゴン 離散系列を表すためによく使用されます。 直交座標系で多角形を構築するには、引数の値、つまりオプション (区間変動系列の場合、区間の中央が引数として取得されます) と頻度値が x 軸にプロットされます。縦軸にあります。 次に、この座標系で点が構築されます。その座標は、変化系列からの対応する数値のペアです。 結果として得られる点は、直線セグメントによって順番に接続されます。 多角形を図 1 に示します。
棒グラフ - 棒グラフ。 これにより、分布の対称性を評価できます。 ヒストグラムを図 2 に示します。
図 1 – 規模別の企業分布のポリゴン
製品リリース
|
図 2 – 規模別の企業分布のヒストグラム
製品リリース
ファッション– 研究対象の母集団で最も頻繁に発生する属性の値。
区間シリーズの場合、モードはヒストグラムからグラフィカルに決定できます (図 2)。 この場合、最も高い長方形が選択されます。この場合はモーダルです (4,500 ~ 5,700 万ルーブル)。 次に、モーダル長方形の右頂点が前の長方形の右上隅に接続されます。 そして、モーダル四角形の左頂点 - 後続の四角形の左上隅となります。 次に、それらの交点から横軸に垂線を下ろします。 これらの線の交点の横軸が分布モードになります。
百万 こする。
結論。検討された一連の企業の中で最も一般的なのは、製品生産量が 5,200 万ルーブルの企業です。
累積する – 壊れた曲線。 これは、累積された周波数 (表 4 で計算) を使用して構築されます。 累積は最初の間隔の下限 (2,100 万ルーブル) から始まり、累積された周波数は間隔の上限に蓄積されます。 累積を図 3 に示します。
|
図 3 - 規模別の企業の累積分布
製品リリース
メディアン・ミー– これは、ランク付けされたシリーズの中央に位置する属性の値です。 中央値の両側に同じ数の人口単位があります。
区間系列では中央値を決定できます グラフィカルな方法累積曲線に従って。 50% (30:2 = 15) に対応する累積周波数スケール上の点から中央値を決定するには、累積と交差するまで横軸に平行な直線を描きます。 次に、指定された直線と累積値の交点から、横軸に垂線を下ろします。 交点の横軸は中央値です。
百万 こする。
結論。検討中の企業群では、企業の半分の生産量は 5,200 万ルーブル以下で、残りの半分は 5,200 万ルーブル以上です。
関連情報。
それらは配信シリーズの形式で提示され、形式で提示されます。
分布シリーズはグループ化のタイプの 1 つです。
配布範囲— 特定の変化する特性に従って、調査対象の集団をグループに分けた順序付けされた分布を表します。
分布系列の形成の基礎となる特性に応じて、それらは区別されます。 連体詞と変体詞分布行:
- 限定的- は、定性的特性に従って構築された分布系列と呼ばれます。
- 値の昇順または降順で構築された分布系列 定量的特性呼ばれます 変分.
最初の列は、と呼ばれるさまざまな特性の定量的な値を提供します。 オプションと指定されています。 個別のオプション - 整数として表現されます。 間隔オプションの範囲は from と to です。 オプションのタイプに応じて、離散変動系列または間隔変動系列を構築できます。
2 番目の列には次の内容が含まれます 特定のオプションの数、周波数または頻度で表されます。
周波数- これらは、合計で何回発生するかを示す絶対的な数値です。 与えられた値を示す標識。 すべての度数の合計は、母集団全体のユニット数と等しくなければなりません。
周波数() は合計に対する割合で表された頻度です。 パーセンテージとして表されるすべての頻度の合計は、1 の分数で 100% に等しくなければなりません。
分布系列のグラフィック表現
一連の分布はグラフィック画像を使用して視覚的に表示されます。
配布シリーズは次のように表されます。- ポリゴン
- ヒストグラム
- 累積する
- オギブズ
ポリゴン
多角形を構築するとき、変化する特性の値が横軸 (x 軸) にプロットされ、頻度または頻度が縦軸 (y 軸) にプロットされます。
図のポリゴン 6.1 は、1994 年のロシア人口の小国勢調査のデータに基づいています。
6.1. 世帯人数分布状態: データは、料金体系ごとに、ある企業の従業員 25 人の分布について提供されます。
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
タスク: 離散的な変動系列を構築し、それを分布ポリゴンとしてグラフィカルに描画します。
解決:
で この例では options は従業員の料金カテゴリです。 頻度を決定するには、対応する料金カテゴリの従業員数を計算する必要があります。
ポリゴンは離散変化シリーズに使用されます。
分布多角形 (図 1) を構築するには、横軸 (X) 軸に沿って変化する特性 - バリアント - の定量値をプロットし、縦軸に沿って頻度または周波数をプロットします。
特性の値が間隔の形式で表現される場合、そのような系列は間隔と呼ばれます。
インターバルシリーズ分布はヒストグラム、累積または累積の形式でグラフで表示されます。
統計表
状態: 預金規模に関するデータは 20 です。 個人ある銀行では(千ルーブル)60。 25; 12; 10; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; 18; 7; 42.
タスク: 等間隔の間隔変動系列を構築します。
解決:
- 初期集団は 20 ユニット (N = 20) で構成されます。
- スタージェスの公式を使用して、次のように決定します。 必要量使用されたグループ: n=1+3,322*lg20=5
- 等間隔の値を計算してみましょう: i=(152 - 2) /5 = 30,000 ルーブル
- 初期人口を3万ルーブルの間隔で5つのグループに分けてみましょう。
- グループ化の結果を表に示します。
このような連続特性の記録では、同じ値が 2 回(ある区間の上限と別の区間の下限として)出現する場合、その値はその値が上限となるグループに属します。
棒グラフ
ヒストグラムを作成するには、間隔の境界値が横軸に沿って示され、それらに基づいて長方形が作成されます。その高さは頻度(または頻度)に比例します。
図では、 6.2. は、1997 年のロシア人口の年齢層別分布のヒストグラムを示しています。
米。 6.2. ロシアの人口の年齢層別分布状態: 会社の従業員 30 人の月給による分布が与えられます。
タスク: 区間変動系列をヒストグラム形式でグラフィカルに表示し、累積します。
解決:
- 開いた (最初の) 間隔の未知の境界は、2 番目の間隔の値によって決まります: 7000 - 5000 = 2000 ルーブル。 同じ値で、最初の間隔の下限がわかります: 5000 - 2000 = 3000 ルーブル。
- 直交座標系でヒストグラムを作成するには、静脈瘤シリーズの間隔に対応する値を持つセグメントを横軸に沿ってプロットします。
これらのセグメントは下底として機能し、対応する周波数(周波数)は形成される長方形の高さとして機能します。 - ヒストグラムを作成しましょう。
累積値を構築するには、累積された周波数 (周波数) を計算する必要があります。 それらは、前の間隔の度数 (頻度) を順番に合計することによって決定され、S と指定されます。累積された度数は、検討中の特徴値以下の特徴値を持つ母集団の数を示します。
累積する
累積周波数 (周波数) にわたる変動系列の特性の分布は、累積を使用して表されます。
累積するまたは、累積曲線は、多角形とは異なり、累積された頻度または頻度から構築されます。 この場合、特性の値が横軸に配置され、累積周波数または周波数が縦軸に配置されます(図6.3)。
米。 6.3. 世帯人数分布の累計4. 累積周波数を計算してみましょう。
最初の間隔の累積頻度は次のように計算されます: 0 + 4 = 4、2 番目の間隔の場合: 4 + 12 = 16。 3 番目の場合: 4 + 12 + 8 = 24 など。
累積を作成する場合、対応する間隔の累積頻度 (周波数) がその上限に割り当てられます。
オギバ
オギバは、累積値と同様に構築されますが、唯一の違いは、累積周波数が横軸に配置され、特性値が縦軸に配置されることです。
累積のタイプは、濃度曲線またはローレンツ プロットです。 濃度曲線を両軸にプロットするには 長方形システム座標では、スケール スケールが 0 から 100 までのパーセンテージとしてプロットされます。この場合、累積周波数が横軸に示され、特性の体積別のシェア (パーセント) の累積値が横軸に示されます。縦軸。
特性の一様分布は、グラフ上の正方形の対角線に相当します(図6.4)。 偏在している場合、形質の集中度に応じてグラフは凹型の曲線を描きます。
6.4. 濃度曲線収集された統計データをグループ化した結果は、通常、分布系列の形式で表示されます。 分布系列は、調査対象の特性に従って集団単位をグループに順序付けして分布したものです。
分布系列は、グループ化の基礎となる特性に応じて、属性系列と変動系列に分類されます。 属性が定性的な場合、分布系列は属性と呼ばれます。 属性シリーズの例としては、所有権の種類別の企業および組織の分布があります (表 3.1 を参照)。
分布系列を構成する特性が定量的である場合、その系列は変分と呼ばれます。
分布の変分系列は常に、変量と対応する頻度 (または複数の頻度) の 2 つの部分で構成されます。 バリアントは、特性が母集団単位で取り得る値であり、頻度は、特性の特定の値を持つ観測単位の数です。 頻度の合計は常に母集団の体積と等しくなります。 場合によっては、頻度の代わりに頻度が計算されます。これらは、単位の分数として表される頻度 (すべての頻度の合計は 1 になります)、または母集団の体積のパーセンテージとして表されます (頻度の合計は次のようになります)。 100%に等しくなります)。
変動系列は離散型と区間型です。 離散系列 (表 3.7) の場合、オプションは特定の数値 (ほとんどの場合は整数) で表されます。
会社で働くのに費やした時間 丸年(オプション) | 就業者数 | |
---|---|---|
男(周波数) | 全体の % (頻度) | |
1年まで | 15 | 11,6 |
1 | 17 | 13,2 |
2 | 19 | 14,7 |
3 | 26 | 20,2 |
4 | 10 | 7,8 |
5 | 18 | 13,9 |
6 | 24 | 18,6 |
合計 | 129 | 100,0 |
間隔シリーズ (表 3.2 を参照) では、指標値は間隔の形式で指定されます。 間隔には、下限と上限の 2 つの境界があります。 間隔は開くことも閉じることもできます。 開いたものには境界が 1 つもありません。そのため、表に示します。 3.2 最初の間隔には下限がなく、最後の間隔には上限がありません。 間隔系列を構築するときは、属性値の分散の性質に応じて、等間隔と不等間隔の両方が使用されます (表 3.2 は、等間隔の変動系列を示しています)。
特性が限られた数の値 (通常は 10 個以下) を取る場合、離散分布系列が構築されます。 オプションが大きい場合、離散系列は明瞭さを失います。 この場合、変動系列の間隔形式を使用することをお勧めします。 特性が連続的に変化する場合、一定の範囲内でその値が任意の小さな量だけ互いに異なる場合、間隔分布系列も構築されます。
3.3.1. 離散変化系列の構築
例を使用して離散変動系列を構築する方法論を考えてみましょう。
例3.2。 60 家族の定量的構成に関する次のデータが入手可能です。
メンバーの数による家族の分布を把握するには、バリエーション系列を構築する必要があります。 符号は限られた数の整数値をとるため、離散変化系列を構築します。 これを行うには、まず属性のすべての値 (家族のメンバーの数) を昇順で書き留めることをお勧めします (つまり、統計データをランク付けします)。
次に、同じ構成を持つ家族の数を数える必要があります。 ファミリーメンバーの数 (変化する特性の値) はバリアント (x で表します)、同じ構成を持つファミリーの数は頻度 (f で表します) です。 グループ化の結果を次の離散変分分布系列の形式で示します。
家族の人数 (x) | 家族の数 (y) |
---|---|
1 | 8 |
2 | 14 |
3 | 20 |
4 | 9 |
5 | 5 |
6 | 4 |
合計 | 60 |
3.3.2. 区間変動系列の構築
次の例を使用して、間隔変動分布系列を構築する方法を示します。
例3.3。 統計的に観察した結果、以下のようなデータが得られました。 平均 50の商業銀行の金利 (%):
14,7 | 19,0 | 24,5 | 20,8 | 12,3 | 24,6 | 17,0 | 14,2 | 19,7 | 18,8 |
18,1 | 20,5 | 21,0 | 20,7 | 20,4 | 14,7 | 25,1 | 22,7 | 19,0 | 19,6 |
19,0 | 18,9 | 17,4 | 20,0 | 13,8 | 25,6 | 13,0 | 19,0 | 18,7 | 21,1 |
13,3 | 20,7 | 15,2 | 19,9 | 21,9 | 16,0 | 16,9 | 15,3 | 21,4 | 20,4 |
12,8 | 20,8 | 14,3 | 18,0 | 15,1 | 23,8 | 18,5 | 14,4 | 14,4 | 21,0 |
ご覧のとおり、このような一連のデータを表示することは非常に不便であり、さらに、インジケーターの変化のパターンは表示されません。 区間分布系列を構築しましょう。
- 間隔の数を決定しましょう。
実際の間隔の数は、多くの場合、それぞれの特定の観察の目的に基づいて研究者自身によって設定されます。 同時に、スタージェスの公式を使用して数学的に計算することもできます。
n = 1 + 3.322lgN、
ここで、n は間隔の数です。
N は母集団の体積 (観測単位の数) です。
この例では、n = 1 + 3.322lgN = 1 + 3.322lg50 = 6.6 "7 が得られます。
- 次の式を使用して間隔 (i) のサイズを決定しましょう。
ここで、x max は属性の最大値です。
x min - 属性の最小値。
私たちの例では
変動系列の境界に「丸め」の値があると、その間隔が明確になるため、間隔の値 1.9 を 2 に丸め、特性の最小値 12.3 を 12.0 に丸めましょう。
- 間隔の境界を決定しましょう。
原則として、間隔は、ある間隔の上限が次の間隔の下限にもなるように記述されます。 したがって、この例では次のようになります: 12.0-14.0; 14.0-16.0; 16.0-18.0; 18.0-20.0; 20.0-22.0; 22.0-24.0; 24.0〜26.0。
このようなエントリは、属性が連続していることを意味します。 特性のバリアントが厳密に定義された値、たとえば整数のみを取るが、その数が大きすぎて離散系列を作成できない場合は、区間の下限が上限と一致しない区間系列を作成できます。次の区間の境界 (これは特性が離散的であることを意味します)。 たとえば、企業従業員の年齢別分布では、18 ~ 25 歳、26 ~ 33 歳、34 ~ 41 歳、42 ~ 49 歳、50 ~ 57 歳、58 ~ 65 歳、66 歳などの年齢間隔グループを作成できます。
さらに、この例では、最初と最後の間隔を空けることもできます。 書き込み: 14.0 まで。 24.0以上。
- 初期データに基づいて、ランク付けされたシリーズを構築します。 これを行うには、記号が取る値を昇順で書き留めます。 結果を表に示します。
表3.13 商業銀行金利のランキングシリーズ
銀行金利 % (オプション) 12,3 17,0 19,9 23,8 12,8 17,4 20,0 24,5 13,0 18,0 20,0 24,6 13,3 18,1 20,4 25,1 13,8 18,5 20,4 25,6 14,2 18,7 20,5 14,3 18,8 20,7 14,4 18,9 20,7 14,7 19,0 20,8 14,7 19,0 21,0 15,1 19,0 21,0 15,2 19,0 21,1 15,3 19,0 21,4 16,0 19,6 21,9 16,9 19,7 22,7 - 周波数を数えてみましょう。
頻度をカウントするとき、特徴の値がある区間の境界に位置する状況が発生することがあります。 この場合、ルールに従ってください。指定された単位は、その値が上限となる間隔に割り当てられます。 したがって、この例の値 16.0 は 2 番目の間隔を指します。
この例で得られたグループ化の結果を表に示します。
ショートレート、% | バンク数、ユニット数 (周波数) | 累積周波数 |
---|---|---|
12,0-14,0 | 5 | 5 |
14,0-16,0 | 9 | 14 |
16,0-18,0 | 4 | 18 |
18,0-20,0 | 15 | 33 |
20,0-22,0 | 11 | 44 |
22,0-24,0 | 2 | 46 |
24,0-26,0 | 4 | 50 |
合計 | 50 | - |
表の最後の列には累積度数が表示されます。これは、最初から始まる度数を順番に合計することによって取得されます (たとえば、最初の間隔の場合は - 5、2 番目の間隔の場合は 5 + 9 = 14、3 番目の間隔の場合は 5 + 9 + 4 = 18 など。)。 たとえば、累積頻度 33 は、33 の銀行の融資率が 20% (対応する間隔の上限) を超えないことを示します。
変動系列を構築する際にデータをグループ化する過程で、不等間隔が使用されることがあります。 これは、特性値が算術または 等比数列または、スタージェスの公式を適用すると、単一の観測単位を含まない「空の」間隔グループが出現する場合です。 次に、間隔の境界は、以下に基づいて研究者自身が任意に設定します。 常識調査の目的や数式の使用。 したがって、データ変更については、 等差数列、間隔のサイズは次のように計算されます。