住宅の建物 統計の概要とグループ化。 統計分布系列

統計の概要とグループ化。 統計分布系列

グループ化- これは、ある特性に従って集団を同質なグループに分割することです。

サービスの目的。 オンライン計算ツールを使用すると、次のことができます。

  • バリエーションシリーズを構築する、ヒストグラムとポリゴンを作成します。
  • 変動の指標を見つける(平均、最頻値(グラフを含む)、中央値、変動範囲、四分位数、十分位数、四分位微分係数、変動係数およびその他の指標)。

説明書。 シリーズをグループ化するには、受信したシリーズのタイプを選択する必要があります バリエーションシリーズ(離散または間隔)データの量(行数)を示します。 結果のソリューションは Word ファイルに保存されます (統計データのグループ化の例を参照)。

入力データ数
",0);">

グループ化がすでに実行されており、 離散変分系列または 間隔シリーズ、その場合は、オンライン計算機変動指数を使用する必要があります。 分布の種類に関する仮説の検証サービスを利用して実施します 配布形態を検討中です。

統計的グループ分けの種類

バリエーションシリーズ。 離散観測の場合 確率変数同じ意味が何度も出てきます。 確率変数のそのような値 x i は、n 個の観測で出現する回数 n i を示して記録されます。これは、この値の頻度です。
連続確率変数の場合、実際にはグループ化が使用されます。
  1. 類型的なグループ化- これは、研究対象となっている質的に異質な集団をクラス、社会経済的タイプ、同質な単位グループに分割することです。 このグループ化を構築するには、[離散変動系列] パラメーターを使用します。
  2. グループ化は構造的と呼ばれますここでは、均質な集団が、何らかのさまざまな特性に従ってその構造を特徴付けるグループに分割されます。 このグループ化を構築するには、[間隔シリーズ] パラメーターを使用します。
  3. 研究対象の現象とその特徴の間の関係を明らかにするグループ化は、と呼ばれます。 分析グループ(系列の分析グループ化を参照)。

統計的グループを構築するための原則

昇順に並べられた一連の観測は と呼ばれます。 バリエーションシリーズ . グループ化機能集団を別々のグループに分ける特徴です。 それをグループの基礎といいます。 グループ化は、量的特性と定性的特性の両方に基づいて行うことができます。
グループ分けの基礎を決定した後、研究対象の母集団を何グループに分割するかという問題を決定する必要があります。

パソコンを使用して統計データを処理する場合、標準的な手順に従って対象単位のグループ化が行われます。
そのような手順の 1 つは、最適なグループ数を決定するためのスタージェスの公式の使用に基づいています。

k = 1+3.322*log(N)

ここで、k はグループの数、N は人口単位の数です。

部分間隔の長さは、h=(x max -x min)/k として計算されます。

次に、これらの間隔に該当する観測値の数がカウントされ、頻度 n i として取得されます。 周波数がほとんどなく、その値が 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
間隔 x i =(ci-1 +ci)/2 の中央の値が新しい値として取得されます。

統計によって研究される特性は、同じ期間または時点の集団の異なる単位間で異なります(互いに異なります)。 たとえば、外国貿易の売上高は連邦関税局の部門によって異なります。 輸出(輸入)額は、輸出方向(外国貿易の相手国ごと)、商品の種類などによって異なります。

理由 バリエーションさまざまな条件全体性の異なる単位の存在。 たとえば、対外貿易の規模に影響を与える理由は数多くあります。 いろいろな国平和。

統計は変動を管理し、研究するために開発されてきました。 特別な方法変動の研究、変動を測定するための指標システム、その特性が特徴付けられます。

変動の統計的研究の最初の段階は、 配信シリーズ(または バリエーションシリーズ) – 特性の値の増加 (より頻繁に) または減少 (より少ない頻度で) と、特性の特定の値を持つユニットの数のカウントに基づく人口ユニットの順序付けされた分布。

3つあります タイプ配布行:

1) ランク付けされたシリーズ– これは、調査対象の特性の昇順で並べた集団の個々の単位のリストです (たとえば、表 11)。 人口単位の数が十分に大きい場合、ランク付けされた系列は煩雑になります。そのような場合、調査対象の特性の値に従って人口単位をグループ化することによって分布系列が構築されます (特性が少数の値を取る場合)の場合は離散系列が構築され、それ以外の場合は区間系列が構築されます。

2) 個別シリーズ- これは 2 つの列 (行) で構成されるテーブルです - さまざまな特性の特定の値 および特定の特性値を持つ人口単位の数 フィ– 周波数; 離散系列内のグループの数は、変化する特性の実際に存在する値の数によって決まります。

3) 間隔シリーズ- これは 2 つの列 (行) で構成されるテーブルです - さまざまな特性の間隔 および、特定の間隔 (頻度) に該当する母集団の数、または母集団の総数 (頻度) におけるこの数の割合。

ロシアの税関における対外貿易売上高(FO)の一連の分布を構築してみましょう。これについては、統計観察を行う必要があります。つまり、税関におけるVOの価値を表す一次統計資料を収集する必要があります。

報告期間中の地域内の 35 の税関における VO の観察結果を、VO 値の増加順にランク付けした分布系列の形で提示します (表 11)。

表 11. 35 税関の外国貿易売上高 (FO)、100 万ドル。

郵便番号

郵便番号

郵便番号

次のようにして、式 (10) を使用して VO の平均サイズを決定しましょう。 バツ VO の値、および N– 投稿数:

= = 2100/35 = 60 (百万ドル)

式 (28) を使用して分散を決定します (これについては、少し後、このトピックの分散分析の第 4 段階で説明します)。

= = 445.778 (百万ドル 2)

税関ごとに VO の分布の間隔シリーズを構築しましょう。これには、最適なグループ数 (属性間隔) を選択し、間隔の長さ (範囲) を設定する必要があります。 分布系列を分析する場合、異なる区間の頻度を比較するため、区間の長さが一定である必要があります。 グループの最適な数は、集合体における属性値の多様性が十分に反映され、同時にランダムな周波数変動によって分布パターンが歪められないように選択されます。 グループが少なすぎると、変動パターンが表示されません。 グループが多すぎると、ランダムな周波数ジャンプにより分布の形状が歪んでしまいます。

ほとんどの場合、分布系列内のグループの数は、スタージェスの式 (19) または (20) を使用して決定されます。

(19) または ,(20)

どこ k– グループの数 (最も近い整数に四捨五入)。 N- 人口規模。

スタージェスの公式から、グループの数がデータ量の関数であることは明らかです ( N).

グループの数がわかったら、式 (21) を使用して間隔の長さ (スパン) を計算します。

,(21)

どこ バツマックスと バツ min - 合計の最大値と最小値。

VO に関する例では、スタージェスの公式 (19) を使用して、グループの数を決定します。

k = 1 + 3,322LG 35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

式 (21) を使用して間隔の長さ (スパン) を計算してみましょう。

h= (111.16 – 24.16)/6 = 87/6 = 14.5 (百万ドル)。

次に、1,450 万ドルの間隔を持つ 6 つのグループからなる間隔シリーズを構築してみましょう。 (表 12 の最初の 3 列を参照)。

表 12. 税関ごとの VO 分布の間隔シリーズ、100 万ドル。

VO サイズごとの投稿のグループ

投稿数

インターバルの真ん中

バツ私' フィ

累積 頻度

| 習- |フィ

(バツ- )2 フィ

(バツ- )3 フィ

(バツ- )4 フィ

96,66 – 111,16

グラフ表示は、分布系列とそのプロパティを分析する際に非常に役立ちます。 間隔系列は棒グラフで表されます。横軸に沿って配置された棒の底は、変化する特性の値の間隔であり、棒の高さは縦軸に沿ったスケールに対応する周波数です。軸。 VO の値に応じたサンプル内の税関の分布のグラフ表示を図に示します。 4. このタイプの図は次のように呼ばれます。 ヒストグラム .

米。 4. 分布ヒストグラム 図 5. 分布ポリゴン

テーブルデータ 12と図。 図4は、多くの特性の分布形状特性​​を示しています。特性の平均間隔の値はより一般的であり、特性の極端な(小さいおよび大きい)値はあまり一般的ではありません。 この分布の形状は正規分布則に似ています。正規分布則は、変動する変数が多数の要因の影響を受け、どの要因も支配的な意味を持たない場合に形成されます。

離散分布系列がある場合、または間隔の中点が使用される場合(VO に関する例のように、表 12 の 4 番目の列では、間隔の中点は最初の値の半分の合計として計算されます)および間隔の終わり)、そのような系列のグラフィック表現は次のように呼ばれます。 ポリゴン(図5参照)、座標の点を直線で結んだもの そして フィ.

実践レッスン1

バリエーションシリーズの流通

バリエーションシリーズまたは 分布に近い特性の値を増加 (より頻繁に) または減少 (より頻繁に) し、特性の特定の値を持つユニットの数を数えることに従って、母集団のユニットの順序付けされた分布を呼び出します。

3つあります タイプ配布行:

1) ランク付けされたシリーズ– これは、調査対象の特性の昇順で並べた母集団の個々の単位のリストです。 母集団単位の数が十分に大きい場合、ランク付けされた系列は煩雑になります。そのような場合、分布系列は、調査対象の特性の値に従って母集団単位をグループ化することによって構築されます (特性が少数の値を取る場合)。値の場合は離散系列が構築され、それ以外の場合は区間系列が構築されます。

2) 個別シリーズ- これは 2 つの列 (行) で構成されるテーブルです - さまざまな特性の特定の値 バツ および特定の特性値を持つ人口単位の数 f – 周波数; 離散系列内のグループの数は、変化する特性の実際に存在する値の数によって決まります。

3) 間隔シリーズ- これは 2 つの列 (行) で構成されるテーブルです - さまざまな特性の間隔 バツ および、特定の間隔 (頻度) に該当する母集団の数、または母集団の総数 (頻度) におけるこの数の割合。

特定の母集団内で個々のオプションが何回呼び出されるかを示す数値 周波数または 天秤オプションで指定されています 小文字ラテン文字 f. 変動系列の頻度の合計は、指定された母集団の体積に等しくなります。

どこ k– グループの数、 n総数観察結果、または人口規模。

頻度 (重み) は、絶対数だけでなく、単位の分数や、特定の母集団を構成する変異の総数のパーセンテージなどの相対数でも表現されます。 このような場合、重みは次のように呼ばれます。 相対周波数または 周波数。各部分の合計は 1 に等しい

または
,

頻度が観測値の合計数のパーセンテージとして表される場合 P.周波数を周波数に置き換える必要はありませんが、音量が大きく異なるバリエーション シリーズを相互に比較する必要がある場合には、これが便利であり、必要になる場合もあります。

属性がどのように変化するか (離散的か連続的か、広い範囲か狭い範囲か) に応じて、統計上の母集団は次のように分布します。 非インターバルまたは 間隔バリエーションシリーズ。 最初のケースでは、頻度は特性のランク付けされた値に直接関連しており、変動系列の個々のグループまたはクラスの位置を取得します。2 番目のケースでは、個々の間隔または間隔に関連する頻度をカウントします(〜から)から)。特性の変動全体が、特定の母集団の最小オプションから最大オプションまでの範囲に分割されます。 これらのギャップ、つまりクラスの間隔は、幅が等しい場合とそうでない場合があります。 したがって、彼らは区別します 等間隔および不等間隔変動シリーズ。不等間隔系列では、クラス間隔の幅が変化するにつれて度数分布の性質が変化します。 不等間隔グループ化が生物学で使用されることは比較的まれです。 原則として、生体認証データは等間隔の行に分散されるため、変動パターンを特定できるだけでなく、集計の計算も容易になります。 数値特性バリエーションシリーズ、分布シリーズ相互の比較。

等間隔変動系列の構築を開始するときは、クラス間隔の幅を正しく概説することが重要です。 実際のところ、大まかなグループ化 (非常に広いクラス間隔が設定されている場合) は、変動の典型的な特徴を歪め、系列の数値特性の精度の低下につながります。 過度に狭い間隔を選択すると、数値特性を一般化する精度は向上しますが、系列が引き伸ばされすぎて、変動を明確に把握できなくなります。

はっきりと見えるバリエーションシリーズを取得するには、 そこから計算される数値特性の十分な精度を確保するには、特性の変動 (最小値から最大値までの範囲) を、両方の要件を満たすような数のグループまたはクラスに分割する必要があります。 この問題は、特性の変動範囲を、変動シリーズを構築するときに概説されたグループまたはクラスの数で割ることによって解決されます。

,

どこ h– 間隔サイズ。 バツマックスと バツ min – 合計の最大値と最小値。 k– グループの数。

建てるとき 間隔シリーズ分布を設定するには、最適なグループ数 (属性間隔) を選択し、間隔の長さ (範囲) を設定する必要があります。 分布系列の分析では異なる間隔の頻度を比較するため、間隔の長さが一定である必要があります。 不等間隔の一連の分布を扱う必要がある場合、比較しやすくするために、頻度または頻度を間隔の単位に減らす必要があり、結果の値は次のように呼ばれます。 密度 ρ 、 あれは
.

グループの最適な数は、集合体における属性値の多様性が十分に反映され、同時にランダムな周波数変動によって分布パターンが歪められないように選択されます。 グループが少なすぎると、変動パターンが表示されません。 グループが多すぎると、ランダムな周波数ジャンプにより分布の形状が歪んでしまいます。

ほとんどの場合、分布系列内のグループの数は、次のスタージェスの公式を使用して決定されます。

どこ n- 人口規模。

グラフ表示は、分布系列とそのプロパティを分析する際に重要な助けとなります。 間隔系列は棒グラフで表されます。横軸に沿って配置された棒の底は、変化する特性の値の間隔であり、棒の高さは縦軸に沿ったスケールに対応する周波数です。軸。 このタイプの図はと呼ばれます ヒストグラム。

離散分布系列がある場合、または間隔の中点が使用される場合、そのような系列のグラフ表現は次のように呼ばれます。 ポリゴン、直線と点を座標で結ぶことによって得られます。 バツ そして f .

横軸にクラスの値、縦軸に累積頻度をプロットし、点間を直線で結ぶと、次のようなグラフになります。 累積。累積された周波数は逐次合計によって求められます。または 累積最初のクラスからバリエーション系列の最後までの方向の周波数。

. 養鶏場で飼育されている 50 羽の採卵鶏の 1 年間の卵生産量に関するデータがあります (表 1.1)。

表1.1

採卵鶏の産卵

産卵鶏No.

産卵数、個数

産卵鶏No.

産卵数、個数

産卵鶏No.

産卵数、個数

産卵鶏No.

産卵数、個数

産卵鶏No.

産卵数、個数

間隔分布系列を構築し、それをヒストグラム、多角形、累積の形式でグラフィック表示する必要があります。

1 年間に 1 羽の産卵鶏から得られる卵の数が 212 個から 245 個まで、形質が異なることがわかります。

この例では、スタージェスの公式を使用して、グループの数を決定します。

k = 1 + 3,322LG 50 = 6,643 ≈ 7.

次の式を使用して間隔の長さ (スパン) を計算してみましょう。

.

7 つのグループと 5 個の間隔を持つ間隔シリーズを構築してみましょう。 卵(表 1.2)。 表にグラフを作成するには、間隔の中央と累積頻度を計算します。

表1.2

卵生産分布の間隔系列

卵生産による採卵鶏のグループ

バツ

産卵鶏の数

f

インターバルの真ん中

バツ私'

累積頻度

f

卵生産量の分布のヒストグラムを作成してみましょう (図 1.1)。

米。 1.1. 産卵分布のヒストグラム

これらのヒストグラムは、多くの特性の分布形状の特徴を示します。特性の平均間隔の値はより一般的であり、特性の極端な (小さい値と大きい) 値はあまり一般的ではありません。 この分布の形状は正規分布則に似ています。正規分布則は、変動する変数が多数の要因の影響を受け、そのどれもが支配的な重要性を持たない場合に形成されます。

産卵量の多角形と累積分布は次のようになります (図 1.2 および 1.3)。

米。 1.2. 鶏卵生産流通エリア

米。 1.3. 鶏卵生産量分布の累計

課題を解決する技術 テーブルプロセッサ マイクロソフト エクセル 次。

1. 図に従って初期データを入力します。 1.4.

2. シリーズをランク付けします。

2.1. セル A2:A51 を選択します。

2.2. ツールバーのボタンを左クリックします<Сортировка по возрастанию > .

3. 区間分布系列を構築するための区間のサイズを決定します。

3.1. セル A2 をセル E53 にコピーします。

3.2. セル A51 をセル E54 にコピーします。

3.3. 変動範囲を計算します。 これを行うには、セル E55 に数式を入力します。 =E54-E53.

3.4. バリエーショングループの数を計算します。 これを行うには、セル E56 に数式を入力します。 =1+3.322*LOG10(50).

3.5. セル E57 にグループの丸められた数を入力します。

3.6. 間隔の長さを計算します。 これを行うには、セル E58 に数式を入力します。 =E55/E57.

3.7. セル E59 に丸められた間隔の長さを入力します。

4. 区間系列を構築します。

4.1. セル E53 をセル B64 にコピーします。

4.2. セルB65に数式を入力します =B64+$E$59.

4.3. セル B65 をセル B66:B70 にコピーします。

4.4. セルC64に数式を入力します =B65.

4.5. セルC65に数式を入力します =C64+$E$59.

4.6. セル C65 をセル C66:C70 にコピーします。

解決結果は表示画面に次のような形で表示されます(図1.5)。

5. 間隔周波数を計算します。

5.1. コマンドを実行します サービス,データ分析、マウスの左ボタンを交互にクリックします。

5.2. ダイアログボックスで データ分析マウスの左ボタンを使用して以下をインストールします: 分析ツール <Гистограмма>(図1.6)。

5.3. ボタンを左クリックします<ОК>.

5.4. タブ上 棒グラフ図に従ってパラメータを設定します。 1.7.

5.5. ボタンを左クリックします<ОК>.

解析結果は表示画面に次のような形で表示されます(図1.8)。

6. 「間隔分布シリーズ」の表に記入します。

6.1. セル B74:B80 をセル D64:D70 にコピーします。

6.2. 周波数の合計を計算します。 これを行うには、セル D64:D70 を選択し、ツールバーのボタンを左クリックします。<Автосумма > .

6.3. 間隔の中点を計算します。 これを行うには、セル E64 に数式を入力します。 =(B64+C64)/2そしてセル E65:E70 にコピーします。

6.4. 累積周波数を計算します。 これを行うには、セル D64 をセル F64 にコピーします。 セル F65 に数式 =F64+D65 を入力し、それをセル F66:F70 にコピーします。

解析結果は表示画面に次のような形で表示されます(図1.9)。

7. ヒストグラムを編集します。

7.1. 「pocket」という名前の図を右クリックし、表示されるタブで ボタンをクリックします。<Очистить>.

7.2. チャートを右クリックし、表示されるタブで、<Исходные данные>.

7.3. ダイアログボックスで 初期データ X 軸のラベルを変更するには、セル B64:C70 を選択します (図 1.10)。

7.5。 キーを押してください .

結果は次の形式で表示画面に表示されます(図 1.11)。

8. 産卵量の分布を示すポリゴンを作成します。

8.1. ツールバーのボタンを左クリックします<Мастер диаграмм > .

8.2. ダイアログボックスで チャートウィザード (ステップ 1/4)マウスの左ボタンを使用して設定: 標準 <График>(図1.12)。

8.3. ボタンを左クリックします<Далее>.

8.4. ダイアログボックスで チャートウィザード (ステップ 2/4)図に従ってパラメータを設定します。 1.13。

8.5。 ボタンを左クリックします<Далее>.

8.6. ダイアログボックスで チャートウィザード (ステップ 3/4)図と Y 軸の名前を入力します (図 1.14)。

8.7. ボタンを左クリックします<Далее>.

8.8。 ダイアログボックスで チャートウィザード (ステップ 4/4)図に従ってパラメータを設定します。 1.15。

8.9. ボタンを左クリックします<Готово>.

結果は表示画面に次の形式で表示されます(図 1.16)。

9. データラベルをグラフに挿入します。

9.1. チャートを右クリックし、表示されるタブで、<Исходные данные>.

9.2. ダイアログボックスで 初期データ X 軸のラベルを変更するには、セル E64:E70 を選択します (図 1.17)。

9.3. キーを押してください .

結果は表示画面に次の形式で表示されます(図 1.18)。

分布累積は、累積度数に基づいて分布多角形と同様に構築されます。

2. 流通シリーズのコンセプト。 離散分布系列と間隔分布系列

分布行グループと呼ばれます 特殊なタイプ、特性、特性のグループ、または特性のクラスごとに、グループ内のユニットの数がわかっている、または 比重合計でこの数。 それらの。 配信シリーズ– 対応する重みを使用して昇順または降順に配置された、順序付けられた属性値のセット。 分布系列は、定量的特性または属性特性によって構築できます。

に従って構築された配布シリーズ 定量的特性、バリエーションシリーズと呼ばれます。 彼らです 離散と区間。 分布系列は、連続的に変化する特性 (特性が任意の間隔内で任意の値を取ることができる場合) と離散的に変化する特性 (厳密に定義された整数値を取る場合) に基づいて構築できます。

離散分布の変動系列は、対応する頻度または詳細を備えた、ランク付けされたオプションのセットです。 離散系列のバリアントは、通常はカウントの結果である特性の値を離散的に連続的に変化させます。

離散

変動系列は通常、研究対象の特性の値が一定の有限量以上互いに異なる可能性がある場合に構築されます。 離散系列では、特性のポイント値が指定されます。 : 分布 メンズスーツサイズごとに月ごとに店舗で販売されます。

間隔

変動系列は、対応する頻度またはそれぞれに該当する変数の値の頻度を使用して、確率変数の値を変化させる順序付けされた間隔のセットです。 間隔シリーズは、連続的に変化する特性の分布を分析するように設計されており、その値は測定または計量によって記録されることがほとんどです。 このようなシリーズのバリエーションはグループ化です。

: 食料品店での購入金額の分布。

離散変化系列の場合 周波数応答シリーズのバリアントを直接参照し、その後、間隔を置いてバリアントのグループを参照します。

これらを使用して分布系列を分析すると便利です。 グラフィック画像, これにより、分布の形状やパターンを判断することができます。 ディスクリートシリーズグラフ上では破線で描かれています – 分布ポリゴン。 組み込むには 長方形システム座標では、変動する特性のランク付けされた(順序付けられた)値が横軸に沿って同じスケール上にプロットされ、周波​​数を表すスケールが縦軸に沿ってプロットされます。

間隔シリーズは次のように表されます。 分布ヒストグラム(つまり、棒グラフ)。

ヒストグラムを作成する場合、間隔の値が横軸にプロットされ、頻度は対応する間隔に基づいて構築された長方形で表されます。 等間隔の場合の柱の高さは周波数に比例する必要があります。

任意のヒストグラムを分布ポリゴンに変換できます。これを行うには、その長方形の頂点を直線セグメントで接続する必要があります。

2. 影響分析の指標法 平均出力生産量の変化に対する平均従業員数

インデックス方式ダイナミクスを分析し、一般的な指標と、これらの指標のレベルの変化に影響を与える要因を比較するために使用されます。 指標を使用すると、平均生産高と平均従業員数が生産量の変化に及ぼす影響を特定することができます。 この問題は、分析指標のシステムを構築することで解決されます。

生産量指数は、生産量 (Q) が生産高に関連しているのと同じように、平均従業員数と平均生産高指数に関連しています ( w)と数字 ( r) .

生産量は平均生産量と平均従業員数の積に等しいと結論付けることができます。

Q = w r、ここで Q は生産量、

w - 平均出力、

r – 従業員の平均数。

ご覧のとおり、 私たちが話しているのは静力学における現象の関係について: 2 つの要素の積により、結果として生じる現象の総体積が求められます。 この接続が機能していることも明らかであるため、この接続のダイナミクスがインデックスを使用して研究されます。 この例では、これは次のシステムです。

Jw × Jr = Jwr.

たとえば、生産現象の指標である生産量指数 Jwr は、平均生産高指数 (Jw) と平均従業員数指数 (Jr) の 2 つの要素指数に分解できます。

インデックス インデックス インデックス

平均給与額

生産高数

どこ J w- ラスパイレス式を使用して計算された労働生産性指数。

ジュニア- パーシェの公式を使用して計算された従業員数の指数。

インデックス システムは、パフォーマンス指標のレベルの形成に対する個々の要因の影響を決定するために使用されます。これにより、2 つの既知のインデックス値から未知の値を決定できます。

上記の指数体系に基づいて、要因の影響に分解された生産量の絶対的な増加を見つけることもできます。

1. 一般的な生産量の増加:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 。

2. 平均出力インジケーターの作用による増加:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 。

3. 平均人数指標の作用による増加:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

Δwr = Δwr/w + Δwr/r。

例。以下のデータが知られています

生産量が相対的および絶対的にどのように変化したか、また個々の要因がこの変化にどのような影響を与えたかを判断できます。

生産量は次のとおりです。

基本期間内に

w 0 * r 0 = 2000 * 90 = 180000、

そしてレポートの中で

w 1 * r 1 = 2100 * 100 = 210000。

その結果、生産量は 30,000 個、つまり 1.16% 増加しました。

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

または (210000:180000)*100%=1.16%。

この生産量の変化は次の理由によるものです。

1) 平均従業員数が 10 名または 111.1% 増加

r 1 / r 0 = 100 / 90 = 1.11 または 111.1%。

この要因により、絶対的に生産量は 20,000 個増加しました。

w 0 r 1 – w 0 r 0 = w 0 (r 1 - r 0) = 2000 (100-90) = 20000。

2) 平均生産量の 105% または 10,000 の増加:

w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1.05 または 105%。

絶対的な増加量は次のとおりです。

w 1 r 1 – w 0 r 1 = (w 1 - w 0)r 1 = (2100-2000)*100 = 10000。

したがって、要因の組み合わせによる影響は次のようになります。

1. 絶対的な意味で

10000 + 20000 = 30000

2. 相対的な観点から

1,11 * 1,05 = 1,16 (116%)

したがって、増加率は 1.16% となります。 どちらの結果も以前に得られたものです。

「インデックス」という言葉は、翻訳ではポインター、インジケーターを意味します。 統計では、インデックスは次のように解釈されます。 相対指標、時間、空間、または計画と比較した現象の変化を特徴づけます。 インデックスは相対値であるため、インデックスの名前は相対値の名前と一致します。

比較可能な製品の時間の経過に伴う変化を分析している場合、どのようにして変化するかを尋ねることができます。 さまざまな条件(の上 さまざまな分野)指数の構成要素(価格、物理量、生産または販売の構造)の変化 個々の種製品)。 これに関して、一定の組成、可変の組成、および構造変化の指標が構築されます。

永続的(固定)構成のインデックス –これはダイナミクスを特徴付ける指標です 平均サイズ同じ固定人口構造です。

一定構成のインデックスを構築する原理は、同じウェイトを持つインデックス付きインジケーターの加重平均レベルを計算することで、インデックス付きの値に対するウェイト構造の変化の影響を排除することです。

一定の構成インデックスは、形式が集約インデックスと同じです。 集約形式が最も一般的です。

恒常構成指数は、一期間の水準に固定された重みを用いて計算され、指数化された値の変化のみを示します。 一定構成のインデックスは、同じウェイトを持つインデックス付きインジケーターの加重平均レベルを計算することにより、インデックス付きの値に対するウェイトの構造の変更の影響を排除します。 一定構成の指標は、現象の一定の構造に基づいて計算された指標を比較します。

大量の情報を処理する場合、これは最新の情報を処理する場合に特に重要です。 科学の発展、研究者はソース データを正しくグループ化するという重大な課題に直面しています。 データが本質的に離散的である場合、これまで見てきたように、問題は発生しません。必要なのは、各特徴の頻度を計算することだけです。 調査対象の特徴が 継続的な(実際にはこれがより一般的です)、特徴グループ化間隔の最適な数を選択することは決して簡単な作業ではありません。

連続確率変数をグループ化するには、特性の変動範囲全体を特定の数の間隔に分割します。 に。

グループ化された間隔 (継続的な) バリエーションシリーズは、属性 () の値によってランク付けされた間隔と呼ばれ、r 番目の間隔に該当する観測値の数、または相対頻度 () が、対応する頻度 () とともに示されます。

特性値の間隔

私の周波数

棒グラフそして 蓄積 (オギバ)、すでに詳しく説明しましたが、これはデータ視覚化の優れた手段であり、データ構造の基本的なアイデアを得ることができます。 このようなグラフ (図 1.15) は、連続データがその可能な値の領域を完全に満たし、任意の値を取るという事実のみを考慮して、離散データの場合と同じ方法で連続データに対して構築されます。

米。 1.15。

それが理由です ヒストグラムと累積の列は互いに接しており、属性値が可能な範囲に収まらない領域があってはなりません(つまり、図 1.16 のように、ヒストグラムと累積には、調査対象の変数の値が含まれない横軸に沿った「穴」があってはなりません)。 バーの高さは、頻度 (特定の間隔内に収まる観測値の数)、または相対頻度 (観測値の割合) に対応します。 間隔 交差してはなりません通常は同じ幅です。

米。 1.16

ヒストグラムと多角形は、確率密度曲線 ( 微分関数) f(x)確率論の過程で考慮される理論的な分布。 したがって、それらの構造は次のようになります 重要定量的連続データの一次統計処理中に、その外観によって仮説の分布法則を判断できます。

累積 - 間隔変動系列の累積された周波数 (周波数) の曲線。 累積分布関数のグラフは累積分布関数と比較されます。 F(x)、確率論コースでも説明します。

基本的に、ヒストグラムと累積の概念は、それらのグラフがそれぞれ確率密度関数と分布関数の経験的推定値であるため、連続データとその間隔変動系列に特に関連付けられています。

区間変動系列の構築は、区間の数を決定することから始まります。 k.そして、この課題はおそらく、研究中の問題の中で最も難しく、重要であり、物議をかもしている課題です。

ヒストグラムが滑らかになりすぎるため、間隔の数が小さすぎてはなりません( 平滑化しすぎた)、元のデータの変動性の特徴がすべて失われます - 図 1.17 では、図のグラフと同じデータがどのように変化するかがわかります。 1.15、より少ない数の間隔でヒストグラムを作成するために使用されます (左のグラフ)。

同時に、間隔の数は大きすぎてはなりません。大きすぎると、数値軸に沿って調査データの分布密度を推定できなくなります。ヒストグラムの平滑化が不十分になります。 (滑らかさが足りない)、空の間隔があり、不均一です (図 1.17、右のグラフを参照)。

米。 1.17。

最も望ましい間隔数を決定するにはどうすればよいでしょうか?

1926 年に遡ると、ハーバート スタージェスは、研究対象の特性の元の値のセットを分割する必要がある間隔の数を計算するための公式を提案しました。 この式は本当に非常に人気があります。ほとんどの統計教科書ではこの式が提供されており、多くの統計パッケージではデフォルトでこの式が使用されています。 これがどの程度正当化されるのか、そしてすべての場合において、非常に深刻な問題です。

では、スタージェスの公式は何に基づいているのでしょうか?

考えてみましょう 二項分布 }

サイトの新着情報

>

最も人気のある