スピアマン相関分析、例付きの実践的な取引。 順位相関とスピアマンの順位相関係数

スピアマン相関分析、例付きの実践的な取引。 順位相関とスピアマンの順位相関係数

簡単な理論

ランク相関は、値の増加順に並べられた変数の関係を反映する相関分析の方法です。

ランクは、ランク付けされたシリーズ内の集合ユニットのシリアル番号です。 2 つの特性に従って母集団をランク付けし、その関係を研究する場合、ランクが完全に一致することは、可能な限り最も近い直接的な関係を意味し、ランクが完全に反対であることは、可能な限り最も近いフィードバックを意味します。 両方の特性を同じ順序でランク付けする必要があります。特性の小さい値から大きい値へ、またはその逆のいずれかです。

実用的な目的で使用する場合 順位相関非常に便利。 例えば、製品の2つの定性的特性の間に高い順位の相関があれば、どちらか一方の特性だけで製品を管理すればよく、コスト削減と管理の高速化が図れます。

K. Spearman によって提案された順位相関係数は、順位スケールで測定される変数間の関係のノンパラメトリック尺度を指します。 この係数を計算するとき、母集団内の特性の分布の性質についての仮定は必要ありません。 この係数は、順序特性間の接続の近さの程度を決定します。この場合、順序特性は比較される量のランクを表します。

スピアマン相関係数の値は +1 から -1 の範囲内にあります。 これは、ランク スケールで測定される 2 つの特性間の関係の方向を特徴付ける、正または負の値になります。

スピアマンの順位相関係数は、次の式を使用して計算されます。

2 つの変数の順位の差

一致したペアの数

順位相関係数を計算する最初のステップは、一連の変数を順位付けすることです。 ランキング手順は、変数を値の昇順に並べることから始まります。 異なる値にはランクが割り当てられ、次のように示されます 自然数。 同じ値の変数が複数ある場合、それらには平均ランクが割り当てられます。

スピアマンの順位相関係数の利点は、数値で表現できない特性に基づいて順位付けできることです。特定のポジションの候補者を、専門レベル、チームを率いる能力、個人的な魅力によって順位付けすることができます。専門家による評価を使用すると、さまざまな専門家の評価をランク付けし、相互の相関関係を見つけて、他の専門家の評価と弱い相関関係にある専門家の評価を考慮から除外することができます。 スピアマンの順位相関係数は、傾向の安定性を評価するために使用されます。 ランク相関係数の欠点は、ランクの同じ違いが特性の値のまったく異なる違いに対応する可能性があることです(定量的特性の場合)。 したがって、後者の場合、ランクの相関関係は、相関係数よりも情報量が少なく、接続の近さのおおよその尺度として考慮される必要があります。 数値兆候。

問題解決の例

タスク

大学寮に住む無作為に選ばれた10人の学生を対象とした調査により、前回のセッションの平均点と学生が自主学習に費やす週の時間数との関係が明らかになりました。

スピアマンの順位相関係数を使用して関係の強さを決定します。

問題を解決するのが難しい場合は、このサイトが統計学の学生に自宅でのテストや試験を提供するオンライン ヘルプを提供します。

問題の解決策

順位相関係数を計算してみましょう。

測距 ランク比較 ランク差 1 26 4.7 8 1 3.1 1 8 10 -2 4 2 22 4.4 10 2 3.6 2 7 9 -2 4 3 8 3.8 12 3 3.7 3 1 4 -3 9 4 12 3.7 15 4 3.8 4 3 3 0 0 5 15 4.2 17 5 3.9 5 4 7 -3 9 6 30 4.3 20 6 4 6 9 8 1 1 7 20 3.6 22 7 4.2 7 6 2 4 16 8 31 4 26 8 4.3 8 10 6 4 16 9 10 3.1 30 9 4.4 9 2 1 1 1 10 17 3.9 31 10 4.7 10 5 5 0 0 60

スピアマンの順位相関係数:

数値を代入すると、次のようになります。

問題の結論

前回のセッションの GPA と学生が自主学習に費やした週の時間数との間には、適度に強い関係があります。

納期が迫っている場合 テスト作業もう時間がありません。統計の問題に対する緊急の解決策は、ウェブサイトでいつでも注文できます。

平均テストを解くのにかかる費用は 700 ~ 1200 ルーブルです (ただし、注文全体で 300 ルーブル以上)。 価格は決定の緊急性 (1 日から数時間まで) に大きく影響されます。 試験/テストのオンライン ヘルプの料金は 1000 ルーブルからです。 チケットを解決するために。

事前にタスク条件を送信し、解決に必要な期間を通知しておけば、コストに関するすべての質問をチャットで直接行うことができます。 応答時間は数分です。

関連する問題の例

フェヒナー比
簡単な理論を示し、フェヒナー符号相関係数を計算する問題の解決例を検討します。

Chuprov と Pearson の相互偶発係数
このページには、相互偶発性のチュプロフ係数とピアソン係数を使用して質的特性間の関係を研究する方法に関する情報が含まれています。

以下の計算機は、2 つの確率変数間のスピアマンの順位相関係数を計算します。理論的な部分は計算機の下にあります。

追加 インポート・エクスポート モード編集 消去

確率変数の変化

arrow_upwardarrow_downward arrow_upwardarrow_downward
ページあたりのアイテム数: 5 10 20 50 100 シェブロン_左 chevron_right

確率変数の変化

インポートデータインポートエラー

「データ フィールドの区切りには次の文字のいずれかが使用されます: タブ、セミコロン (;)、またはカンマ (,)」 サンプル: -50.5;-50.5

インポート 戻る キャンセル

小数点以下の桁数:4

計算する

スピアマンの相関係数

保存 共有 拡大

スピアマンの順位相関係数の計算方法は、実際には非常に単純です。ピアソン相関係数を設計したようなものですが、確率変数の測定のみを目的としたものではありません。 ランキング値.

ランク値とは何か、そしてなぜこれが必要なのかを理解するだけで済みます。

変分級数の要素が昇順または降順に配置されている場合、 ランク要素の番号は、順序付けされたシリーズの番号になります。

たとえば、さまざまな系列 (17、26、5、14、21) があります。 要素を降順 (26,21,17,14,5) に並べ替えてみましょう。 26 はランク 1、21 - ランク 2 など、ランク値の変分系列は次のようになります (3,1,5,4,2)。

つまり、 スピアマンの係数を計算するとき、初期変動系列はランキング値の変分系列に変換され、ピアソンの公式がそれらに適用されます。
.
微妙な点が 1 つあります。繰り返し値のランクはランクの平均として取得されます。 つまり、シリーズ (17、15、14、15) の場合、最初の要素のランクは 2、2 番目の要素のランクは 3 であるため、ランク付けシリーズは (1、2.5、4、2.5) のようになります。そして。

繰り返しの値、つまりランキング系列のすべての値 (1 から n までの数値) がない場合、ピアソンの式は次のように簡略化できます。

ちなみに、スピアマン係数の計算式としてこの式がよく挙げられます。

値自体からランク値への移行の本質は何ですか?
ランキング値の相関関係を調査すると、2 つの変数の依存関係が単調関数でどの程度適切に記述されているかがわかります。

係数の符号は、変数間の関係の方向を示します。 符号が正の場合、Y の値は X の増加とともに増加する傾向があります。符号が負の場合、Y の値は X の増加とともに減少する傾向があります。係数が 0 の場合は、傾向はございませんのでよろしくお願いいたします。 係数が 1 または -1 の場合、X と Y の関係は単調関数のように見えます。 X が増加すると Y も増加し、その逆も同様です。

つまり、ある変数と別の変数の線形関係のみを検出できるピアソンの相関係数とは異なり、スピアマンの相関係数は直接の線形関係を明らかにできない単調依存性を検出できます。

ここに例を示します。
例を挙げて説明しましょう。 関数 y=10/x を調べてみるとします。
X と Y の次の測定値があります。
{{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
このデータの場合、ピアソン相関係数は -0.4686 に等しくなります。 関係が弱い、または存在しない。 そして、スピアマンの相関係数は厳密に -1 に等しく、あたかも Y が X から強い負の単調依存関係にあることを研究者に示唆しているかのようです。

37. スピアマンの順位相関係数。

S.56(64)063.JPG

http://psystat.at.ua/publ/1-1-0-33

スピアマンの順位相関係数は、次の場合に使用されます。
- 変数には ランキングスケール測定;
- データの分布が違いすぎる 普通あるいは全く知られていない。
- サンプルの量が少ない (N< 30).

スピアマン順位相関係数の解釈はピアソン係数と変わりませんが、その意味は多少異なります。 これらの方法の違いを理解し、それらの適用分野を論理的に正当化するために、それらの式を比較してみましょう。

ピアソン相関係数:

スピアマン相関係数:

ご覧のとおり、式は大きく異なります。 公式を比較してみましょう

ピアソンの相関式では相関系列の算術平均と標準偏差が使用されますが、スピアマンの相関式では使用されません。 したがって、ピアソンの公式を使用して適切な結果を得るには、相関系列が正規分布に近い必要があります (平均と標準偏差は パラメーター 正規分布 )。 これはスピアマンの公式には関係ありません。

ピアソン式の要素は、各シリーズの標準化です。 Zスコア.

ご覧のとおり、ピアソン相関係数の式には変数の Z スケールへの変換が含まれています。 したがって、ピアソン係数の場合、データのスケールはまったく問題になりません。たとえば、2 つの変数を相関させ、そのうちの 1 つが最小値を持っているとします。 = 0 および最大値 = 1、および 2 番目の分。 = 100 および最大 = 1000。値の範囲がどれほど異なっていても、それらはすべて同じスケールの標準 Z 値に変換されます。

このような正規化はスピアマン係数では発生しないため、

スピアマン係数を使用するための必須条件は、2 つの変数の範囲が等しいことです。

範囲が異なるデータ系列にスピアマン係数を使用する前に、次のことを行う必要があります。 ランク。 ランキングは、これらの系列の値が同じ最小値 = 1 (最小ランク) と最大値を取得するという事実につながります。 量に等しい値(最大、最後のランク = N、つまり 最大数サンプル内のケース)。

ランキングなしでできるのはどのような場合ですか?

これらは、データが初期状態にある場合です。 ランキングスケール。 たとえば、Rokeach の価値指向のテストです。

また、これらは、値のオプションの数が少なく、サンプルに固定の最小値と最大値が含まれている場合です。 たとえば、セマンティック差分では、最小 = 1、最大 = 7 となります。

スピアマンの順位相関係数の計算例

Rokeach の値の方向性のテストは、2 つのサンプル X と Y に対して実行されました。タスクは、これらのサンプルの値の階層がどの程度近いか (文字通り、それらがどの程度類似しているか) を調べることです。

結果の値 r=0.747 は次のようにチェックされます。 臨界値の表。 表によれば、N=18 の場合、得られた値は p レベルで有意です。<=0,005

スピアマンとケンダルの順位相関係数

順序スケールに属する変数または正規分布に従わない変数、および間隔スケールに属する変数の場合、ピアソン係数の代わりにスピアマンの順位相関が計算されます。 これを行うために、個々の変数値にランクが割り当てられ、その後、適切な式を使用して処理されます。 順位相関を検出するには、[二変量相関...] ダイアログ ボックスでデフォルトのピアソン相関チェック ボックスをオフにします。 代わりに、スピアマン相関計算をアクティブにします。 この計算により、次の結果が得られます。 順位相関係数は、ピアソン係数の対応する値に非常に近似しています (元の変数は正規分布を持っています)。

titkova-matmetody.pdf p. 45

スピアマンのランク相関法により、締まり(強さ)と方向を決定できます。

間の相関関係 2つの標識または 2 つのプロファイル (階層)兆候。

順位相関を計算するには、2 行の値が必要です。

ランク付けできるもの。 このような一連の値は次のようになります。

1) 2つの標識同じように測定した グループ科目;

2) 特性の 2 つの個別の階層、同じものを使用して 2 つの被験者で識別された

一連の機能。

3) 2つ 特性のグループ階層、

4) 個人とグループ機能の階層。

まず、指標は特性ごとに個別にランク付けされます。

原則として、属性値が低いほどランクが低くなります。

最初のケース (2 つの特性) では、個々の値は最初の特性に従ってランク付けされます。

さまざまな被験者によって得られた特性、次に2番目の個体値

サイン。

2 つの特性に正の関連性がある場合、順位が低い被験者

一方の被験者は他方の被験者の順位が低く、被験者の順位が高いことになります。

一方の特性は、もう一方の特性でも高いランクを持ちます。 rsを計算するには

違いを判断する必要がある (d)両方の分野で特定の被験者によって得られたランクの間

兆候。 次に、これらの指標 d が特定の方法で変換され、1 から減算されます。

ランクの差が小さいほどrsが大きくなり、+1に近づきます。

相関関係がない場合、すべてのランクが混在し、相関関係が存在しません。

対応なし。 この場合、rs が 0 に近づくように式が設計されています。

負の相関の場合ある基準で被験者のランクが低い

別の基準で高いランクが対応し、その逆も同様です。 乖離が大きいほど

2 つの変数に関する被験者の順位の間で、rs が -1 に近づくほどです。

2 番目のケース (2 つの個別のプロファイル))、個別のものはランク付けされています

特定の条件に従って 2 人の被験者のそれぞれが取得した値 (それらの被験者も同じ)

両方) の機能セット。 最初のランクは、値が最も低い機能に与えられます。 第二位 –

より高い価値を持つ機能など。 明らかに、すべての特性は次の方法で測定する必要があります。

同じユニットである場合、ランキングは不可能です。 たとえば、それは不可能です

Cattell Personality Inventory (16PF) で指標が表現されている場合、その指標をランク付けします。

値の範囲は要因ごとに異なるため、「生」ポイント: 0 から 13、0 から 13

20 と 0 ~ 26。どの要素が 1 位になるかはわかりません。

すべての値を 1 つのスケール (ほとんどの場合、壁のスケール) に合わせるまで式を繰り返します。

2 つの主題の個々の階層が積極的に関連している場合、兆候は次のようになります。

一方のランクが低いと、もう一方のランクも低くなり、その逆も同様です。

たとえば、ある被験者の因子 E (優位性) のランクが最も低い場合、

別の被験者、1 人の被験者が因子 C を持っている場合、その被験者のランクは低いはずです

(情緒的安定性)が最も高い順位を持ち、次に他の主題も同様である必要があります

この要素のランクが高いなど。

3 番目のケース (2 つのグループ プロファイル) では、グループの平均値がランク付けされ、

特定のセットに従って被験者の 2 つのグループで取得され、両グループで同一

兆候。 以下の推論の流れは前の 2 つのケースと同じです。

ケース 4 (個人およびグループのプロファイル) では、別々にランク付けされます。

被験者の個人値と同じセットのグループ平均値

原則として、この個々の主題を除外することによって得られる兆候 - 彼

自分の個人が比較される平均的なグループプロファイルに参加していない

プロフィール。 ランク相関により、個人との一貫性を確認できます。

グループプロフィール。

4 つのケースすべてで、結果として得られる相関係数の有意性が決定されます。

ランク付けされた値の数によって N.最初のケースでは、この数量は次と一致します。

サンプルサイズn。 2 番目のケースでは、観測値の数が特徴の数になります。

階層を構成しています。 3 番目と 4 番目のケースでは、N は比較される数でもあります。

グループ内の被験者の数ではなく、特性を考慮します。 詳細な説明は例で示されています。 もし

rs の絶対値が臨界値に達するか超える、相関

信頼性のある。

仮説。

考えられる仮説は 2 つあります。 1 つ目はケース 1 に適用され、2 つ目は他の 3 つに適用されます。

仮説の最初のバージョン

H0: 変数 A と変数 B の間の相関はゼロと変わりません。

H2: 変数 A と B の間の相関はゼロとは大きく異なります。

仮説の第 2 バージョン

H0: 階層 A と階層 B の相関はゼロと変わらない。

H2: 階層 A と階層 B の相関がゼロとは大きく異なります。

順位相関係数の制限

1. 各変数について、少なくとも 5 つの観測値を提示する必要があります。 アッパー

サンプリング境界は、利用可能な臨界値のテーブルによって決定されます。 .

2. 多数の同一のスピアマンの順位相関係数 rs

比較される変数の一方または両方のランクにより、大まかな値が得られます。 理想的には

両方の相関系列は、発散する 2 つの系列を表す必要があります。

価値観。 この条件が満たされない場合は、修正を行う必要があります。

同じランクです。

スピアマンの順位相関係数は、次の式を使用して計算されます。

比較された両方のランク シリーズに同じランクのグループが含まれている場合、

順位相関係数を計算する前に、順位相関係数を補正する必要があります。

TaとTVのランク:

Ta = Σ (a3 – a)/12、

Тв = Σ (в3 – в)/12、

どこ A -ランク行 A の同一ランクの各グループの体積、 それぞれのボリューム

ランク シリーズ B 内の同一ランクのグループ。

rs の経験値を計算するには、次の式を使用します。

38. 点双直列相関係数。

一般的な相関関係については、質問番号 36 を参照してください。と。 56(64)063.JPG

ハルチェンコ-コルラナリズ.pdf

変数 X を強いスケールで測定し、変数 Y を二分スケールで測定するとします。 点双直列相関係数 rpb は、次の式を使用して計算されます。

ここで、x 1 は X 個のオブジェクトの平均値であり、Y 個の値は「1」です。

x 0 – Y の値が「ゼロ」である X オブジェクトの平均値。

s x – X に沿ったすべての値の標準偏差。

n 1 – Y 内のオブジェクト「1」の数、n 0 – Y 内のオブジェクト「0」の数。

n = n 1 + n 0 – サンプルサイズ。

点双直列相関係数は、他の同等の式を使用して計算することもできます。

ここで×– 変数の全体的な平均値 バツ.

点双直列相関係数 RPB-1 から +1 まで変化します。 変数に 1 が含まれる場合、その値は 0 になります。 Y平均値がある Y、ゼロオーバーの変数の平均に等しい Y.

検査 重要性仮説双直列相関係数をチェックするポイント 帰無仮説h一般相関係数がゼロに等しいことについて 0: ρ = 0。これはスチューデントの t 検定を使用して実行されます。 経験的重要性

臨界値と比較して t ある (DF) 自由度の数に対して DF = n– 2

条件が | t| ≤ たα(DF)、帰無仮説 ρ = 0 は棄却されません。 経験値 | が次の場合、点双直列相関係数は 0 から大きく異なります。 t| つまり、条件 | t| > たα(n– 2)。 点双直列相関係数を用いて計算した関係の信頼性 RPB、次の基準を使用して決定することもできます。 χ 自由度の数は 2 DF= 2.

点双直列相関

その後のモーメント積の相関係数の修正は、点双直列に反映されました。 r。 この統計。 は 2 つの変数間の関係を示しています。一方は連続的で正規分布していると考えられ、もう一方は厳密な意味で離散的です。 点双直列相関係数は次のように表されます。 r ピビス以来 r ピビス二分法は離散変数の真の性質を反映しており、例のように人為的なものではありません。 r ビス、その符号は任意に決定されます。 したがって、あらゆる実用的な目的のために。 目標 r ピビス 0.00 ~ +1.00 の範囲で考慮されます。

双級相関の場合のように、2 つの変数が連続で正規分布していると仮定されているものの、両方が人為的に二分化される場合もあります。 このような変数間の関係を評価するには、四絨毛相関係数が使用されます。 r テト、これもピアソンによって育てられました。 基本 (正確な) 計算式と計算手順 r テトかなり複雑です。 したがって、実践的には、 この方法では近似を使用します r テト、簡略化された手順と表に基づいて取得されます。

/on-line/dictionary/dictionary.php?term=511

ポイントバイシリアル係数は、2 つの変数の間の相関係数です。1 つは二値スケールで測定され、もう 1 つは間隔スケールで測定されます。 これは、テスト タスクの品質、つまり信頼性とテスト全体のスコアとの一貫性の指標として、古典的および最新のテストで使用されます。

測定された変数を相関させるには 二分法と区間スケール使用 点双直列相関係数.
点双系列相関係数は、変数の関係を相関分析する方法であり、そのうちの1つは名前の尺度で測定され、2つの値のみを取ります(たとえば、男性/女性、正答/誤答、特徴)存在/存在しない)、およびスケール比または間隔スケールの 2 番目。 点双直列相関係数を計算する式:

どこ:
m1 と m0 は、Y の値が 1 または 0 である X の平均値です。
σx – Xによるすべての値の標準偏差
n1,n0 – 1 または 0 から Y までの X 値の数。
n – 値のペアの総数

ほとんどの場合、このタイプの相関係数は、テスト項目と全体の規模との関係を計算するために使用されます。 これは有効性チェックの一種です。

39. 順位双直列相関係数。

一般的な相関関係については、質問番号 36 を参照してください。と。 56(64)063.JPG

harchenko-korranaliz.pdf p. 28

順位双直列相関係数。変数の 1 つが次の場合に使用されます ( バツ) は序数スケールで表され、もう一方 ( Y) – 二分法、次の式で計算されます。

.

以下は 1 を持つオブジェクトの平均ランクです。 Y; – 0 ~ 0 のオブジェクトの平均ランク Y, n- サンプルサイズ。

検査 重要性仮説順位双直列相関係数は、式の置換によるスチューデント検定を使用して点双直列相関係数と同様に実行されます。 rポンドの上 rRB.

1 つの変数が二分法で測定される場合 (変数 バツ)、もう 1 つはランク スケール (変数 Y) で、ランク-バイシリアル相関係数が使用されます。 変数が バツ、二分スケールで測定され、0 と 1 の 2 つの値 (コード) のみを取ります。特に強調したいのは、この係数が -1 から +1 の範囲で変化するという事実にもかかわらず、その符号は、結果。 これも一般規則の例外です。

この係数は次の式を使用して計算されます。

ここで、` バツ 1変数の要素の平均ランク Y、変数のコード (符号) 1 に対応します。 バツ;

`X 0 – 変数の要素の平均ランク Yさんこれは変数のコード (符号) 0 に対応します。 バツ\

N –変数内の要素の総数 バツ。

順位双直列相関係数を適用するには、次の条件を満たす必要があります。

1. 比較される変数は、さまざまな尺度で測定する必要があります。 バツ -二分法的なスケールで。 他の はい–ランキングスケールで。

2. 比較される変数内の異なる特性の数 バツそして Y同じはずです。

3. 順位双直列相関係数の信頼性のレベルを評価するには、式 (11.9) と Student テストの臨界値の表を使用する必要があります。 k = n – 2。

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

変数の 1 つが次のように表される場合 二分スケール、そしてもう一つは ランク(序列)、申請が必要です 順位双直列相関係数:

rpb=2 / n * (m1 - m0)

どこ:
n – 測定オブジェクトの数
m1 および m0 - 2 番目の変数が 1 または 0 であるオブジェクトの平均ランク。
この係数は、テストの妥当性をチェックするときにも使用されます。

40. 線形相関係数。

一般的な相関関係 (特に線形相関) については、質問 No. 36 を参照してください。と。 56(64)063.JPG

ピアソン氏の係数

r-ピアソン (ピアソン r) 2 つの指標間の関係を調べるために使用されます。同じサンプルで異なる変数を測定した場合。その使用が適切な状況は数多くあります。 知性は大学4年生の学業成績に影響を及ぼしますか? 従業員の給与の大きさは、同僚に対するその従業員の親しみやすさに関係していますか? 生徒の気分は、複雑な算数の問題を解決できるかどうかに影響しますか? このような質問に答えるには、研究者はサンプルの各メンバーについて関心のある 2 つの指標を測定する必要があります。 次に、以下の例のように、関係を調査するためのデータが表にまとめられます。

例6.1

この表は、20 人の 8 年生の知能の 2 つの指標 (言語的および非言語的) を測定するための初期データの例を示しています。

これらの変数間の関係は、散布図を使用して表すことができます (図 6.3 を参照)。 この図は、測定された指標間に何らかの関係があることを示しています。つまり、言語的知性の値が大きいほど、(ほとんどの場合) 非言語的知性の値も大きくなります。

相関係数の式を与える前に、例 6.1 のデータを使用して、相関係数が発生するロジックを追跡してみましょう。 他の点(図6.3)に対する散布図上の各/-点(番号/の主題)の位置は、対応する変数値の平均値からの偏差の値と符号によって指定できます。 : (xj - MJ そして (心 ). これらの偏差の符号が一致する場合、これは正の関係を示します (値が大きいほど)。 バツ大きな値は以下に対応します 以下の値 バツ小さい値が対応します y)。

被験者 No.1 の平均からの偏差 バツそしてによって 正であり、被験者 No. 3 では両方の偏差が負です。 したがって、両方のデータは、研究された形質間の正の関係を示しています。 逆に、平均からの逸脱の兆候が見られる場合は、 バツそしてによって 異なる場合、これは特性間に負の関係があることを示します。 したがって、被験者 No.4 の場合、平均からの偏差は バツは負です、によって y -陽性、被験者番号 9 の場合はその逆です。

したがって、偏差の積 (x,- M バツ ) バツ (心 ) 正の場合、/-subject のデータは直接 (正) 関係を示し、負の場合、逆 (負) 関係を示します。 したがって、もし バツwやあ一般に、偏差の積が正比例の関係にある場合、偏差の積のほとんどは正になり、偏差の積が逆関係にある場合、積のほとんどは負になります。 したがって、関係の強さと方向を示す一般的な指標は、特定のサンプルの偏差のすべての積の合計になります。

変数間の正比例関係により、この値は大きく正になります。ほとんどの被験者では、偏差の符号が一致します (ある変数の大きな値は別の変数の大きな値に対応し、その逆も同様です)。 もし バツそして フィードバックがある場合、ほとんどの被験者では、1 つの変数のより大きな値は別の変数のより小さな値に対応します。つまり、積の符号は負になり、全体としての積の合計も大きくなります。絶対値ではありますが、符号は負です。 変数間に体系的な関連性がない場合、正の項 (偏差の積) は負の項によってバランスが取られ、すべての偏差の積の合計はゼロに近くなります。

積の合計がサンプル サイズに依存しないことを確認するには、それを平均するだけで十分です。 しかし、私たちは相互接続の尺度に一般的なパラメーターとしてではなく、計算された推定値、つまり統計として興味を持っています。 したがって、分散の式に関しては、この場合も同様に、偏差の積の和を次の値で割るのではありません。 N, そしてテレビでは - 1. これにより、物理学や技術科学で広く使用されている接続の尺度が得られます。 共分散 (コバハンス):


物理学とは異なり、心理学では、心理学者は記号の絶対値ではなく、グループ内の被験者の相対的な位置に興味があるため、ほとんどの変数は任意のスケールで測定されます。 さらに、共分散は、特性が測定される尺度 (分散) に非常に敏感です。 接続の尺度を両方の特性の測定単位から独立させるには、共分散を対応する標準偏差に分割するだけで十分です。 こうして得られたのが のために-K.ピアソン相関係数のラバ:

または、 o x と の式を置き換えた後、


両方の変数の値が次の式を使用して r 値に変換された場合


その場合、r-ピアソン相関係数の式はより単純になります (071.JPG)。

/dict/社会学/article/soc/soc-0525.htm

相関線形- 2 つの量的変数間の非因果的な性質の統計的線形関係 バツそして 。 「K.L係数」を用いて測定します。 ピアソン、共分散を両方の変数の標準偏差で割った結果です。

,

どこ s xy- 変数間の共分散 バツそして ;

s バツ , s y- 変数の標準偏差 バツそして ;

バツ , y - 変数の値 バツそして 番号付きオブジェクトの場合 ;

バツ, y- 変数の算術平均 バツそして .

ピアソン係数 r間隔 [-1; +1]。 意味 r = 0変数間に線形関係がないことを意味します バツそして (ただし、非線形の統計的関係は除外されません)。 正の係数値( r> 0) 直接線形接続を示します。 その値が +1 に近づくほど、統計線の関係が強くなります。 負の係数値( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее フィードバック。 価値観 r= ±1 は、直接または逆の完全な線形接続の存在を意味します。 完全接続の場合、すべての点の座標( バツ , y ) 直線上に寝ます y = ある + bx.

「係数K.L.」 ピアソンは、線形ペア回帰モデルでの接続の強さを測定するためにも使用されます。

41. 相関行列と相関グラフ。

一般的な相関関係については、質問番号 36 を参照してください。と。 56(64)063.JPG

相関行列。頻繁 相関分析これには、2 つの間の関係ではなく、1 つのサンプルで定量的なスケールで測定された多くの変数の関係の研究が含まれます。 この場合、相関関係は、この変数セットのペアごとに計算されます。 計算は通常コンピュータで実行され、その結果が相関行列になります。

相関行列(相関 マトリックス) セットから各ペアの 1 つのタイプの相関を計算した結果です R 1 つのサンプルで定量的なスケールで測定された変数。

5 つの変数 (v1、v2、...、v5; P= 5)、サンプルで測定 N=30人間。 以下はソースデータと相関行列の表です。

そして
同様のデータ:

相関行列:

相関行列は正方形であり、主対角線 (takkak,y = /) y) に対して対称であり、主対角線上に単位があることに簡単に気づくことができます (なぜなら、 G そして = ぐ= 1).

相関行列は次のとおりです。 四角:行と列の数は変数の数と同じです。 彼女 対称的な相関関係があるため、主対角線を基準にして バツ相関に等しい バツ。フィーチャとそれ自体の相関が 1 に等しいため、ユニットはその主対角線上に配置されます。 したがって、相関行列のすべての要素が分析の対象となるわけではなく、主対角線の上または下に位置する要素が分析の対象となります。

相関係数の数、関係を研究するときに分析する特徴は、次の式によって決定されます。 P(P- 1)/2。 上の例では、このような相関係数の数は 5(5 - 1)/2 = 10 です。

相関行列を分析する主なタスクは次のとおりです。多くの特徴間の関係の構造を特定します。 この場合、視覚的な分析が可能です 相関銀河- グラフィック画像 統計的に構造意味のあるつながり、そのような接続がそれほど多くない場合 (最大 10 ~ 15 個)。 もう 1 つの方法は、多変量法、つまり重回帰分析、因子分析、またはクラスター分析を使用することです (「多変量法...」のセクションを参照)。 因子分析またはクラスター分析を使用すると、他の変数よりも相互に密接に関連している変数のグループを識別できます。 たとえば、標識が多数あり、それらが均一でない場合には、これらの方法を組み合わせることも非常に効果的です。

相関関係の比較 -相関行列を分析する追加タスクには 2 つのオプションがあります。 (変数の 1 つについて) 相関行列の行の 1 つで相関を比較する必要がある場合は、従属サンプルの比較方法が使用されます (p. 148-149)。 異なるサンプルに対して計算された同じ名前の相関を比較する場合、独立したサンプルの比較方法が使用されます (p. 147-148)。

比較方法相関関係 対角線で相関行列 (ランダムプロセスの定常性を評価するため) と比較 いくつかのさまざまなサンプル(その均質性)から得られる相関行列は多大な労力を要するため、本書の範囲を超えています。 これらの方法については、G.V. Sukhodolsky 1 の本から知ることができます。

問題 統計的有意性相関関係。問題は、統計的仮説検定の手順が次のことを前提としていることです。 1つ-複数テストは 1 つのサンプルに対して実行されます。 同じ手法を適用すると 繰り返し、たとえ異なる変数に関連する場合でも、結果がまったく偶然に得られる確率が高くなります。 一般に、同じ仮説検証方法を繰り返すと、 一度さまざまな変数またはサンプルに関連して、確立された値 a を使用すると、仮説の確認が確実に得られます。 ああケースの数。

15 個の変数について相関行列が分析されたとします。つまり、15(15-1)/2 = 105 個の相関係数が計算されます。 仮説をテストするために、レベル a = 0.05 が設定されます。仮説を 105 回チェックすると、接続が実際に存在するかどうかに関係なく、仮説の確認が 5 回 (!) 得られます。 このことを知っていて、たとえば「統計的に有意な」相関係数が 15 個あるとして、どれが偶然に得られたもので、どれが実際の関係を反映しているかを判断できるでしょうか?

厳密に言えば、承認のため 統計的解法テストされる仮説の数と同じだけレベル a を減らす必要があります。 ただし、実際に存在する接続が無視される (タイプ II エラーが発生する) 可能性が予期せぬ形で増加するため、これはあまりお勧めできません。

相関行列だけでは十分な根拠ではありませんそれに含まれる個々の係数に関する統計的結論については相関関係!

この問題を解決する本当に説得力のある方法は 1 つだけです。それは、サンプルをランダムに 2 つの部分に分割し、サンプルの両方の部分で統計的に有意な相関のみを考慮することです。 別の方法としては、統計的に有意に関連する変数のグループを特定し、その後解釈するために多変量法 (因子分析、クラスター分析、または重回帰分析) を使用することもあります。

欠損値の問題。データに欠損値がある場合、相関行列の計算には次の 2 つのオプションが可能です。 a) 値を行ごとに削除する (除外するケースリストごとに); b) 値のペアごとの削除 (除外するケースペアごと). 一行ずつ削除欠損値のある観測値の場合、変数の 1 つに少なくとも 1 つの欠損値があるオブジェクト (対象) の行全体が削除されます。 この方法では、すべての係数が同じオブジェクトのセットから計算されるという意味で「正しい」相関行列が得られます。 ただし、欠損値が変数全体にランダムに分布している場合、 この方法これにより、検討中のデータ セットにオブジェクトが 1 つも残らなくなる可能性があります (各行には少なくとも 1 つの欠損値が含まれます)。 この状況を回避するには、と呼ばれる別の方法を使用します。 ペアごとの削除。この方法では、選択した各列変数ペアのギャップのみが考慮され、他の変数のギャップは無視されます。 変数のペアの相関関係は、ギャップがないオブジェクトに対して計算されます。 多くの状況では、特にギャップの数が比較的小さく (たとえば 10%)、ギャップが非常にランダムに分布している場合、この方法は次のような結果にはつながりません。 重大な間違い。 ただし、そうでない場合もあります。 たとえば、評価における体系的な偏り (シフト) により、省略の体系的な配置が「隠蔽」される可能性があります。これが、異なるサブセット (たとえば、オブジェクトの異なるサブグループ) に対して構築された相関係数に差異が生じる理由です。 次のように計算された相関行列に関連する別の問題 ペアごとこの行列を他のタイプの分析 (重回帰分析や因子分析など) で使用すると、ギャップの除去が行われます。 彼らは、「正しい」相関行列が一定レベルの一貫性とさまざまな係数の「準拠」とともに使用されることを前提としています。 「悪い」(偏った) 推定値を持つ行列を使用すると、プログラムがそのような行列を分析できなくなるか、結果が誤ることになります。 したがって、欠損データを除外するペアワイズ法を使用する場合は、欠損データの分布に体系的なパターンがあるかどうかを確認する必要があります。

欠損データをペアごとに削除しても、平均と分散 (標準偏差) に系統的なシフトが生じない場合、これらの統計は、欠損データを削除する行ごとの方法を使用して計算された統計と同様になります。 有意な差が観察された場合、推定値に変動があると想定する理由があります。 たとえば、変数の値の平均 (または標準偏差) が あ、変数との相関を計算するために使用されました で、平均よりもはるかに少ない(または 標準偏差) 同じ変数値 あ、これらが変数 C との相関関係の計算に使用されたのであれば、これら 2 つの相関関係が期待されるのは当然のことです。 (A-B私たち)データのさまざまなサブセットに基づいています。 変数値のギャップがランダムに配置されていないため、相関関係に偏りが生じます。

相関銀河の解析。相関行列の要素の統計的有意性の問題を解決した後、統計的に有意な相関を相関銀河または銀河の形でグラフで表すことができます。 相関銀河 -頂点とそれを結ぶ線で構成される図形です。 頂点は特性に対応し、通常は数値 (変数) で指定されます。 線は統計的に有意な接続に対応し、接続の符号、場合によっては j レベルの有意性をグラフィックで表します。

相関銀河は反射できる 全て統計的に 意味のあるつながり相関行列 (相関行列とも呼ばれます) 相関グラフ ) または、意味のある部分のみを選択します(たとえば、因子分析の結果による 1 つの因子に対応します)。

相関プレアデスの構築例


卒業生の州(最終)認定の準備:統一州試験データベース(一般リスト)の作成 統一国家試験の参加者アイテムを示すすべてのカテゴリ) – 考慮に入れる 予備日オブジェクトが一致した場合。

  • 作業計画 (27)

    解決

    2. 理数教育の内容を改善し、質を評価するための教育機関の活動 市立教育機関中等学校第 4、リトヴィノフスカヤ、チャパエフスカヤ、

  • 以下の計算機は、2 つの確率変数間のスピアマン順位相関係数を計算します。 理論的な部分は、計算機から気を散らさないように、伝統的にその下に配置されています。

    追加 インポート・エクスポート モード編集 消去

    確率変数の変化

    arrow_upwardarrow_downwardバツarrow_upwardarrow_downward Y
    ページサイズ: 5 10 20 50 100 シェブロン_左 chevron_right

    確率変数の変化

    データのインポートインポートエラー

    フィールドを区切るには、タブ、「;」のいずれかの記号を使用できます。 または「,」 例: -50.5;-50.5

    インポート 戻る キャンセル

    スピアマン順位相関係数の計算方法は、実は非常に簡単に説明されています。 これは同じピアソン相関係数であり、測定結果自体に対して計算されたものではありません。 ランダム変数、そして彼らのために ランク値.

    あれは、

    残っているのは、ランク値とは何か、そしてなぜこれが必要なのかを理解することだけです。

    バリエーション シリーズの要素が昇順または降順に配置されている場合、 ランク要素は、この順序付けされたシリーズの番号になります。

    たとえば、バリエーション系列 (17,26,5,14,21) があるとします。 その要素を降順 (26,21,17,14,5) に並べ替えてみましょう。 26 はランク 1、21 はランク 2 などです。 ランク値の変動系列はこのようになります(3,1,5,4,2)。

    つまり、スピアマン係数を計算するとき、初期 バリエーションシリーズランク値の変動系列に変換された後、ピアソンの公式が適用されます。

    微妙な点が 1 つあります。繰り返された値のランクはランクの平均として取得されます。 つまり、系列 (17、15、14、15) の場合、15 に等しい最初の要素はランク 2 であり、2 番目の要素はランク 2 であるため、一連のランク値は (1、2.5、4、2.5) のようになります。はランク 3 であり、 です。

    繰り返しの値がない場合、つまりランク系列のすべての値が 1 から n の範囲の数値である場合、ピアソンの公式は次のように簡略化できます。

    さて、ところで、スピアマン係数を計算する式としてこの式がよく挙げられます。

    値自体からランク値への移行の本質は何ですか?
    重要なのは、ランク値の相関関係を調べることで、2 つの変数の依存関係が単調関数でどの程度適切に記述されているかを判断できるということです。

    係数の符号は、変数間の関係の方向を示します。 符号が正の場合、X 値が増加するにつれて Y 値も増加する傾向があります。 符号が負の場合、X 値が増加するにつれて Y 値は減少する傾向があります。係数が 0 の場合、傾向はありません。 係数が 1 または -1 の場合、X と Y の関係は単調関数の形式になります。つまり、X が増加すると Y も増加し、逆も同様で、X が増加すると Y は減少します。

    つまり、ある変数の別の変数に対する線形依存性のみを明らかにできるピアソン相関係数とは異なり、スピアマン相関係数は直接的な線形関係が検出されない単調な依存性を明らかにできます。

    例を挙げて説明しましょう。 関数 y=10/x を調べていると仮定しましょう。
    次の X と Y の測定値があります。
    {{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
    これらのデータのピアソン相関係数は -0.4686 であり、関係は弱いか存在しません。 しかし、スピアマン相関係数は厳密に -1 に等しいため、Y が X に対して厳密な負の単調依存性を持つことを研究者に示唆しているようです。

    スピアマンのランク相関(順位相関)。 スピアマンの順位相関は、因子間の関係の程度を判断する最も簡単な方法です。 このメソッドの名前は、ランク間の関係、つまり取得された一連の定量値を降順または昇順にランク付けすることを示しています。 まず、ペア間の接続が 4 未満で 20 を超える場合、ランク相関は推奨されないことに留意する必要があります。 第二に、順位相関により、値が本質的に半定量的な場合、つまり、数値表現がなく、これらの値の出現順序が明確に反映されている場合、別のケースでの関係を判断することが可能になります。 第三に、近似データを取得するだけで十分な場合には、ランク相関を使用することをお勧めします。 質問を決定するためにランク相関係数を計算する例: アンケートは、被験者の X と Y の類似した個人的資質を測定します。 「はい」または「いいえ」の二者択一の回答を必要とする 2 つのアンケート (X および Y) を使用して、主要な結果、つまり 15 人の被験者 (N = 10) の回答が得られました。 結果は、アンケート X とアンケート B について別々に肯定回答の合計として表示されました。これらの結果は表にまとめられています。 5.19。

    表5.19。 スピアマン順位相関係数 (p) を計算するための主要結果の表作成 *

    概要相関行列の分析。 銀河相関法。

    例。 テーブル内 図 6.18 は、ウェクスラー法を使用してテストされた 11 個の変数の解釈を示しています。 データは、18 ~ 25 歳の均質なサンプルから得られました (n = 800)。

    層別化の前に、相関行列をランク付けすることをお勧めします。 これを行うには、各変数と他のすべての変数の相関係数の平均値が元の行列で計算されます。

    あとは表の通り。 5.20 与えられた相関行列の階層化の許容レベルを決定する 信頼確率 0.95 および n - 数量

    表6.20。 昇順相関行列

    変数 1 2 3 4 するだろう 0 7 8 0 10 11 M(リジ) ランク
    1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
    2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
    3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
    4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
    5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
    6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
    7 1 0,310 0,388 0,264 0,266 0,310 9
    8 1 0,897 0,363 0,388 0,363 5
    9 1 0,388 0,430 0,846 6
    10 1 0,336 0,310 8
    11 1 0,300 10

    指定: 1 - 一般的な認知度。 2 - 概念的さ。 3 - 注意力。 4 - 一般化の vdataness K。 b - 直接暗記(数字で表す) 6 - 母国語の習得レベル。 7 - 感覚運動スキルを習得する速度(記号コーディング) 8 - 観察。 9 - 組み合わせ能力(分析と合成) 10 - 部分を意味のある全体にまとめる能力。 11 - ヒューリスティック合成の能力。 M (rij) - 他の観測変数との変数の相関係数の平均値 (この例では n = 800): r (0) - ゼロの「解剖」平面の値 - 最小有意絶対値相関係数 (n - 120、r (0) = 0.236; n = 40、r (0) = 0.407) | Δr | - 許容層別ステップ (n = 40、| Δr | = 0.558) - 許容層別レベル数 (n = 40、s = 1; n = 120、s = 2)。 r (1)、r (2)、...、r (9) - 切断面の絶対値 (n = 40、r (1) = 0.965)。

    n = 800 の場合、gtype と境界 gi の値を見つけます。その後、相関行列を層別化し、層内の相関銀河を強調表示するか、相関行列の個別の部分を強調表示して、上にある層の相関銀河の関連付けを描画します (図5.5)。

    結果として得られる銀河の有意義な分析は、次のようなものにとどまります。 数学的統計。 プレアデス星団の有意義な解釈に役立つ 2 つの正式な指標があることに注意してください。 重要な指標の 1 つは頂点の次数、つまり頂点に隣接するエッジの数です。 エッジの数が最も多い変数は銀河の「コア」であり、この銀河の残りの変数の指標として考えることができます。 もう 1 つの重要な指標は通信密度です。 変数は、1 つの銀河内でより少ない接続を持つ可能性がありますが、より近くにあり、 より多くの接続別の銀河系ですが、それほど混雑していません。

    予測と推定。 方程式 y = b1x + b0 と呼ばれます。 一般方程式真っ直ぐ。 これは、点 (x, y) のペアを示します。

    米。 5.5. マトリックス積層法により得られた相関銀河

    ある直線上にあり、任意の値 x に対して、それと対になっている値 b は、x に特定の数値 b1 を掛け、次にこの積に数値 b0 を加算することによって求められるように接続されています。

    回帰係数を使用すると、原因要因が 1 単位変化したときの調査要因の変化の度合いを判断できます。 絶対値は、変動要因間の関係をその絶対値によって特徴付けます。 回帰係数は次の式を使用して計算されます。

    実験の計画と分析。 実験の計画と解析は3回目です 重要な産業変数間の因果関係を見つけてテストするために設計された統計的手法。

    多要素依存関係を研究するには 最近数学的な実験計画の手法がますます使用されています。

    すべての要素を同時に変更できるため、次のことが可能になります。 a) 実験の数を減らす。

    b) 実験誤差を最小限に抑える。

    c) 受信データの処理を簡素化する。

    d) 結果の明確さと比較の容易さを確保する。

    各因子は、レベルと呼ばれ、-1、0、および 1 で示される、対応する特定の数の異なる値を取得できます。因子レベルの固定セットによって、可能な実験の 1 つの条件が決まります。

    可能なすべての組み合わせの合計は、次の式を使用して計算されます。

    完全要因実験とは、因子レベルの可能なすべての組み合わせが実装される実験です。 完全要因実験には直交性の特性がある可能性があります。 直交計画では、実験の因子には相関がなく、最終的に計算される回帰係数は互いに独立して決定されます。

    数学的実験計画法の重要な利点は、その多用途性と多くの研究分野での適合性です。

    カラー TV コントローラーの精神的ストレスのレベルの形成に対するいくつかの要因の影響を比較する例を考えてみましょう。

    この実験は、直交計画 2 3 (3 つの因子が 2 つのレベルで変化する) に基づいています。

    実験は、パート 2 + 3 を 3 回繰り返す完全な構成で実行されました。

    直交計画は回帰方程式の構築に基づいています。 3 つの要素については次のようになります。

    この例の結果の処理には次が含まれます。

    a) 計算用の直交プラン 2 +3 テーブルの構築。

    b) 回帰係数の計算。

    c) それらの重要性を確認する。

    d) 取得したデータの解釈。

    前述の方程式の回帰係数については、係数の有意性を評価できるようにするために、N = 2 3 = 8 個のオプションを設定する必要がありました。繰り返し回数 K は 3 でした。

    実験計画マトリックスは次のように編集されました。



    サイトの新着情報

    >

    最も人気のある