建設資材 統計的有意性。 信頼性と統計的有意性

統計的有意性。 信頼性と統計的有意性

実験心理学者は通常、データを収集して研究する前に、データを統計的に分析する方法を決定します。 多くの場合、研究者は統計値として定義される有意水準を ( 以下)これには、非ランダムな要因の影響を考慮できる値が含まれています。 研究者は通常、このレベルを確率表現の形式で表します。

多くの心理学実験では、次のように表現できます。 レベル0.05" または " レベル0.01」 これは、ランダムな結果が一定の頻度でのみ発生することを意味します。 0.05(1回中)または 0.01(100回に1回)。 予備条件を満たす統計データ分析結果 確立された基準 (0.05、0.01、あるいは 0.001 であっても)、以下では統計的に有意であると呼びます。

この結果は統計的に有意ではない可能性がありますが、それでもある程度興味深いものであることに注意してください。 これは、特に予備研究や非専門家が関与する実験中に起こることは珍しいことではありません。 大量対象者が少ない場合、または観察数が限られている場合、結果は統計的に有意なレベルに達しない可能性がありますが、より正確な制御と もっと観察すると、より高い信頼性が得られるでしょう。 同時に、実験者は、いかなる犠牲を払ってでも望ましい結果を達成するために実験条件を意図的に変更したいという欲求に細心の注意を払わなければなりません。

2x2 プランの別の例 は、2 種類の科目と 2 種類のタスクを使用して、情報の記憶に対する専門知識の影響を研究しました。

彼の書斎で 数字の暗記を勉強したり、 チェスの駒 (変数A) 椅子に座る子供たち レカロ ヤングスポーツそして大人たち( 変数B)、つまり 2x2 計画に従います。 子供たちは10歳でチェスが得意でしたが、大人はチェス初心者でした。 最初のタスクでは、通常のゲーム中と同様に、ボード上の駒の位置を記憶し、駒が削除された後にそれを復元する必要がありました。 このタスクの別の部分では、IQ を決定するときに通常行われる、標準的な一連の数字を記憶する必要がありました。

結局のところ、 専門的な知識、チェスの遊び方を学ぶなど、この分野に関連する情報を覚えやすくしますが、数字を覚えるにはほとんど効果がありません。 知恵の経験が浅い大人 最古のゲーム、覚えている数字は少なくなりますが、数字を暗記することに成功しています。

報告書の本文では 提示された結果を数学的に検証する統計分析を提供します。

2x2 計画は、すべての要因計画の中で最も単純です。 要素の数または個々の要素のレベルが増加すると、これらの計画の複雑さが大幅に増加します。

心理学のコース、卒業証書、修士論文の統計計算結果の表には、指標「p」が常に存在します。

たとえば、次のように 研究目的 10代の少年と少女の間での人生の有意義さのレベルの違いが計算されました。

平均値

マン・ホイットニーの U 検定

統計的有意水準 (p)

男子(20名)

女の子

(5人)

目標

28,9

35,2

17,5

0,027*

プロセス

30,1

32,0

38,5

0,435

結果

25,2

29,0

29,5

0,164

制御の軌跡 - 「私」

20,3

23,6

0,067

制御の軌跡 - 「生命」

30,4

33,8

27,5

0,126

有意義な人生

98,9

111,2

0,103

* - 差異は統計的に有意です (p0,05)

右の列は「p」の値を示しており、その値によって、少年と少女の間で将来の人生の意味の違いが有意であるかどうかが判断できます。 ルールは簡単です:

  • 統計的有意性のレベル「p」が 0.05 以下の場合、差は有意であると結論付けられます。 下の表では、「目標」指標、つまり将来の人生の意味に関して、男子と女子の違いが顕著です。 女子の場合、この指標は男子よりも統計的に有意に高くなります。
  • 統計的有意性のレベル「p」が 0.05 より大きい場合、差は有意ではないと結論付けられます。 以下の表では、最初の指標を除いて、他のすべての指標について、男子と女子の差は有意ではありません。

統計的有意性のレベル「p」はどこから来たのでしょうか?

統計的有意性のレベルが計算されます 統計プログラム統計的基準の計算も併せて行います。 これらのプログラムでは、統計的有意性のレベルに限界限界を設定することもでき、対応する指標がプログラムによって強調表示されます。

たとえば、STATISTICA プログラムでは、相関関係を計算するときに、「p」制限 (たとえば、0.05) を設定できます。これにより、統計的に有意な関係がすべて赤色で強調表示されます。

統計的基準が手動で計算される場合、有意水準「p」は、結果として得られる基準の値を臨界値と比較することによって決定されます。

統計的有意性の水準「p」は何を示しますか?

すべての統計計算は近似値です。 この近似のレベルによって「p」が決まります。 有意水準は次のように書きます。 小数、たとえば 0.023 または 0.965。 この数値に 100 を掛けると、パーセンテージとして p 指標が得られます: 2.3% と 96.5%。 これらのパーセンテージは、たとえば攻撃性と不安の間の関係についての私たちの仮定が間違っている可能性を反映しています。

あれは、 相関係数攻撃性と不安の間の値は 0.58 で、統計的有意水準 0.05 または誤り確率 5% で得られました。 これはいったい何を意味するのでしょうか?

私たちが特定した相関関係は、サンプルで次のパターンが観察されることを意味します: 攻撃性が高いほど、不安も高くなります。 つまり、2 人のティーンエイジャーがいて、1 人がもう 1 人よりも不安が強い場合、正の相関関係がわかっているので、この 10 代の若者は攻撃性も高いと言えます。 しかし、統計上のすべては近似値であるため、これを述べることで、私たちが間違っている可能性があることを認め、誤りの確率は 5% です。 つまり、この思春期のグループでそのような比較を 20 回行ったので、不安を知って攻撃性のレベルを予測する際に 1 つの間違いを犯す可能性があります。

統計的有意性のレベルは 0.01 と 0.05 のどちらが優れているか

統計的有意性のレベルは、エラーの確率を反映します。 したがって、p=0.01 での結果は、p=0.05 での結果よりも正確です。

心理学研究では、結果の統計的有意性について次の 2 つの許容レベルが受け入れられます。

p=0.01 - 結果の信頼性が高い 比較解析または関係の分析。

p=0.05 - 十分な精度。

この記事があなた自身で心理学の論文を書くのに役立つことを願っています。 サポートが必要な場合は、お問い合わせください (心理学のあらゆる種類の仕事、統計計算)。

あなたが行動しなければ、区は役に立ちません。 (ショータ・ルスタヴェリ)

医療統計の基本的な用語と概念

この記事では、医学研究を実施する際に関連する重要な統計概念をいくつか紹介します。 用語については、関連記事で詳しく説明します。

変化

意味。値の範囲にわたるデータ (属性値) の分散度

確率

意味。 確率とは、特定の条件下で特定の出来事が発生する可能性の度合いです。

例。 「使用時の回復確率」の文中の用語の定義を説明しましょう。 医薬品アリミデックスが70%です。」 事象は「患者の回復」、「患者がアリミデックスを服用する」という条件、可能性の度合いは70%(ざっくり言うと、アリミデックスを服用している100人のうち70人が回復する)。

累積確率

意味。時刻 t における生存の累積確率は、その時点で生存している患者の割合と同じです。

例。 5 年間の治療後の累積生存確率が 0.7 であると言われる場合、これは、検討中の患者グループのうち、初期数の 70% が生存し、30% が死亡したことを意味します。 言い換えれば、100人当たり30人が最初の5年以内に死亡したことになる。

イベント前の時間

意味。イベント前の時間とは、ある初期時点から何らかのイベントが発生するまでに経過した時間であり、いくつかの単位で表されます。

説明。 医学研究における時間の単位は、日、月、年です。

初期時間の典型的な例:

    患者の監視を開始する

    外科的治療

考慮されるイベントの典型的な例:

    病気の進行

    再発の発生

    患者の死

サンプル

意味。選択によって得られた母集団の一部。

サンプル分析の結果に基づいて、母集団全体に関する結論が導き出されます。この結論は、選択がランダムであった場合にのみ有効です。 母集団からランダムに選択することは事実上不可能であるため、サンプルが少なくとも母集団を代表するものであることを確認する努力が必要です。

依存サンプルと独立サンプル

意味。研究対象者が互いに独立して募集されたサンプル。 独立したサンプルの代わりに、依存した (接続された、ペアになった) サンプルがあります。

仮説

両面仮説と片面仮説

まず、統計における仮説という用語の使用について説明しましょう。

ほとんどの研究の目的は、ある発言の真実性をテストすることです。 薬物検査の目的は、ほとんどの場合、ある薬物が別の薬物よりも効果的であるという仮説を検証することです (たとえば、アリミデックスはタモキシフェンよりも効果的です)。

研究の厳密性を確保するために、検証されるステートメントは数学的に表現されます。 たとえば、A がアリミデックスを服用している患者の余命年数、T がタモキシフェンを服用している患者の余命年数である場合、検証される仮説は A>T と書くことができます。

意味。仮説が 2 つの量の等しいことから構成される場合、その仮説は両面と呼ばれます。

両側仮説の例: A=T。

意味。 仮説が 2 つの量の不等式で構成される場合、その仮説は片側 (1-side) と呼ばれます。

一方的な仮説の例:

二値 (バイナリ) データ

意味。 2 つの有効な代替値のみで表現されるデータ

例: 患者は「健康」 - 「病気」です。 浮腫は「ある」 - 「ない」。

信頼区間

意味。数量の信頼区間は、その数量が含まれる数量の値の周囲の範囲です。 本当の意味この値は (ある程度の信頼度を持って)

例。 研究対象の量を年間の患者数とする。 平均すると、その数は 500 で、95% は - 信頼区間- (350、900)。 これは、おそらく (9​​5% の確率で) 年間に少なくとも 350 人、最大 900 人がクリニックに連絡する可能性が高いことを意味します。

指定。 非常に一般的に使用される略語は次のとおりです。 CI 95% は、信頼水準が 95% である信頼区間です。

信頼性、統計的有意性 (P - レベル)

意味。結果の統計的有意性は、その「真実」に対する信頼度の尺度です。

どのような研究も対象の一部にのみ基づいて行われます。 薬の有効性の研究は、地球上のすべての患者に基づいて行われるのではなく、特定の患者グループに対してのみ行われます(すべての患者に基づいて分析を行うことはまったく不可能です)。

分析の結果、ある結論が得られたとします(たとえば、適切な治療法としてのアリミデックスの使用はタモキシフェンよりも 2 倍効果的です)。

問うべき質問は、「この結果をどの程度信頼できるか?」ということです。

たった 2 人の患者に基づいて研究を実施したと想像してください。 もちろん、この場合、結果は注意して扱う必要があります。 多数の患者を検査した場合(「多数」の数値は状況によって異なります)、導き出された結論はすでに信頼できるものになります。

したがって、信頼度は p レベル値 (p 値) によって決まります。

p レベルが高いほど、サンプル分析から得られた結果の信頼度が低くなります。 たとえば、p レベルが 0.05 (5%) に等しい場合、特定のグループの分析から引き出された結論は、これらのオブジェクトの確率がわずか 5% のランダムな特徴にすぎないことを示します。

言い換えれば、非常に高い確率 (95%) で、結論はすべてのオブジェクトに拡張できます。

多くの研究では、許容可能な p レベル値として 5% が考慮されています。 これは、たとえば p = 0.01 の場合は結果を信頼できますが、p = 0.06 の場合は信頼できないことを意味します。

勉強

前向き研究は、初期因子に基づいてサンプルが選択され、結果として得られたいくつかの因子がサンプル内で分析される研究です。

遡及研究は、結果として得られる因子に基づいてサンプルが選択され、サンプル内のいくつかの初期因子が分析される研究です。

例。 最初の要因は、20 歳未満または 20 歳以上の妊婦です。 結果として生じる要因は、子供の体重が 2.5 kg より軽い/重いということです。 子供の体重が母親の年齢に依存するかどうかを分析します。

2 つのサンプル (1 つは 20 歳未満の母親、もう 1 つはそれ以上の母親) を集め、各グループの子供の集団を分析した場合、これは前向き研究になります。

2つのサンプルを集め、1つは2.5kgより軽い子供を産んだ母親、もう1つはそれより重い子供を出産し、各グループの母親の年齢を分析した場合、これは後ろ向き研究になります(当然、そのような研究は実験が完了した場合、つまりすべての子供が生まれた場合にのみ実行できます)。

出エジプト記

意味。研究者の興味の対象となる、臨床的に重要な現象、実験室の指標、または兆候。 臨床試験を実施する場合、結果は治療的介入または予防的介入の有効性を評価するための基準として機能します。

臨床疫学

意味。厳密な手法を用いて同様の症例における疾患の臨床経過を研究することに基づいて、特定の患者ごとに特定の転帰を予測することを可能にする科学 科学的方法予測の正確性を確保するために患者を研究する。

コホート

意味。何人かによって団結した研究参加者のグループ 共通機能創設当時に研究され、長い年月をかけて研究されました。

コントロール

履歴管理

意味。研究の前の期間に対照群を形成し、調査した。

並列制御

意味。メイングループの形成と同時に形成されたコントロールグループ。

相関

意味。 2 つの特性 (定量的または順序) 間の統計的関係。ケースの特定の部分における一方の特性のより大きな値が、他の特性のより大きな値 (正の (直接) 相関の場合) またはより小さい値に対応することを示します。 value - 負の (逆) 相関の場合。

例。 患者の血液中の血小板と白血球のレベルの間には、有意な相関関係が見つかりました。 相関係数は 0.76 です。

リスク係数 (RR)

意味。リスク比は、オブジェクトの最初のグループで何らかの (「悪い」) イベントが発生する確率と、オブジェクトの 2 番目のグループで同じイベントが発生する確率の比です。

例。 非喫煙者で肺がんを発症する確率が 20%、喫煙者で 100% である場合、CR は 5 分の 1 に等しくなります。 この例では、オブジェクトの最初のグループは非喫煙者、2 番目のグループは喫煙者であり、肺がんの発生は「悪い」イベントとみなされます。

次のことは明らかです。

1) KR = 1 の場合、グループ内でイベントが発生する確率は同じです。

2) KP>1 の場合、イベントは 2 番目のグループよりも 1 番目のグループのオブジェクトで発生する頻度が高くなります。

3) KRの場合<1, то событие чаще происходит с объектами из второй группы, чем из первой

メタアナリシス

意味。 と同じ問題 (通常、治療、予防、診断方法の有効性) を調査するいくつかの研究の結果を要約する統計分析。 研究をプールすると、分析用のサンプルがより多くなり、組み合わせた研究により優れた統計的検出力が得られます。 研究中の方法の有効性に関する結論の証拠や信頼性を高めるために使用されます。

カプラン・マイヤー法 (カプラン・マイヤー乗数推定)

この方法は、統計学者の E.L. カプランとポール マイヤーによって発明されました。

この方法は、患者の観察時間に関連するさまざまな量を計算するために使用されます。 そのような量の例:

    薬を使用した場合、1年以内に回復する確率

    手術後3年以内の再発の可能性

    臓器切断後の前立腺がん患者の5年生存確率の累積

カプラン・マイヤー法を使用する利点について説明します。

「従来の」分析(カプラン・マイヤー法を使用しない)における量の値は、考慮中の時間間隔を間隔に分割することに基づいて計算されます。

たとえば、5 年以内に患者が死亡する確率を研究している場合、その期間は 5 つの部分 (1 年未満、1 ~ 2 年、2 ~ 3 年、3 ~ 4 年、4 年未満) に分割できます。 5 年間)、10 年間(それぞれ 6 か月)、または別の間隔の場合も同様です。 パーティションが異なると結果も異なります。

最適なパーティションを選択するのは簡単な作業ではありません。

カプラン・マイヤー法を使用して得られる値の推定値は、観察時間を間隔に分割することには依存せず、個々の患者の生存時間のみに依存します。

したがって、研究者にとっては分析が容易になり、多くの場合「従来の」分析結果よりも優れた結果が得られます。

カプラン・マイヤー曲線は、カプラン・マイヤー法を使用して得られた生存曲線のグラフです。

コックスモデル

このモデルは、イギリスの有名な統計学者であり、300 以上の論文や書籍の著者であるデイビッド ロックスビー コックス卿 (1924 年生まれ) によって発明されました。

Cox モデルは、生存分析で調査される量が時間の関数に依存する状況で使用されます。 たとえば、t 年後 (t=1、2、...) の再発の確率は、時間の対数 log(t) に依存する可能性があります。

Cox によって提案された方法の重要な利点は、この方法が多くの状況に適用できることです (モデルは確率分布の性質や形状に厳密な制限を課しません)。

Cox モデルに基づいて分析 (Cox 分析と呼ばれる) を実行でき、その結果がリスク係数の値とリスク係数の信頼区間になります。

ノンパラメトリック統計手法

意味。主に正規分布を形成しない量的データの分析や定性的データの分析に使用される統計手法の一種。

例。 治療の種類に応じた患者の収縮期血圧の違いの重要性を特定するために、ノンパラメトリック マンホイットニー検定を使用します。

符号(変数)

意味。 バツ研究(観察)対象の特徴。 質的特徴と量的特徴があります。

ランダム化

意味。特別な手段(テーブルまたは乱数カウンター、コイン投げ、および含まれる観測値にグループ番号をランダムに割り当てるその他の方法)を使用して、研究オブジェクトをメイングループとコントロールグループにランダムに分配する方法。 ランダム化により、研究結果に影響を与える可能性がある既知の特性と未知の特性に関するグループ間の差異が最小限に抑えられます。

危険

限定的- 研究対象者に特定の特性(リスク因子)が存在することによる、好ましくない結果(疾患など)の追加リスク。 これは、病気の発症リスクのうち、危険因子に関連し、説明され、危険因子が排除されれば排除できる部分です。

相対危険度- あるグループにおける好ましくない状態のリスクと、別のグループにおけるこの状態のリスクの比。 グループが事前に形成されており、研究対象の状態がまだ発生していない場合に、前向き研究および観察研究で使用されます。

ローリング試験

意味。観測値を順次削除し、モデルを再計算することによって、統計モデルの安定性、信頼性、パフォーマンス (妥当性) をチェックする方法。 結果として得られるモデルが類似しているほど、モデルの安定性と信頼性が高くなります。

イベント

意味。合併症の発生、再発、回復、死亡など、研究で観察された臨床転帰。

層別化

意味。 M研究の包含基準を満たすすべての参加者の母集団を、まず関心のある結果に影響を与える可能性のある 1 つ以上の特性 (通常は性別、年齢) に基づいてグループ (層) に分け、次にそれぞれのグループから抽出するサンプリング手法。これらのグループ (層) の参加者は、実験グループと対照グループに独立して募集されます。 これにより、研究者は実験グループと対照グループの間で重要な特性のバランスを取ることができます。

分割表

意味。観測値の絶対頻度(数値)の表。その列は1つの特性の値に対応し、行は別の特性の値に対応します(2次元分割表の場合)。 絶対周波数値は、行と列の交差点のセルにあります。

分割表の例を見てみましょう。 動脈瘤手術は194人の患者に行われた。 手術前の患者の浮腫の重症度はわかっています。

浮腫\ 結果

腫れなし 20 6 26
適度な腫れ 27 15 42
顕著な浮腫 8 21 29
m j 55 42 194

したがって、浮腫のない26人の患者のうち、20人の患者が手術後に生存し、6人の患者が死亡した。 中程度の浮腫を示した患者 42 名のうち、27 名が生存、15 名が死亡しました。

分割表のカイ二乗検定

ある徴候が別の徴候に依存する違いの重要性 (信頼性) (たとえば、浮腫の重症度に応じた手術の結果など) を判断するには、分割表にカイ 2 乗検定が使用されます。


チャンス

ある事象の確率が p に等しいとします。 すると、その出来事が起こらない確率は 1-p です。

たとえば、患者が 5 年後に生存する確率が 0.8 (80%) である場合、この期間中に死亡する確率は 0.2 (20%) です。

意味。確率とは、イベントが発生する確率とイベントが発生しない確率の比です。

例。 この例 (患者について) では、0.8/0.2=4 であるため、確率は 4 です。

したがって、回復する確率は死亡する確率の4倍になります。

数量の値の解釈。

1) Chance=1 の場合、イベントが発生する確率はイベントが発生しない確率に等しい。

2) Chance >1 の場合、イベントが発生する確率はイベントが発生しない確率よりも高くなります。

3) チャンスがあれば<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

オッズ比

意味。オッズ比は、オブジェクトの第 1 グループのオッズ比とオブジェクトの第 2 グループのオッズ比です。

例。 男性も女性も何らかの治療を受けたと仮定します。

男性患者が 5 年後も生存している確率は 0.6 (60%) です。 この期間中に死亡する確率は 0.4 (40%) です。

女性の同様の確率は 0.8 と 0.2 です。

この例のオッズ比は次のとおりです。

数量の値の解釈。

1) オッズ比 = 1 の場合、最初のグループの確率は 2 番目のグループの確率に等しい

2) オッズ比が 1 より大きい場合、最初のグループの確率は 2 番目のグループの確率よりも大きくなります。

3) オッズ比の場合<1, то шанс для первой группы меньше шанса для второй группы

結果の統計的有意性 (p 値) は、その「真実」(「サンプルの代表性」という意味で) の信頼度の推定尺度です。 より技術的に言えば、p 値は、結果の信頼性に応じて変化する尺度です。 p 値が高いほど、サンプル内で見つかった変数間の関係における信頼レベルが低くなります。 具体的には、p 値は、観察された結果を母集団全体に一般化することに関連する誤差の確率を表します。 たとえば、p 値 0.05 (つまり 1/20) は、サンプル内で見つかった変数間の関係がサンプルの単なるランダムな特徴である確率が 5% であることを示します。 言い換えれば、特定の関係が母集団に存在せず、同様の実験を何度も行う場合、実験の約 20 回に 1 回の繰り返しで、変数間に同じまたはより強い関係が期待されることになります。

多くの研究では、p 値 0.05 が誤差レベルの「許容範囲」とみなされます。

どのレベルの重要性を真に「重要」とみなすべきかを決定する際に、恣意性を避ける方法はありません。 結果が偽として拒否される特定の有意水準の選択は、まったく任意です。 実際には、最終的な決定は通常、結果が事前に (つまり、実験が実行される前に) 予測されたか、さまざまなデータに対して実行された多くの分析と比較の結果として事後的に発見されたかによって決まります。研究分野の伝統。 通常、多くの分野では、p 0.05 の結果が統計的有意性の許容限界ですが、このレベルには依然としてかなり大きな誤り率 (5%) が含まれていることを覚えておく必要があります。 一般に、p 0.01 レベルで有意な結果は統計的に有意であるとみなされ、p 0.005 または p 0.001 レベルの結果は一般に非常に有意であると考えられます。 ただし、この有意水準の分類は非常に恣意的なものであり、特定の研究分野における実際の経験に基づいて採用された非公式の合意にすぎないことを理解する必要があります。

すでに述べたように、関係の大きさと信頼性は、変数間の関係の 2 つの異なる特性を表します。 ただし、完全に独立しているとは言えません。 一般に、通常のサイズのサンプル内の変数間の関係 (関係性) の大きさが大きいほど、信頼性が高くなります。

母集団内の対応する変数間に関係がないと仮定すると、研究対象のサンプルでもこれらの変数間に関係がないと予想される可能性が最も高くなります。 したがって、サンプル内でより強い関係が見つかるほど、その関係が抽出された母集団に存在しない可能性は低くなります。


サンプルサイズは関係の重要性に影響します。 観測値が少ない場合、これらの変数の可能な値の組み合わせもそれに応じてほとんどないため、強い関係を示す値の組み合わせが偶然発見される可能性が比較的高くなります。

統計的有意性のレベルの計算方法。 (上で説明したように) 2 つの変数間の依存性の尺度をすでに計算していると仮定しましょう。 あなたが直面する次の質問は、「この関係はどれほど重要ですか?」です。 たとえば、2 つの変数間の説明された分散が 40% あれば、その関係が有意であると考えるのに十分ですか? 答えは「状況による」です。 つまり、有意性は主にサンプルサイズに依存します。 すでに説明したように、非常に大規模なサンプルでは、​​変数間の非常に弱い関係であっても重要ですが、小さなサンプルでは、​​非常に強い関係であっても信頼できません。 したがって、統計的有意性のレベルを決定するには、サンプル サイズごとの変数間の関係の「大きさ」と「有意性」の関係を表す関数が必要です。 この関数は、「母集団にそのような関係が存在しないと仮定した場合に、指定されたサイズのサンプルで指定された値 (またはそれ以上) の関係が得られる可能性がどれくらいあるか」を正確に示します。 言い換えれば、この関数は有意水準 (p 値)、つまり特定の関係が母集団に存在しないという仮定を誤って拒否する確率を与えることになります。 この「対立」仮説 (母集団内に関連性がないという仮説) は、通常、帰無仮説と呼ばれます。 誤差の確率を計算する関数が線形で、異なるサンプル サイズに対してのみ異なる傾きを持つ関数であれば理想的です。 残念ながら、この関数ははるかに複雑であり、常にまったく同じであるとは限りません。 ただし、ほとんどの場合、その形式は既知であり、特定のサイズのサンプルの研究で有意水準を決定するために使用できます。 これらの関数のほとんどは、正規分布と呼ばれる非常に重要な分布クラスに関連付けられています。

あなたの「残りの半分」が特別で意味のあるものになっているのは何だと思いますか? それは彼女/彼の性格に関係していますか、それともあなたがその人に対して抱いている感情に関係していますか? それとも、研究が示すように、あなたの共感のランダム性に関する仮説の確率は 5% 未満であるという単純な事実からでしょうか? 最後の記述が信頼できると考えるなら、成功した出会い系サイトは原理的に存在しないことになります。

ウェブサイトの分割テストやその他の分析を実施する場合、「統計的有意性」を誤解すると結果の誤解につながり、その結果、コンバージョン最適化プロセスで誤ったアクションが実行される可能性があります。 これは、既存のあらゆる業界で毎日実行される他の何千もの統計テストにも当てはまります。

それが何であるかを理解するには」 統計的有意性」では、この用語の出現の歴史を深く掘り下げ、その本当の意味を学び、この「新しい」古い理解が研究結果を正しく解釈するのにどのように役立つかを理解する必要があります。

ちょっとした歴史

人類は何世紀にもわたってさまざまな問題を解決するために統計を使用してきましたが、統計的有意性、仮説検定、ランダム化、さらには実験計画法 (DOE) についての現代的な理解は、20 世紀初頭になってようやく形になり始め、統計と密接に結びついています。ロナルド・フィッシャー卿の名前 (ロナルド・フィッシャー卿、1890-1962):

ロナルド・フィッシャーは進化生物学者であり統計学者であり、動植物界における進化と自然選択の研究に特別な情熱を持っていました。 彼の輝かしいキャリアの中で、彼は今日でも私たちが使用している多くの便利な統計ツールを開発し、普及させました。

フィッシャーは、優性、突然変異、遺伝的逸脱などの生物学のプロセスを説明するために開発した手法を使用しました。 現在、同じツールを使用して、Web リソースのコンテンツを最適化および改善できます。 これらの分析ツールを使用して、作成時には存在すらしなかったオブジェクトを操作できるという事実は、非常に驚​​くべきことのように思えます。 かつて人々が電卓やコンピューターを使わずに複雑な計算を行っていたことも同様に驚くべきことです。

統計実験の結果が真実である可能性が高いことを説明するために、フィッシャーは「有意性」という言葉を使いました。

また、フィッシャーの最も興味深い展開の 1 つは、「セクシーな息子」仮説と呼ぶことができます。 この理論によると、女性は性的に無差別な男性(無差別)を好みます。これは、これらの男性から生まれた息子が同じ素質を持ち、より多くの子孫を残すことができるためです(これは単なる理論であることに注意してください)。

しかし、たとえ優秀な科学者であっても、間違いを犯さない人はいません。 フィッシャーの欠陥は今でも専門家を悩ませています。 しかし、アルバート・アインシュタインの言葉を思い出してください。「一度も間違いを犯したことがない人は、何も新しいものを創造したことはありません。」

次の点に進む前に、統計的有意性とは、テスト結果の差が非常に大きく、その差がランダム要因によって説明できない場合のことを覚えておいてください。

あなたの仮説は何ですか?

「統計的有意性」の意味を理解するには、まず「仮説検定」が何であるかを理解する必要があります。この 2 つの用語は密接に絡み合っているためです。
仮説は単なる理論です。 理論を構築したら、十分な証拠を収集し、その証拠を実際に収集するプロセスを確立する必要があります。 仮説には 2 種類あります。

リンゴとオレンジ - どちらが良いですか?

帰無仮説

一般に、これは多くの人が困難を経験する場所です。 留意すべき点の 1 つは、帰無仮説は、Web サイト上の特定の変更がコンバージョンの増加につながることを証明するのと同様に、証明する必要があるものではないということです。また、その逆も同様です。 帰無仮説は、サイトに変更を加えても何も起こらないという理論です。 そして研究者の目標はこの理論を論破することであり、証明することではありません。

犯罪解決の経験を見ると、捜査官も犯人が誰であるかについて仮説を立てますが、帰無仮説は、いわゆる無罪推定の形をとります。これに従うと、有罪が証明されるまで被告人は無罪と推定されます。法廷で。

帰無仮説が 2 つのオブジェクトのプロパティが等しいというもので、一方の方が優れていること (たとえば、A が B よりも優れている) を証明しようとしている場合は、対立仮説を支持して帰無仮説を拒否する必要があります。 たとえば、1 つまたは別のコンバージョン最適化ツールを比較しているとします。 帰無仮説では、両方ともターゲットに対して同じ効果をもたらします (または効果がありません)。 あるいは、どちらかの効果の方が優れています。

対立仮説には、B - A > 20% などの数値が含まれる場合があります。 この場合、帰無仮説と対立仮説は次の形式になります。

研究者は常にこの特定の仮説を証明することに関心があるため、対立仮説の別名は研究仮説です。

統計的有意性と p 値

もう一度、ロナルド・フィッシャーと彼の統計的有意性の概念に戻りましょう。

帰無仮説と対立仮説ができたので、一方を証明し、もう一方を反証するにはどうすればよいでしょうか?

統計はその性質上、特定の母集団 (サンプル) の研究に関わるため、得られる結果を 100% 確信することはできません。 良い例: 選挙結果は、事前世論調査の結果や出口プールの結果と異なることがよくあります。

フィッシャー博士は、実験が成功したかどうかを知らせる境界線を作りたいと考えました。 このようにして信頼性指数が表示されました。 信頼性とは、私たちが「重要」と考えるものとそうでないと考えるときに取るレベルです。 有意性指数「p」が 0.05 以下の場合、結果は信頼できます。

心配しないでください。実際には、見た目ほど混乱するものではありません。

ガウス確率分布。 端に沿って変数の可能性の低い値が表示され、中央にある変数の可能性が最も高い値が表示されます。 P スコア (緑の影の領域) は、観察された結果が偶然に発生する確率です。

正規確率分布 (ガウス分布) は、グラフ (上図) 上の特定の変数のすべての可能な値とその頻度を表したものです。 調査を正しく行って、すべての回答をグラフにプロットすると、まさにこの分布が得られます。 によると 正規分布の場合、同様の回答の大部分が得られ、残りの選択肢はグラフの端 (いわゆる「裾」) に配置されます。 この値の分布は自然界でよく見られるため、「正常」と呼ばれます。

サンプルとテスト結果に基づく方程式を使用すると、結果がどの程度乖離しているかを示す、いわゆる「テスト統計量」を計算できます。 また、帰無仮説が真実であることにどの程度近づいているかもわかります。

これを理解するには、オンライン計算ツールを使用して統計的有意性を計算します。

そのような計算機の一例

文字「p」は帰無仮説が真である確率を表します。 数値が小さい場合は、テスト グループ間の差異を示しますが、帰無仮説ではテスト グループは同じであると考えられます。 グラフで見ると、検定統計量はベル型分布の裾の 1 つに近づいているように見えます。

フィッシャー博士は、有意性の閾値を p ≤ 0.05 に設定することにしました。 ただし、この記述には次の 2 つの問題が生じるため、物議を醸しています。

1. まず、帰無仮説が偽であることが証明されたという事実は、対立仮説が証明されたことを意味するわけではありません。 この重要性はすべて、A も B も証明できないことを意味します。

2. 次に、p スコアが 0.049 の場合、帰無仮説の確率が 4.9% になることを意味します。 これは、テスト結果が真であると同時に偽である可能性があることを意味する場合があります。

p スコアを使用する場合も使用しない場合もありますが、その場合はケースバイケースで帰無仮説の確率を計算し、その確率が計画およびテストした変更を行うのを妨げるほど大きいかどうかを判断する必要があります。 。

現在、統計検定を実行するための最も一般的なシナリオは、検定自体を実行する前に、有意性のしきい値を p ≤ 0.05 に設定することです。 結果を確認するときは、必ず p 値を注意深く確認してください。

エラー 1 と 2

長い時間が経ち、統計的有意性メトリックを使用するときに発生する可能性のあるエラーには独自の名前が付けられるようになりました。

タイプ 1 エラー

前述したように、p 値 0.05 は、帰無仮説が真である確率が 5% であることを意味します。 そうしないと、間違い 1 を犯すことになります。結果では、新しい Web サイトによってコンバージョン率が向上したと示されていますが、そうでない可能性は 5% あります。

タイプ 2 エラー

このエラーはエラー 1 の逆です。つまり、帰無仮説が偽の場合にそれを受け入れることになります。 たとえば、テスト結果から、サイトに加えられた変更によって改善が見られなかったことがわかりますが、変更はありました。 その結果、パフォーマンスを向上させる機会を逃してしまいます。

このエラーは、サンプル サイズが不十分なテストでよく発生するため、サンプルが大きいほど結果の信頼性が高くなることに注意してください。

結論

おそらく、統計的有意性ほど研究者の間で人気のある用語はないでしょう。 テスト結果が統計的に有意ではないと判明した場合、その影響はコンバージョン率の増加から会社の崩壊に至るまで多岐にわたります。

また、マーケティング担当者はリソースを最適化するときにこの用語を使用するため、それが実際に何を意味するのかを知る必要があります。 テスト条件は異なる場合がありますが、サンプルサイズと成功基準は常に重要です。 これを覚えて。



サイトの新着情報

>

最も人気のある