tukey検定・とは？初心者向けのやさしい解説と使い方共起語・同意語・対義語も併せて解説！

この記事を書いた人

高岡智則

年齢：33歳性別：男性職業：Webディレクター（兼ライティング・SNS運用担当）居住地：東京都杉並区・永福町の1LDKマンション出身地：神奈川県川崎市身長：176cm 体系：細身〜普通（最近ちょっとお腹が気になる）血液型：A型誕生日：1992年11月20日最終学歴：明治大学・情報コミュニケーション学部卒通勤：京王井の頭線で渋谷まで（通勤20分）家族構成：一人暮らし、実家には両親と2歳下の妹恋愛事情：独身。彼女は2年いない（本人は「忙しいだけ」と言い張る）

tukey検定・とは？

tukey検定は、分散分析ANOVAの後に用いる代表的な多重比較検定です。複数のグループの平均を同時に比較して、どの組み合わせが統計的に有意に異なるかを判断します。ANOVAで「全体として差がある」という結論が出たとき、具体的にどのペアの平均値が違うのかを知るために使われます。

なぜ tukey検定なのか

複数のグループを1つずつ比較すると、誤検出が増えてしまいます。tukey検定は家族内誤差率を抑えながら、全ペアの比較を一括で行う方法です。これにより、全体で起こる「偽陽性」の確率を適切に管理できます。

前提と基本の考え方

前提としては次の3つが挙げられます。1) 各グループは独立していること、2) データが近似正規分布に従うこと、3) グループ間の分散が大きく異ならないこと（等分散性）。それぞれが成り立つとき、tukey検定の結果は解釈しやすくなります。

計算のしくみと指標

tukey検定は TukeyのHSDと呼ばれる閾値を用います。閾値は有意水準 alpha とグループ数 k、データの分散を表す MSE に依存します。等分散・同じサンプルサイズのときは次の式で閾値を求めます。HSD = q_{alpha, k, df_W} × sqrt(MSE / n)。

不均一なサンプルサイズがある場合には Tukey-Kramer 拡張を使い、標準誤差は sqrt(MSE × (1/2) × (1/n_i + 1/n_j)) となります。結論として、各ペアの差の絶対値がこの閾値を超えるかどうかで有意かを判定します。

実践の手順

手順	説明
1. ANOVAを実施	まず全体で差があるかを確認します。p値が小さければ「差あり」と判断します。
2. tukey検定を適用	全ペアの比較を実施し、補正後のp値を求めます。これにより複数比較の誤検出を抑えます。
3. 結果の解釈	有意と出たペアを列挙します。差の方向や大きさもあわせて読み解きます。
4. 報告	図表とともに、どのグループ間で差があるかを明確に報告します。

例と解釈のポイント

4つのグループA,B,C,Dを比較する場合を想定します。各グループのサンプル数は同じとし、平均値は A=5.1,B=4.8,C=6.0,D=5.7、分散は同程度とします。ANOVAで全体差があると判断され、tukey検定を実施すると次のような結果になることがあります。

比較	差の絶対値	有意か
A vs B	0.3	有意でない
A vs C	0.9	有意
A vs D	0.6	有意でない
B vs C	1.2	有意
B vs D	0.9	有意
C vs D	0.3	有意でない

注意点とよくある誤解

・サンプルサイズが小さい場合は検出力が下がります。コントロール可能な誤検出の範囲はalphaと母集団分散に依存します。
・有意でない差は「差がゼロ」と同義ではありません。検出力不足やデータのばらつきの影響で非有意になることがあります。

実装のヒント（R/Pythonなど）

Rでは aov 関数で分散分析を実施し、TukeyHSD で Tukey検定を適用します。例: model <- aov(y ~ group, data = df); summary(model); TukeyHSD(model). これによりペアごとの差と補正済みp値が表示されます。

Pythonでは statsmodels を用いて pairwise_tukeyhsd を実行します。例: from statsmodels.stats.multicomp import pairwise_tukeyhsd; result = pairwise_tukeyhsd(endog=df['y'], groups=df['group'], alpha=0.05); print(result.summary())。この出力で有意なペアとp値がわかります。

よくある質問

Q: tukey検定はいつ使えばよい？
A: ANOVA で全体差があるときに、どの組み合わせが差を生んでいるかを知りたい場合に使います。

Q: 不等分散や正規性が崩れる場合は？
A: これらの前提が大きく崩れると結果の信頼性が落ちます。別の方法やデータの変換を検討しましょう。

tukey検定の同意語

tukey検定: 英語表記 Tukey test の日本語表記。ANOVA 後の事後検定の代表的な方法の一つで、複数グループの平均値の差を同時に検定します。全体の分散を前提として、ペア間の差が有意かを判定します。補正として HSD（Honest Significant Difference）を用いることが多いです。
Tukey検定: 同じく Tukey test の日本語表記。ANOVA の後の多重比較検定として、グループ間の平均差を一括で評価します。
Tukeyの検定: Tukey によって考案された多重比較検定の総称。複数グループ間の平均差を検定する事後検定の一つです。
TukeyのHSD検定: Tukey 検定のうち、HSD（Honest Significant Difference）指標を用いた代表的な事後検定。全グループ間の平均差を補正して有意性を判定します。
Tukey HSD検定: 英語表記のままの名称。Tukeyの Honestly Significant Difference 検定を指します。
TukeyのHonestly Significant Difference検定: 正式名称を日本語にした表現。Tukeyの HSD 検定の完全な名称で、グループ間の平均差を全体の分散で補正して検定します。
Tukey's HSD test: 英語表記。Tukey's Honestly Significant Difference test の略称。ANOVA 後の多重比較検定の代表例です。
Tukey's test: 英語表記。一般には Tukey 検定全般を指すことが多く、HSD を含む複数の Tukey 法を含む総称として用いられることがあります。
Tukeyの多重比較検定: Tukey 法を用いる多重比較検定の総称。複数グループ間の平均差を一度に検定します。

tukey検定の対義語・反対語

事後比較なし: Tukey検定は事後の多重比較検定ですが、これを行わない方針を指します。
ANOVAのF検定のみ: Tukey検定の前提となる全体の差を検出するANOVAのF検定のみを実施することを意味します。
非事後的検定: 事後検定（post hoc）としての性質を使わず、前提検定や別の非事後的検定を用いる考え方を指します。
非パラメトリック検定: Tukey検定はパラメトリック検定です。非パラメトリックな代替手法を用いることを対極とします。
全ペア比較を行わない: Tukey検定は全てのペアを比較しますが、それを行わない方針を指します。
特定の二群間のみの比較を行う: 全ペアではなく、特定の2群間の比較のみを行う方針を示します。
事前検定（前検定）: Tukey検定の対概念として、事前（前）に別の検定を行う考え方を示します。

tukey検定の共起語

ANOVA: 分散分析。3つ以上の群の平均値の差が偶然かどうかを検定する基礎手法。
多重比較: 3つ以上の群を同時に比較する検定群。
事後検定: ANOVAで有意差が出た場合に、どの群の間に差があるかを特定する検定。
HSD: Honest Significant Differenceの略。Tukey検定で使われる、群間差が有意かを判断する閾値。
Tukey-Kramer法: 不均衡サンプルサイズでも適用できるTukey検定の拡張版。
ペアワイズ比較: 全組み合わせペアの比較。
家族内誤差率: Family-wise error rate。複数比較全体で1つでも偽陽性を抑える考え方。
FWER: Family-wise error rateの略。
F統計量: ANOVAで使われる統計量。群間変動と群内変動の比を表す。
帰無仮説: すべての母平均は等しい、という仮説。
効果量 η²: 効果の大きさを示す指標。総変動の中で要因が占める割合を表す。
正規性: 残差が正規分布に従うという前提。
等分散性: 各群の分散がほぼ等しいという前提。
信頼区間: 差の推定値の不確実性を区間で示す。
自由度: 分子・分母の自由度。検定の基礎となるパラメータ。
Rの TukeyHSD: R言語の TukeyHSD 関数。Tukey検定の実装の一例。
pairwise_tukeyhsd: Python Statsmodels の関数名。ペアワイズ Tukey 検定を実行する。
データ前処理: 検定前のデータ準備。欠損値処理・正規性・等分散性チェックなど。

tukey検定の関連用語

Tukey検定: ANOVAで全体に差があると分かった後、どの組み合わせ同士が有意に異なるかを、家族誤差率を抑えつつ全ての組み合わせで同時に検証する代表的な事後比較法です。
TukeyのHSD検定: Tukey検定の正式名称のひとつ。Honestly Significant Difference（正直に意味のある差）を基準に、組間の差がこの閾値を超えるかどうかで有意差を判定します。
Tukey-Kramer法: 群のサンプルサイズが異なる場合にも対応できる拡張版の Tukey 検定。臨界値の補正を行い、全体の誤検出を抑えます。
一元配置分散分析: 1つの要因が3群以上ある場合の平均値を比較する基本的な方法。ANOVAの前提として正規性と等分散性が求められます。
ANOVA: 分析対象となるデータの総合的な分散を、要因間の差と要因内の差に分けて検定する統計手法。F検定を用いて全体の差の有意性を判断します。
多重比較: 複数の組の組み合わせを同時に比較する手法の総称。Tukey検定のほか、Bonferroni法やScheffé法などがあります。
家族誤差率: 同時に行う複数の検定で生じる第一種の誤差を、全体として制御する考え方。
F検定: ANOVAで使われる検定統計量。群間の変化と群内の変化を比較し、差が偶然かどうかを判断します。
q分布: Studentized range分布のことで、Tukey検定の臨界値を決める際に用いる分布です。
自由度: データが自由に動ける度合いの指標。Between df、Within df など、検定計算に必要な値として使われます。
不偏分散 (Mean Square, MS): 分散の平均値のこと。ANOVAではMSE（群内平方和の平均）として使用されます。
等分散性: 各群の分散が同じであるという前提。Tukey検定を正しく解釈するうえで重要です。
Levene検定: 等分散性を検定する代表的な方法のひとつ。群間で分散が等しいかを判定します。
正規性検定 (Shapiro-Wilk等): 残差が正規分布に従うかを検定します。ANOVAやTukey検定の前提の確認に使います。
標準誤差 (差のSE): 2つの群の平均差のばらつきを表す指標。HSDの計算にも使われます。
信頼区間 (95%CI) for 差の平均: 推定された平均差の不確実性を示す区間。実務的な解釈に役立ちます。
効果量: 差の大きさを定量的に表す指標。実務的意味を判断する際に重要です。
η² (Eta-squared): 全体分散に対する要因が説明する割合を表す効果量。ANOVAでよく使われます。
ω² (Omega-squared): η²の偏り補正を行った効果量。より保守的な推定として用いられます。
Cohenのd: 2群の平均差を標準偏差で割った効果量。対照群と処置群などの差の大きさを示します。
実装 (R: TukeyHSD): R言語の TukeyHSD 関数を用いて、ANOVAの結果から事後比較を実行します。
実装 (Python: pairwise_tukeyhsd): Pythonの statsmodels にある pairwise_tukeyhsd を使い、ペアごとの有意差とp値を出力します。
データ前処理: 欠損値の処理、外れ値の扱い、前提条件の検証など、分析前の準備をします。
前提条件の確認: 独立性・正規性・等分散性など、検定の前提を満たしているかを確認します。
不等サンプルサイズへの対応: サンプル数が群ごとに異なる場合は Tukey-Kramer 法を適用します。
解釈のコツ: 有意差だけでなく効果量や信頼区間を重視し、実務上の意味を考慮して解釈します。