qqplotとは?データの分布を視覚で読み解く基本ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
qqplotとは?データの分布を視覚で読み解く基本ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


qqplotとは何かを知ろう

「qqplot」とは、統計学で使われる図のことで、データがある分布に従っているかを視覚的に確認する方法です。理論的な分位数観測された分位数を並べ、点が一直線に近いほどデータはその分布に近いと判断します。

なぜ qqplot が役に立つのか

正規分布などの仮定を使う統計手法では、データが仮定した分布に従うことが前提になる場合があります。qqplotを使うと、外れ値や歪み、尾の重さの違いを直感的に捉えられます。

基本の考え方

観測データを並べ替えて 観測分位数を求め、仮定した分布の 理論分位数を対応させて点をプロットします。理論分布を正規分布にすることが多く、直線に近いほど正規性が高いと判断します。

作成の流れ(手元のデータを例に)

1) データを昇順に並べます。 2) 各データに i/(n+1) を使って分位を求め、理論分位数を決めます。 3) グラフを描き、点の並びを観察します。

実務では、プログラミング言語の関数を使って qqplot を作成します。例としてRの qqplot、Pythonの statsmodels.qqplot などがあり、「正規性の検定の前段階」として活躍します。

図の読み方のコツ

・点がほぼ一直線なら正規分布に近い

・上部が曲がれば「尾が重い」か「左側が長い」などの偏りを示す。

・外れ値は点が線から離れて飛び出すことが多い。

簡単な表で理解を深める

<th>理論分位数
観測分位数
-1.0-0.9
-0.5-0.6
0.00.1
0.50.4
1.01.2

この表は読み方の感覚を掴むための一例です。実際にはデータの数が多くなり、点の分布として qqplot が描かれます。ポイントは「点が直線に近いか」を確かめることです。

注意点

qqplot は「仮定を確認する道具」であり、絶対的な証拠を示すものではありません。外れ値の扱い、サンプルサイズ、分布の型などによって読み方が変わることを覚えておきましょう。

実務上の実例のイメージ

データが正規分布に近い場合、点はほぼ一直線に並ぶことが多いです。サンプルサイズと分布の形が結果を大きく左右します。大きなデータでは微妙なずれにも敏感になることがあります。

結論

qqplotは、データがどの分布に近いかを視覚的に知らせてくれる強力な道具です。初心者にも扱いやすく、データサイエンスの入口としておすすめします。

まとめ

qqplotは、分布の形と仮定の妥当性を視覚的に評価する基本ツールです。正規性の確認を始めとするデータ分析の第一歩として覚えておくと良いでしょう


qqplotの同意語

QQプロット
quantile-quantile plot の略。データの分位数と理論分布の分位数を対応づけて並べ、分布の適合度を視覚的に評価するグラフ。
Q-Qプロット
QQプロットと同義表記。データの分位数と理論分布の分位数を比較する図。
QQ図
QQplot の日本語表記の略。データの経験分位数と理論分位数を比較する図。
分位数-分位数プロット
quantile-quantile plot の直訳表現。データの分位数を理論分位数と対応させて描く図。
分位点対分位点プロット
同義表現。分位点を対として描くプロット。
分位数-分位数の比較図
データ分布と理論分布の適合を、分位数の比較で評価する図。
理論分布比較QQプロット
特定の理論分布との適合をQQプロットで検証する図。
分位数の対比グラフ
経験分位数と理論分位数を対比させて示す図。

qqplotの対義語・反対語

PPプロット
データの経験分布関数と理論分布の累積確率を比較する図。横軸・縦軸には確率を取り、点が対角線に近いほどデータが理論分布に適合していることを示します。qqplotの対義的な視点として用いられます。
確率紙
PPプロットの別名。確率を紙の座標として描く伝統的な名称で、分布適合を視覚化する手法です。
CDFプロット
累積分布関数(CDF)を軸にして、経験CDFと理論CDFを比較する図。データが理論分布にどれだけ合うかを視覚的に判断します。
Kolmogorov-Smirnov検定
データが特定の分布に従うかを検定する統計手法。QQ/PPプロットの代替として使われることがあり、p値で結論を出します。
Anderson-Darling検定
尾部の適合度に敏感な分布適合度の検定。視覚的なQQ/PPプロットと併用されることがあります。
正規性検定
データが正規分布に従うかを判断する検定群。Shapiro-Wilkや Kolmogorov-Smirnov などを含み、グラフだけでは判断しづらい場合に用います。
ヒストグラムと理論分布の重ね描き
データのヒストグラムに対し、同じ分布の理論密度を重ねて表示する方法。分布の形状と適合を直感的に評価できます。

qqplotの共起語

Q-Qプロット
データの分位点と理論分布の分位点を比較する視覚的手法。正規性の判断にも使われる。
正規性
データが正規分布に従うかを視覚的に判断する際の一つの評価軸。
正規分布
平均と分散で定まる基本的な連続分布。QQプロットの理論分布としてよく用いられる。
理論分位点
理論分布に基づく分位点。QQプロットの横軸/縦軸で比較対象となる値。
サンプル分位点
データの観測分布に基づく分位点。QQプロットのデータ点として並ぶ。
理論分布
比較対象となる分布。正規分布以外にもt分布やカイ二乗分布などが使われる。
サンプル分布
観測データの実分布。
外れ値
他のデータ点と大きく異なる観測値。QQプロット上で目立つことがある。
直線/補助直線
理論分位点とサンプル分位点が近く直線状に並ぶことを示す目印。qqlineで描くことが多い。
qqline
Rの関数。QQプロットに理論分位点に基づく直線を追加する。
qqnorm
Rの関数。正規分布のQQプロットを作成する
R
統計解析に用いられる主要なプログラミング言語
statsパッケージ
Rの基本統計機能を提供するパッケージ。
graphicsパッケージ
Rのグラフィックス機能を提供するパッケージ。
carパッケージ
Rの補助パッケージ。qqPlotなどの機能を提供。
ggplot2
Rの高度なグラフィックスパッケージ。QQプロットを作成することができる。
geom_qq
ggplot2でQQプロットを描くための関数。
stat_qq
ggplot2でのQQプロット用統計変換。
probplot
SciPyの関数。QQプロットを含む確率プロットを作成する。
P-Pプロット
Probability-Probabilityプロット。QQプロットと同様に分布の比較に用いられる。
分位点
データの位置情報を表す指標。QQプロットの軸となる。
標準正規分布
平均0、分散1の正規分布。QQプロットの標準理論としてよく使われる。
データの分布の比較
観測データと理論分布の適合度を視覚的に評価する目的。
視覚的判断
統計的検定とは別に、グラフの見た目で分布の適合を判断する。
サンプルサイズの影響
サンプルサイズが小さいとQQプロットの解釈が難しくなることがある。

qqplotの関連用語

QQプロット
データの分位点を理論分位点と比較して、観測データが特定の分布に従うかを評価するグラフ。点が直線に近いほど、データは理論分布に近いと判断できる。
分位点
データセットの中で、ある割合に対応する値。例: 50%分位点は中央値。
理論分位点
参照分布(正規分布など)の各分位点の値。QQプロットで用いられる基準となる値。
経験分位点
データの実測値から求められる分位点。QQプロットで横軸と縦軸に使われることが多い。
正規分布
平均と分散で決まる、左右対称で裾が長すぎない代表的な分布。QQプロットのよくある参照分布。
参照分布
QQプロットで比較対象とする分布の総称。正規分布のほか、t分布、指数分布、カイ二乗分布などがある。
直線性
QQプロットで点がほぼ直線に並ぶと、データが参照分布に近いことを示す指標。
尾部の挙動
末尾のデータの広がり方。尾部が重い/薄いと、尾の挙動が参照分布と異なることを示す。
分布の対比
異なる分布とデータをQQプロットで比較して、形状や尾部の特徴を把握する方法。
サンプルサイズ
データ点の数。大きいほどQQプロットの解釈が安定し、尾部の差も検出しやすい。
P-Pプロット
確率値を用いた分布比較グラフ。QQプロットとは異なる視点で分布を評価する。
分位点-分位点図
分位点をx軸とy軸に取る表現の別名。QQプロットの日本語訳として使われることもある。
正規性検定との関係
QQプロットは正規性の視覚的評価手段のひとつで、Shapiro-Wilk検定などの統計検定と併用されることが多い。
Shapiro-Wilk検定
正規性を検定する代表的な統計検定。QQプロットと併用して判断材料を得ることが多い。
Anderson-Darling検定
正規性を検定する別の統計検定。QQプロットと組み合わせて評価する場面がある。
統計ソフト/ライブラリ名称
Rのqqnorm/qqplot、Pythonのstatsmodels.graphics.gofplots.qqplotや scipy.stats.probplot、Matlabのqqplotなど、ツールごとに呼び方と機能が異なる。
解釈のポイント
直線からの逸脱のパターン(上方/下方のずれ、曲がり方)を読み解くことで、正規性や尾部挙動、分布の特徴を判断する。
用途
データの正規性の検証、分布形状の理解、外れ値の検出、データ前処理やモデル選択のサポートなどに活用する。

qqplotのおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
2047viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
800viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
692viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
670viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
558viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
551viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
545viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
503viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
470viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
454viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
433viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
429viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
421viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
408viws
大辞林とは?初心者にもわかる日本語辞典の使い方と特徴共起語・同意語・対義語も併せて解説!
373viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
363viws
3/4・とは?分数の基本を分かりやすく解く完全ガイド共起語・同意語・対義語も併せて解説!
361viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
360viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
359viws
endnoteとは?研究ノートを整理する基本ツールの解説共起語・同意語・対義語も併せて解説!
356viws

新着記事

学問の関連記事