

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
boxplotとは?
boxplot はデータを整理し、ばらつきを一目で把握するための図です。日本語では「箱ひげ図」と呼ばれ、データの分布を五つの値と呼ばれる要素で表します。箱ひげ図はデータの中心傾向とばらつきを同時に示すので、平均だけを見て判断するよりもデータの特徴をつかみやすいのが特徴です。箱ひげ図の箱の幅はデータのばらつきを、箱の中の線は中央値を、箱の上下から伸びるひげはデータの範囲を示します。外れ値がある場合は箱ひげ図の外側に点として表示されることが多く、外れ値とはデータの中で他の値から大きく離れている値のことです。
箱ひげ図の部品
基本は箱とひげです。箱は第1四分位数Q1と第3四分位数Q3の範囲を表し、その中に中央値を示す線があります。箱の中央にある線は中央値と呼ばれ、データを半分に分ける値です。箱の上下から伸びるひげはデータの範囲を表示します。ひげの先端はしばしば最小値と最大値を指しますが、外れ値の扱い方によっては別の定義が使われます。
箱の内側にある線はデータの中で最も典型的な値を示し、外れ値は箱ひげ図の外側に点として表示されることが多いです。外れ値とはデータの中で他の値から大きく外れている値のことで、1.5×IQR(四分位範囲)を超える値を外れ値とみなす定義がよく使われます。
読み方のコツ
箱の長さ=データのばらつきの大きさを示します。箱が長いほどばらつきが大きく、短いほどばらつきが小さいです。中央値の位置はデータの偏りを示し、箱が右(上側)に寄っていれば右寄り、左(下側)に寄っていれば左寄りと考えます。複数の箱を並べて表示する場合、中央値の差と箱の幅を同時に比較すると、どのグループがどのように分布しているかが一目でわかります。
| 部品 | 説明 |
|---|---|
| 最小値 | ひげの端のうちデータの中で最小の値の一つ |
| Q1 | データの下位25%がこの値以下になる境界 |
| 中央値 | データを半分に分ける値 |
| Q3 | データの上位25%がこの値以下になる境界 |
| 最大値 | ひげのもう一端の値 |
| ひげ | 箱の端からデータの範囲を示す線 |
| 外れ値 | 箱ひげの範囲を超える値。散布して点として描かれることが多い |
実務での使い方は簡単です。データのグループ間で箱ひげ図を並べて表示し、ばらつきの比較や中央値の差を見比べます。グループAの箱が箱Bより右に位置していれば中央値がAの方が大きいことがわかります。外れ値が多いグループはデータの特徴が不安定な可能性を示唆します。
boxplot を作るときの手順の概要は以下のとおりです。データを収集し、各グループごとにQ1, 中央値, Q3, 最小値, 最大値を計算します。次に箱を描き、箱の上下にひげを描画します。外れ値がある場合は箱の外側に点として表示します。最後に複数グループを並べて比較できるよう整列します。これを繰り返し練習すると、データを直感的に読み解く力が身についていきます。
ツールについても触いておくと、箱ひげ図はExcelやGoogleスプレッドシート、Pythonのmatplotlibやseaborn、Rのggplot2など、多くの統計ソフトで簡単に作成できます。使い方はツールごとに異なりますが、基本的な考え方は同じです。データを選択し、箱ひげ図のオプションを選んで生成するだけで、すぐに視覚化が完成します。
この図はデータ分析の入口としてとても有用です。特に複数のグループを比較するとき、箱ひげ図は分布の形と中心傾向を同時に伝える力があります。正規分布かどうかを判断するには別の図表や統計検定が必要ですが、箱ひげ図だけでもデータのばらつき方や偏りの方向を直感的に把握できる点が魅力です。
boxplotの同意語
- 箱ひげ図
- データの分布を箱とひげで表す統計グラフ。中央の箱は第1四分位数(Q1)から第3四分位数(Q3)までを示し、中の横線は中央値を示します。ひげはデータの最小値・最大値(または外れ値の閾値)を示し、外れ値は点として表示されることがあります。
- 箱線図
- 箱ひげ図と同じ意味の表現。データの要約を箱とひげで表す統計図です。
- ボックスプロット
- 英語の box plot の日本語表現。箱の範囲とひげを使ってデータの分布を視覚化します。
- ボックス図
- ボックスプロットの別表現として使われることがある、日本語の略式表現。データの要約を示します。
- 箱型図
- 箱の形を用いてデータの分布を要約する図。箱ひげ図と意味は同じです。
- 四分位箱ひげ図
- 四分位数を用いた箱ひげ図という意味の別称。第1四分位・中央値・第3四分位、ひげで最小・最大を表示します。
boxplotの対義語・反対語
- 散布図(スキャッタープロット)
- データの各点をそのままプロットし、箱ひげ図のような要約情報(中央値・四分位・外れ値など)は表示されません。個々のデータ点を観察するのに向いています。
- ヒストグラム
- データの分布を階級ごとの頻度で表すグラフ。箱ひげ図が示す要約情報とは異なり、分布の形を直感的に見るのに適しています。
- 平均と誤差棒付き棒グラフ
- 平均値と変動を強調するグラフで、箱ひげ図の中央値・四分位の代わりに平均値と誤差(標準誤差/信頼区間)を示します。
- ラインチャート(折れ線グラフ)
- 時系列データの推移を表す図。箱ひげ図は分布の要約に重点を置くのに対し、ラインチャートは変化の連続性を可視化します。
- KDEプロット(カーネル密度推定)
- データ分布の滑らかな形状を推定して表示します。箱ひげ図のような要約情報とは異なり、分布の連続的な形を直感的に捉えられます。
boxplotの共起語
- 箱ひげ図
- データの分布を視覚的に表す基本的なグラフです。箱は第1四分位数(Q1)から第3四分位数(Q3)までを示し、箱の中央の線が中央値、ひげがデータの範囲を表します。
- 箱
- 箱はデータの中間50%の範囲(四分位範囲)を表します。
- ひげ
- ひげは箱の上下に伸びる線で、データの端までの範囲を示します。外れ値の有無や長さにも影響します。
- 中央値
- データを小さい順に並べたときの中央の値。箱の内部にある横線で示され、データの中心傾向を読む指標です。
- 第1四分位数
- データを小さい順に並べたときの下位25%点。箱の下端に対応します。
- 第3四分位数
- データを小さい順に並べたときの上位75%点。箱の上端に対応します。
- 四分位範囲
- Q3−Q1の範囲。データの中間50%のばらつきを表す指標です。
- IQR
- 四分位範囲の英語略語。箱ひげ図で用いられる代表的なばらつき指標です。
- 外れ値
- 他のデータ点と比べて極端に大きいまたは小さい値。箱ひげ図では通常点として表示されます。
- データ分布
- データ全体の値の広がり方・形。箱ひげ図で視覚的に把握できます。
- 歪み
- 分布の左右どちらかに偏っている程度。箱ひげ図の非対称性で判断できます。
- 正規分布
- 左右対称で鐘形の分布。箱ひげ図は正規分布の場合、左右対称になりやすいです。
- 非正規分布
- 正規分布でない分布。右または左に尾を引く形など、箱ひげ図で歪みが顕著になります。
- 1.5倍IQRの閾値
- 外れ値を判定する標準的な閾値。Q1−1.5×IQR または Q3+1.5×IQR の外側の点が外れ値とみなされます。
- Tukeyの方法
- ジョン・Tukeyが提案した外れ値判定の規則。1.5×IQRを用いる点が特徴です。
- 要約統計量
- 箱ひげ図は平均・分散よりも要約統計量として四分位数を用いてデータの要約を提供します。
- グループ別箱ひげ図
- カテゴリ別に箱を並べて、グループ間の分布を比較するための箱ひげ図のバリエーションです。
- カテゴリ別箱ひげ図
- カテゴリごとに箱を並べる表現。比較を促進します。
- 複数グループ比較
- 複数のグループデータを同時に比較する際に使います。
- 描画ライブラリ
- 箱ひげ図は各種ソフトウェアの描画ライブラリで作成できます。
- R
- 統計言語のRでは箱ひげ図作成にboxplot関数やggplot2が使われます。
- ggplot2
- R用の高度な描画パッケージ。箱ひげ図を美しく描くのに広く使われます。
- Python
- 機械学習・データ分析で使われるPythonでもboxplotを作成できます。
- matplotlib
- Pythonの基本描画ライブラリ。boxplot機能を搭載しています。
- seaborn
- Pythonの視覚化ライブラリで、箱ひげ図を簡単に描けます。
- 箱ひげ図の読み方
- 箱の高さ・幅・ひげの長さ、外れ値の位置からデータの特徴を読み解く方法です。
- 外れ値の影響
- 外れ値は箱の形状やひげの長さに影響を与えるため、解釈時には注意が必要です。
boxplotの関連用語
- 箱ひげ図
- データの分布を箱とひげで表す統計的可視化。箱は第一四分位数と第三四分位数を示し、中央値が箱の中に表示されることが多い。ひげは非外れ値の範囲を示し、外れ値は点として表示されることがある。
- 五数要約
- データの要約指標で、最小値・第一四分位数(Q1)・中央値(Q2)・第三四分位数(Q3)・最大値の五つを並べて分布の概要を把握する。箱ひげ図の基礎となる。
- 最小値
- データセットで最も小さな値。
- 第一四分位数 (Q1)
- データを小さい方から25%の位置にある値。箱の下端を構成する。
- 中央値 (中央値, Q2)
- データを半分に分ける中央の値。箱の中央に示されることが多い。
- 第三四分位数 (Q3)
- データを小さい方から75%の位置にある値。箱の上端を構成する。
- 最大値
- データセットで最大の値。
- ひげ
- 箱の両端から非外れ値の範囲まで伸びる直線。外れ値はこの範囲の外に点として表示されることが多い。
- 四分位範囲 (IQR)
- Q3 - Q1。データの中央50%の広がりを示す頑健な指標。
- 外れ値
- 箱ひげ図のひげの外側に位置するデータ点。極端に小さいまたは大きい値。
- 1.5×IQR法
- ひげの長さを決める標準的なルール。IQRの1.5倍を超える値を外れ値と判断することが多い。
- ノッチ付き箱ひげ図
- 中央値の信頼区間を可視化するノッチを含む箱ひげ図。サンプルサイズが大きいほどノッチが狭くなる。
- ノッチ
- 中央値の周囲に作られたくぼみ状の表示。ノッチの幅は通常 1.58 × IQR / √n などの式で決まる(実装環境により微差あり)。
- フェンス (境界値)
- 外れ値を判断する閾値。Lower FenceとUpper Fenceで定義され、通常は 1.5×IQR を使って決めることが多い。
- グループ別箱ひげ図
- カテゴリ別に箱ひげ図を並べて、複数グループの分布を比較する手法。グラフ化によってグループ間の差異を直感的に把握できる。
- 箱とひげの図 (box-and-whisker plot)
- 箱ひげ図の別名。英語圏での一般的な呼称。
- 分布の読み方のヒント
- 箱の幅・箱の位置・ひげの長さ・外れ値の有無を総合してデータ分布の特性を読み解くコツ。
- 対称性と歪度
- 箱ひげ図から分布の左右対称性(歪度)を直感的に判断できる指標。左に長い/右に長い傾向を読み取る。
- 尖度
- 分布の峰の鋭さを示す統計量。箱ひげ図だけでは十分ではないが、分布の特性を補足的に理解する手がかりになる。



















