

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
dropnaとは?
データ分析を始めると欠損データに出会います。欠損は「データが欠乏している状態」を指し、分析の結果を歪める原因にもなります。dropnaは pandas という Python のライブラリにあるデータの欠損値を取り除く機能です。DataFrame や Series の中の NaN や None を含む行や列を削除します。
使い方の基本
基本形は DataFrame.dropna() です。新しいデータを返すデフォルト設定では axis=0(行を削除)です。また how='any' は「欠損値が1つでもある行を削除」、how='all' は「全て欠損のときのみ削除」を指します。どの列を対象にするかは subset 引数で指定します。inplace=False がデフォルトで、これを True にするとその場で上書きします。
具体例を見てみましょう。<span>df.dropna() は欠損を含む行を削除した新しい DataFrame を返します。欠損を列ごとに判定したい場合は df.dropna(axis=1, how='any') を使います。特定の列だけを対象にするには subset=['列A','列B'] を指定します。元のデータを変更したいときは df.dropna(..., inplace=True) を使います。
| パラメータ | 意味 |
|---|---|
| axis | 0 は行を削除、1 は列を削除 |
| how | 'any' は欠損値を1つでも含む要素を削除、'all' は全て欠損のときに削除 |
| thresh | 欠損以外の非欠損値が閾値以上ある行/列を残す |
| subset | 対象とする列のリストを指定 |
| inplace | True なら元データを直接変更 |
注意点
欠損データは NaN や None で表されます。dropna は欠損データだけを削除する機能です。他の数値や文字列はそのまま残ります。データ量が多い場合は処理コストが高くなることもあるので、必要な範囲だけを対象にするのがコツです。データの前処理として欠損の扱いは分析の結果に影響を与えるので、削除する前にデータの意味を考えましょう。
まとめ
dropna は欠損データを扱う基本ツールの一つ。使い方を覚え、適切なパラメータを選ぶことで、分析の精度と再現性を高められます。
dropnaの同意語
- 欠損値を除外する
- データセットから欠損値を含む行や列を取り除く操作で、分析対象を欠損値なしにすること。dropna の代表的な意味と同義です。
- 欠損値を削除する
- 欠損値をデータから物理的に除去する処理。欠損を含むデータを分析対象から外す意図を指します。
- NaNを除去する
- NaN(欠損値)をデータセットから取り除く操作のこと。
- NaNを削除する
- データ内の NaN 値を取り除く処理を指します。
- 欠損データを除去する
- 欠損データをデータセットから取り除くことを意味します。
- 欠損データを削除する
- 欠損データを削除して、分析に影響を与えないデータに整える行為です。
- NAを除去する
- NA(欠損値の表記)をデータから取り除く操作を指します(主に R 系の表現)。
- Nullを除去する
- Null 値をデータから取り除く処理を表します。
- 欠測データを除外する
- 欠測しているデータを分析対象から外す操作を意味します。
- 欠測データを削除する
- 欠測データをデータセットから削除する行為です。
- 欠損値を取り除く
- 欠損値をデータから取り除く、一般的な表現です。
- 欠損値をフィルタリングする
- 欠損値を含むデータを条件で除外する、選別する意味合いで使われます。
- 欠損値をクレンジングする
- 欠損値を清掃してデータの品質を高める作業の一部として使われる表現です。
- 欠損値を排除する
- 欠損値を取り除くことを意味する表現で、dropna の直訳的な言い換えです。
- 欠損データを排除する
- 欠損データをデータセットから除外する行為を指します。
dropnaの対義語・反対語
- fillna
- 欠損値を指定した値や平均・中央値などで埋め、データセットの欠損を埋める処理
- impute
- 欠損値を推定値で埋める補完処理(外部データやモデルを使うことが多い)
- interpolate
- 欠損値を周囲のデータから連続的に推定して埋める補間処理
- ffill
- 欠損値を直前の有効値で埋める前方埋め
- bfill
- 欠損値を直後の有効値で埋める後方埋め
- replace_na
- 欠損値を特定の値で置換して扱う処理
- keepna
- 欠損値をそのまま保持する方針の処理
- preserve_na
- 欠損値を削除せず維持する扱い
- fill_with_constant
- 欠損値を任意の定数で埋める具体的な方法
- imputation_model
- 機械学習や統計モデルを用いて欠損値を推定して補完する高度な手法
dropnaの共起語
- pandas
- Python のデータ分析ライブラリ。DataFrame や Series を扱う基盤ツールです。
- DataFrame
- 表形式のデータを格納する pandas のデータ構造。行と列でデータを管理します。
- Series
- データの1列を表す pandas のデータ構造。インデックスと値を持ちます。
- NaN
- 欠損値を表す特殊な値。数値データでよく使われます。
- 欠損値
- データに欠けている値のこと。NaN や None のような値を指します。
- missing_values
- 欠損値の英語表現。データクリーニングの対象となる値です。
- isna
- 欠損値を検出する pandas の関数。欠損値かどうかを True/False で返します。
- notna
- 欠損値でない値を検出する関数。欠損でない要素を True/False で返します。
- axis
- 欠損値を削除する対象の方向を指定するパラメータ。0 は行、1 は列を表します。
- how
- 欠損値を削除する条件を指定するパラメータ。'any' は1つでも欠損がある行/列を削除、'all' は全て欠損の行/列を削除します。
- thresh
- 指定した非欠損値の数以上を満たさない行/列を削除する条件。閾値の設定です。
- subset
- 欠損判定の対象とする列を限定するためのパラメータ。複数列を指定できます。
- inplace
- 元のデータを直接変更するかどうかを指定します。True でその場で更新、False だと新しいオブジェクトを返します。
- fillna
- 欠損値を特定の値で埋める pandas の関数。dropna とは欠損値を除去するのと反対の処理です。
- 行
- 削除の対象となるデータの行。axis=0 の場合、行が削除対象に。
- 列
- 削除の対象となるデータの列。axis=1 の場合、列が削除対象に。
- data_cleaning
- データを分析可能な状態に整える作業。欠損値処理はデータクリーニングの一部です。
- preprocessing
- データ分析の前処理。データの欠損値処理、型変換、正規化などを含みます。
- Python
- データ分析やプログラミングの基本言語。Pandas も Python のライブラリです。
- null
- 欠損値を表す別名。NaN と同様に欠如を示します。
dropnaの関連用語
- dropna
- 欠損値を含む行または列を取り除く Pandas のメソッド。axis で対象軸、how で欠損の条件 ('any' または 'all')、thresh で非欠損値の閾値、subset で対象列を絞る、inplace で元データを直接更新するかを指定できる。
- NaN
- Not a Number の略。浮動小数点データの欠損値として使われる特別な値。
- NaT
- Not a Time の略。日時/時系列データの欠損値を表す特別な値。
- isna
- 欠損値かどうかを判定してブール値のマスクを返す関数(isnull の別名)。
- isnull
- isna の別名。欠損値かどうかを判定する機能。
- notna
- 欠損値でないかを判定する関数(notnull の別名)。
- notnull
- notna の別名。欠損値ではない値を判定する。
- fillna
- 欠損値を指定した値や方法で埋めるメソッド。value で値を、method で 'ffill'(前方埋め)や 'bfill'(後方埋め)を指定。inplace や limit などのオプションもある。
- interpolate
- 欠損値を周囲のデータから推定して埋める方法。線形補間や時系列補間など method を選択できる。
- imputation
- 欠損値を推定して埋める処理の総称。平均・中央値・回帰補完・k 近傍補完などの戦略がある。
- missing_values
- データセット内の欠損値の総称。NaN、None、NaT などが含まれる。
- drop
- データから行や列を削除する一般的な操作。dropna 以外にも条件に応じて使用される。
- thresh
- 欠損値の数が一定以上になる場合を除外または維持する閾値。dropna での非欠損値の最小数を指定するのに使われる。
- subset
- 欠損値の判定を行う対象列を限定する設定。複数列を指定して部分的に欠損を評価できる。
- axis
- データの方向を示す指標。0 は行方向、1 は列方向。
- how
- 欠損値の条件を決める設定。'any' は対象に欠損が1つでもあれば該当、'all' は全て欠損で該当。
- inplace
- True の場合、元データをその場で更新(返り値はなし)、False の場合は変更後の新しいデータを返す。
- ffill
- forward fill の略。欠損を直前の値で埋める前方埋め。
- bfill
- backward fill の略。欠損を直後の値で埋める後方埋め。
- mean_fill
- 欠損値を列の平均値で埋める基本的な埋め方。
- median_fill
- 欠損値を列の中央値で埋める埋め方。
- mode_fill
- 欠損値を列の最頻値で埋める埋め方。
- data_cleaning
- データ分析前の前処理全般。欠損値処理、重複排除、型変換などを含む作業。
- pandas
- Python のデータ分析ライブラリ。dropna などの欠損値処理機能が実装されている。



















