dropnaとは?初心者向けデータの欠損をきちんと処理する基本ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
dropnaとは?初心者向けデータの欠損をきちんと処理する基本ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


dropnaとは?

データ分析を始めると欠損データに出会います。欠損は「データが欠乏している状態」を指し、分析の結果を歪める原因にもなります。dropnaは pandas という Python のライブラリにあるデータの欠損値を取り除く機能です。DataFrame や Series の中の NaN や None を含む行や列を削除します。

使い方の基本

基本形は DataFrame.dropna() です。新しいデータを返すデフォルト設定では axis=0(行を削除)です。また how='any' は「欠損値が1つでもある行を削除」、how='all' は「全て欠損のときのみ削除」を指します。どの列を対象にするかは subset 引数で指定します。inplace=False がデフォルトで、これを True にするとその場で上書きします。

具体例を見てみましょう。<span>df.dropna() は欠損を含む行を削除した新しい DataFrame を返します。欠損を列ごとに判定したい場合は df.dropna(axis=1, how='any') を使います。特定の列だけを対象にするには subset=['列A','列B'] を指定します。元のデータを変更したいときは df.dropna(..., inplace=True) を使います。

パラメータ意味
axis0 は行を削除、1 は列を削除
how'any' は欠損値を1つでも含む要素を削除、'all' は全て欠損のときに削除
thresh欠損以外の非欠損値が閾値以上ある行/列を残す
subset対象とする列のリストを指定
inplaceTrue なら元データを直接変更

注意点

欠損データは NaN や None で表されますdropna は欠損データだけを削除する機能です。他の数値や文字列はそのまま残ります。データ量が多い場合は処理コストが高くなることもあるので、必要な範囲だけを対象にするのがコツです。データの前処理として欠損の扱いは分析の結果に影響を与えるので、削除する前にデータの意味を考えましょう。

まとめ

dropna は欠損データを扱う基本ツールの一つ。使い方を覚え、適切なパラメータを選ぶことで、分析の精度と再現性を高められます。


dropnaの同意語

欠損値を除外する
データセットから欠損値を含む行や列を取り除く操作で、分析対象を欠損値なしにすること。dropna の代表的な意味と同義です。
欠損値を削除する
欠損値をデータから物理的に除去する処理。欠損を含むデータを分析対象から外す意図を指します。
NaNを除去する
NaN(欠損値)をデータセットから取り除く操作のこと。
NaNを削除する
データ内の NaN 値を取り除く処理を指します。
欠損データを除去する
欠損データをデータセットから取り除くことを意味します。
欠損データを削除する
欠損データを削除して、分析に影響を与えないデータに整える行為です。
NAを除去する
NA(欠損値の表記)をデータから取り除く操作を指します(主に R 系の表現)。
Nullを除去する
Null 値をデータから取り除く処理を表します。
欠測データを除外する
欠測しているデータを分析対象から外す操作を意味します。
欠測データを削除する
欠測データをデータセットから削除する行為です。
欠損値を取り除く
欠損値をデータから取り除く、一般的な表現です。
欠損値をフィルタリングする
欠損値を含むデータを条件で除外する、選別する意味合いで使われます。
欠損値をクレンジングする
欠損値を清掃してデータの品質を高める作業の一部として使われる表現です。
欠損値を排除する
欠損値を取り除くことを意味する表現で、dropna の直訳的な言い換えです。
欠損データを排除する
欠損データをデータセットから除外する行為を指します。

dropnaの対義語・反対語

fillna
欠損値を指定した値や平均・中央値などで埋め、データセットの欠損を埋める処理
impute
欠損値を推定値で埋める補完処理(外部データやモデルを使うことが多い)
interpolate
欠損値を周囲のデータから連続的に推定して埋める補間処理
ffill
欠損値を直前の有効値で埋める前方埋め
bfill
欠損値を直後の有効値で埋める後方埋め
replace_na
欠損値を特定の値で置換して扱う処理
keepna
欠損値をそのまま保持する方針の処理
preserve_na
欠損値を削除せず維持する扱い
fill_with_constant
欠損値を任意の定数で埋める具体的な方法
imputation_model
機械学習や統計モデルを用いて欠損値を推定して補完する高度な手法

dropnaの共起語

pandas
Python のデータ分析ライブラリ。DataFrame や Series を扱う基盤ツールです。
DataFrame
表形式のデータを格納する pandas のデータ構造。行と列でデータを管理します。
Series
データの1列を表す pandas のデータ構造。インデックスと値を持ちます。
NaN
欠損値を表す特殊な値。数値データでよく使われます。
欠損値
データに欠けている値のこと。NaN や None のような値を指します。
missing_values
欠損値の英語表現。データクリーニングの対象となる値です。
isna
欠損値を検出する pandas の関数。欠損値かどうかを True/False で返します。
notna
欠損値でない値を検出する関数。欠損でない要素を True/False で返します。
axis
欠損値を削除する対象の方向を指定するパラメータ。0 は行、1 は列を表します。
how
欠損値を削除する条件を指定するパラメータ。'any' は1つでも欠損がある行/列を削除、'all' は全て欠損の行/列を削除します。
thresh
指定した非欠損値の数以上を満たさない行/列を削除する条件。閾値の設定です。
subset
欠損判定の対象とする列を限定するためのパラメータ。複数列を指定できます。
inplace
元のデータを直接変更するかどうかを指定します。True でその場で更新、False だと新しいオブジェクトを返します。
fillna
欠損値を特定の値で埋める pandas の関数。dropna とは欠損値を除去するのと反対の処理です。
削除の対象となるデータの行。axis=0 の場合、行が削除対象に。
削除の対象となるデータの列。axis=1 の場合、列が削除対象に。
data_cleaning
データを分析可能な状態に整える作業。欠損値処理はデータクリーニングの一部です。
preprocessing
データ分析の前処理。データの欠損値処理、型変換、正規化などを含みます。
Python
データ分析やプログラミングの基本言語。Pandas も Python のライブラリです。
null
欠損値を表す別名。NaN と同様に欠如を示します。

dropnaの関連用語

dropna
欠損値を含む行または列を取り除く Pandas のメソッド。axis で対象軸、how で欠損の条件 ('any' または 'all')、thresh で非欠損値の閾値、subset で対象列を絞る、inplace で元データを直接更新するかを指定できる。
NaN
Not a Number の略。浮動小数点データの欠損値として使われる特別な値。
NaT
Not a Time の略。日時/時系列データの欠損値を表す特別な値。
isna
欠損値かどうかを判定してブール値のマスクを返す関数(isnull の別名)。
isnull
isna の別名。欠損値かどうかを判定する機能。
notna
欠損値でないかを判定する関数(notnull の別名)。
notnull
notna の別名。欠損値ではない値を判定する。
fillna
欠損値を指定した値や方法で埋めるメソッド。value で値を、method で 'ffill'(前方埋め)や 'bfill'(後方埋め)を指定。inplace や limit などのオプションもある。
interpolate
欠損値を周囲のデータから推定して埋める方法。線形補間や時系列補間など method を選択できる。
imputation
欠損値を推定して埋める処理の総称。平均・中央値・回帰補完・k 近傍補完などの戦略がある。
missing_values
データセット内の欠損値の総称。NaN、None、NaT などが含まれる。
drop
データから行や列を削除する一般的な操作。dropna 以外にも条件に応じて使用される。
thresh
欠損値の数が一定以上になる場合を除外または維持する閾値。dropna での非欠損値の最小数を指定するのに使われる。
subset
欠損値の判定を行う対象列を限定する設定。複数列を指定して部分的に欠損を評価できる。
axis
データの方向を示す指標。0 は行方向、1 は列方向。
how
欠損値の条件を決める設定。'any' は対象に欠損が1つでもあれば該当、'all' は全て欠損で該当。
inplace
True の場合、元データをその場で更新(返り値はなし)、False の場合は変更後の新しいデータを返す。
ffill
forward fill の略。欠損を直前の値で埋める前方埋め。
bfill
backward fill の略。欠損を直後の値で埋める後方埋め。
mean_fill
欠損値を列の平均値で埋める基本的な埋め方。
median_fill
欠損値を列の中央値で埋める埋め方。
mode_fill
欠損値を列の最頻値で埋める埋め方。
data_cleaning
データ分析前の前処理全般。欠損値処理、重複排除、型変換などを含む作業。
pandas
Python のデータ分析ライブラリ。dropna などの欠損値処理機能が実装されている。

インターネット・コンピュータの人気記事

awstatsとは?初心者でもわかる使い方と基本解説共起語・同意語・対義語も併せて解説!
14877viws
bing・とは?初心者のための基本ガイド:検索エンジンの仕組みと使い方共起語・同意語・対義語も併せて解説!
2449viws
着信転送とは?初心者向けガイドで分かる使い方と設定のコツ共起語・同意語・対義語も併せて解説!
1092viws
差し込み印刷・とは?初心者でもすぐわかる使い方と仕組みガイド共起語・同意語・対義語も併せて解説!
1073viws
com端子・とは?初心者にも分かる基礎ガイド|シリアルポートの使い方と歴史を解説共起語・同意語・対義語も併せて解説!
960viws
充電アダプターとは何かを徹底解説|初心者でも分かる基本と選び方のコツ共起語・同意語・対義語も併せて解説!
922viws
7zファイル・とは?初心者でもわかる使い方と特徴を解説共起語・同意語・対義語も併せて解説!
882viws
全角文字とは?初心者向け解説|全角と半角の違いをやさしく学ぶ共起語・同意語・対義語も併せて解説!
862viws
pinロックとは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!
816viws
リマインドメールとは?初心者にもわかる基本ガイドと使い方のコツ共起語・同意語・対義語も併せて解説!
813viws
none とは?初心者にもやさしく解説する意味と使い方ガイド共起語・同意語・対義語も併せて解説!
740viws
16進数カラーコード・とは?初心者でもつまずかない基礎と使い方ガイド共起語・同意語・対義語も併せて解説!
721viws
xlsmとは?初心者でも分かるExcelのマクロ付きファイルの基本共起語・同意語・対義語も併せて解説!
624viws
asp・とは?初心者向けに徹底解説する基本と使い方ガイド共起語・同意語・対義語も併せて解説!
621viws
ローカルポート・とは?初心者にも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
609viws
countifとは?初心者でもすぐ使える基本と応用ガイド共起語・同意語・対義語も併せて解説!
563viws
ワンタイムコード・とは?初心者でも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
545viws
csvダウンロードとは?初心者が今すぐ使える基本ガイド共起語・同意語・対義語も併せて解説!
521viws
sha256とは?初心者が知るべき暗号ハッシュの基礎と使い道共起語・同意語・対義語も併せて解説!
511viws
googleドキュメントとは?初心者が今日から使いこなす基本ガイド共起語・同意語・対義語も併せて解説!
487viws

新着記事

インターネット・コンピュータの関連記事