

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
原データ・とは?
原データとは、まだ何も加工されていない「事実そのもの」のデータのことを指します。身近な例としては、センサーが出力する数値、アンケートの回答、ウェブサイトのアクセスログ、スマホの位置情報などがあります。原データはそのままの状態で価値がある反面、そのままでは分析に使いづらいことが多いです。
たとえばアンケートの回答をそのまま使うと、文字コードの違い、全角と半角の混在、空欄の扱いなどで分析結果が崩れることがあります。そこでデータを使いやすくするために、前処理と呼ばれる作業を行います。前処理にはデータの整形、欠損値の扱い、重複の削除、単位の統一、日付時刻の揃えなどが含まれます。
原データと加工データの違いを知っておくと、データ分析の正確さが変わります。原データは「事実のありのまま」を示すのに対し、加工データは分析の目的に合わせて整理した情報です。加工データは集約やフィルタリング、統計量の計算を経て、グラフの作成やモデルの学習に使われます。
原データの種類
ここでは代表的な原データの例をいくつか挙げます。
数値データ:温度、売上、距離などの数字で表されるデータです。
カテゴリデータ:色や性別、商品カテゴリのように複数の選択肢に分かれるデータです。
時系列データ:日時と値がセットになっているデータで、時間の経過とともに変化を追えます。
テキストデータ:自由回答の文字列など、言葉で表されたデータです。
原データを扱う際の基本的な考え方をまとめます。
| 説明 | |
|---|---|
| 収集 | どこからデータを集めるかを決めます。信頼できるソースを選ぶことが大切です。 |
| 保存 | データを失わないように安全な場所に保管します。ファイル形式は目的に合わせて選ぶと良いです。 |
| 洗浄 | 欠損値や誤入力を見つけて正しく直します。これをデータクリーニングと呼びます。 |
| 統合 | 複数のデータを同じ意味で合わせて一つのデータにします。 |
| 整形 | 日付の形式をそろえたり単位をそろえたりして分析しやすくします。 |
データを分析に使える形に整える過程はとても大事です。前処理の質が分析の質を決めると言っても過言ではありません。原データ自体には価値がありますが、正しく扱わなければ正しい結論には結びつきません。
身近な例として、ある日の気温データを考えてみましょう。観測点Aの気温が午前9時に23.5度、午後1時に28.1度だったとします。これらは原データです。これを整形して日付ごとの最高気温の表にするのが加工データです。さらに複数の日のデータを並べてグラフ化すれば、天気の傾向を直感的に読み取ることができます。
データ品質の観点では、信頼性、整合性、完全性が大切です。原データの品質が高いほど、分析の結論も信頼できます。倫理の観点からも、データを扱う際には個人情報の保護や匿名化、同意の取得などに配慮する必要があります。
初心者の方へ簡単なまとめを置いておきます。原データは事実の記録、加工データは分析用の整理データです。原データを適切に扱う知識と技能を身につけることが、データを活用する第一歩になります。
原データの同意語
- 生データ
- 加工・整形・分析の前の、ありのままのデータ。最も原始的な状態で、データ分析の出発点となる。
- 未加工データ
- データがまだ編集・整形されていない、元のままのデータ。
- 未処理データ
- データが処理・抽出・変換などの次の工程を受ける前の状態のデータ。
- 原始データ
- データの出発点となる、最も基本的でそのままの情報。データの原本。
- 元データ
- データの出所・起点となるデータ。分析・検証の基礎となるデータ。
- 未整理データ
- 整理・タグ付け・フォーマット統一などがまだ行われていないデータ。
- 原データセット
- 原データの集合体。分析対象の未加工データがまとまったもの。
- 生データセット
- 未加工のデータを集めた集合体。分析前のデータ群。
- 加工前データ
- データが加工・整形される前の状態。未加工データと意味が近い表現。
原データの対義語・反対語
- 加工済みデータ
- 原データを加工・整形して利用可能な形にしたデータ。ノイズ除去、変換、結合、補完などの処理を経たデータ。
- 整形済みデータ
- データを所定の形式に整えた後のデータ。欠損値処理や型変換を終えた状態。
- クレンジング済みデータ
- データの欠損・不正・重複を除去・修正した後の整理済みデータ。
- 派生データ
- 原データを基に新たに生成・計算・加工して得られたデータ。
- 二次データ
- 原データを分析・加工して得られた、二次的なデータ。
- 集計データ
- データを集計して要素を要約したデータ。レポート用に整理された形。
- 要約データ
- 原データの内容を要約・縮約して示したデータ。
- 正規化データ
- データを一定の規格に揃え、比較・分析を容易にしたデータ。
- 最終データ
- 分析・処理の全工程を経て確定した、使用可能な最終版データ。
- 完成データ
- 全処理を終え、確定して公開・共有できるデータ。
原データの共起語
- 生データ
- 原データと同義で、未加工のデータを指します。分析の出発点となる基礎データです。
- ローデータ
- 英語の Raw data の日本語表記。収集元の未加工データを指します。
- 未加工データ
- 加工・処理をまだ行っていないデータのこと。
- 元データ
- データの出発点・原本となるデータ。
- データセット
- 分析や研究で使われるデータの集合。原データを含むことが多いです。
- データソース
- データの取得元・出所。
- 前処理済みデータ
- 欠損値処理・ノイズ除去・正規化などを終えた後のデータ。
- 前処理データ
- 原データに対して前処理を行った結果のデータ。
- データクリーニング
- 欠損値や不整合を修正してデータの品質を向上させる作業とその結果。
- データクレンジング
- 同様に、データの誤りを訂正して信頼性を高める処理とデータ。
- 欠損値
- データの一部が欠けている状態。原データにはよく見られます。
- 欠損データ
- 欠損値が含まれるデータのこと。
- ノイズ
- 測定誤差や外部要因でデータに混入した不正確さ。
- ノイズデータ
- ノイズが混入したデータ。分析の障害になることがあります。
- 加工データ
- 原データを加工・整形して作られたデータ。
- 変換データ
- データの形式・表現を変換して作られたデータ。
- 集計データ
- 複数データを要約・集計した結果のデータ。
- CSVデータ
- カンマ区切りのデータ形式。広く使われる原データの保存形式のひとつ。
- Excelデータ
- Excel形式のデータ。データの保存・共有に使われることが多い。
- メタデータ
- 原データを説明するデータ。作成日・出典・形式などの情報を含む。
- データ形式
- データの保存形式(CSV、JSON、Excel など)。
- 正規化データ
- 値のスケールを揃えるなど、比較・分析しやすくしたデータ。
- データ品質
- データの正確さ・完全性・一貫性など、品質の指標。
原データの関連用語
- 原データ
- 測定機器・センサー・ログなどからそのまま取得した未加工のデータ。分析の出発点となる基礎データ。
- 生データ
- 原データと同義で使われることが多い表現。加工前のままのデータを指す。
- 加工データ
- 原データに対して集計・変換・整形などの処理を施したデータ。分析や機械学習用に実用化されたデータ。
- データ前処理
- 分析前のデータを整える作業全般。欠損値処理・ノイズ除去・正規化などを含む。
- データクリーニング
- データの誤記・重複・不整合を修正・除去する作業。品質向上の第一歩。
- 欠損データ
- データが欠けている状態。補完・推定・削除などの対処方法がある。
- ノイズデータ
- 意味のない誤差を含むデータ。平滑化・フィルタリングで取り除くことが多い。
- データ品質
- データの正確さ・完全性・一貫性・新鮮さなど、品質全体を評価する概念。
- データの正確性
- 実測値と現実の一致度。高い正確性は分析の信頼性を高める。
- データの完全性
- 欠損が少なく、データセットが必要な情報を欠かさず含む状態。
- データの一貫性
- データ間で矛盾がなく整合している状態。
- データの時系列性
- 時間情報が付随し、時間的順序で解析できる性質。
- メタデータ
- データについてのデータ。作成日・出所・形式・単位などを説明する情報。
- データカタログ
- 組織内のデータ資産を整理・検索できる目録。
- データ辞書 / データディクショナリ
- データ項目の定義・型・意味・許容値を記した辞書。
- データセット
- 分析・機械学習の対象となるデータの集合。
- データベース
- 大量のデータを効率的に保存・検索する構造化された保存場所。
- データガバナンス
- データの取得・保管・利用を管理するルールと責任体制。
- データマネジメント
- データの作成・保存・利用・廃棄までを総合的に管理する活動。
- プライバシー / 個人情報
- 個人を特定できる情報の取り扱いに関する法令・倫理的配慮。
- 匿名化
- 個人を特定できなくする処理。再識別リスクを低減。
- 仮名化
- 識別子を別名に置換する処理。元の個人情報を直接不可にする。
- 差分プライバシー
- 個々のデータが集合データの結果に与える影響を最小化する数学的手法。
- 正規化
- データの値域を一定の範囲に揃える処理。
- 標準化 / スケーリング
- データを平均0・分散1にする処理。機械学習前処理の標準手法。
- データ形式
- データの保存フォーマット。CSV、JSON、Parquet、XLSX などがある。
- ファイル形式
- ファイルの具体的な形式。データの読み取り方に影響する。
- データの由来
- データがどこから来たのか、取得・生成・加工の履歴を示す情報。
- データの信頼性
- データが信頼できるかを判断する総合的な評価要素。
- バックアップデータ
- 元データのコピーを別場所に保存した安全性確保用データ。
- アーカイブデータ
- 長期保存を前提に整理・圧縮して保管した過去データ。
- バージョン管理
- データセットの変更履歴を追跡・再現できる仕組み。
- センサーデータ
- センサーが取得する原データ。温度・圧力・加速度など。
- ログデータ
- システム・アプリの動作記録。解析・トラブル対応に使う。
- データ可用性
- 必要なデータにいつでもアクセスできる状態。
原データのおすすめ参考サイト
- 原資料とは | 製薬業界 用語辞典 | Answers(アンサーズ)
- 治験とは? - CRCばんく
- 原資料とは-Medical Career Platform
- Q2: eSource(原資料となる電子記録)とはどのような記録ですか?



















