yolo形式・とは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
yolo形式・とは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


はじめに

画像認識の世界にはいくつかのデータ形式があります。中でも YOLO形式 は人気が高く、物体検出の学習と推論でよく使われる代表的なフォーマットです。本記事では yolo形式・とは? を初心者にも分かりやすく解説します。読み進めるほど基礎が固まります。

YOLO形式とは何か

YOLO とは You Only Look Once の略で、1 回の推論で画像中の全ての物体を同時に検出するアルゴリズムの家系です。yolo形式 はこのモデルが学習データを保存するための標準的なフォーマットです。画像ファイルと同じ名前のテキストファイルを作るのが基本ルールで、各物体の情報を1行ずつ記録します。

ファイル構成の基本

例えば画像が image1.jpg の場合、対応する注釈ファイルは image1.txt です。1枚の画像につき1つ以上の行が存在し得ます。行が増えるほど検出対象が増えることを意味します。

1行の意味と5つの値

YOLO形式の1行は 5つの値 で構成されます。クラスID、中心座標x、中心座標y、幅、高さ正規化値として表現します。正規化とは、画像サイズに依存せず 0 〜 1 の範囲で値を表すことです。

データ項目説明
class_id検出対象のクラスを 0 から始まる整数で表します。データセットに応じてクラスの順番を決めておく必要があります。
x_centerボックスの中心の x 座標を画像の幅で割った値。0 〜 1 の範囲です。
y_centerボックスの中心の y 座標を画像の高さで割った値。0 〜 1 の範囲です。
widthボックスの幅を画像の幅で割った値。0 〜 1 の範囲です。
heightボックスの高さを画像の高さで割った値。0 〜 1 の範囲です。

具体例

例えばクラスIDが0で、中心が (0.5, 0.5)、幅が 0.3、高さが 0.4 のとき、image1.txt には次のように記述します。0 0.5 0.5 0.3 0.4

なぜ YOLO 形式が人気なのか

YOLO形式は座標を正規化しているため、画像のサイズが異なっても同じモデルを使い回しやすいのが特長です。小さな画像でも扱いやすく、推論速度が速い点が魅力です。リアルタイム検出やエッジ機器での実装にも向いています。

データの準備と変換のコツ

YOLO形式へ変換するには、既存のデータとアノテーション情報を読み取り、上記の5つの値へ変換します。VOC形式や COCO形式 から変換するツールがあり、GUI ツールの labelImg や自動変換スクリプトを活用すると作業が楽になります。変換時にはクラス名とクラスIDの対応を必ず確認しましょう。

実務での活用例

初学者は自分のデータセットを作成し、まずは YOLO形式 に統一します。その後 Darknet、PyTorch、TensorFlow など、複数の実装で学習と検証を繰り返すのがおすすめです。推論時には画像と同名の txt ファイルが読み込まれ、検出結果が再現性高く出力されます。

よくある誤解と注意点

1つの画像に複数の物体がある場合、それぞれの物体ごとに新しい行が追加されます。クラスIDの重複や座標の計算ミスに注意しましょう。ボックスの中心座標を間違えると検出結果がずれてしまうので、座標の意味を理解して正しく計算することが大切です。

まとめ

yolo形式・とは?を理解する鍵は、各画像ごとに複数のボックス情報を 5つの数値 で表し、画像サイズに依存せず扱える点です。初めての人はサンプルデータを手元で再現して練習を重ね、クラスを追加する際には新しいクラスIDを適切に割り当てて管理することを忘れないでください。


yolo形式の同意語

YOLO形式
物体検出のアノテーションで使われる標準的な表現。各検出は中心座標(x, y)と幅(height)と高さ(width)を正規化した4値で表現し、ラベルファイルには class_id と 4値が1行ずつ並びます。
YOLOフォーマット
YOLOで用いられるアノテーションの表現。1行につきクラスIDと正規化された中心座標と幅・高さが記述され、画像サイズで0〜1の範囲に正規化します。
YOLOアノテーション形式
YOLOで用いるラベルの記述形式。各行にクラスIDと正規化された中心(x, y)とサイズ(width, height)を並べて表します。
You Only Look Once形式
正式名称を英語表記にした同義。YOLO形式と同じアノテーション表現を指します。
You Only Look Onceフォーマット
You Only Look Once のフォーマット表現。クラスIDと正規化された中心座標とサイズを用いる点はYOLO形式と同一です。
Yolo形式
YOLOの別表記。物体検出のアノテーションを中心点・サイズの正規化4値で記述する形式を指します。
Yoloフォーマット
Yoloとして使われるアノテーションフォーマット。各行は class_id x_center y_center width height の順で正規化値を記述します。
YOLOラベル形式
ラベルファイルの形式としてのYOLO表現。1行につきクラスIDと正規化された中心座標・サイズを並べて保存します。
YOLOデータ形式
物体検出データの表現形式のひとつ。YOLO系のアノテーションを指す言い換えとして用いられることがあります。
YOLOスタイルのアノテーション
YOLO系のアノテーション方法を指す表現。中心点とサイズを正規化して保存するスタイルです。
You Only Look Onceアノテーション形式
英語名の完全表記を用いた同義。YOLOアノテーションと同じ意を持ちます。

yolo形式の対義語・反対語

保守的な生き方
危険や冒険を避け、安定と安全を最優先にする生き方。リスクを抑え、計画的に行動する傾向。
安全第一の生き方
危険を極力避け、健康と安全を最優先にする考え方。新しい体験より安心を選ぶことが多い。
計画性重視の生活
事前に計画を立て、衝動的な行動を避ける。長期の安定を重視する
慎重派の生き方
判断や行動を慎重に進め、リスクを最小限にする姿勢。
現実主義の生き方
理想より現実的な制約を重視し、実現可能性を優先する
長期志向の生き方
短期の快楽より、長期的な目標達成や資産形成を優先する。
安定志向の生き方
変化より安定を重視し、安定した環境や収入を求める
貯蓄重視のライフスタイル
消費を抑え、貯蓄・資産形成を最優先にする。
規律正しい生活
自己管理を徹底し、ルールに従って着実に生活する。
計画通りに動く生活
予定どおり動くことを最優先にし、柔軟性を抑える。
衝動抑制型のライフスタイル
欲望や衝動を抑え、冷静に判断することを重視する。
リスク回避的なライフスタイル
未知のリスクを避け、安全と安定を最優先にする。

yolo形式の共起語

バウンディングボックス
対象物を囲む矩形の枠のこと。YOLO形式ではこの枠を1行につき1つ表し、クラスIDと座標情報を並べて記述します。
アノテーション
画像内の物体の位置とクラス情報を記録したデータ。YOLO形式では画像ごとに対応するテキストファイルに行単位で表現します。
座標
バウンディングボックスの位置情報の総称。YOLO形式では中心座標と幅・高さを使います。
x_center
バウンディングボックスの中心のx座標。画像幅で割って0〜1に正規化した値を使います。
y_center
バウンディングボックスの中心のy座標。画像高さで割って0〜1に正規化した値を使います。
width
バウンディングボックスの幅。画像幅で割って0〜1に正規化した値を使います。
height
バウンディングボックスの高さ。画像高さで割って0〜1に正規化した値を使います。
正規化
座標値を0〜1の範囲に正規化して表現する方式。YOLO形式の標準です。
相対座標
正規化された座標の別称。絶対ピクセル値ではなく画像サイズに対する比率で表します。
クラスID
各物体のクラス番号。1行目にはこの値が先頭に来ます。
クラス名 / names.txt
クラスIDとクラス名を対応づけるファイル。YOLOトレーニングでは names.txt や classes.txt が使われます。
ラベルファイル
画像ごとに対応する .txt ファイルのこと。1ラインにつき1つの物体情報を記述します。
Darknet / YOLOフレームワーク
YOLOの元となるDarknet系のフレームワークや実装群。YOLO形式はこのフレームワークで読み込まれることが多いです。
YOLOバージョン
YOLOの派生・改良版。代表的には v1, v2, v3, v4, v5, v7, v8 などがあります(仕様はバージョンごとに異なる点があります)。
アノテーションツール
ラベル付けに使う道具。例として LabelImg, CVAT, Roboflow, Label Studio などがあり、YOLO形式のテキスト出力に対応するものを選びます。
データセット
画像と対応するラベル情報の集合。トレーニング・検証・テストに分割して用います。
IoU (Intersection over Union)
検出されたボックスと正解のボックスの重なり度合いを測る指標。検出精度の評価で重要です。
mAP (mean Average Precision)
物体検出の総合的な評価指標。各クラスのAPを平均した値で、検出性能を総合的に評価します。
非最大抑制 (NMS)
重複して検出されたボックスを一つに絞り込む処理。検出結果を見やすくするために使います。
アンカーボックス
予測するボックスの事前定義サイズ。YOLOではこのサイズを基準にボックスを予測することがあります。
グリッドセル
画像を格子状に分割したセル。YOLOは各セルごとにボックスを予測します。
推論 / Inference
学習済みモデルを用いて新しい画像から物体を検出する段階。YOLOの実装でもこの段階で検出結果が得られます。
データ拡張 (Mosaic など)
学習データの多様性を増やすための前処理手法。YOLOv4 以降で導入されたことが多いです。
1行につき1物体
ラベルファイルの基本単位。1つの物体情報は1行として表記します。
1画像あたりの行数
画像に含まれる物体の数だけラベルファイルの行が増えます。複数物体に対応します。
ラベルファイルの拡張子
.txt が一般的。対応する画像ファイルと同名で保存します。
画像ファイル拡張子
.jpg, .png など。YOLOの学習データセットでは画像ファイルとして用意します。
同名ファイルの対応
画像ファイルと同名の .txt ラベルファイルが同じフォルダ内に存在するのが基本形です。
複数物体の同一画像対応
1枚の画像に複数の物体が存在する場合、ラベルファイルには複数行が記述されます。

yolo形式の関連用語

YOLO
You Only Look Once の略。リアルタイム物体検出アルゴリズムの総称で、1回の推論で画像内の複数の物体を同時に検出します。
YOLO形式
YOLOで用いられるアノテーション形式。各物体はクラスIDと正規化された中心座標と幅・高さを1行ずつ記述します。
バウンディングボックス
物体を囲む矩形領域。検出結果の位置と大きさを表す基本要素です。
正規化座標
YOLO形式で用いられる、0〜1の比率で表現した座標系。画像の大きさに依存しません。
x_center
バウンディングボックスの中心の横座標を画像幅で正規化した値です。
y_center
バウンディングボックスの中心の縦座標を画像高さで正規化した値です。
width
バウンディングボックスの横幅を正規化した値です。
height
バウンディングボックスの縦の長さを正規化した値です。
クラスID
検出対象のカテゴリを表す整数番号です。
ラベル名
クラスIDと対応するカテゴリ名を対応づける名称です。
アノテーションファイル
各画像に対応するテキストファイル(例: image1.txt)。YOLO形式で1行ずつ記述します。
アノテーション形式
データの注釈表現の規約。代表例としてYOLO形式、COCO形式、VOC形式があります。
1行あたりの構成
1行は「クラスID x_center y_center width height」の順に並びます。
トレーニングデータセット
学習に用いるデータセット。COCO、Pascal VOC、Open Images、独自データなど。
COCOフォーマット
MS COCO形式。JSONファイルで画像情報・アノテーション・カテゴリを管理します。
Pascal VOCフォーマット
VOC形式。XMLファイルで画像のアノテーションを記述します。
ラベリングツール
物体境界を描くツールの総称。LabelImg、CVAT、LabelMe、Roboflow など。
データ拡張
訓練データを増やす手法。回転・反転・色味変化・Mosaic・MixUp など。
Mosaic
4枚の画像を組み合わせて新しい学習例を作るデータ拡張手法。
MixUp
2枚以上の画像を線形に混ぜて新しい訓練データを作る拡張手法。
データ分割
訓練用・検証用・テスト用にデータを分けること。
バックボーン
特徴抽出部の名称。Darknet-53、CSPDarknet など。
アーキテクチャ
YOLOシリーズの世代別設計。YOLOv3、YOLOv4、YOLOv5、YOLOv7、YOLOv8 など。
アンカー
予測ボックスの初期形状を複数用意する枠組み。
グリッドセル
画像を格子状に分割し、各セルが検出を予測します。
IoU
Intersection over Union。予測ボックスと真のボックスの重なり度合いを測る指標。
NMS
Non-Maximum Suppression。重複する検出を整理して1つに絞る処理。
mAP
mean Average Precision。検出モデルの総合評価指標。
推論速度
1回の推論に要する時間や処理速度の指標。
FPS
1秒あたりのフレーム数。リアルタイム性の目安。
推論エンジン
モデルを実行するソフトウェア基盤。ONNX、TensorRT、TorchScript など。
Weightファイル
学習済みの重みを保存したファイル。拡張子は .pt、.weights、.ckpt など。
転移学習
既存のモデルを初期重みとして再学習し、新しいデータへ適応させる手法。
レターボックス
アスペクト比を保ちながらリサイズする前処理。周囲に黒い余白を入れることが多い。
PyTorch
深層学習フレームワークの一つ。YOLOv5/v8の実装で広く使われます。
Darknet
YOLOのオリジナル実装フレームワーク。C言語ベース
Ultralytics
YOLOv5/v8の実装とトレーニングコードを提供する組織/プロジェクト
Darknet-53
YOLOv3 のバックボーン。深い畳み込みネットワーク
CSPDarknet
YOLOv4/YOLOv5 で用いられるバックボーンの一種。
ONNX
Open Neural Network Exchange。異なるフレームワーク間でのモデル交換を可能にする中立フォーマット。
TensorRT
NVIDIA の高性能推論エンジン。最適化と高速推論を提供。
OpenCV DNN
OpenCV の深層学習推論機能。YOLOモデルのロードと推論にも使われる。
ポート/評価指標
検出性能を示す指標の総称。mAP、IoU、Precision、Recall など。
クラス数
データセットに含まれるカテゴリの総数。出力層のサイズにも影響します。

yolo形式のおすすめ参考サイト


インターネット・コンピュータの人気記事

awstatsとは?初心者でもわかる使い方と基本解説共起語・同意語・対義語も併せて解説!
14215viws
bing・とは?初心者のための基本ガイド:検索エンジンの仕組みと使い方共起語・同意語・対義語も併せて解説!
2336viws
着信転送とは?初心者向けガイドで分かる使い方と設定のコツ共起語・同意語・対義語も併せて解説!
1042viws
充電アダプターとは何かを徹底解説|初心者でも分かる基本と選び方のコツ共起語・同意語・対義語も併せて解説!
872viws
リマインドメールとは?初心者にもわかる基本ガイドと使い方のコツ共起語・同意語・対義語も併せて解説!
750viws
com端子・とは?初心者にも分かる基礎ガイド|シリアルポートの使い方と歴史を解説共起語・同意語・対義語も併せて解説!
729viws
pinロックとは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!
635viws
16進数カラーコード・とは?初心者でもつまずかない基礎と使い方ガイド共起語・同意語・対義語も併せて解説!
614viws
7zファイル・とは?初心者でもわかる使い方と特徴を解説共起語・同意語・対義語も併せて解説!
567viws
asp・とは?初心者向けに徹底解説する基本と使い方ガイド共起語・同意語・対義語も併せて解説!
521viws
差し込み印刷・とは?初心者でもすぐわかる使い方と仕組みガイド共起語・同意語・対義語も併せて解説!
518viws
ローカルポート・とは?初心者にも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
486viws
ワンタイムコード・とは?初心者でも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
473viws
全角文字とは?初心者向け解説|全角と半角の違いをやさしく学ぶ共起語・同意語・対義語も併せて解説!
473viws
none とは?初心者にもやさしく解説する意味と使い方ガイド共起語・同意語・対義語も併せて解説!
456viws
select句・とは?初心者でも分かるSQLの基本と使い方共起語・同意語・対義語も併せて解説!
377viws
csvダウンロードとは?初心者が今すぐ使える基本ガイド共起語・同意語・対義語も併せて解説!
376viws
wi-fiとは?初心者向けにわかりやすく解説する基礎ガイド共起語・同意語・対義語も併せて解説!
367viws
ダイレクトチャットとは?初心者向けガイドで使い方と注意点を徹底解説共起語・同意語・対義語も併せて解説!
340viws
sha256とは?初心者が知るべき暗号ハッシュの基礎と使い道共起語・同意語・対義語も併せて解説!
309viws

新着記事

インターネット・コンピュータの関連記事