dnn-hmmとは?初心者にも分かる基礎ガイド 音声認識のしくみを徹底解説共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
dnn-hmmとは?初心者にも分かる基礎ガイド 音声認識のしくみを徹底解説共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


dnn-hmmとは何か

dnn-hmmは Deep Neural Network と Hidden Markov Model を組み合わせた音声認識のしくみです。音声を文字に変える技術の中でも古くから使われてきた強力なモデルの一つであり現在も教育や研究の現場で学ばれています。

どう動くのか

音声を使うときにはまず音声信号を特徴量に変換します。メル周波数ケプストラム係数のような指標を取り出し DNN に渡します。ここでDNNは各音素や音のクラスがどれくらい起きやすいかの確率を出します。

次に Hidden Markov Model を使って時間の流れを表現します。HMMは音素が順番に現れる確率の連なりをモデル化し、DNNが出した確率を使って全体の最適な列を探します。最もよいと判断された音の並びが文字として出力されます。

DNNとHMM の役割を分けて理解する

DNN 部分は音の特徴を「どういう音なのか」の確率に換えます。HMM 部分は音が時間的にどう連なるかを決め、長い会話の中で適切な文字列を選び出します。

なぜ dnn-hmm なのか

従来の HMM 単体よりも DNNの表現力を使うことで微妙な音の違いを拾いやすくなります。反対に DNN だけだと時間的依存を必ずしもきちんと扱えないことがありました。そこで dnn-hmm という組み合わせが生まれ、相互の強みを活かせるようになりました。

実務での活用と特徴

dnn-hmm は音声入力アプリや自動字幕生成などの分野で使われてきました。手ごろなデータ量で学習できる場合もありつつ、大規模データと計算資源が揃えば高い精度を発揮します。

比較と現在の状況

今では end to end のモデルが主流になることも多いですがDNNとHMMの組み合わせは基礎を理解する教材として有用です。仕組みを知ることで、音声認識の学習に対する理解が深まります。

表で見る要点

<th>DNNの役割
音響特徴から確率を出す
HMMの役割時間的な順序をモデル化する
学習データラベル付きデータが一般的に必要

まとめと学びのヒント

dnn-hmm を学ぶときは 音声処理の基礎機械学習の基礎を別々に学ぶと理解が進みます。図や身近な例を使ってイメージするとよいでしょう。


dnn-hmmの同意語

DNN-HMM
ディープニューラルネットワークと隠れマルコフモデルのハイブリッド手法。DNN が音響特徴を学習し、HMM が時間的な遷移を推定する組み合わせ。
DNNとHMMのハイブリッド
DNN と HMM を組み合わせたモデル。DNN が発話特徴を抽出・判定し、HMM が音声の連続した状態遷移を担う。
深層DNN × HMM の統合
深層学習の DNN と隠れマルコフモデルを一体化したアプローチ。音声認識などで使われることが多い。
深層ニューラルネットワークと隠れマルコフモデルの統合
DNN と HMM を統合した手法で、DNN が特徴量を作り、HMM が時系列の状態推定を行う。
ディープニューラルネットワーク+HMM
ディープラーニングの DNN と HMM を組み合わせた手法。音声データの特徴と時間依存性を同時に扱う。
ハイブリッドDNN-HMMモデル
DNN と HMM を併用するハイブリッドなモデル。音響モデリングの精度向上を目的に用いられる。
DNN-HMMハイブリッドモデル
DNN と HMM の組み合わせによるモデルの別称。DNN が特徴量を生成し、HMM が状態遷移を管理。
隠れマルコフモデル付きDNN
DNN に HMM が併用される構造。時系列データの状態推定を HMM がサポートする。

dnn-hmmの対義語・反対語

GMM-HMM
従来のHMMにガウス混合モデルを音響モデルとして用いる音声認識。DNNを使わず、統計的手法中心の古典的アプローチ。
End-to-End音声認識
特徴抽出と認識を1つの大きなニューラルネットで直接結びつけ、HMMを前提としない/使わないアプローチ。従来のHMM+DNNの分割を排除することが多い。
ルールベース音声認識
人手で作成した認識ルールや辞書に基づく非機械学習の手法。統計モデルを前提とせず、直接規則で認識するイメージ。
非HMM系音声認識
HMMを用いない音声認識の総称。CTC/アテンション型など、HMMを介さずに出力を得るアーキテクチャが含まれることが多い。
伝統的統計モデル中心のアプローチ
GMMなどの従来型統計モデルを中心に据え、DNNや深層学習を用いない/低優先の手法。
DNN不使用の音響モデル
DNN以外の音響モデルを使う構成。例えばGMM-HMMなど、深層学習を使わない選択肢を指す表現。

dnn-hmmの共起語

音声認識
話者が話す言葉を音声信号から文字に変換する技術。DNN-HMMはこの分野で代表的な音響モデルとして使われることが多い。
DNN
Deep Neural Networkの略。多層のニューラルネットワークで音声特徴を学習するモデル。
深層ニューラルネットワーク
多層のニューラルネットワークの総称。DNNと同義で使われることが多い。
HMM
Hidden Markov Modelの略。音声の時間的な状態遷移を確率的に表す統計モデル。
隠れマルコフモデル
音声の状態遷移を確率的に捉えるモデル。DNNと組み合わせて音響モデルとして使われることが多い。
音響モデル
音声信号と文字の対応を学習するモデル。DNN-HMMは代表的な音響モデルの一種。
連続音声認識
区切られた音素ではなく、連続する発話をそのまま文字に変換する認識タスク
音響特徴量
音声信号から抽出する数値データ。後の学習に使われる指標。
特徴量
機械学習で入力として使う情報。音声認識では音響特徴量が中心。
MFCC
メル周波数ケプストラム係数。音声の代表的な特徴量のひとつ。
メル周波数ケプストラム係数
音声のスペクトル情報を圧縮して表す指標。
スペクトログラム
時間と周波数の強度を示す図。特徴量抽出の前処理や解析に使われる。
コード
認識候補を組み合わせて最終的なテキストを出力する過程。
推論
学習済みモデルを用いて新しいデータから結果を出す作業。
学習
モデルのパラメータをデータから調整して性能を高める作業。
教師あり学習
正解ラベルを使ってモデルを訓練する学習形態。
最適化アルゴリズム
誤差を最小にする目的でパラメータを更新する計算手法。例: SGD、Adam。
勾配降下法
誤差を最小化する方向へパラメータを更新する基本的な手法。
バックプロパゲーション
誤差を出力層から入力層へ逆伝播して勾配を計算する学習手法。
正則化
過学習を防ぐ工夫。L2正則化やドロップアウトなどが代表例
ノイズ耐性
騒音がある環境でも認識性能を保つ能力。
データセット
学習・検証・評価に使う音声データの集合。
アノテーション
音声データに正しい文字情報や発音情報を付ける作業。
アライメント
音声の時間軸と文字の対応を整える作業。
データ拡張
データ量を増やす工夫。ノイズ追加や速度・音量の変換など。
転移学習
別のデータで学んだ知識を新しいデータに流用する手法。
Kaldi
音響モデルの構築・実験でよく使われるオープンソースツール。
連続音素
話し言葉で連続して現れる音素を認識対象とする概念。
言語モデル
文脈情報を利用して正しい語順・候補を選ぶモデル。
ハイブリッドモデル
DNNとHMMを組み合わせた音響モデルの総称。

dnn-hmmの関連用語

DNN-HMMハイブリッド
ディープニューラルネットワークを音響モデルとして用い、隠れマルコフモデル(HMM)と組み合わせた従来型の音声認識システム。DNN が各HMM状態の出力確率を推定し、HMM が時間的遷移を処理します。
DNN
深層ニューラルネットワークの略。多層の非線形変換で音声特徴から確率分布を推定するモデル。
HMM
隠れマルコフモデルの略。観測列を潜在的な状態遷移と各状態の出力分布で表現する確率モデル
アコースティックモデル
音響特徴と音声生成の関係を表すモデル。DNN-HMM ではDNN部がこの役割を担います。
セノン
HMM の状態を連携させた、同一発声特徴を共有するユニット。DNN はセノンの出力確率を提供します。
ライフォン
前後の音素を含む文脈依存音素モデル。音声の文脈に応じた音素表現を扱います。
CD状態
コンテキスト依存の状態。周囲の音素情報を取り込んだ遷移単位です。
CI状態
コンテキスト独立の状態。文脈に依存しない基本的な状態です。
GMM
ガウス混合モデル。旧来のアコースティックモデルで、各状態の出力を複数のガウス分布で表現します。
音素
言語の最小音声単位。 phoneme の日本語表記です。
発音辞典
単語と音素列の対応表。転写と発音の結びつきを提供します。
ランゲージモデル
語の連なりの出現確率を表すモデル。音声認識のデコーディングで重要な役割を果たします。
デコーディング
音声特徴量とモデル情報から最適な転写を推定する過程。
Viterbiアルゴリズム
最も確からしい状態遷移経路を求める動的計画法。デコードの核となるアルゴリズム。
ビームサーチ
探索空間を絞り、計算量を抑えつつ高精度を保つ探索手法。
WFST
重み付き有限状態機械。辞書・言語モデル・HMMを統合してデコードを効率化します。
Kaldi
音声認識のオープンソースツールキット。DNN-HMM を含む多様な手法を実装。
HTK
Hidden Markov Toolkit の略。古典的な音声認識ツールキット
アコースティック特徴量
音声信号から抽出する特徴量群。代表例には MFCC や FBANK がある。
MFCC
メル周波数ケプストラム係数。人間の聴覚特性を近似する特徴量。
メルフィルタバンク
メル尺度のフィルタバンク特徴量。MFCC の元となる特徴です。
CMVN
Cepstral Mean and Variance Normalization。特徴量のスケールを正規化してノイズを抑制します。
Δ特徴量
デルタ・デルタ特徴量の略。時間方向の変化を捉える追加特徴量。
iベクター
話者や環境の変動を表現する短いベクトル。話者適応に用いられます。
スピーカー適応
話者差を補正し、認識精度を向上させる技術全般の総称。
fMLLR
特徴空間 ML基準の適応。特徴空間での話者適応を実現します。
TDNN
Time-Delay Neural Network。時系列データに対して文脈を遅延させて処理するニューラルネット。
CNN
畳み込みニューラルネットワーク。局所的特徴を良く捉える構造。
RNN
再帰型ニューラルネットワーク。時系列データの長期依存を扱います。
LSTM
長短期記憶。長期依存を効果的に扱えるRNNの拡張。
GRU
ゲート付きリカレントユニット。LSTMに比べ簡潔な構造で同様の機能を持つ。
End-to-End ASR
音声入力から直接テキストを出力する統合モデル。従来のLM・辞を分けずに学習します。
CTC
Connectionist Temporal Classification。アライメントなしでシーケンスを学習できる損失関数
RNN-T
RNN Transducer。RNNベースのエンドツーエンド音声認識モデル。
Attention
注意機構。長いシーケンスで重要な情報に焦点を当てて処理します。
LF-MMI
ラティスを用いない最大相互情報量学習。識別性能を向上させる判別学習の一種。
MMI
最大相互情報量。音声認識での判別学習の枠組み。
sMBR
状態レベルの最小ベイズリスクに基づく判別訓練。音韻レベルの誤りを減らす目的。
強制アライメント
音声と既知の転写を用いて、各音素・単語の対応関係を自動的に揃える作業。
ラティス
デコード候補の集合を表す木状・網羅的な表現。Word lattices の略称。
アロフォン
同じ音素の異なる発音変種。話者差や連結現象に対応します。
SpecAugment
スペクトログラムを用いたデータ拡張手法。音声データの多様性を高めます。
Speed perturbation
音声の再生速度を変更してデータを増やす拡張手法。
ノイズロバスト化
ノイズ環境下でも認識精度を維持するための特徴量設計・訓練技術。
WER
Word Error Rate。認識結果と正解テキストの差を示す主な評価指標。
パープレキシティ(困惑度)
言語モデルの予測困難さを表す指標。低いほど良い指標。
コーパス
大規模な音声データと対応転写の集合。モデル学習の基盤。
アライメント
音声と転写の対応づけ作業。強制アライメントはこの一種。
デコーダ設定のビーム幅
デコード時の候補を制限するビーム幅の設定。

dnn-hmmのおすすめ参考サイト


インターネット・コンピュータの人気記事

awstatsとは?初心者でもわかる使い方と基本解説共起語・同意語・対義語も併せて解説!
15116viws
bing・とは?初心者のための基本ガイド:検索エンジンの仕組みと使い方共起語・同意語・対義語も併せて解説!
2463viws
着信転送とは?初心者向けガイドで分かる使い方と設定のコツ共起語・同意語・対義語も併せて解説!
1099viws
差し込み印刷・とは?初心者でもすぐわかる使い方と仕組みガイド共起語・同意語・対義語も併せて解説!
1077viws
com端子・とは?初心者にも分かる基礎ガイド|シリアルポートの使い方と歴史を解説共起語・同意語・対義語も併せて解説!
965viws
充電アダプターとは何かを徹底解説|初心者でも分かる基本と選び方のコツ共起語・同意語・対義語も併せて解説!
925viws
7zファイル・とは?初心者でもわかる使い方と特徴を解説共起語・同意語・対義語も併せて解説!
888viws
全角文字とは?初心者向け解説|全角と半角の違いをやさしく学ぶ共起語・同意語・対義語も併せて解説!
869viws
pinロックとは?初心者が知っておくべき基本と使い方ガイド共起語・同意語・対義語も併せて解説!
818viws
リマインドメールとは?初心者にもわかる基本ガイドと使い方のコツ共起語・同意語・対義語も併せて解説!
815viws
none とは?初心者にもやさしく解説する意味と使い方ガイド共起語・同意語・対義語も併せて解説!
744viws
16進数カラーコード・とは?初心者でもつまずかない基礎と使い方ガイド共起語・同意語・対義語も併せて解説!
728viws
asp・とは?初心者向けに徹底解説する基本と使い方ガイド共起語・同意語・対義語も併せて解説!
632viws
xlsmとは?初心者でも分かるExcelのマクロ付きファイルの基本共起語・同意語・対義語も併せて解説!
628viws
ローカルポート・とは?初心者にも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
615viws
countifとは?初心者でもすぐ使える基本と応用ガイド共起語・同意語・対義語も併せて解説!
566viws
ワンタイムコード・とは?初心者でも分かる基本と使い方ガイド共起語・同意語・対義語も併せて解説!
553viws
csvダウンロードとは?初心者が今すぐ使える基本ガイド共起語・同意語・対義語も併せて解説!
525viws
sha256とは?初心者が知るべき暗号ハッシュの基礎と使い道共起語・同意語・対義語も併せて解説!
521viws
googleドキュメントとは?初心者が今日から使いこなす基本ガイド共起語・同意語・対義語も併せて解説!
491viws

新着記事

インターネット・コンピュータの関連記事