upgma(アップグマ)とは?初心者にもわかる解説と使い方共起語・同意語・対義語も併せて解説!

  • このエントリーをはてなブックマークに追加
upgma(アップグマ)とは?初心者にもわかる解説と使い方共起語・同意語・対義語も併せて解説!
この記事を書いた人

高岡智則

年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)


upgmaとは?初心者向けの基本解説

upgmaとは、Unweighted Pair Group Method with Arithmetic Mean の略で、距離行列から樹形図を作るための基本的なクラスタリング手法です。生物学の分野では、複数の生物種間の違いを小さなグループに分けて、祖先の関係を表す木を作るときに使われます。

この手法の目的は、すべての対象を木の中の葉として配置し、できるだけ正確に近い親子関係を再現することです。UPGMA は 平滑化された平均距離 を使ってクラスタを統合していく、シンプルで速いアルゴリズムとして知られています。

仕組みの流れ

手順は以下の通りです。

1) はじめに、全ての対象を別のクラスタとして扱います。

2) すべてのクラスタ間の距離を計算し、最も近い2つのクラスタを見つけます。

3) その2つのクラスタを1つの新しいクラスタに統合します。

4) 新しいクラスタと他のクラスタの距離を、統合したクラスタ内の各要素の距離の算術平均で再計算します。ここで 重みは等しいとします。

5) この過程を、すべてのクラスタが1つになるまで繰り返します。最終的に樹形図が完成します。

重要な前提と注意点

UPGMA は 分子時計仮説 を前提にしています。つまり、すべての分岐の長さは「変化の速さ」が同じであると仮定します。この仮定が成り立つデータでは、UPGMA は正しく近い系統樹を返しやすいです。

現実のデータでは、分子の進化速度が遺伝子や種ごとに異なることが多く、分子時計の仮定が崩れると結果が現実と異なることがあります。その場合、UPGMA の木は過度に単純に見えることがあります。

例題で理解を深める

4つの生物 A, B, C, D の距離行列を使って、手順を追いながら考えてみましょう。初期の距離は以下のようになっています。

<th>
ABCD
A0599
B501010
C91008
D91080

このとき、最初に距離が最も小さいのは AB なので、AB を1つのクラスタに統合します。次に、新しいクラスタ ABと C の距離、AB と D の距離を、それぞれ AB を1つのクラスタとして扱ったときの算術平均で更新します。具体例として、距離(AB, C) = (距離(A, C) + 距離(B, C)) / 2 = (9 + 10) / 2 = 9.5、距離(AB, D) = (距離(A, D) + 距離(B, D)) / 2 = (9 + 10) / 2 = 9.5 となります。

この手順を繰り返すことで、最終的に一本の樹が完成します。実際の計算では、距離の更新が何度も発生しますが、基本のアイデアは「最も近い2つを先に結び、全体の距離を新しいクラスタの平均距離で再計算する」という流れです。

UPGMA の利点と欠点

利点非常にシンプルで計算が速いことです。データが大きなときにも扱いやすいのが魅力です。

欠点 は分子時計の仮定が現実のデータには合わないことが多い点です。これにより、得られる樹が現実の進化史とずれる可能性があります。実務では、UPGMA と他の手法を状況に応じて使い分けることが大切です。

実務での使い方のヒント

距離行列を用意できれば、UPGMA を選ぶだけで木を作ることができます。実際のデータ解析では、専用のソフトウェア(例: MEGA, Clustal など)を使い、「UPGMA」を選択して実行します。結果として、樹形図とブートストラップ値などが得られ、データの信頼性を評価できます。

まとめ

upgmaは、距離行列から樹形図を作るための基本的かつ直感的な方法です。分子時計の仮定を前提としているため、データがこの仮定に近い場合には有効です。初心者の方は、まず仕組みを理解し、次に実データでの適用と他の手法との比較を学ぶと良いでしょう

よくある質問

Q: upgma はどんなデータに適しています?
A: 距離が均質に推移しているとき、つまり分子時計の仮定が近い場合に適しています。


upgmaの同意語

UPGMA
Unweighted Pair Group Method with Arithmetic Mean の略。距離行列を用いて階層的クラスタリングを行い、クラスタ間の距離を算術平均で更新して系統樹を作る手法。ウルトラメトリック木を生成することが多い。
アップグマ法
UPGMA の日本語表記。距離を算術平均で結合する非加重の階層的クラスタリング法の一種。
UPGMA法
UPGMA の正式呼称。距離行列に基づく階層的クラスタリングを算術平均でクラスタ統合する手法。
UPGMAアルゴリズム
UPGMA のアルゴリズム表現。距離行列から階層的クラスタ構築を行う計算手順のこと。
加重平均連結法
クラスタ間の距離を全要素間のペア距離の算術平均で求める連結法のうち、重み付けを行わないタイプ。UPGMA の性質を表す説明として使われることがある。
非加重対群法
Unweighted Pair Group Method に対応する日本語表現。重み付けを行わずにクラスタを結合する方法の総称として使われることがある。
ウルトラメトリック木生成法
UPGMA が出力する系統樹の特性のひとつ。全ての分岐の長さが階層間隔と一致するウルトラメトリック木を生成することを指す表現。
算術平均連結法
クラスタ間の距離計算に算術平均を用いる連結法の総称。UPGMAはこの中の非加重版として位置づけられることがある。
算術平均法連結法(UPGMAの一種)
UPGMAを説明する際の別表現。距離更新に算術平均を用いる連結法の一種。

upgmaの対義語・反対語

WPGMA(加重UPGMA)
UPGMAの重みづけバージョンで、クラスタ間の距離を重み付きの平均で計算します。無重みのUPGMAとは異なる前提・計算手法の対になる概念です。
非分子時計法
分子時計を仮定しない、進化速度の一定性を前提としない系統推定法。UPGMAが分子時計の仮定と相性が良いことが多いのに対し、こちらはその仮定を置かずに木を推定します。
Neighbor-Joining法(NJ法)
距離データから隣接関係を最適化して木を作る代表的な方法。分子時計の仮定を必須とせず、UPGMAとは異なる前提・出力形式を持つ対照的なアプローチです。
非階層的クラスタリング
UPGMAのような階層的クラスタリングとは異なり、階層構造を作らずデータをクラスタに分ける手法。例としてK-meansやDBSCANなどがあります。
K-means法
非階層的クラスタリングの代表的手法の一つで、データを事前に決めたクラスタ数に分割します。UPGMAの階層的クラスタリングとは別のアプローチです。
最尤推定法(Maximum Likelihood, ML法)
確率モデルに基づいて最も尤もらしい系統樹を推定する高度な手法。距離法ベースのUPGMAとは異なる原理で、進化モデルを詳しく扱います。

upgmaの共起語

UPGMA法
Unweighted Pair Group Method with Arithmetic Mean の略。距離行列をもとにデータを階層的にクラスタリングし、樹形図(デンドログラム)を推定するアルゴリズム
階層的クラスタリング
データを階層的な木構造でグループ分けするクラスタリング手法の総称。UPGMAはこの一種です。
距離行列
全データ間の距離を整理した表。UPGMAはこの距離情報を用いてクラスタを結合します。
遺伝距離
個体・種間の遺伝的差を数値化したもの。UPGMAでは遺伝距離を基に木を作成します。
樹形図
系統樹の図表。UPGMAで推定した階層構造を視覚化します。
デンドログラム
樹形図の別名。UPGMAの結果を可視化するグラフの一種です。
系統樹推定
生物の系統関係を木として推定すること。UPGMAは代表的な推定法のひとつです。
生物情報学
生物データを計算機で解析する学問分野。UPGMAはこの分野でよく使われます。
算術平均
クラスタ間の距離を算術平均で計算する手法。UPGMAの Arithmetic Mean の意味です。
無重み/無重み付き平均
データ点を等しく重みづけして平均をとる考え方。UPGMAはこの原理を用いて隣接クラスタを結合します。
アルゴリズム
特定の計算手順の集合。UPGMAは階層クラスタリングの一つのアルゴリズムです。
分子時計
進化の速度がほぼ一定であるという仮定。UPGMAはこの仮定に沿って等速性を前提することが多いです。
分子系統樹
分子データから推定された系統樹。UPGMAで作成されることがあります。
クラスタリング
データを意味のあるグループに分けること全般。UPGMAは階層的クラスタリングの代表例です。
距離データ
距離情報を表すデータ。UPGMAの入力として使われます。

upgmaの関連用語

UPGMA
Unweighted Pair Group Method with Arithmetic Mean の略称。距離行列を用いてデータを階層的に結合していくクラスタリング手法で、結合の際には新しいクラスタと他のクラスタとの距離を、結合した元の2クラスタの距離の算術平均で更新します。分子時計が成立するデータに対して根付きの Ultrametric 木を作る性質があります。
階層的クラスタリング
データを階層構造のクラスタに段階的にまとめていく手法群の総称。デンドログラムという樹状図で結果を視覚化します。
アグロメーティブクラスタリング
階層的クラスタリングの一種で、最も近い(または最も類似した)2つのクラスタを繰り返し結合していく方法です。UPGMAはこの手法の一つです。
距離行列
全てのデータ点ペア間の距離を表す正方行列。UPGMAではこの行列を基にクラスタを統合していきます。
超距離木(Ultrametric tree)
すべての葉が根までの距離を等しく持つ特性を満たす系統樹。UPGMAはこの性質を仮定することが多いです。
デンドログラム
クラスタリングの結果を樹状図として表現する図。分岐の長さは距離を表すことが多いです。
系統樹推定
生物の進化関係を木として推定すること。UPGMAは古典的な系統樹推定法の一つです。
分子時計
時間の経過とともに進化速度がほぼ一定であるとする仮定。UPGMAはこの仮定の下で木を作成します。
遺伝的距離
2つの配列の差異の程度を数値で表したもの。距離が小さいほど近い関係を示します。
p距離
最も単純な遺伝距離の一つ。観測された差異の割合をそのまま距離として用います。
Jukes-Cantor距離
DNA配列の置換モデルに基づく進化距離の推定法の一つ。等価置換が起こる確率を考慮します。
Kimura 2パラメータ距離
置換の種類(遷移と位換)を別々に扱う、より現実的なDNA進化モデルの距離推定法。
更新公式
新しいクラスタと他のクラスタとの距離は、統合した2クラスタの距離の算術平均で計算します。具体的には D(k, r) = (D(i, r) + D(j, r)) / 2 です。
Neighbor-Joining法(NJ法)
距離行列から系統樹を推定する代表的なアルゴリズムの一つ。UPGMAとは異なり Ultrametric 仮定を必要としません。
ブートストラップ
データを再標本化して複数回木を推定し、分岐の信頼性を評価する方法です。
根付き木
木に根がある系統樹。UPGMAは分子時計の仮定の下、根付きの木を生成します。
枝長
木の各枝の長さ。UPGMAでは距離情報に応じて枝長を割り当てます。
遺伝子配列データ
DNAやRNAの配列データ。UPGMAはこの配列間の距離を計算して木を作ります。
アミノ酸配列データ
タンパク質のアミノ酸配列データ。遺伝子配列データと同様に距離推定に用います。

upgmaのおすすめ参考サイト


学問の人気記事

トルクの単位・とは?初心者向けに徹底解説!なぜ単位が違うのかまで分かる共起語・同意語・対義語も併せて解説!
1928viws
引用・参考文献とは?初心者でもわかる使い方とポイント解説共起語・同意語・対義語も併せて解説!
702viws
ensureとは?初心者にもわかる意味と使い方を徹底解説共起語・同意語・対義語も併せて解説!
656viws
座標計算・とは?初心者向けガイドで完全マスター共起語・同意語・対義語も併せて解説!
620viws
示差走査熱量測定とは?初心者向けガイドで学ぶ基本と実験のポイント共起語・同意語・対義語も併せて解説!
509viws
no・とは?初心者にもわかる意味と使い方ガイド共起語・同意語・対義語も併せて解説!
493viws
絶縁抵抗値とは?初心者でも分かる測定の基本と安全のコツ共起語・同意語・対義語も併せて解説!
491viws
ナイロン樹脂とは?初心者にもわかる基本と用途ガイド共起語・同意語・対義語も併せて解説!
456viws
welchのt検定とは?不等分散のデータを比較する統計手法をやさしく解説共起語・同意語・対義語も併せて解説!
415viws
k型熱電対とは?初心者にも分かる基礎解説と活用事例共起語・同意語・対義語も併せて解説!
402viws
summarize・とは?初心者向け解説と使い方のコツ共起語・同意語・対義語も併せて解説!
387viws
気圧の単位とは?中学生にもわかるPa・atm・bar・Torrの違いと換算ガイド共起語・同意語・対義語も併せて解説!
375viws
論述問題・とは?初心者にも分かる解説と解き方のコツ共起語・同意語・対義語も併せて解説!
374viws
穴加工・とは?初心者が知っておく基本と現場での活用ポイント共起語・同意語・対義語も併せて解説!
373viws
3/4・とは?分数の基本を分かりやすく解く完全ガイド共起語・同意語・対義語も併せて解説!
332viws
z変換・とは?初心者が知っておくべき基礎と日常への応用共起語・同意語・対義語も併せて解説!
329viws
100g・とは?初心者が今すぐ知っておきたい基本と使い方共起語・同意語・対義語も併せて解説!
328viws
洗浄バリデーションとは?初心者が押さえる基本と実務のポイント共起語・同意語・対義語も併せて解説!
320viws
endnoteとは?研究ノートを整理する基本ツールの解説共起語・同意語・対義語も併せて解説!
320viws
pastとは?初心者向けガイド:意味・使い方・例文を徹底解説共起語・同意語・対義語も併せて解説!
278viws

新着記事

学問の関連記事