

高岡智則
年齢:33歳 性別:男性 職業:Webディレクター(兼ライティング・SNS運用担当) 居住地:東京都杉並区・永福町の1LDKマンション 出身地:神奈川県川崎市 身長:176cm 体系:細身〜普通(最近ちょっとお腹が気になる) 血液型:A型 誕生日:1992年11月20日 最終学歴:明治大学・情報コミュニケーション学部卒 通勤:京王井の頭線で渋谷まで(通勤20分) 家族構成:一人暮らし、実家には両親と2歳下の妹 恋愛事情:独身。彼女は2年いない(本人は「忙しいだけ」と言い張る)
upgmaとは?初心者向けの基本解説
upgmaとは、Unweighted Pair Group Method with Arithmetic Mean の略で、距離行列から樹形図を作るための基本的なクラスタリング手法です。生物学の分野では、複数の生物種間の違いを小さなグループに分けて、祖先の関係を表す木を作るときに使われます。
この手法の目的は、すべての対象を木の中の葉として配置し、できるだけ正確に近い親子関係を再現することです。UPGMA は 平滑化された平均距離 を使ってクラスタを統合していく、シンプルで速いアルゴリズムとして知られています。
仕組みの流れ
手順は以下の通りです。
1) はじめに、全ての対象を個別のクラスタとして扱います。
2) すべてのクラスタ間の距離を計算し、最も近い2つのクラスタを見つけます。
3) その2つのクラスタを1つの新しいクラスタに統合します。
4) 新しいクラスタと他のクラスタの距離を、統合したクラスタ内の各要素の距離の算術平均で再計算します。ここで 重みは等しいとします。
5) この過程を、すべてのクラスタが1つになるまで繰り返します。最終的に樹形図が完成します。
重要な前提と注意点
UPGMA は 分子時計仮説 を前提にしています。つまり、すべての分岐の長さは「変化の速さ」が同じであると仮定します。この仮定が成り立つデータでは、UPGMA は正しく近い系統樹を返しやすいです。
現実のデータでは、分子の進化速度が遺伝子や種ごとに異なることが多く、分子時計の仮定が崩れると結果が現実と異なることがあります。その場合、UPGMA の木は過度に単純に見えることがあります。
例題で理解を深める
4つの生物 A, B, C, D の距離行列を使って、手順を追いながら考えてみましょう。初期の距離は以下のようになっています。
| A | B | C | D | |
|---|---|---|---|---|
| A | 0 | 5 | 9 | 9 |
| B | 5 | 0 | 10 | 10 |
| C | 9 | 10 | 0 | 8 |
| D | 9 | 10 | 8 | 0 |
このとき、最初に距離が最も小さいのは AB なので、AB を1つのクラスタに統合します。次に、新しいクラスタ ABと C の距離、AB と D の距離を、それぞれ AB を1つのクラスタとして扱ったときの算術平均で更新します。具体例として、距離(AB, C) = (距離(A, C) + 距離(B, C)) / 2 = (9 + 10) / 2 = 9.5、距離(AB, D) = (距離(A, D) + 距離(B, D)) / 2 = (9 + 10) / 2 = 9.5 となります。
この手順を繰り返すことで、最終的に一本の樹が完成します。実際の計算では、距離の更新が何度も発生しますが、基本のアイデアは「最も近い2つを先に結び、全体の距離を新しいクラスタの平均距離で再計算する」という流れです。
UPGMA の利点と欠点
利点 は非常にシンプルで計算が速いことです。データが大きなときにも扱いやすいのが魅力です。
欠点 は分子時計の仮定が現実のデータには合わないことが多い点です。これにより、得られる樹が現実の進化史とずれる可能性があります。実務では、UPGMA と他の手法を状況に応じて使い分けることが大切です。
実務での使い方のヒント
距離行列を用意できれば、UPGMA を選ぶだけで木を作ることができます。実際のデータ解析では、専用のソフトウェア(例: MEGA, Clustal など)を使い、「UPGMA」を選択して実行します。結果として、樹形図とブートストラップ値などが得られ、データの信頼性を評価できます。
まとめ
upgmaは、距離行列から樹形図を作るための基本的かつ直感的な方法です。分子時計の仮定を前提としているため、データがこの仮定に近い場合には有効です。初心者の方は、まず仕組みを理解し、次に実データでの適用と他の手法との比較を学ぶと良いでしょう。
よくある質問
Q: upgma はどんなデータに適しています?
A: 距離が均質に推移しているとき、つまり分子時計の仮定が近い場合に適しています。
upgmaの同意語
- UPGMA
- Unweighted Pair Group Method with Arithmetic Mean の略。距離行列を用いて階層的クラスタリングを行い、クラスタ間の距離を算術平均で更新して系統樹を作る手法。ウルトラメトリック木を生成することが多い。
- アップグマ法
- UPGMA の日本語表記。距離を算術平均で結合する非加重の階層的クラスタリング法の一種。
- UPGMA法
- UPGMA の正式呼称。距離行列に基づく階層的クラスタリングを算術平均でクラスタ統合する手法。
- UPGMAアルゴリズム
- UPGMA のアルゴリズム表現。距離行列から階層的クラスタ構築を行う計算手順のこと。
- 非加重平均連結法
- クラスタ間の距離を全要素間のペア距離の算術平均で求める連結法のうち、重み付けを行わないタイプ。UPGMA の性質を表す説明として使われることがある。
- 非加重対群法
- Unweighted Pair Group Method に対応する日本語表現。重み付けを行わずにクラスタを結合する方法の総称として使われることがある。
- ウルトラメトリック木生成法
- UPGMA が出力する系統樹の特性のひとつ。全ての分岐の長さが階層間隔と一致するウルトラメトリック木を生成することを指す表現。
- 算術平均連結法
- クラスタ間の距離計算に算術平均を用いる連結法の総称。UPGMAはこの中の非加重版として位置づけられることがある。
- 算術平均法連結法(UPGMAの一種)
- UPGMAを説明する際の別表現。距離更新に算術平均を用いる連結法の一種。
upgmaの対義語・反対語
- WPGMA(加重UPGMA)
- UPGMAの重みづけバージョンで、クラスタ間の距離を重み付きの平均で計算します。無重みのUPGMAとは異なる前提・計算手法の対になる概念です。
- 非分子時計法
- 分子時計を仮定しない、進化速度の一定性を前提としない系統推定法。UPGMAが分子時計の仮定と相性が良いことが多いのに対し、こちらはその仮定を置かずに木を推定します。
- Neighbor-Joining法(NJ法)
- 距離データから隣接関係を最適化して木を作る代表的な方法。分子時計の仮定を必須とせず、UPGMAとは異なる前提・出力形式を持つ対照的なアプローチです。
- 非階層的クラスタリング
- UPGMAのような階層的クラスタリングとは異なり、階層構造を作らずデータをクラスタに分ける手法。例としてK-meansやDBSCANなどがあります。
- K-means法
- 非階層的クラスタリングの代表的手法の一つで、データを事前に決めたクラスタ数に分割します。UPGMAの階層的クラスタリングとは別のアプローチです。
- 最尤推定法(Maximum Likelihood, ML法)
- 確率モデルに基づいて最も尤もらしい系統樹を推定する高度な手法。距離法ベースのUPGMAとは異なる原理で、進化モデルを詳しく扱います。
upgmaの共起語
- UPGMA法
- Unweighted Pair Group Method with Arithmetic Mean の略。距離行列をもとにデータを階層的にクラスタリングし、樹形図(デンドログラム)を推定するアルゴリズム。
- 階層的クラスタリング
- データを階層的な木構造でグループ分けするクラスタリング手法の総称。UPGMAはこの一種です。
- 距離行列
- 全データ間の距離を整理した表。UPGMAはこの距離情報を用いてクラスタを結合します。
- 遺伝距離
- 個体・種間の遺伝的差を数値化したもの。UPGMAでは遺伝距離を基に木を作成します。
- 樹形図
- 系統樹の図表。UPGMAで推定した階層構造を視覚化します。
- デンドログラム
- 樹形図の別名。UPGMAの結果を可視化するグラフの一種です。
- 系統樹推定
- 生物の系統関係を木として推定すること。UPGMAは代表的な推定法のひとつです。
- 生物情報学
- 生物データを計算機で解析する学問分野。UPGMAはこの分野でよく使われます。
- 算術平均
- クラスタ間の距離を算術平均で計算する手法。UPGMAの Arithmetic Mean の意味です。
- 無重み/無重み付き平均
- データ点を等しく重みづけして平均をとる考え方。UPGMAはこの原理を用いて隣接クラスタを結合します。
- アルゴリズム
- 特定の計算手順の集合。UPGMAは階層クラスタリングの一つのアルゴリズムです。
- 分子時計
- 進化の速度がほぼ一定であるという仮定。UPGMAはこの仮定に沿って等速性を前提することが多いです。
- 分子系統樹
- 分子データから推定された系統樹。UPGMAで作成されることがあります。
- クラスタリング
- データを意味のあるグループに分けること全般。UPGMAは階層的クラスタリングの代表例です。
- 距離データ
- 距離情報を表すデータ。UPGMAの入力として使われます。
upgmaの関連用語
- UPGMA
- Unweighted Pair Group Method with Arithmetic Mean の略称。距離行列を用いてデータを階層的に結合していくクラスタリング手法で、結合の際には新しいクラスタと他のクラスタとの距離を、結合した元の2クラスタの距離の算術平均で更新します。分子時計が成立するデータに対して根付きの Ultrametric 木を作る性質があります。
- 階層的クラスタリング
- データを階層構造のクラスタに段階的にまとめていく手法群の総称。デンドログラムという樹状図で結果を視覚化します。
- アグロメーティブクラスタリング
- 階層的クラスタリングの一種で、最も近い(または最も類似した)2つのクラスタを繰り返し結合していく方法です。UPGMAはこの手法の一つです。
- 距離行列
- 全てのデータ点ペア間の距離を表す正方行列。UPGMAではこの行列を基にクラスタを統合していきます。
- 超距離木(Ultrametric tree)
- すべての葉が根までの距離を等しく持つ特性を満たす系統樹。UPGMAはこの性質を仮定することが多いです。
- デンドログラム
- クラスタリングの結果を樹状図として表現する図。分岐の長さは距離を表すことが多いです。
- 系統樹推定
- 生物の進化関係を木として推定すること。UPGMAは古典的な系統樹推定法の一つです。
- 分子時計
- 時間の経過とともに進化速度がほぼ一定であるとする仮定。UPGMAはこの仮定の下で木を作成します。
- 遺伝的距離
- 2つの配列の差異の程度を数値で表したもの。距離が小さいほど近い関係を示します。
- p距離
- 最も単純な遺伝距離の一つ。観測された差異の割合をそのまま距離として用います。
- Jukes-Cantor距離
- DNA配列の置換モデルに基づく進化距離の推定法の一つ。等価置換が起こる確率を考慮します。
- Kimura 2パラメータ距離
- 置換の種類(遷移と位換)を別々に扱う、より現実的なDNA進化モデルの距離推定法。
- 更新公式
- 新しいクラスタと他のクラスタとの距離は、統合した2クラスタの距離の算術平均で計算します。具体的には D(k, r) = (D(i, r) + D(j, r)) / 2 です。
- Neighbor-Joining法(NJ法)
- 距離行列から系統樹を推定する代表的なアルゴリズムの一つ。UPGMAとは異なり Ultrametric 仮定を必要としません。
- ブートストラップ
- データを再標本化して複数回木を推定し、分岐の信頼性を評価する方法です。
- 根付き木
- 木に根がある系統樹。UPGMAは分子時計の仮定の下、根付きの木を生成します。
- 枝長
- 木の各枝の長さ。UPGMAでは距離情報に応じて枝長を割り当てます。
- 遺伝子配列データ
- DNAやRNAの配列データ。UPGMAはこの配列間の距離を計算して木を作ります。
- アミノ酸配列データ
- タンパク質のアミノ酸配列データ。遺伝子配列データと同様に距離推定に用います。



















