バイオインフォマティクス

生命情報学に関する基本的な理論や解析ソフトウェアの使用方法について.

アミノ酸配列中における低複雑度領域 (low complexity region) とは一定の長さに渡り,一般的なアミノ酸頻度から期待されるよりも有意に多くの同じ文字が出現する領域のことである.同じ文字が連続して並ぶため,配列が単調となるので,この領域を低複雑領域と呼ぶ.配列類似性検索を行う際に,クエリ配列にこのような領域が存在すると,データベース中の配列とのアライメントの際に,配列類似性が高くなくともスコアが加算される場合があり,低複雑度を反映した高いスコアが算出される場合がある.これは低複雑度領域に限ったことではなく,リピート配列が存在する配列に対しても同様のことがいえる.そこで,このような配列部分に関しては配列類似性検索を行う前にフィルタリングを行う場合がある.フィルタリングは,アミノ酸配列に関しては低複雑領域と判断される文字を全てXで,核酸配列においてはNで置換をすることとなる.このようなフィルタリングはクエリ配列にのみ適用される.低複雑度領域を検出プログラムとして代表的なものには Wootton らが開発した SEG がある.BLAST の内部では,アミノ酸配列の低複雑度領域のフィルタリングにはこのプログラムを用いる.

SEGの原理

SEG では,ウインドウ長を L,ni を L 中の各アミノ酸の登場回数としたとき,以下の値 K,すなわち普通のエントロピーの式を計算する.この値が2.2より小さいウインドウを抽出する.その後,左右の残基を,この値が2.5以下である限り伸ばし続ける.

\begin{eqnarray*}K=-\sum_{i=1}^{20}\log{\frac{n_i}{L}}\tag{1}\end{eqnarray*}
  1. Wootton JC and Federhen S, Statistics of local complexity in amino acid sequences and sequence databases, Computers and Chemistry 17:149-163, 1993
Hatena Google+