低複雑度領域のフィルタリング

アミノ酸配列中における低複雑度領域 (low complexity region) とは一定の長さに渡り、一般的なアミノ酸頻度から期待されるよりも有意に多くの同じ文字が出現する領域のことである。同じ文字が連続して並ぶため、配列が単調となるので、この領域を低複雑領域と呼ぶ。配列類似性検索を行う際に、クエリ配列にこのような領域が存在すると、データベース中の配列とのアライメントの際に、配列類似性が高くなくともスコアが加算される場合があり、低複雑度を反映した高いスコアが算出される場合がある。これは低複雑度領域に限ったことではなく、リピート配列が存在する配列に対しても同様のことがいえる。そこで、このような配列部分に関しては配列類似性検索を行う前にフィルタリングを行う場合がある。フィルタリングは、アミノ酸配列に関しては低複雑領域と判断される文字を全てXで、核酸配列においてはNで置換をすることとなる。このようなフィルタリングはクエリ配列にのみ適用される。低複雑度領域を検出プログラムとして代表的なものにはWoottonらが開発したSEGがある。BLASTの内部では、アミノ酸配列の低複雑度領域のフィルタリングにはこのプログラムを用いる。

このエントリーをはてなブックマークに追加

Site search

ページのトップへ戻る