バイオインフォマティクス

生命情報学に関する基本的な理論や解析ソフトウェアの使用方法について.

インストール

シーケンスの冗長性を省くソフトウェア CD-HIT を $HOME/local にインストールする.オフィシャルサイト (http://weizhong-lab.ucsd.edu/cd-hit/) の Download タブ,さらに Google Code と記述されているリンクを辿る.その先の,Downloads のタブを進み,表示されるファイルを $HOME/build 等のビルド用の適当なディレクトリにダウンロードする.以下のコマンドで解凍する.

$ tar zxvf cd-hit-v4.6.1-2012-08-27.tgz

出てきたディレクトリに移動する.

cd cd-hit-v4.6.1-2012-08-27

以下のコマンドでビルドする.マルチスレッドで使用するためには openmp=yes を加える必要がある.

$ make openmp=yes

使用方法

CD-HIT にて nr90 データセットから配列一致率が60%以上の配列冗長性を除いたデータセット nr60 を作成したい場合,以下のようにコマンドを打つ.-i でインプットファイル名,-o でアウトプットファイル名,-c で冗長性を除きたい割合 (60%) を指定し,-n でword length,計算の精密さを指定する.また,オプション -T にて使用するスレッド数を指定することができる.例えば,-T 0 とすると使用できる最大のスレッドを用いて計算する.

$ cd-hit -i nr90 -o nr60 -c 0.6 -n 4

引数 -n で指定する値は,クラスタリングを行いたい配列一致率にて適切な値を指定する必要がある.以下のように対応する.

nc
50.7 ~ 1.0
40.6 ~ 0.7
30.5 ~ 0.6
20.4 ~ 0.5

CD-HIT では配列一致率30%以下のデータセットを作ることができない.配列一致率30%以下のデータセットを作りたいときは PSI-CD-HIT を使う.上で作成した nr60 から30%以上の配列一致率を有する配列を除いたデータセット nr30 を作成したい場合,以下のようにする.基本は CD-HIT と変わらないが,PSI-CD-HIT では -n を指定する必要がない.

$ psi-cd-hit.pl -i nr60 -o nr30 -c 0.3
Hatena Google+