バイオインフォマティクス

生命情報学に関する基本的な理論や解析ソフトウェアの使用方法について.

配列データのファイル形式 (シーケンスフォーマット) の変換は T-COFFEE の利用が便利である.FASTA,PIR,msf 等をはじめとする配列解析の分野で広く用いられているファイル形式を相互に変換することができる.特に,マルチプルシーケンスアラインメントのファイル形式の変換の際に有用である.

マルチ fasta 形式の配列ファイル hoge.fa を msf フォーマットの hoge.msf に変換するためには以下のようにコマンドを打つ.オプション -other_pg seq_reformat はプログラムの実行に必須のオプションである.他に,-output にて出力フォーマットを指定,-in で入力ファイルを指定,-out で出力ファイルを指定する.

$ t_coffee -other_pg seq_reformat -output msf_aln -in hoge.fa -out hoge.msf

変換前のファイルは fasta 形式以外のフォーマットでも良い.入力ファイルのフォーマットは -input オプションにて明示的に指定しても良いが,指定しなくとも大抵の場合,自動で認識される.-output に指定できるフォーマットは,compressed_aln, saga_aln, clustal_aln, phylip_aln, msf_aln, fasta_aln, pir_aln 等である.その他に,この t_coffee -other_pg seq_reformat を利用すれば,核酸配列からアミノ酸配列への翻訳や相補鎖の生成等,非常に多岐にわたる配列操作が可能である.

読み込めるインプットファイル形式,吐き出せるアウトプットファイル形式およびその指定法等は以下のようになっている.

ClassFormat
Alignment inputamps_aln,saga_aln,clustal_aln,fasta_aln,msf_aln,dali_aln,gotoh_aln,pima_aln,dialign_aln,matrix,conc_aln
Alignment outputcompressed_aln,saga_aln,clustal_aln,phylip_aln,msf_aln,fasta_aln,pir_aln
Sequence inputfasta_seq,dali_seq,pir_seq,barton_list_tc,amps_sd_scores,EST_fasta,gor_seq,gor_struc,number_fasta,swissprot,tc_lib,pdb_struc
Sequence outputfasta_seq,fasta_seq1,gotoh_seq,gor_seq,cache_id,tblastx_db1,tblastx_db2,tblastx_db3
Hatena Google+