バイオインフォマティクス

生命情報学に関する基本的な理論や解析ソフトウェアの使用方法について.

シーケンスを記述する書式で最もよく目にするのは fasta 形式であることは間違いないが,PIR 形式の記述も使用機会が多々あるので覚えておく必要がある.PIR フォーマットは以下のように記述される.

>シーケンスタイプコード;シーケンスID
シーケンスの詳細
シーケンス (最後に*を付け加える.)

一行目は > で始め,次に以下の表でまとめた2文字のシーケンスタイプコード,次にセミコロン,最後にシーケンスID を書く.シーケンスID は,UniProt や Pfam 等の ID をそのまま入力しておけば良い.二行目はシーケンスの詳細を書く.自分で何らかの記述を加えても良いし,UniProt等のデータベースの記述をそのまま用いても良い.もっと言えば改行さえすれば何も書かなくても良い.三行目はシーケンスを入力する.シーケンスに続けて * を付け加える.

シーケンスタイプコード詳細
P1Protein (complete)
F1Protein (fragment)
DLDNA (linear)
DCDNA (circular)
TLRNA (linear)
RCRNA (circular)
N3tRNA
N1other functional RNA

例えば,UniProtのP16980のシーケンスをPIRフォーマットで記述すると以下のようになる.

>P1;P16980
INFLUENZA VIRUS A NUCLEOPROTEIN
MASQGTKRPYEQMETGGERQNATEIRASVGKMVGGIGRFYIQMCTELKLNDYEGRLIQNSITIEKMVLSAFDERRNKYLE
EHPNTGKDPKKTGGPIYRKREGKWIRELILYDKEEIRRIWRQANNGEDATAGLTHLMIWHSNLNDATYQRTRALVRTGMD
PRMCSLMQGSTLPRRSGAAGAAVKGIGTMVMELIRMIKRGINDRNFWRGENGRKTRIAYERMCNILKGKFQTAAQRAMMD
QVRESRNPGNAEIEDLIFLARSALILRGSVAHKSCLPACVYGLIVASGYDFEREGYSLVGVDPFKLLQNSQIFSLIRPNE
NPAHKSQLVWMACHSAAFEDLRVSSFIRGTKVIPRGQLSTRGIQIASNENMETIDSNTLELRSRYWAIRTKSGGNTSQQK
ASAGQISVQPTFSVQRNLPFERTTIMAAFTGNNEGRTSDMRTEIIRMMENAKPDDVSFQGRGVFELSDEKATNPIVPSFD
MSKEGSYFFGDNAEEFDN*
Hatena Google+