DNA配列アラインメントの初心者向けガイド

幸いなことに、配列アラインメントの方法を学んだ私たちは、配列を作成するよりもはるかに簡単で時間もかからないことを知っています。。シーケンシングゲル、サンガーベースの方法、または最新のパイロシーケンシングまたはイオントレントテクノロジーを採用している場合でも、シーケンスの取得、操作、分析がこれまでになく簡単になりました。

これから見ていきます。開始するには、シーケンスアラインメントの基本だけです。

アラインメントできるシーケンスの数は？

アラインメントを実行するには、少なくとも2つのシーケンスが必要です。 2つのシーケンスを比較するには、「ペアワイズ」アラインメントを実行する必要があります。ほとんどのプログラムは、一度に3つ以上のシーケンスをアラインメントし、MUSCLEやClustalWなどのClustalアルゴリズムの1つなどの異なるアルゴリズムを必要とします。

必要に応じて数百から数千に揃えることができますが、これを簡単かつ単純にする、または不可能ではないにしても時間の浪費にする可能性のあるいくつかの要因があります。まず、適切なアルゴリズムを選択する必要があります。たとえば、シーケンスプログラムMUSCLEは通常、精度を重視して大規模なデータセットを処理します。ある観点からは、通常、MUSCLEを使用して約1時間で1000ヌクレオチドの最大750シーケンスを整列できます。多数のシーケンスを整列するには、十分なコンピューターメモリとストレージが必要です。

類似性と同一性の違いは何ですか？

同一性は、ギャップのない2つの配列間の相関度であり、特定の位置のアミノ酸またはヌクレオチドが正確一致。一般に、25％以上の同一性は、機能の類似性の可能性を示唆しています。 18〜25％の同一性は、構造または機能の類似性を意味します。 2つ以上の完全に無関係なシーケンスは20％以上の同一性を持つ可能性があるため、これは厳格なルールではないことに注意することが重要です。類似性は、2つの配列を比較したときの類似度であり、特定の位置にあるアミノ酸またはヌクレオチドにいくつかの共通の特性（たとえば、電荷または疎水性）があるが、同一ではないことを示します。類似の残基の割合が高い場合も、保存された機能または構造を示唆している可能性があります。

「コンセンサス」配列とは何ですか？

コンセンサス配列は通常、アライメントワークテーブルの上部に表示されます。配列の各ヌクレオチド（またはアミノ酸）は、整列した配列のその位置に最も頻繁に現れる残基に基づいています。たとえば、5つの配列を整列し、位置20のヌクレオチドがA、A、T、 A、Gの場合、コンセンサス配列の位置は20になります。コンセンサス配列の使用は、高度な同一性を持つ配列間の進化的関係を調べる場合に非常に役立ちます。コンセンサスを使用して潜在的なギャップを特定することも役立ちます。

ギャップが重要なのはなぜですか？

ギャップは、特定のアラインメントの1つの文字列内の1つ以上のスペースであり、通常、1つまたは複数の配列の挿入または削除に対応します。アラインメント内のより多くの配列。挿入または削除は芸術である可能性がありますシーケンシング化学の影響であり、本物のDNA配列を示すものではありません。 European Bioinformatics Instituteによると、他にもいくつかの潜在的な説明があります。

単一の突然変異はギャップを生み出す可能性があります（非常に一般的です）。
減数分裂における不均等な交叉は塩基のストリングの挿入または削除。
複製手順でのDNAのずれにより、ストリングが繰り返される可能性があります。
レトロウイルスの挿入。
転座染色体間のDNA。

シーケンスデータが良好であることを確認するにはどうすればよいですか？

アルファベットスープ。 As、Ts、Cs、Gsがたくさん。配列を取得する方法に関係なく、配列アラインメントとその後の分析の全体的な成功と精度は、配列データの品質に完全に依存します。しっかりとした上流の準備、プライマーの設計、試薬の品質などは、あなたをヒーローにすることができます…。またはゼロにすることができます。したがって、科学的に言えば、シーケンスデータの品質は、アラインメントの成功と堅牢性に正比例します。「ガベージイン–ガベージアウト」です。

ほとんどの場合、生データは「スコアリング」され、シーケンサーソフトウェアによってクリーンアップされて、完成したエクスポート可能なシーケンスになります。品質は、使用するテクノロジーと化学に応じて、さまざまな方法でスコアリングでき、信号強度、読み取られた連続ヌクレオチドの数、簡単さなどの基準を利用します。各ヌクレオチドが決定されます。たとえば、クロマトグラフのクリーンで遮るもののないピーク。As、Ts、Cs、Gs以外に、データに表示される可能性のある他のコードを理解することが重要です（IUPACコードの完全なリストについてはここをクリックしてください）。

役立つヒント

作業を早期に頻繁に保存する習慣を身に付けることを強くお勧めします！
FASTAファイル形式に慣れる– GenBank（http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml）などのクリアリングハウスからダウンロードする場合に必要になります
一般的に、シーケンスをLTR（ロングターミナルリピート）領域とアラインメントする場合は、組成と長さがすべて同じである限り、これらの領域を削除してみてください。これにより、精度を犠牲にすることなくアラインメントが高速化されます。
シーケンスが長いほど、必要な時間が長くなります。

このシリーズの次の記事にご注目ください。ここでは、利用可能なさまざまなシーケンスアラインメントプログラムについて説明します。

これは役に立ちましたか？次に、ネットワークと共有してください。

JasonGarner著

Mont Blanc

DNA配列アラインメントの初心者向けガイド

アラインメントできるシーケンスの数は？

類似性と同一性の違いは何ですか？

「コンセンサス」配列とは何ですか？

ギャップが重要なのはなぜですか？

シーケンスデータが良好であることを確認するにはどうすればよいですか？

役立つヒント

コメントを残すコメントをキャンセル

DNA配列アラインメントの初心者向けガイド

アラインメントできるシーケンスの数は？

類似性と同一性の違いは何ですか？

「コンセンサス」配列とは何ですか？

ギャップが重要なのはなぜですか？

シーケンスデータが良好であることを確認するにはどうすればよいですか？

役立つヒント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル