DNA 염기 서열 정렬에 대한 초보자 가이드

다행히도 염기 서열을 배열하는 방법을 배운 사람들은 염기 서열 정렬이 생성하는 것보다 훨씬 쉽고 시간이 적게 걸린다는 것을 알고 있습니다. . 시퀀싱 젤, Sanger 기반 방법 또는 최신 파이로 시퀀싱 또는 이온 토렌트 기술을 사용하든 관계없이 시퀀스를 획득, 조작 및 분석하는 것이 그 어느 때보 다 쉬워졌습니다.

우리는 살펴볼 것입니다. 시작하려면 시퀀스 정렬의 기초 만 살펴보십시오.

몇 개의 시퀀스를 정렬 할 수 있습니까?

정렬을 수행하려면 최소 2 개의 시퀀스가 있어야합니다. 2 개의 서열을 비교하려면 “쌍으로”정렬을 수행해야합니다. 대부분의 프로그램은 한 번에 3 개 이상의 서열을 정렬하고 MUSCLE 또는 ClustalW와 같은 Clustal 알고리즘 중 하나와 같은 다른 알고리즘이 필요합니다.

원하는 경우 수백에서 수천까지 정렬 할 수 있지만,이를 간단하고 간단하게 만들 수있는 몇 가지 요소가 있습니다. 불가능하지 않은 경우 시간을 낭비하지 않는 경우 먼저 적절한 알고리즘을 선택해야합니다. 예를 들어 MUSCLE 시퀀싱 프로그램은 일반적으로 큰 데이터 세트를 정확성을 중시하여 처리합니다. 어떤 관점에서는 일반적으로 MUSCLE을 사용하여 약 1 시간 내에 각각 1,000 개 뉴클레오티드의 750 개 시퀀스를 정렬 할 수 있습니다. 많은 수의 시퀀스를 정렬하려면 충분한 컴퓨터 메모리와 스토리지가 있어야합니다.

유사성과 동일성의 차이점은 무엇입니까?

동일성은 2 개의 갭이없는 서열 간의 상관 정도이며 특정 위치의 아미노산 또는 뉴클레오티드가 정확한 시합. 일반적으로 25 % 이상의 동일성은 기능의 유사성 가능성을 나타냅니다. 18-25 %의 동일성은 구조 또는 기능의 유사성을 의미합니다. 완전히 관련이없는 2 개 이상의 서열이 20 % 이상의 동일성을 가질 수 있으므로 이것은 어렵고 빠른 규칙이 아닙니다. 유사성은 비교 될 때 두 서열 사이의 유사도이며 특정 위치의 아미노산 또는 뉴클레오티드가 공통적 인 특성 (예 : 전하 또는 소수성)을 갖지만 동일하지 않음을 나타냅니다. 유사한 잔류 물의 높은 비율은 또한 보존 된 기능 또는 구조를 암시 할 수 있습니다.

“합의”순서 란 무엇입니까?

합의 순서는 일반적으로 정렬 작업대의 상단에 나타납니다. 서열의 각 뉴클레오타이드 (또는 아미노산)는 정렬 된 서열에서 가장 빈번하게 해당 위치에 나타나는 잔기를 기반으로합니다. 예를 들어 5 개의 서열을 정렬하고 20 번 위치의 뉴클레오타이드가 A, A, T, A와 G를 입력하면 컨센서스 서열은 위치 20에 A가 있습니다. 컨센서스 서열을 사용하면 동일성이 높은 서열 간의 진화 적 관계를 조사 할 때 매우 유용 할 수 있습니다. 또한 합의를 사용하여 잠재적 인 갭을 식별하는 것도 유용합니다. 정렬 된 시퀀스에서.

갭이 중요한 이유는 무엇입니까?

갭은 주어진 정렬의 단일 문자열에있는 하나 이상의 공백이며 일반적으로 하나 또는 하나의 삽입 또는 삭제에 해당합니다. 정렬 내에 더 많은 서열이 있습니다. 삽입 또는 삭제는 예술이 될 수 있습니다. 시퀀싱 화학의 행위이며 실제 DNA 서열을 나타내지 않습니다. 유럽 생물 정보학 연구소 (European Bioinformatics Institute)에 따르면 다음과 같은 몇 가지 다른 잠재적 설명이 있습니다.

단일 돌연변이가 간격을 만들 수 있습니다 (매우 흔함).
감수 분열의 불균등 한 교차가 발생할 수 있습니다. 염기 문자열의 삽입 또는 삭제.
복제 절차에서 DNA 미끄러짐으로 인해 문자열이 반복 될 수 있습니다.
레트로 바이러스 삽입
전이 염색체 사이의 DNA.

내 서열 데이터가 좋은지 어떻게 알 수 있습니까?

알파벳 수프. 많은 As, Ts, Cs 및 Gs. 시퀀스를 얻는 방법에 관계없이 시퀀스 정렬 및 후속 분석의 전반적인 성공과 정확성은 전적으로 시퀀스 데이터의 품질에 달려 있습니다. 견고한 업스트림 준비, 프라이머 디자인 및 시약 품질과 같은 것들이 당신을 영웅으로 만들 수 있습니다. 따라서 과학적 측면에서 시퀀스 데이터의 품질은 정렬의 성공 및 견고성에 정비례합니다. 아시다시피 ‘쓰레기 투입-쓰레기 배출’

대부분의 경우 원시 데이터는 ” 점수가 매겨지고 시퀀서 소프트웨어에 의해 정리되어 내보내기 가능한 완성 된 시퀀스가 생성됩니다. 품질은 사용 된 기술 및 화학에 따라 여러 가지 방법으로 점수를 매길 수 있으며 신호 강도, 판독 된 연속 뉴클레오티드 수 및 사용 용이성과 같은 기준을 활용합니다. 각 뉴클레오티드가 결정됩니다 (예 : 크로마토 그래프에서 깨끗하고 막히지 않는 피크). As, Ts, Cs 및 Gs 이외의 데이터에 나타날 수있는 다른 코드를 이해하는 것이 중요합니다 (전체 IUPAC 코드 목록을 보려면 여기를 클릭하십시오).

유용한 몇 가지 팁

작업을 일찍 그리고 자주 저장하는 습관을들이는 것이 좋습니다!
FASTA 파일 형식에 익숙해 지세요. GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)와 같은 청산 소에서 다운로드 할 때 필요합니다.
일반적으로 LTR (긴 터미널 반복) 영역으로 시퀀스를 정렬하는 경우 구성과 길이가 모두 동일하다면 이러한 영역을 삭제 해 볼 수 있습니다. 이렇게하면 정확도를 떨어 뜨리지 않고 정렬 속도를 높일 수 있습니다.
시퀀스가 길수록 시간이 더 오래 걸립니다.

사용 가능한 다양한 시퀀스 정렬 프로그램에 대해 이야기 할이 시리즈의 다음 기사를 계속 지켜봐주십시오.

도움이 되었습니까? 그런 다음 네트워크와 공유하세요.

작성 : Jason Garner

Mont Blanc