본문 바로가기
Coffee Genetics

SOLiD Sequencing : 2세대 DNA 염기 서열 분석

by mjcafe 2024. 7. 14.

 

SOLiD (Supported Oligonucleotide Ligation and Detection) System 2.0 플랫폼은

Applied Biosystems (http://www.solid.appliedbiosystems.com)에서 배포하는, 결찰(ligation)을 기반으로 하는 short-read sequencing 기술이다.


이 어푸로치는 George Church의 실험실에서 개발되었으며, Escherichia coli 게놈의 재배열과 함께 2005년에 보고되었다. Applied Biosystems는 이 기술을 개선하여 2007년에 SOLiD 기기를 출시했다.


샘플 준비는 DNA 단편이 올리고뉴클레오티드 어댑터(oligonucleotide adapters)에 결찰되고, 비드에 부착되고, 에멀젼 PCR에 의해 클론 증폭된다는 점에서 454 기술과 유사하다.


클론 증폭된 템플릿이 있는 비드들은 유도체화된 유리 플로우 셀 표면(derivitized-glass flow-cell surface)에 고정되고, 어댑터-템플릿 접합부(adapter–template junction)에서 어댑터에 상보적인 프라이머 올리고뉴클레오티드를 어닐링하여 시퀀싱이 시작된다 (Fig. 3).

폴리머라제 매개 확장을 위해 3’ hydroxyl group (하이드록실기)을 제공하는 대신, 프라이머는 첫 번째 “ligation  sequencing” 단계 동안 조회 프로브(interrogation probes)에 대한 결찰을 위해 5’ phosphate group (인산염기)을 제공하도록 배향된다.

각 조회 프로브 (interrogation probe)는 (3’-5’ 방향으로) 2개의 프로브-특이 염기들(probe-specific bases)과 5’ end에 연 결된 4개의 형광 표지들 중 하나가 있는 6개의 축퇴 염기(degenerate bases)로 구성된 팔량체(octamer)이다.
2개의 프로브-특이적 염기들은 16개의 가능한 2-염기 조합(예: TT, GT 등) 중 하나로 구성된다. 


첫 번째 ligation-sequencing step에서는 16가지 가능한 2-염기 조합을 나타내는 열안정성 리가아제 (thermostable ligase) 및 조회 프로브(interrogation probes)가 존재한다. 그 프로브들은 프라이머에 바로 인접한 템플릿 시퀀스들에 어닐링하기 위해 경쟁한다. 어닐링 후, 결찰 단계를 수행한 다음, 결합되지 않은 프로브를 세척 제거한다.

 

결찰된 프로브가 절단되기 전에 형광 신호가 광학적으로 수집되고, 형광을 제거하고 5’-phosphate group (인산염기)을 재생하기 위해 세척이 수행된다.


후속 시퀀싱 단계들에서,조회 프로브(interrogation probes)는 이전 오량체(pentamer)의 5’-phosphate group (인산염기)에 결찰된다.

 

첫 번째 프라이머를 확장하기 위해 "라운드"라고 하는 7회의 결찰 사이클들이 수행된다.
그런 다음 합성된 가닥(synthesized strand)이 ​​변성되고(denatured), 

adapter sequence (n - 1)에서 1 염기만큼 오프 셋된 새로운 시퀀싱 프라이머(new sequencing primer)가 어닐링된다.
연속 오프셋(n - 2, n – 3, 등)이 있는 새 프라이머를 사용할 때마다 총 5회 라운드가 수행된다.

이 접근법을 통해 각 템플릿 뉴클레오티드의 서열이 두 번 결정된다.
6일간의 기기 실행으로 35 bases 길이의 서열 리드가 생성된다.
16개의 가능한 2-염기 조합 조회 프로브(interrogation probes)에 대한 결찰 결과를 해석하여 서열을 추론한다.
오프셋 프라이머(offset primers)를 사용하면 어댑터의 여러 염기 서열이 결정된다.

Fig.3. Applied Biosystems SOLiD sequencing by ligation
Top : SOLiD color-space coding. 각 interrogation probe는 팔량체(octamer)이며, (3’-to-5’) 2개의 프로브-특이적 염기들과, 이어서 5’ end에 연결된 4개의 형광 표지들 중 하나를 가진 6개의 퇴화 염기들(nnnzzz)로 구성되어 있다. 2개의 probe-specific bases는 16개의 가능한 2-염기 조합들 중 하나로 이뤄져 있다 :
(A) 어닐된 프라이머 (n)을 가진 P1 어댑터와 템플릿은 16개의 가능한 2-염기조합을 나타내는 프로브에 의해 조사된다. 이 예에서, 템플릿에 상보적인 2개의 특이적 염기들은 AT에 있다.
(B) 프로브의 어닐링 및 결찰 후, 마지막 3개의 축퇴 프로브 염기들의 형광이 기록된다. 절단된 프로브의 5’-end는 두번째 시퀀싱 스텝 전에 인산화된다 (표시되지 않음).
(C) 다음 프로브의 어닐링 및 결찰
(D) 7 사이클의 결찰로 구성된 첫번째 라운드를 통한 프라이머(n)의 완전한 확장
(E) 프라이머(n)에서 연장된 산물은 어댑터/템플릿에서 변성되고, 두 번째 시퀀싱은 프라이머(n-1)를 사용하여 수행된다. 점진적으로 오프셋된 프라이머를 사용하면, 이 예(n-1)에서 어댑터 염기의 서열이 결정되고, 이 알려진 서열은 deconvolution에 의한 템플릿 시퀀스를 결정하기 위한 color-coding space와 함께 사용된다 (online Data Supplement의 Fig. 1 참조).
이 기술에서는 템플릿 염기들이 두 번 조회된다. 

 

이 정보는 다운스트림 템플릿 시퀀스를 알고리즘적으로 디컨볼루션(deconvolute)하기 위해 색-공간 코딩 체계(color space– coding scheme)와 함께 사용되는 시퀀스 참조 시작점(sequence reference starting point)을 제공한다 (http://www.clinchem.org/content/vol55/issue4에서 이 리뷰의 온라인 버전과 함께 제공되는 Data Supplement의 Fig. 1 참조). 
분석 실행당 기기에 2개의 플로우 셀 슬라이드를 장착하면 4Gb 이상의 시퀀스 출력이 생성된다.

 

확장되지 않은 가닥은 결찰 전에 캡핑되어 디페이싱(dephasing)으로 인한 신호 저하 (signal deterioration )를 완화한다. 

고-정확도 결찰 화학과 결합된 캡핑, 그리고 독립적 결찰 사이클 동안의 각 뉴클레오티드 염기에 대한 2회 조회로, 25개 뉴클레오티드의 서열 리드들에 대한 15배 서열 커버리지에서 알려진 표적에 대해 99.9%의 서열 합의 정확도가 회사에서 보고되었다. 
독립적인 트랙에서, Church 실험실은 Danaher Motion & Dover Systems와 협력하여 대체 sequencing-by-ligation 플랫폼인 Polonator G.007 (http://www.polonator.org)을 개발하고 도입했다.

표 1에는 GSFLX, GenomeAnalyzer 및 SOLiD 플랫폼 기능이 요약되어 있다.

 

 

Sequencing by Ligation (결찰에 의한 시퀀싱)


결찰에 의한 시퀀싱은 DNA 리가아제(ligase)의 불일치 민감도(mismatch sensitivity)를 활용하여, 주어진 DNA 서열에서 뉴클레오티드의 기본 서열을 결정하는 DNA 염기 서열분석 방법이다 (Ho et al., 2011). 이 방법을 기반으로 하는 플랫폼은 측정할 뉴클레오티드에 따라 형광 태그로 라벨이 붙은 다양한 길이의 올리고뉴클레오티드 프로브 풀을 사용한다.


단편화된 DNA 템플릿은 짧고 알려진 앵커 시퀀스(anchor sequence)로 프라이밍되는데, 이는 프로브(probes)가 혼입 (hybridize)할 수 있도록 한다.  


DNA 리가아제가 플로우 셀에 추가되고 형광 태그가 지정된 프로브를 프라이머 및 템플릿에 연결하므로, 일치하는 시퀀스에 대한 DNA 리가아제에 의한 우선적 결찰(preferential ligation)로 인해 해당 위치의 뉴클레오티드에 대한 정보를 제공하는 신호가 생성된다.


단일 위치가 시퀀스된 후, 쿼리 프라이머(query primer)와 앵커 프라이머(anchor primer)가 DNA 템플릿에서 제거되어 서열 분석이 효과적으로 리세팅된다 (Ho et al., 2011). 프로세스는 다시 시작되어 다른 쿼리 프라이머를 사용하여 다른 위치의 서열을 분석하고 태그의 전체 서열이 결정될 때까지 반복된다.

 

Life Tech의 SOLiD™(support oligonucleotide ligation detection) 플랫폼은 결찰에 의한 시퀀싱의 주요 대표자이다.
이러한 플랫폼에서 단편화되거나 짝을 이룬(mate-paired), 프라임된 라이브러리(primed libraries)는 나중에 유리 슬라이드(glass slide)에 부착되는 마이크로비드(microbeads)에 대한 emulsion PCR을 통해 농축된다.

8개의 염기로 구성된 4개의 1,2- probes (각각 서로 다른 형광단으로 태그 지정) 세트가 플로우 셀에 추가되어, sequencing primer에 대한 결찰을 위해 경쟁한다 (Figure 4.2)(Egan et al., 2012).

프로브의 처음 두 위치는 형광단에 특이적인 알려진 이중 염기 쌍(di-base pair)을 포함한다. 이 두 염기는 각 결찰 반응에서 모든 첫 번째 염기와 두 번째 염기를 쿼리한다. 염기 3~5는 포스포로티올레이트 결합(phosphorothiolate linkage)에 의해 염기 6~8과 분리된 축퇴 염기(degenerate bases)이다.

일치하는(matching) 1,2-probe는 DNA 리가아제에 의해 프라이머에 링크된다.
어떤 1,2-probe가 연결되었는지 평가하기 위한 형광 이미징 후,

은 이온(silver ions)이 포스포로티올레이트 연결(phosphorothiolate link)을 끊고 후속 결찰을 위해 5' 인산염기(phosphate group)를 재생성한다.

이 절차(프라이머 혼성화, 프로브의 선택적 결찰, 4색 이미징 및 프로브 절단)는 연속적으로 반복되며, 사이클 수에 따라 최종 리드 길이가 결정된다 (Metzker, 2009). 만족스러운 길이에 도달한 후 연장된 생성물이 분리되고 절차가 새로 시작되며, 이전 프라이머 라운드의 n - 1 위치에 상보적인 프라이머로 템플릿이 재설정된다.

템플릿은 연속적인 결찰을 통해 신장된(elongated) 후, 4번 더 재설정(reset)된다 (각 시퀀스 태그에 대해 5 라운드의 프라이머 재설정이 완료됨). 이 프라이머 재설정 절차를 통해 각 염기는 2개의 서로 다른 프라이머들에 의한 2개의 독립적인 결찰 반응으로 쿼리된다. Check-and-balance system이 DNA 시퀀스를 평가하는 공간과 시간을 통해 분석되는 일련의 4색 이미지들의 생성과 정렬을 통해 결정하는 시스템이다. 

 

 

 

 

SOLiD  (sequencing by oligonucleotide ligation and detection) 플랫폼은 Sanger 시퀀싱과 마찬가지로 형광 신호 검출을 기반으로 한다. 차이점은 Sanger 시퀀싱에서는 형광단이 각 뉴클레오티드에 사용되는 반면, SOLiD에서는 형광단이 두 개의 뉴클레오티드의 주어진 조합에 사용된다는 점이다.


즉, 각 형광 신호는 두 뉴클레오티드의 결합(binding of two nucleotides)을 나타낸다. 따라서, 4개의 신호 각각이 4개의 뉴클레오티드 조합의 하위 집합을 나타내기 때문에, 얻은 ​​원시 데이터는 알려진 뉴클레오티드 서열로 번역될 수 없다.


이 방법론은 형광 프로브의 순차적 연결(sequential ligation of fluorescent probes)을 기반으로 하므로, 뉴클레오티드 2 to 2의 16가지 가능한 조합에 대해 4개의 형광단만 사용되지만, 알려진 컬러-공간 테크닉 덕분에 어떤 뉴클레오티드가 각 위치를 차지하는지 확인할 수 있다 (Figure 7a).

SOLiD 플랫폼에서는, 올리고뉴클레오티드의 결찰 및 검출은 4단계로 수행된다.

첫 번째 단계에서 서열 분석되어야 할 각 단편은 position n 및 n + 1에 알려진 서열의 두 염기가 있는 16개의 표지된 프로브 중 하나에 혼입하고, 이어서 縮退 염기(degenerate bases) 서열이 이어진다.

두 번째 단계에서 프로브가 절단되어(cleaved) 형광단이 결합된 끝 부분이 방출되고, 5개의 뉴클레오티드와 함께 5'-phosphate group이 남는다. 이 중 2개는 알려진 서열이다.

다음으로, 10회의 혼성화, 결찰, 절단(hybridization, ligation, and cleavage)의 연장 과정(extension process)이 수행된다. 

마지막으로 사이클을 다시 시작하기 위해 완료가 수행되지만 이번에는 n + 2 위치에서 수행된다.

각 측정에서 얻은 형광 신호는 결정된 뉴클레오티드에 비례하지는 않지만, 가능성의 수를 4개로 제한하므로 미지의 물질을 제거하기 위해 연속적인 결찰 사이클들이 필요하다. 따라서 Sanger 시퀀싱에서는 각 위치의 판독 값이 형광 신호와 연관되어 생성되자마자 자동으로 번역되었다면, SOLiD 시퀀싱에서는 판독 값이 일단의 신호들로만 이해될 수 있다. 

 

색 공간 기술(color space technique)은 SOLiD 플랫폼을 도입한 참신한 기능으로 SOLiD에서만 사용된다. 
이 기술에서는 Sanger 시퀀싱의 염기 공간 기술(base space technique)과 달리 각 신호가 하나의 염기가 아니라 연속된 두 개의 염기를 나타낸다.


각 뉴클레오티드 쌍은 특정 색상을 받지만 Figure 7b에서 볼 수 있듯이 각 뉴클레오티드 쌍의 색상 일치는 무작위가 아니다. 
Reverse 역방향(예: AG 및 GA), complementary (예: AG 및 TC) 및 complementary reverse (예: AG 및 CT) 커플들은  동일한 형광단에 의해 공유된다.


ACGAA 시퀀스(Figure 7b)를 가짐으로써, 첫 번째 프로브는 처음 두 위치에 AC를 갖게 되고, 두 번째 프로브에는 CG를 갖게 되며, 세 번째 프로브에는 GA를, 네 번째 프로브에는 AA를 갖게 된다.

 

그러나 가능한 조합은 최대 4개이므로 두 번째 리딩이 필요하다.
이를 고려하면, 가능한 유일한 시퀀스는 ACGAA 판독 값을 발생시키는 시퀀스이다.
결찰, 검출 및 절단 반응은 뉴클레오티드가 결정하려는 서열을 갖고 있는 만큼 여러 번 수행된다.

 

 

이 방법의 변형이 2006년에 개발되어 2013년 중국 회사 BGI-Shenzhen이 인수한 Complete Genomics(CG) 플랫폼에서 사용된다. 이는 높은 정밀도와 저렴한 비용으로 인해 인간 게놈과 관련된 프로젝트와 같은 대규모 유전 연구에서 변이체를 검출하기 위한 이상적인 플랫폼으로 제시된다.


다른 시퀀싱 플랫폼과 관련하여 제시된 두 가지 주요 혁신은 DNA nanoboles의 사용과 cPAL (combinatorial probes anchor ligation)에 의한 결찰 기술이다.


DNA nanoboles (DNBs)은 방향성 어댑터(directional adapters)를 사용하여 제한 효소(restriction enzymes)로 단편화한 후 원형화된 DNA 템플릿의 단편(fragments of circularized DNA template)이므로, 각각은 서로 다른 밀도, 크기 및 친화성 특성을 갖는다. 각 DNB에는 원본 DNA 템플릿의 여러 복사본이 포함되어 있다.

 

 

cPAL은 표준 앵커 부위(standard anchor sites)에 부착된 축퇴 및 형광단-태그된 DNA 단편을 포함하는 노나머 프로브  (nonamer probes)를 사용하여, 이러한 프로브의 결찰을 통해 축퇴에 인접한 염기를 읽는 것으로 구성된다 (Figure 8).
이는 6~7개 염기쌍의 판독 값들에서 11~12개 염기쌍의 판독 값들로 이동하여 달성된다.


이러한 방식으로 CG 플랫폼은 DNA 서열의 판독이 용액에서 수행되는 유일한 플랫폼이다. 이 방법론에서 수행된 결찰은 연결되지 않은 것(unchained)으로 알려져 있다. 왜냐하면 각 프로브가 검출되면 시스템이 0부터 새로운 주기를 시작하여 연결되지 않은 프로브가 씻겨 나가기 때문에 배경을 최소화하기 때문이다. 이 플랫폼에서 플로우 셀은 4가지 색상을 동시에 고속으로 감지하여 이미지화된다.

SOLiD 및 CG 플랫폼에서 사용되는 결찰을 통한 시퀀싱(sequencing by ligation)은 서열 판독 시 매우 높은 정밀도를 제공한다는 엄청난 이점을 제공한다 (Table 2). 이는 각 위치가 서로 다른 프로브를 사용하여 여러 번 판독되기 때문이다. 대조적으로, 그들은 짧은 리딩 길이 또는 결과를 얻는 데 필요한 긴 시간과 같은 몇 가지 중요한 단점이 있다.

 

 

 

Life Technologies SOLiD (Sequencing by Oligonucleotide Ligation and Detection)도 짧은 리드들 (25-75 bases)을 사용하여 높은 커버리지를 생성할 수 있다 (Valouev et al., 2008). 이러한 점에서 Roche 시퀀싱 방식보다는 Illumina와 더 유사하다.

따라서, DNA는 분무화(nebulization)에 의해 단편화되고, 생성된 dsDNA의 말단에 서로 다른 어댑터들이 결찰된다.
싱글 dsDNA 분자는 프라이머 코팅된 비드(primer-coated beads)에 의해 포획되고 유중수 에멀젼 (water-in-oil emulsion)이 형성되어 emPCR에 의한 증폭이 가능하다.

그런 다음 에멀젼이 깨지고, 증폭된 DNA가 프라이머 코팅된 비드에 포착되어 변성된다.
ssDNA의 30-OH end가 차단되고 비드가 유리 표면에 고정된다.

SOLiD 시퀀싱은 

5개의 범용 시퀀싱 프라이머들(five universal sequencing primers)과 

2개의 조회 염기(two interrogating bases)를 포함하는 특별히 설계된 형광 프로브 풀을 사용하여 수행된다. 


시퀀싱 프라이머 'n'과 특정 프로브가 결찰되고(ligated), 프로브가 절단 및 제거되어 하나씩 

프로브 조사 (interrogation), 결찰(ligation) 및 형광 검출 (fluorescent detection)을 기준으로 형광 염료가 방출된다.

범용 시퀀싱 프라이머 n-1, n-2, n-3 및 n-4를 사용하여 절차를 반복한다; 각각의 시퀀싱 프라이머는 서로 다른 형광 라벨로 라벨링된다.

이러한 방식으로 수백만 개의 병렬 반응이 슬라이드에서 수행되어 형광이 기록된다. 

결국, 생물정보학 도구가 염색체와 게놈을 조립하는 데 사용되는 DNA 시퀀싱 판독의 조립에서 콘티그를 생성하는 데 사용된 다 (Figure 5).

보시다시피, 이 전략은 방법론적으로 매우 복잡하다. 
Illumina 접근 방식과 마찬가지로 재배열(resequencing) 및 新시퀀싱 (de novo sequencing)에 사용할 수 있다. 특히 더 긴 리드를 생성하는 다른 접근 방식에 대한 보완으로 사용될 수 있다.

 

 

 

 

댓글