본문 바로가기
Coffee Genetics

PacBio SMRT Sequencing - 3세대 DNA 시퀀싱

by mjcafe 2024. 7. 17.

 

 Overview

 

게놈은 진화, 적응 및 질병과 관련된 많은 긴 반복적 요소들, 복제 수 변경(copy number alterations) 및 구조적 변이로 인해 매우 복잡하다는 것이 분명해졌다. 그러나 이러한 복잡한 요소 중 다수는 너무 길어서 short-read paired-end 기술로는 이를 해결하기에 부족하다. Long-read sequencing은 수 킬로베이스를 초과하는 reads를 제공하여 이러한 큰 구조적 특징을 확인할 수 있다. 이러한 long reads는 single continuous read로 복잡하거나 반복적인 영역에 걸쳐 있을 수 있으므로, 게놈 요소의 위치나 크기의 모호성을 제거한다. Long reads는 전체 mRNA transcripts (전사체)를 포괄할 수 있으므로, 연구자가 엑손(exons)의 정확한 연결성을 식별하고 유전자 동형체(gene isoforms)를 식별할 수 있으므로 전사체 연구에도 유용할 수 있다.

 

현재 long-read 기술에는 두 가지 주요 유형이 있다 : 

🧬 single-molecule real-time sequencing 어프로치와, 

🧬 가상 환경에서(in silico) long reads를 구축하기 위해 기존의 short-reads 기술에 의존하는 
      synthetic approaches이다.


Single-molecule 어프로치는 검출 가능한 SMRT 신호를 생성하기 위해 증폭된 DNA 단편의 클론 집단에 의존하지 않으며, 추가된 각 dNTP에 대해 화학적 사이클링을 필요로 하지 않는다는 점에서 short-read 어프로치들과는 다르다.

또는 synthetic approaches는 실제의 long-reads를 생성하지 않는다; 오히려 바코드를 활용하여 더 큰 단편의 컴퓨터에 의한  조립(computational assembly)을 할 수 있게 해주는 라이브러리 준비(library preparation)에 대한 어프로치이다.

 

Figure 5 | Real-time and synthetic long-read sequencing approaches.
A | Real-time long-read sequencing platforms.
Aa | Single-molecule real-time (SMRT) sequencing from Pacific Biosciences (PacBio).

템플릿 단편들은 처리되어 각 end의 헤어핀 어댑터(hairpin adapters)에 결찰되고, 중앙에 double-stranded DNA (dsDNA) template이 있고, 각 end에 일정한 single-stranded DNA (ssDNA) 영역이 있는 원형 DNA 분자가 생성된다. 결과적인 ‘SMRTbell’ template은 효율적인 시퀀싱을 보장하기 위해 너무 크거나 작은 조각을 제거하는 크기 선택 프로토콜 (size-selection protocol)을 거친다. 프라이머와 효율적인 φ29 DNA 중합효소가 SMRTbell의 ssDNA 영역에 부착된다. 준비된 라이브러리는 시퀀싱이 수행될 수 있는 ZMW(제로 모드 도파관) SMRT 셀에 추가된다. 시퀀싱을 시각화하기 위해 표지된 뉴클레오티드 혼합물이 추가된다; polymerase-bound DNA library가 SMRT 셀의 웰 중 하나에 위치하므로, 중합효소는 형광단으로 표지된 뉴클레오티드를 elongating DNA strand에 통합한다. 결합하는 동안, 뉴클레오티드는 카메라로 모니터링되는 ZMW 바닥의 중합효소 활성을 통해 일시적으로 정지된다.

 

 

 Single-molecule long-read sequencing (PacBio)

 

현재 가장 널리 사용되는 long-read 플랫폼은 Pacific Biosciences (PacBio)에서 사용하는 SMRT (single-molecule real-time) sequencing approach이다 (FIG. 5a). 

이 기기는

➡ 바닥이 투명한 수천 개의 개별 피코리터 웰 (picolitre wells)이 있는

➡ 특수 플로우 셀 SMRT (zero-mode waveguides  제로 모드 도파관 (ZMW))를 사용한다.

📌 Short-read SBS 기술은 DNA를 결합하고 중합효소가 DNA 템플릿을 따라 이동할 수 있도록 하는 반면, 

📌 PacBio는 중합효소를 웰 바닥에 고정하고 DNA strand가 ZMW를 통해 진행하도록 한다.

고정된 효소로 인해 일정한 결합 위치(constant location of incorporation)를 가짐으로써, 시스템은 단일 분자에 집중할 수 있다.

웰 마다 각 단일 분자 템플릿에 대한 dNTP 통합은, ZMW 바닥에서 통합되는 동안 표지된 뉴클레오티드가 일시적으로 중지됨에 따라 방출된 빛의 색상과 지속 시간을 기록하는 레이저 및 카메라 시스템을 통해 지속적으로 시각화된다.

중합효소는 통합(incorporation) 중에 dNTP- bound fluorophore를 절단하여, 다음 라벨이 붙은 dNTP가 결합되기 전에 센서 영역에서 확산(diffuse)되도록 한다.

SMRT 플랫폼은 또한 중합효소가 원형 분자(circular molecule)를 반복적으로 가로지를 때, 각 템플릿이 여러 번 시퀀스될 수 있도록 하는 독특한 원형 템플릿(unique circular template)을 사용한다.

~3 kb보다 긴 DNA 템플릿이 여러 번 시퀀스되는 것은 어렵지만, 더 짧은 DNA 템플릿은 주형 길이의 함수로 여러 번 시퀀스될 수 있다.

이러한 다중 패스(multiple passes)는 circular consensus sequence (CCS)로 알려진 consensus read of insert를 생성하는 데 사용된다.

 

 

 

Pacific Biosciences Single-Molecule Real-Time (SMRT) sequencing은 

  📌 Rolling Circle Amplification (RCA)에 기반한
  📌 Strand Displacement Amplification (SDA) 또는
  📌 Multiple Displacement Amplification (MDA)에 의해
  📌 dsDNA 단편들로부터 ssDNA를 생성하기 위해,
       특수한 루프 어댑터를 사용한다 (see PCR chapter) (Eid et al., 2009). 


그런 다음 DNA 중합효소에 의해 형광성 인산기(형광성 질소 염기들 대신)를 갖는 dNTP가 첨가되고, 인산염 사슬(phosphate chain)이 절단(cleavage)되고 빛이 방출(light emission)되어, 성장하는 핵산 사슬에서 형광 염료를 효과적으로 제거한다.

Single-molecule real-time sequencing 반응들은 수천 개의 나노포토닉 시각화 챔버(nanophotonic visualization chambers)에서 병렬로 수행되어 시퀀싱 리드들을 생성한다. 

그런 다음 바이오정보과학 툴들이 그것들을 사용하여 콘티그, 염색체, 그리고 궁극적으로 게놈 시퀀스를 생성한다 (Figure 8).

앞서 설명된 바와 같이, Pacific Biosciences SMRT 어프로치는 비록 긴 ssDNA 분자들로 strand-displacement에 의해 이미 증폭되지만, 단일 분자들을 시퀀싱할 수 있다 (따라서 3세대 시퀀싱 기술로 분류되고 있음). 
그런 관점에서, Helicos BioSciences tSMS와는 차이가 있다.  

 

 

 

 

Figure 1. Overview of SMRT Sequencing Technology

  • 시퀀싱은 이중 가닥 DNA(A)로부터 라이브러리 준비로 시작한다. 
  • 헤어핀 어댑터들이 결찰된다 (B).
  • 그런 다음, 이 라이브러리는 나노스케일 관찰실들인 ZMWs (Zero Mode Waveguides)로 이뤄진 SMRT Cell로 로딩된다. 
  • 이 라이브러리 내의 DNA 분자들은 ZMW의 바닥으로 끌릴 것이고, 거기에서 폴리머라제가 형광 표지된 뉴클레오티드들을 통합할 것이다 (C). 
  • 라이브러리가 확산에 의해 로드되기 때문에 모든 ZMWs가 DNA 분자를 가지는 것은 아닐 수 있다. 
  • 그 뉴클레오티드에 의해 방출되는 형광물질이 카메라에 실시간으로 기록된다. 
  • 따라서, 형광 색만 등록되는 것이 아니라, interpulse duration (IPD)라고 불리는 뉴클레오티드 통합 간의 시간도 기록된다 (D, 오른쪽). 
  • 시퀀싱 폴리머라제가 예를 들어 6-methyl adenosine 변화와 같이, (후생적) 변화를 가지고 있는 DNA 가닥에서 뉴클레오티드를 만나면, non-methylated DNA (D, 오른쪽)에 비해 IPD가 지연될 것이다 (E, 오른쪽). 
  • 라이브러리의 원형 구조 때문에, 더 짧은 insert는 continuous long read (CLR)에 의해 여러 번 커버될 것이다. 
  • 오리지널 DNA 분자의 각 통과(pass)는 sub-read라고 부르며, 이는 circular consensus sequence (CCS) 또는 reads-of-insert (ROI)라고 하는 고도로 정확한 consensus sequence로 합쳐질 수 있다 (F–H, left panel). 
  • SMRT sequencing이 항상 원형 템플릿을 사용지만, long insert libraries는 전형적으로 single pass만 있을 수 있고, 따라서, single pass error rates을 가진 선형의 시퀀스를 생성한다 (black nucleotides) (FG, right panel). 
  • 그런 다음, 중복되는 싱글 패스들은 1개의 고품질 컨센서스 시퀀스로 결합되어질 수 있다 (H, 오른쪽). 
  • 전반적으로, CCS reads는 매우 정확하다는 장점을 가지며, 싱글 패스들은 그들의 long read lengths (>20 kb)를 내세운다.

 

 

SMRT 시퀀싱은 double stranded template DNA molecule (dsDNA)의 양쪽 끝에 헤어핀 어댑터를 연결하여 dsDNA를 SMRT-bell이라는 구조로 순환시키는 방식이다.

다음 단계에서는 primers와 DNA polymerase가 SMRT-bell의 어댑터에 어닐링되며, 

이는 나중에 circular consensus sequencing (CCS) (Box 1, 그림 1A)에 활용된다.

CCS 접근 방식은 약 83%의 정확도(평균 10× coverage)를 얻을 수 있으며,

작은 삽입 및 삭제에 의해 지배되는 오류율은 13~15%이다.
이는 15×의 증가된 coverage로 대상 영역을 선택적으로 시퀀싱하여 99% 정확도로 향상될 수 있다.

 

SMRT 기술은 PCR이 필요 없는 접근 방식이며,

최소한의 시약과 간단한 라이브러리 준비 절차만으로 매우 긴 dsDNA를 얻을 수 있다.

이 기술은 이전 접근 방식의 경우 며칠이 걸렸던 것과 비교하여 몇 시간 내에 결과를 제공할 수 있다.

평균 read 길이는 10-15kb에 도달할 수 있으며, 

이는 새로운 조립, 변이체의 단계적 조정 및 일배체형 지정, 게놈 전반에 걸쳐 큰 SV의 검출을 가능하게 한다.

 

 

Figure 1. Overview of single-molecule real-time (SMRT) sequencing technology. 

  • (A) 시퀀싱은 ultra-long double-stranded DNA의 라이브러리 준비로 시작한다.
    다음 단계에서는, 어댑터,  DNA 폴리머라제, 그리고 프라이머들이 그 이중가닥 DNA에 결합하여, SMRT-bell을 만들며, 이는 나중에 SMRT-cell에 로드될 것이다. 
  • (B) 라이브러리는 시퀀서 장비 내의 SMRT-cell에서 무작위로 퍼지며,
    이상적인 조건에서는, ZMWs의 3분의 1이 SMRT-cell로 로드될 것이다. 
  • 각 ZMW에서는, DNA 폴리머라제가 SMRT-bell과 함께 ZMW의 바닥에 결합된다. 
  • SMRT 시퀀싱은 그 circular DNA template을 사용해거 각 ZMW 챔버 내에서 continuous long read를 생성한다. 
  • 그런 다음, 어댑터들이 이 long read로부터 절단되고,
  • overlapping reads는 HiFi read라고 불리는 고품질의 one consensus sequence에 합체될 수 있다. 
Box 1. Single-molecule real-time (SMRT) sequencing technique.

단일 DNA 분자의 실시간 시퀀싱을 가능하게 하기 위해서는 두 가지 장애물을 극복해야 했다.
첫째, DNA 폴리머라제와 그 템플릿인 SMRT-bell (Figure 1A)을 매우 작은 관찰 챔버에 집중하여, 더 높은 signal-to-noise ratio를 생성한다. 이 문제는 직경이 약 45나노미터(nm)인 작은 구멍인 zero-mode waveguide (ZMW) 기술로 해결되었다 [74]. DNA 중합효소는 그 템플릿과 함께, 강력한 biotin/streptavidin 상호작용에 의해 ZMW 바닥에 고정되게 된다. 따라서 통합하는 뉴클레오티드에 대한 레이저 조명은 바닥으로 제한되어 신호 대 잡음비를 증가시킨다.
ZMW는 뉴클레오티드 통합 신호를 통합되지 않은 뉴클레오티드의 배경과 효율적으로 구별할 수 있다 (Figure 1B).

싱글 DNA 분자의 실시간 시퀀싱에 있어서 두 번째 장애물은 큰 크기의 형광 염료였는데, 이는 DNA 중합효소의 정상적인 활동을 방해하고 DNA 합성 개시 직후 효소의 정지를 초래했다. SMRT 기술에서는 염료가 뉴클레오티드 대신 인산염 사슬에 부착되는데, 이는 뉴클레오티드 통합 후 DNA 합성 중에 자연적으로 절단된다. 이로 인해 하나의 긴 천연 DNA 가닥이 생성된다. 원형 SMRT-bell의 실시간 시퀀싱은 각 ZMW에서 수행되어 continuous long reads를 생성한다 (Figure 1B). 데이터 처리 중에 어댑터가 제거되고 subreads가 생성된다. 이어서, 결합된 subreads를 통해 circular consensus sequence (CCS)라고 하는 매우 정확한 하나의 합의 시퀀스(consensus sequence)를 생성할 수 있다.

 

 

상업 부문을 강타할 다음 기술 방법은 real-time sequencing이 될 가능성이 높으며, 현재 Pacific Biosciences가 이러한 노력을 주도하고 있다.


reversible terminators와 달리 실시간 뉴클레오티드는 DNA 합성 과정을 중단하지 않는다.
간단히 말해서, real-time sequencing 방법은 

DNA 합성 중에 염료로 표지된 뉴클레오티드의 연속적인 결합(continuous incorporation)을 영상화하는 것과 관련이 있다.

Pacific Biosciences 플랫폼을 사용하면,

싱글 DNA 중합효소 분자가

개별 zero-mode waveguide detectors (ZMW detectors)의 바닥 표면에 부착된다 (Fig. 4a). 

이는 포스포 연결된 뉴클레오티드(박스 1)가 성장하는 프라이머 가닥에 통합되고 있는 중에 시퀀스 정보를 얻을 수 있다.  (Fig. 4b).

Pacific Biosciences는 고도로 진보적인 가닥 치환(strand-displacing) φ 29 DNA 중합효소를 사용했는데, 

그것은 phospho-linked 뉴클레오티드를 효율적으로 통합하고 닫힌 원형 템플릿의 리시퀀싱을 가능하게 하기 때문이다. 

 

이 방법의 정확성을 평가하기 위해, 알려진 150bp 선형 템플릿을 사용하여 4색 시퀀싱 실험을 수행했다.

real-time reads로부터의 염기 호출(Base calls)은 해당 형광 펄스로부터 결정되었다 (Fig. 4b). 
그 reads를 알려진 시퀀스와 비교했을 때, deletions, insertions 그리고 mismatches로 구성된 27개의 오류가 식별되었으며 이는 약 83%(131/158)의 read accuracy에 해당한다.


시퀀싱 오류를 초래하는 요인에는 두 통합 이벤트 사이의 매우 short interphase intervals와 프라이머 가닥에 통합되기 전에 활성 부위에서의 뉴클레오티드의 결합 및 방출이 포함된다.

 

대부분의 오류가 확률론적 사건으로 나타나는 점을 감안할 때, 저자들은 동일한 템를릿 분자를 15회 이상 반복해서 시퀀싱하면 consensus read accuracy가 99% 이상으로 향상될 수 있음을 보여주었다

[Eid, J. et al. Real-time DNA sequencing from single polymerase molecules. Science 323, 133–138 (2009)].


2009년 AGBT 회의에서 Pacific Biosciences는 플랫폼 개선을 보고했다. 

38배 base coverage에서 E. coli 게놈의 시퀀싱에 사용했을 때 99.3%의 genome coverage가 얻어졌다.

도달한 consensus accuracy는 전체 게놈에 대해 >99.999%였으며, 리드 길이는 평균 964개 염기였다 (S. Turner).

 

Figure 4 | Real-time sequencing. Pacific Biosciences’ four-colour real-time sequencing method is shown.
a | zero-mode waveguide (ZMW) 디자인은 관찰량을 줄여 주어진 기간 동안 검출층(detection layer)에 들어가는 형광 표지된 분자의 수를 줄인다. 이러한 ZMW 검출기는 형광 표지된 뉴클레오티드가 마이크로몰 농도 범위(micromolar concentration range)에 존재할 때 DNA 중합효소가 최적으로 수행되는 딜레마를 해결하는 반면, 대부분의 싱글 분자 검출 방법은 형광 종(species)이 피코에서 나노몰 농도 범위에 있을 때 최적으로 수행된다.
b | 활성 부위에서 phospho-linked nucleotides의 체류 시간(residence time)은 촉매 작용 속도(rate of catalysis)에 따라 결정되며 일반적으로 밀리초 단위이다. 이는 기록된 형광 펄스에 해당하는데, 결합된 염료 표지 뉴클레오티드만이 이 시간 단위에서 ZMW 검출 영역을 차지하기 때문이다. 방출된 염료 표지 펜타인산염 (pentaphosphate) 부산물은 빠르게 확산되어 형광 신호를 배경 수준으로 떨어뜨린다. 주형의 전좌(Translocation)는 다음으로 들어오는 phospho-linked 뉴클레오티드의 결합 및 통합 전의 간기 기간(interphase period)을 표시한다.

 

 

댓글