본문 바로가기
Coffee Genetics

Oxford Nanopore Technologies Sequencing - 3세대 시퀀싱

by mjcafe 2024. 7. 21.

 

 

Nanopores의 개념과 시퀀싱 기술에서의 사용은 1990년대 중반에 나타났다.
수년간의 발전과 개발을 통해 Oxford Nanopore 기술은 2008년에 이 기술을 라이선스했다.

나노포어는 나노미터 폭의 채널로, 세 가지 유형이 있다.

(1) biological : 막 내 포어 형성 단백질에 의해 형성된 포어, 예를 들어 α-헤모리신;

(2) solid-state : 합성 물질에 의해 형성되거나 화학적으로 파생된 포어 (예: 실리콘 및 그래핀) 또는

(3) hybrid : 포어 형성 단백질과 같은 생물학적 제제에 의해 형성된 포어가 합성 물질에 캡슐화된다.

위에서 언급한 모든 시퀀서와 달리 Nanopore DNA 시퀀서는 뉴클레오티드의 라벨링이나 검출이 필요하지 않다.

이 기술은 DNA 분자가 Nanopore를 통과할 때 생성되는 이온 전류를 조절하는 원리를 기반으로 한다.

이는 길이, 직경 및 형태와 같은 분자의 다양한 특성을 해독하는 데 도움이 된다.

처음에는 알려진 크기의 이온 전류가 나노포어를 통해 흐르도록 허용된다. 
서로 다른 뉴클레오티드는 서로 다른 저항을 가지므로 특정 기간 동안 전류를 차단한다. 

이 기간을 측정하면 해당 분자의 서열을 결정할 수 있다 (Fig. 11).
기술이 추가로 개선되면 신속한 나노포어 기반 DNA 시퀀싱 기술이 개발될 수 있다.

 

 

 

 

Oxford Nanopore Technologies sequencing은 

유리 뉴클레오티드들(또는 심지어 핵산 폴리머)이 실리콘 칩에 배열된 마이크로웰의 지질 이중층에 내장된 포어들을 통해 이동할 때 그들의 질소 염기 잔기(nitrogenous bases residues)를 검출하는 기술이다 (Bayley et al., 2010). 

즉, 분무화(nebulization)에 의해 무작위로 단편화된 dsDNA로부터 생성된 ssDNA가 나노포어들에 고정된다. 

그런 다음 엑소뉴클레아제(exonuclease)에 의해 절단된 뉴클레오티드 또는 손상되지 않은 ssDNA가 나노포어를 통과할 때 생성되는 이온 전류 변화는 실리콘 칩의 마이크로웰에 있는 나노포어에 대한 수십만 개의 병렬 반응에서 감지된다. 

결국 생물정보학 도구를 사용하여 시퀀싱 리드들을 콘티그, 염색체 및 게놈으로 조립한다 (Figure 10). 


예를 들어, 단백질 나노포어에서의 single-molecule exonuclease sequencing, 단백질 나노포어에 대한 single-molecule strand sequencing  (ssDNA가 나노포어를 통과하도록 DNA 중합효소를 사용), 합성 나노포어에서의 single-molecule sequencing과 같이, 기본적 어프로치의 다양한 변형들이 있다. 

기술적 특성으로 인해 Oxford Nanopore Technologies 기술은 단일 분자 DNA뿐만 아니라 단일 분자 RNA도 직접 시퀀싱할 수 있다.

그러므로, 이 3세대 시퀀싱 어프로치는 Pacific Biosciences SMRT 또는 Complete Genomics cPAL sequencing 방법론들보다는 Helicos BioSciences tSMS sequencing에 더 유사하다. 

 

 

 

Principle

Nanopore sequencing의 기본 원리는 2세대 시퀀싱 기술이 등장하기 오래 전에 개발되었다.
2014년에 ONT(Oxford Nanopore Technologies)는 최초의 나노포어 시퀀서 MinION을 상업적으로 출시했다.
Double-stranded DNA 분자를 시퀀스하는 능력을 갖춘 적합한 나노포어를 생성하기 위해 비생물학적 고체 기술을 사용하기 위한 많은 연구가 진행 중이다.

ONT 시퀀싱은 single-stranded RNA 또는 DNA 분자는 전기영동에 의해 α-hemolysin과 같은 큰 이온 채널을 통해 지질 이중층(lipid bilayer)을 가로질러 전위될 수 있다(translocated)는 선행 연구 결과를 기반으로 한다.
이온 채널을 통한 핵산의 이동은 이온 흐름을 제한하여 핵산의 길이에 비례하는 기간 동안 전류가 감소하게 된다.
나노포어 시퀀서는 이온 용액으로 채워진 두 개의 구획이 2,048개(MinION의 경우) 또는 12,000(PromethION의 경우) 개별 나노포어를 포함하는 지질 이중층으로 분리되어 있는 플로우 셀로 구성된다.

 

MinION

 

 

Methodology

Nanopore sequencing에서는, 고분자량 DNA는 단편화(fragmented)되거나 라이브러리 준비에 직접 사용된다.
그런 다음 템플릿 DNA를 최종 복구하여 헤어핀 어댑터를 결찰한다. 이러한 어댑터는 나노포어에 부착된 폴리머라제 (polymerase), 헬리카제(helicase) 효소 또는 모터 단백질 (motor protein)과 상호작용하고, 래칫 메커니즘(ratcheting mechanism)에 의해 포어를 통해 DNA의 전위(translocation)가 이뤄지도록 하는 DNA-단백질 복합체이다.
DNA 또는 RNA 분자가 나노포어를 통해 전위되는 경우; 이온 전류 (ionic current)의 변화가 관찰될 수 있으며, 이는 뉴클레오티드 시퀀스에 기인한다 (Fig. 10b).

나노포어 전체의 전류 변화는 센서에 의해 초당 수천 번 판독되며, 물결선 플롯(squiggle plot) 형태로 표시된다.

마지막으로 출력된 데이터는 minKNOW 소프트웨어로 처리되고, 데이터 분석을 통해 템플릿 DNA의 뉴클레오티드 서열을 알아낸다.
이 기술에서는 템플릿 dsDNA의 한쪽 끝에 헤어핀 어댑터를 결찰한다.
시퀀싱은 “template read"을 생성하는 direct strand로 시작하고 중합효소는 계속해서 헤어핀 구조를 판독한 다음, complementary strand가 뒤따르며 “complement read”을 생성한다. 
개별적으로 이러한 reads를 1D라고 한다. template read와 complement read를
모두 결합하여 생성된 consensus sequence를 two-directional read 또는 2D라고 한다.


nanopore sequencing에서는, 리드 길이는 템플릿 단편의 품질이나 길이에 따라 달라지며, 기술에 의해 제한되지 않는다.
따라서 고품질 또는 매우 긴 DNA 단편이 제공되면, 최대 1Mb까지 매우 긴 리드가 생성될 수 있다.
ONT의 한계에는 높은 시퀀싱 오류율(~13%)[73]이 포함되며,  PacBio-SMRT 시퀀싱과 마찬가지로 동일한 가닥을 여러 번 시퀀싱할 가능성이 없다.

 

 

 

Nanopore 시퀀싱 기술과 그것의 기초 및 응용 연구에서의 응용은

Oxford Nanopore Technologies (ONT)가 2014년에 최초의 nanopore sequencer인 MinION을 제공한 이후 상당한 성장을 겪었다.
이 기술은 바이오센서 역할을 하고, 전기 저항성 폴리머 막 (electrically resistant polymer membrane)에 내장된

나노 크기의 단백질 공 (protein pore), 즉 'nanopore'에 의존한다 (Fig. 1).
전해액(electrolytic solution)에서, 일정한 전압을 걸어서 

나노공을 통해 이온 전류를 생성하여 음전하를 띤 single-stranded DNA 또는 RNA 분자가 

나노공을 통해 음전하를 띤 ‘cis’ 쪽에서 양전하를 띤 ‘trans’ 쪽으로 이동하도록 한다.

전위 속도 (Translocation speed)는 단계별 방식으로 나노공을 통해 핵산 분자를 래치팅하는(ratchets) 모터 단백질(motor protein)에 의해 제어된다.

전위 중 이온 전류(ionic current)의 변화는 감지 영역(sensing region)에 존재하는 뉴클레오티드 시퀀스에 해당하며, 컴퓨터 알고리즘을 사용하여 해독되므로, 싱글 분자의 실시간 서열 분석이 가능하다.

전위 속도를 제어하는 ​​것 외에도, 모터 단백질은 헬리카제 활성(helicase activity)을 갖고 있어, double-stranded DNA 또는 RNA-DNA duplexes가 나노공을 통과하는 단일 가닥 분자로 풀릴 수 있다.

본 리뷰에서는 먼저 나노포어 시퀀싱 기술 개발에 대해 소개하고, ONT 데이터의 정확도, 리드 길이 및 처리량 개선에 대해 논의한다.
다음으로 ONT 데이터에 적용되는 주요 생물정보학 방법을 설명한다.
그런 다음 기초 연구, 임상 연구 및 현장 연구에서 나노포어 시퀀싱의 주요 응용을 검토한다.
기존 기술과 알고리즘의 한계점과 이를 극복하기 위한 방향성을 고려하여 결론을 맺는다.

 

 

Technology development : Nanopore design.

나노포어 기술과 라이브러리 준비 프로토콜에서의 개선으로 (Figs. 2a and 3a), 최대 리드 길이가 2017년 초 <800 kb에서 2018년에는 2.273 Mb로 증가했다 (Fig. 2c). 

평균 리드 길이는 2014년 MinION의 첫 출시 당시 수천 염기들에서, 2018년에 ~23 kb (ref. 51)로 증가했고 (Fig. 2c), 

이는 주로 HMW DNA extraction methods와 size selection strategies에서의 개량 덕분이었다. 

그러나, 리드 길이와 yield 간에는 트레이드-오프 관계가 있다; 예를 들어, HMW genomic DNA library의 시퀀싱 yield는 비교적 낮다.  

 

Technology development : Sequencing RNA. 

ONT 디바이스들은 native RNA 분자들을 직접 시퀀스하도록 조정되어왔다. 
이 방법을 사용하려면, 프라이머가 native RNA의 3’ end에 결찰된 후, 기존의 역전사(reverse transcription) 없이 어댑터의 직접 결찰이 이어지는 특수한 라이브러리 준비가 필요하다 (Fig. 3c).

또는 cDNA 가닥을 합성하여 RNA-cDNA hybrid duplex (이중체)를 얻은 다음, 어댑터를 결찰할 수 있다.
전자의 전략은 샘플 조작이 덜 필요하고 더 빠르므로 현장 적용에 적합한 반면, 후자는 더 긴 시퀀싱 과정을 위해 보다 안정적인 라이브러리를 생성하므로 더 높은 수율을 생성한다.

두 경우 모두 RNA 가닥만 나노포어를 통과하므로 RNA 분자의 직접적인 시퀀싱은 consensus sequence (예: 2D 또는 1D2)을 생성하지 않는다.

DNA 시퀀싱에 비해, direct RNA sequencing은 독립적인 연구의 보고에 따르면 일반적으로 평균 정확도가 약 83~86%로 낮다.

 

ONT는 기존의 RNA sequencing과 마찬가지로 기존의 full-length cDNA synthesis methods (예: Takara Bio의 SMARTer PCR cDNA Synesis kit, Lexogen의 TeloPrime Full-Length cDNA Amplification kit)을 활용한 후, PCR 증폭을 하여, cDNA sequencing을 수행하는데 사용될 수 있다 (Fig. 3b).

ONT는 또한 기존의 많은 cDNA 시퀀싱 방법과 달리 PCR 증폭 없이 direct cDNA sequencing protocol을 제공한다.
이 어프로치는 PCR 증폭 바이어스를 방지하지만, 상대적으로 많은 양의 입력 물질과 더 긴 라이브러리 준비 시간이 필요하여, 많은 임상 적용에 적합하지 않다.
최근 벤치마킹 연구에서는 유전자 동형(gene isoforms)의 식별 및 정량화를 위한 RNA, cDNA 또는 PCR-cDNA의 ONT 시퀀싱이 유사한 결과를 제공한다는 사실이 입증된 바 있다.

 

Technology development : Increasing throughput.

시퀀싱 길이와 정확성 외에도 처리량(throughput)은 ONT 시퀀싱 애플리케이션에 대한 또 다른 중요한 고려 사항이다.
다양한 프로젝트 규모의 요구사항을 충족하기 위해 ONT는 여러 플랫폼을 출시했다(Box 1).
플로우 셀의 예상 데이터 출력은 주로

(1) the number of active nanopores,

(2) DNA/RNA translocation speed through the nanopore 및

(3) running time에 따라 달라진다.

초기 MinION 유저들은 플로우 셀당 수백 megabases의 일반적인 수율을 보고한 반면, 더 빠른 화학을 통해 DNA 시퀀싱의 경우 현재 처리량은 ~10-15 gigabases (Gb)(Fig. 2d, 실선)로 증가했고 (R6에 의한 초당 ~30 bases에서 R9.4 nanopore에 의한 초당 ~450 bases로 증가), 그리고 Rev D ASIC 칩 도입으로 실행 시간이 길어졌다.


PromethION과 같은 나중에 나온 디바이스들은 플로우 셀 당 더 많은 나노포어을 사용하여 더 많은 플로우 셀을 실행한다.
독립적인 연구에서는 ~430 bases/sec의 평균 시퀀싱 속도로 단일 PromethION 플로우 셀에서 153Gb의 수율을 보고했다 (Fig. 2d, 점선). 이와 대조적으로 direct RNA sequencing은 현재 MinION flow cell 당 약 1,000,000개의 reads (1~3Gb)를 생성하는데, 그 이유 중 하나는 상대적으로 낮은 시퀀싱 속도 (~70 bases per s)이다.

Box 1 | ONT devices
• MinION은 512 채널을 가진 플로우 셀이며, 채널당 4개의 나노포어가 있다. 
  각 채널에 1개의 나노포어만이 측정되어, 512 분자들까지 동시 시퀀싱이 가능하다.
• GridION은, 중규모 프로젝트의 경우에, 5개의 병렬 MinION flow cells를 가진다.
• PromethION, 대규모 프로젝트의 고처리량 디바이스로서,
  24개 또는 48개의 병렬 플로우 셀들이 있다 (플로우 셀 당 3,000개 채널)
• Flongle, 소규모 프로젝트용으로, 126개의 채널을 가진 MinION 또는 GridION을 위한 플로우 셀 어댑터이다.
• VolTRAX는 샘플 및 라이브러리 준비를 위한 프로그래밍이 가능한 디바이스.
• MinIT는 MinION을 실행을 위한 컴퓨터 필요성을 제거하는 데이터 분석 장비
• SmidgION은 개발 중인 스마트폰-호환성 디바이스.

 

 

2014년에, 최초의 nanopore sequencer의 소비자 프로토타입이 — the MinION from Oxford Nanopore Technologies (ONT) — 출시되었다. 다른 플랫폼들과 달리, 나노포어 시퀀서들은 템플릿 DNA 가닥에 의해 유도되는 뉴클레오티드들의 통합 또는 합체를 모니터하지 않는다. 다른 플랫폼들은 2차 신호, 빛, 색, 또는 pH 등을 이용하는 반면, 나노포어 시퀀서들은 본래 ssDNA 분자의 DNA 조성을 직접적으로 검출한다. 시퀀싱을 수행하기 위해서, DNA는 전류가 통하는 포어에 단백질 포어를 통과한다 (Fig. 5b). DNA가 2차 모터 단백질의 작용을 통해 전위(이동)함에 따라(translocates), 포어를 통과하는 전류를 조절하는 전압 차단이 발생한다. 
해 흐르는 전류를 조절하 DNA가 2차 운동 단백질의 작용을 통해 이동함에 따라 기공을 통과하는 전류를 조절하는 전압 차단(voltage blockade)이 발생한다. 이러한 전하의 시간적 추적을 구불구불한 공간(squiggle space)이라고 하며, 전압의 이동은 포어의 특정 DNA 서열의 특징이며, 이는 k-mer로 해석될 수 있다. 기기에는 1~4개의 가능한 신호가 아니라 1,000개가 넘는 신호가 있다. 특히 기본 DNA에 존재하는 변형된 염기를 고려할 때 가능한 각 k-mer에 대해 하나씩 있다. 

현재 MK1 MinION 플로우 셀 구조는 초당 최대 70bp의 속도로 시퀀싱할 수 있는 512개의 개별 채널이 있는 application-specific integrated circuit (ASIC) 칩으로 구성되어 있으며 2016년에는 초당 500bp로 증가할 것으로 예상된다. 
PromethION 기기는 48개의 개별 플로우 셀을 포함하는 것으로 보고된 초고-처리량 플랫폼으로 고안되었으며, 각 플로우 셀에는 초당 500bp의 속도로 작동하는 3,000개의 포어가 있다.

 

 

Figure 5. Real-time and synthetic long-read sequencing approaches
DNA는 처음에 8-10kb로 조각화된다. leader와 hairpin이라는 두 개의 서로 다른 어댑터가 조각난 dsDNA의 양쪽 끝에 결찰된다. 현재 어댑터를 DNA 분자의 특정 끝으로 향하게 하는 방법이 없으므로, 리더-리더, 리더-헤어핀 및 헤어핀-헤어핀의 세 가지 가능한 라이브러리 형태가 있다. 리더 어댑터는 DNA를 포어로 유도하는 데 필요한 서열과, DNA를 막 표면으로 유도하는 데 도움이 되는 테더 서열(tether sequence)을 포함하는 이중 가닥 어댑터이다.
이 리더 어댑터가 없으면 DNA와 포어의 상호 작용이 최소화되어 헤어핀-헤어핀 단편이 서열 분석되는 것을 방지한다. 이상적인 라이브러리 형태는 리더-헤어핀이다.
이 형태에서 leader sequence는 DNA 단편을 전류가 통과하는 포어로 향하게 한다. DNA가 포어를 통해 이동함에 따라 포어를 통한 전압의 특징적인 변화가 관찰된다. 이동의 크기와 기간을 포함한 다양한 매개변수가 기록되며, 특정 k-mer 시퀀스로 해석될 수 있다. 다음 염기가 포어를 통과하면 새로운 k-mer가 전압을 변조하여 식별된다. 헤어핀에서 DNA는 pore adapter를 통해 complement strand로 계속 이동한다. 이를 통해 정방향 및 역방향 가닥을 사용하여 '2D’ read라는 consensus sequence를 생성할 수 있다.

 

 

PromethION48

 

 

 

 

 

Figure 1. The Oxford Nanopore sequencing process. 

(A) 부유된 라이브러리 분자들이 막에 고정된 나노포어들 가까이 집중된다. 
      막에 인가된 전압이 나노포어들을 통해 전류를 유도한다. 

(B) 모터 단백질(motor protein)이 사전 로드된 리더 어댑터(leader adapter)와, 
      헤어핀 단백질(hairpin protein)이 사전 로드된 헤어핀 어댑터(hairpin adapter) 그리고
      테더링 올리고(tethering oligos)에 결찰된 dsDNA를 보여주는 라이브러리 분자 구조도.

(C) 리더 어댑터의 5’ end에서 시퀀싱이 시작된다. 
      모터 단백질은 dsDNA를 풀어 싱글-가닥 DNA가 기공을 통과하도록 한다.

(D) 플로우 셀에는 512개의 채널(회색)이 포함되어 있으며, 각 채널은 4개의 웰(흰색)로 구성되어 있다. 
      각 웰에는 포어(파란색)와 센서가 포함되어 있다.
      언제든지 장치는 활성 웰 그룹(이 예에서는 g1)의 웰에서 데이터 스트림을 기록한다.

(E) ssDNA가 나노포어를 통과할 때 나노포어를 가로지르는 전류의 교란은 초당 3,000회 측정된다.
(F) ‘bulk data’는 유사한 연속 측정의 개별 불연속 ‘이벤트’로 분할된다. 
     각 이벤트에 해당하는 5-mer는 통계 모델을 사용하여 추론된다.

(G) 1D 염기 호출(base-calls)은 템플릿 및 보완 이벤트 신호에 대해 별도로 추론된다.
(H) 두 이벤트 신호의 2D base-calls 정렬 및 1D base-calls은 2D base-calls를 제한하는 데 사용된다.

 

 

댓글