본문 바로가기
Coffee Genetics

Complete Genomics cPAL Sequencing - 3세대 시퀀싱

by mjcafe 2024. 7. 19.

 

Business

Complete Genomics는 SBH(Sequencing-by-Hybridisation) 어프로치를 기반으로 한 DNA 시퀀싱 플랫폼을 개발하기 위해 2006년에 설립되었다. 

창립자 중 한 명(Drmanac 박사)은 1980년대부터 SBH에서 오랫동안 학술 활동을 해왔다. Drmanac의 SBH 작업의 상업적 역사는 Complete 이전에 HySeq의 자회사로 2001년에 설립된 Callida Genomics라는 회사에서 시작된다. 현재 Complete Genomics에서 사용하는 방법을 참조하는 Callida Genomics 특허가 있으며 이는 현재 할당되었다.

Drmanac은 또한 Hyseq를 공동 창립했으며 일부 SBH 작업이 그곳에서 진행된 것으로 보인다. 
따라서 Complete Genomics 어프로치 뒤에는 10~15년 전의 상업적 역사가 있다.

Complete Genomics IPO는 2010년에 이루어졌다. Crunchbase에서는 Complete가 총 1억 4300만 달러를 모금했으며, IPO 당시 가치는 2억 3220만 달러에 달했다고 밝혔다. 그 후 2013년에 BGI (BGI-Shenzhen)에 인수되었다 (1억 1760만 달러). 

BGI는 대부분의 기술 개발 작업을 (중국) 선전 현장으로 이전하고 Complete Genomics Mountain View 사무실에서 새로운 프로젝트를 취소하고 상당한 직원을 감축한 것으로 보인다. 그러나 BGI는 계속해서 플랫폼을 개발해 왔다. 

BGISEQ 브랜드로 중국에서 사용할 수 있는 시퀀서를 출시한다. 
경쟁적으로 Complete Genomics 접근 방식은 Illumina에 비해 좋은 결과를 얻지 못한 것으로 보이지만 여전히 흥미로운 기술적 어프로치이다.

 

 

 

Technology

2010년 논문에 설명된 대로 Complete Genomics 화학은 DNA nanoballs (DNB)의 형성으로 시작된다. 
그들은 인접한 DNB와 얽히지 않는 용액 내에서 나노볼을 형성할 수 있는 깔끔한 화학적 성질을 갖고 있는 것으로 보인다 .

이는 비드 및/또는 액적(droplets)(에멀젼 PCR) 또는 표면(Illumina 클러스터, 폴로니)에서 증폭을 수행해야 하는 다른 플랫폼과 대조적이다.

DNB는 기판(substrate) (플로우 셀) 위로 흘러간다. 
이 플로우 셀은 일련의 아미노실란(aminosilane) 특징으로 패턴화되어 있다. 
DNB는 이러한 features에만 바인딩되므로 a regular array을 생성한다. 
내가 알 수 있듯이 싱글 DNB만 각 사이트에 바인딩할 수 있다. 

이것이 없으면 나노볼이 겹쳐질 수 있으며(overlapping nanoballs) (사용할 수 없음) 일반적으로 이러한 시스템은 싱글 리드를  포함하는 사이트의 약 1/3로 제한된다 (여러 점유 사이트는 사용할 수 없음). 
잠재적으로 이는 다른 DNA 시퀀싱 플랫폼에 비해 밀도 이점을 제공한다.
칩에 배열된 DNB를 사용하여 시퀀싱을 시작할 수 있다.

 

위의 이미지는 Complete Genomics 기기에 사용되는 cPAL 시퀀싱 화학의 개요를 제공한다. 
이 혼성화/결찰 서열 분석 프로세스는 아마도 Complete Genomics 시스템에서 제가 가장 선호하지 않는 부분일 것이다. 
이 프로세스는 알려진 단일 위치를 갖는 형광 표지된 축퇴 9 mer를 사용한다. 
예를 들어, 첫 번째 위치를 조사하기 위해 각각 다른 염료로 라벨이 붙은 NNNNNNNNA NNNNNNNNT NNNNNNNNG 및 NNNNNNNNC 프로브를 사용할 수 있다. 
이것들이 유입되고 결찰되고 이미지화되면 제거되고 다음 프로브 세트가 들어온다. 
그런 다음 NNNNNNNAN 등의 다음 위치를 조사한다.


짧은 올리고의 안정성이 충분하지 않기 때문에 9mer가 사용되는 것 같다. 
처음 5개 위치에만 라벨을 붙인다는 것이다. 
그런 다음 "두 개의 앵커 프로브를 결찰하여 어댑터에 인접한 위치 6-10의 디코딩을 허용"하는 확장된 앵커 프로브를 생성하는 프로세스를 갖는다. 
결과적으로 10 mer reads를 초래한다. 그들은 다양한 어댑터 사이트에서 여러 개의 10 mer read의 수만큼 수행하고 모든 것을 함께 병합한다. 이로 인해 초기 데이터 세트의 메모리들로부터 reads에 공백이 발생할 가능성이 있다.

 

 

 

프로세스는 복잡하고 오류가 발생하기 쉽다. 

그러나 Illumina SBS 접근 방식에 비해 한 가지 장점이 있다. 
즉, cPAL 시스템의 각 시퀀싱 주기는 프로브를 제거하여 템플릿을 재설정한다. 

Illumina 시퀀싱에는 템플릿이 동기화되지 않아(결국 읽기 길이가 제한됨) 누적된 오류(위상 오류)가 발생할 가능성이 있다. 여기에는 존재하지 않는다.

원본 Complete Genomics 원시 데이터를 본 적이 없다(공개된 데이터가 없다고 생각합니까?).

그러나 원시 리드 오류율이 잠재적으로 높을 것이라고 생각한다 (무엇보다도 비특이적 혼성화로 인해). 

표준 짧은 리드 정렬 장치가 Complete Genomics 읽기(짧고 간격이 있을 수 있음)와 잘 작동할 가능성은 거의 없다. 
이러한 이유로 Complete Genomics는 수년 동안 서비스 사업만 운영했다. 
제가 기억하기로 그들은 데이터 자체를 읽는 대신 인간 게놈만 처리하고 SNP라는 이름을 고객에게 전달했다.

Complete Genomics 시스템은 오랫동안 사내에서만 사용되었지만 

BGI가 Complete를 인수한 이후 BGISEQ 브랜드로 상업용 시퀀서 제품군이 출시되었다. 

BGISEQ-500 사양 시트에서는 현재 50bp 판독을 생성하고 있다고 제안한다 (접근 방식은 비슷한 것 같다). 
또 다른 장비 시리즈인 MGISEQ도 발표되었는데, 이는 100bp의 리드 길이를 자랑하지만 이용 가능한 정보는 거의 없다. 
이제 fastq 파일이 생성될 수 있는 것 같다. 
다양한 공공 기록 보관소에 유입된 데이터는 많지 않은 것 같지만, BGISEQ 데이터가 SNP 호출에 꽤 타당해 보인다는 보고서가 하나 있다. 

업데이트: MGI가 Complete에서 사용하는 SBH가 아닌 SBS 접근 방식을 추구하고 있는지 확실하지 않다. 이 접근 방식은 기술적으로 흥미롭지만 Illumina를 사용하여 직접 완성할 수 있는 방법을 확인하기는 어렵다. 그러나 BGISEQ 장비는 적어도 중국에서는 상당한 비용 이점을 가지고 있는 것으로 보인다.

 

BGISEQ-500

 

 

 

Complete Genomics cPAL(combinatorial Probe-Anchor Ligation) 시퀀싱은 

ends에 절반 어댑터(half-adapters)가 있는 무작위로 절단된 dsDNA 라이브러리를 생성한다 (Drmanac et al., 2010).

자동 결찰에 의한 원형화 (circularization by autoligation) 및 

어댑터 밖 제한 분해의 후속 라운드들 (subsequent rounds of restriction digestion off-site from the adapter), 

하프 어댑터의 다시 결찰 (ligation of half-adapters again) 및 

추가 외부 제한 (additional off-site restriction)을 통해 

특정 거리에 삽입된 어댑터 (intercalated adapters)가 있는 ssDNA를 생성할 수 있다.

이를 통해 clonal ssDNA RCA amplification in solution (용액내 클론성 싱글가닥 DNA RCA 증폭)이 가능하고, 

실리콘 기판(마이크로어레이)에 캡쳐되는 ssDNA NanoBall(DNB)을 생성하여 cPAL 시퀀싱을 받게 한다.  

즉, 앵커 올리고뉴클레오티드 (anchor oligonucleotide)와 하나의 심문 염기(one interrogating base)가 있는

형광 프로브 (fluorescent probe)가 이전에 생성된 ssDNA에 어닐링된다.

앵커와 프로브의 결찰 후, 형광이 검출되고, 프로브가 절단되어 형광 염료가 제거된다.

슬라이드에서 수백만 개의 병렬 반응에 대해, 

하나씩 색상으로 구분된 프로브 조사 (one-by-one color-coded probe interrogation), 

결찰 (ligation) 및 형광 검출 (fluorescent detection)이 수행된다.

판독 값은 콘티그와 염색체로 조립되어 생물정보학 도구를 통해 게놈을 생성한다 (Figure  9).

따라서 Complete Genomics cPAL은, 이전에 long ssDNA 분자처럼 rolling-circle에 의해 증폭되었지만, 

단일 분자를 시퀀싱할 수 있는 기술적으로 복잡한 방법론이다 (따라서 3세대 시퀀싱 기술로도 분류됨).


이러한 점에서 이는 위에서 설명한 대로 이전 증폭 단계가 필요하지 않은 Helicos BioSciences tSMS와 구별되는 Pacific Biosciences SMRT 시퀀싱과 유사하다.

 

 

 

 

Principle

2015년 BGI와 Complete Genomics가 공동으로 BGISEQ-500이라는 새로운 NGS 플랫폼를 출시했다.
BGISEQ-500은 SBL(Sequencing By Ligation) 어프로치를 사용하는 DNA Nanoball Sequencing 기술을 기반으로 한다.
SOLiD 시퀀싱과 달리, 나노볼 시퀀싱은 단일 염기-특이적 형광 표지 프로브를 사용한다.

BGI/DNA nanoball (DNB) 시퀀싱에서 template DNA는 

반복적인 절단 (repeated cleavage), 

어댑터 결찰 (ligation of adapters) 및 

원형화 과정 (circularization processes)을 거쳐 

4개의 개별 어댑터 영역이 있는 circular template DNA를 생성한다.

다른 NGS 기술과의 주요 차이점은 

template DNA가 솔루션 내 rolling circle amplification (RCA)을 통해 증폭된다는 것이다. 

이는 어댑터의 상보적인 회문 시퀀스(complementary palindromic sequences)로 인해 자체적으로 접히는 template DNA의 복사본 체인 (chain of copies)을 생성하여 나노볼을 생성한다.

템플릿 나노볼 (template nanoball)은 패턴이 있는 유리 슬라이드에 로드되며, 

이는 특징적으로 싱글 나노볼이 각 위치에 결합(bind)되도록 한다.

 

Methodology

Combinatorial probe-anchor ligation (cPAL) 및 combinatorial probe-anchor synthesis (cPAS)을 포함하여,

BGI DNB sequencing을 위해 두 가지 서로 다른 접근법이 개발되었다 (BGISEQ500 웹사이트).

cPAS 어프로치는 Complete Genomics/BGI 시퀀싱 기술의 read 길이를 늘리기 위해 개발되었다.
DNB 시퀀싱에는 template DNA에 대한 labeled probes의 합체(hybridization)와 이어서 anchor sequence에 대한 결찰(ligation), 그리고 SOLiD 시퀀싱에서와 같이 형광 신호의 검출(detection of fluorescence signal)이 포함된다.

이 접근법에 사용되는 프로브(probes)는 염기-특이적 형광 태그(base specific fluorescence tag)에 결합된 일련의 축퇴 또는 범용 염기(degenerate or universal bases)와 함께 4개의 뉴클레오티드들 중 하나로 구성된다.

템플릿 DNA에 대한 합체(hybridization) 후, 프로브는 앵커 시퀀스에 결찰되고 사용되지 않은 프로브는 세척되어 제거되며, 생성된 형광 신호는 템플릿 가닥의 첫 번째 염기를 알기 위해 기록된다.

형광단은 절단되어 다음 프로브를 위한 결찰 부위(ligation site)를 재생성한다 (Fig. 8).

각 후속 시퀀싱 사이클은 n + 1 포지션에서의 이전 사이클로부터 알려진 염기로 앵커 시퀀스 (anchor sequence)를 활용한다. 
Paired-end sequencing의 경우, 프로브는 앵커의 5’ end와 3’ end 모두에 결찰된다.
이 프로세스는 100bp paired-end reads (쌍방향 리드들)을 생성하기 위해 4개의 어댑터 모두에서 반복된다.

 

 

 

 

Clonal template populations을 생성하는 몇 가지 전략들이 있다: 

    bead-based,

    solid-state 그리고

    DNA nanoball generation (FIG. 1). 


Beijing Genomics Institute (BGI)가 사용하는 Complete Genomics technology는 

현재 template enrichment를 용액에서 달성하는 유일한 어프로치이다. 

 

이 경우에, DNA는

반복적인 결찰, 원형화 및 절단 과정 (iterative ligation, circularization and cleavage process)을 거쳐

4개의 개별 어댑터 영역(four distinct adaptor regions)이 있는 원형 템플릿(circular template)을 생성한다. 
Rolling circle amplification (RCA)의 과정을 통해서, 200억 개의 discrete DNA nanoballs이 생성된다 (Fig. 1d).

 

 

Complete Genomics는

combinatorial probe–anchor ligation (cPAL) 또는 

combinatorial probe–anchor synthesis (cPAS; see the BGISEQ‑500 website)를 사용하는 DNA 시퀀싱을 수행한다. 


cPAL (FIG. 2b)에서는, 

앵커 시퀀스(anchor sequence) (4개의 어댑터 시퀀스 중 하나에 상보적임)와 

프로브(probe)가 

몇 개의 위치들에서 DNA nanoball에 합체한다 (hybridize). 

 

각 사이클에서 그 하이브리징하는 프로브는 a pool of one-base-encoded probes의 멤버이며, 

각 프로브는 일정한 포지션에서 알려진 염기와 해당하는 형광단을 가진다. 

 

이미징 후에, 전체 프로브-앵커 복합체는 제거되고, 새로운 프로브-앵커 조합이 합체된다. 

각 후속 사이클은 n+1 포지션에서 그 알려진 염기로 프로브 세트를 활용한다. 

그 과정에서 추가적인 사이클들도 역시 가변적인 길이들과 케미스트리들의 어댑처들을 사용하며, 그 어댑터 시퀀스의 위쪽 또는 아래쪽에서 시퀀싱이 발생하게 해준다. 

 

cPAS 어프로치는 Complete Genomics의 케미스트리의 리드 길이를 증가시키려고 의도한 cPAL의 변형이다; 그러나, 현재에는, 그 어프로치에 관한 상세한 내용이 제한되어 있다. 

 

 

Figure 2 Sequencing by ligation methods
b | Complete Genomics.

DNA는 combinatorial probe–anchor ligation (cPAL) 어프로치를 사용하여 시퀀스된다.
DNA 나노볼 퇴적 후, 4가지 어댑터 시퀀스들 중 하나에 상보적인 앵커와 형광-표지된 프로브가 각 나노볼에 묶인다. 그 프로브는 첫 포지션 외에 거의 퇴화적이다(degenerate). 그 다음에 앵커와 프로브는 포지션으로 결찰되고, 그 앵커의 3’ 또는 5’ end 쪽의 첫 염기를 식별하기 위해 이미지화된다.
그 다음, 프로브-앵커 복합체가 제거되고, 그 프로세스가 같은 앵커와 그리고 n+1 포지션에서의 알려진 염기를 가진 다른 프로브와 다시 시작된다.
이는 그 앵커의 3’ end로부터 5개 염기들, 그리고 그 앵커의 5’ end로부터 5개 염기들이 식별될 때까지 반복된다.
다른 합체 라운드가 발생하고, 이때에는 5-염기를 가진 앵커들을 사용하여 그 앵커의 어느 한쪽에서의 추가적인 5개 염기들을 식별하면서 벌충한다(offset). 마지막으로, 이 전체 과정이 그 나노볼에 있는 마너지 3개 어댑터 시퀀스들 각각에 대해 반복하면서, 100 bp paird-end reads를 생성한다.

 

Comparison of short-read platforms. 

 

SOLiD 및 Complete Genomics 시스템에서 모두 사용되는 SBL 기술은 각 염기가 여러 번 탐색되므로 이러한 기술에 매우 높은 정확도(~99.99%)를 제공한다.
정확하기는 하지만, 두 플랫폼 모두 민감도(sensitivity)와 특이도(specificity) 사이의 트레이드-오프의 증거도 보여준다. 즉, 진짜 variants는은 누락되고 소수의 거짓 variants는 거의 called되지 않는다.
또한 그 플랫폼들이 AT-rich regions를 일부 과소-표시(under-representation)하고,

SOLiD 플랫폼이 일부 substitution errors 와 일부 GC‑rich under-representation을 공유한다는 증거도 있다.


아마도 이러한 기술의 광범위한 채택을 가장 제한하는 특징은 read 길이가 매우 짧다는 것이다.
두 플랫폼 모두 single-end 및 paired-end sequencing reads를 생성할 수 있지만 최대 리드 길이는 SOLiD의 경우 75bp, Complete Genomics의 경우 28~100bp에 불과하므로, 게놈 어셈블리 및 구조적 변형 감지 어플리케이션에 대한 사용이 제한된다.


불행히도 이러한 제한과 며칠 정도의 런타임으로 인해, SOLiD 시스템은 업계 내 작은 틈새 시장으로 분류되었다.

또한 cPAL 기반 Revolocity 시스템은 비용 및 전체 측면에서 Illumina HiSeq과 경쟁하기 위해 고안되었지만,

2016년 출시가 중단되었으며,

현재는 인간 WGS을 위한 서비스 플랫폼으로만 이용할 수 있고,

반면, cPAS-기반 BGISEQ-500 플랫폼은 중국 본토에만 국한된다.

 

 

댓글