본문 바로가기
Coffee Genetics

아라비카 커피의 염색체-규모 어셈블리 - 染色體 異常 및 交換

by mjcafe 2024. 7. 24.

 

이탈리아, 미국, 프랑스 국제 공동 연구팀은 전 세계 커피 생산량의 약 60%를 차지하는 아라비카 커피의 유전체를 완전히 분석하는 데 성공했다. 이번 연구에는 이탈리아 생명과학 연구기업 응용유전체학연구소(IGA)와 이탈리아 대표 커피 기업 Lavazza 그룹, 우디네大, 베로나大, 미국 비영리 농업 연구기관 세계커피연구(WCR), 프랑스 몽펠리에大 과학자들이 참여했다. 이 연구 결과는 기초과학 및 공학 분야 국제 학술지 『네이처 커뮤니케이션스』 2024년 1월 24일 자에 실렸다. 연구팀은 최신 시퀀싱 기술로 아라비카 커피의 지금까지 알려지지 않았던 영역을 포함해 그동안 조금씩 알려진 유전체 일부분을 조합, 완전한 유전체 조립(게놈 어셈블리)을 하는 데 성공했다. 동시에 커피의 여러 종에서 수집한 174개 표본의 유전체를 분석한 결과, 일부 아라비카 커피 품종은 로부스타·아라비카 잡종에 의해 특정 유전체 영역에서 다양성이 증가한 것을 확인했다. 그렇지만 아라비카 커피의 유전적 다양성이 생각만큼 복잡하지 않다는 사실도 발견했다. 미켈레 모간테 이탈리아 우디네大 교수(식물 유전체학)는 “이번 연구를 통해 아라비카 커피의 독특한 풍미의 비밀을 풀어냈다”며 “동시에 질병 저항성을 갖고 다양한 풍미를 지닌 새로운 커피 품종을 개발하는 데도 도움이 될 것으로 기대한다”고 말했다.

 

 

  • 최근의 異質四倍體 種(the recent allotetraploid species) Coffea arabica의 遺傳的 多樣性을 낳는 메커니즘을 더 잘 이해하기 위해,
    여기서 우리는 long read technology로 얻어진 染色體-水準 어셈블리(chromosome-level assembly)를 제시한다. 
  • 다른 구조적 및 기능적 특성들을 가진 2개의 유전체 구획들(genomic compartments)이
    2개의 同祖 게놈들(homoeologous genomes)에서 식별되었다. 
  • 대규모 액세션 세트로부터의 리시퀀싱 데이터(resequencing data)가
    그 종의 기원 중심지에서의 낮은 種內 多樣性(low intraspecific diversity)을 나타낸다. 
  • 제한된 수의 게놈 영역들에 걸쳐, 일부 재배 유전형(cultivated genotypes)에서 다양성은
    조상 종 중 하나인 Coffea canephora 내에서 관찰된 것과 유사한 수준으로 증가하는데,
    이는 아마도 소위 Timor 하이브리드로부터 유래하는 遺傳子 移入의 결과일 것이다. 
  • 또한 同祖 染色體들(homoeologous chromosomes) 간에 초기-발생 교환(early-occurring exchanges)이
    거의 없는 것 외에도, 異數性 (aneuploidies), 缺失 (deletions), 重複 (duplications) 및 交換 (exchanges)을
    포함하여, 수많은 최근의 染色體 異常 (chromosomal aberrations)이 있음을 보여준다.
  • 이러한 이벤트들은 생식질에서는 여전히 多形性을 띠고 있으며 (polymorphic),
    가변성이 낮은 종(in such a lowly variable species)에서 遺傳的 變異(genetic variation)의 근본적인 원인이 될 수 있다. 

 

📌 Pacific Biosciences (PacBio) 또는 
     Oxford Nanopore Technologies (ONT)에 기반한 
     long-read sequencing은 [1]
게놈 조립 분야를 혁신하여 왔으며 [2-4],
복잡한 게놈들에 대한 연속적이고 정확한 염색체 서열을 얻을 전례 없는 기회들을 제공한다. 


Coffea arabica는 

C. eugenioides와 C. canephora (Robusta coffee)의 이질사배체 하이브리드이며,
세계 커피 생산의 약 60%를 기여한다. 


유동세포분석법 어세이(flow cytometry assays)에 기초할 때 1.33 Gbp의 추정 게놈 사이즈를 가지고 있다 [5].  
C. arabica의 경우, 많은 부분적 어셈블리들이 구득 가능하다. 

 

📌 Pooled BAC clones에 대한 Whole-genome sequencing (WGS)이 

Illumina short reads를 사용하여 수행된 바 있으며, 

그 게놈 어셈블리는 높은 시퀀스 정확성과, 동조 영역들(homoeologous regions)의 신뢰성 있는 분리를 제공했지만,

높은 단편화(high fragmentation)에 의해 영향 받았다 [6]
   [6] ➡ Scalabrin, et al. (2020).
            A single polyploidization event at the origin of the tetraploid genome of Coffea arabica... 

 

📌 나중에, low-coverage PacBio reads와 high-coverage Illumina reads를 결합한 

WGS shotgun approach

12.2Kb의 콘티그 (contig) N50과

54.5Kb의 스캐폴드 (scaffold) N50을 갖춘 게놈 어셈블리를 생성했으나,

이 어셈블리는 여전히 76,409개의 스캐폴드로 구성되어 있어,

연속성(contiguity)에서 약간의 향상만 제공했다 [7].

   [7] ➡ Tran, et al, (2018).
            Use of a draft genome of coffee (Coffea arabica) to identify SNPs ...


📌 High coverage PacBio sequencing을 사용하려는 첫 번째 시도는,

시퀀스 연속성(sequence contiguity)이 크게 개선되어,

contig N50이 1.3Mbp이고 scaffold N50이 2.2Mbp인 게놈 어셈블리를 생성했지만,  

4,073개의 contig로 구성된 2,684개의 scaffolds의 어셈블리를

고도로 연속적인 염색체 유사분자(pseudomolecules)로 분해(resolving into)하기에는 아직 멀었다 [8].
    [8] Medrano et al. (2017),  The UC Davis Coffea arabica genome project. (2017).


📌 보다 최근에, PacBio10x Genomics 그리고 Illumina sequencing의 조합으로, 

지금까지 구할 수 있는 것 중 가장 완전한 어셈블리를 만들었는데,

3.9Mbp의 contig N50과 42.5 Mbp의 scaffold N50으로 구성되고,

22개의 scaffolds에 22개의 염색체들이 분해된 것이었으나,

여전히 조립된 시퀀스의 10분의 1을 가지고 있는
2,810개의 추가적인 배치되지 못한 스캐폴드들도 있었다 (GenBank Assembly Accession GCA_003713225.1).

 

다배체 게놈들에서의 복잡성을 풀어주고, 

레퍼런스-유도적 리시퀀싱 분석들로부터의 신뢰성 있는 집단 유전자 데이터를 얻기 위해서는,

정확하고 완전한 레퍼런스 게놈(reference genomes)이 필요하다

 

C. arabica 생식질의 축소된 표현 게놈 시퀀싱 (Reduced-representation genome sequencing)은
그 전체 종이 매우 낮은 뉴클레오티드 다양성 (nucleotide diversity)을 가지고 있다는 것을 밝혀왔다. 
C. arabica 액세션들 중에서의 변이 사이트들(variant sites)은 조상 종과 공유되어 있지 않은데,

그것은 마치 자생 및 재배 C. arabica 모두가 최근 종 분화 이벤트(recent speciation event) 후에 축적하기 시작한 일단의 최근 돌연변이들(recent mutations)만을 지니는 것과 비슷하다 [6, 9].


에티오피아 또는 예멘 액세션들에 의해 대표되는 두 주요 그룹들 간에 

유전자 및 표현형 분화(differentiation)가 나타났다 [10]. 
에티오피아 액세션들은 최근의 몇 가지 예외들 (예, Geisha 품종) 외에는 아프리카에 국한되어 있었다. 
Bourbon/Typica로 통칭되는, 에티오피아에서 유래한 것으로 생각되는, 소위 예멘 액세션들(Yemeni accessions)의 그룹이 
지난 3세기 동안에 다른 커피 생산국가들에 도입되었다. 
이 좁은 유전적 베이스를 가진 돌연변이들이 아라비카 커피 생산에 있어 표현형 변이 (phenotypic variation)의 주요 원천으로 오랫동안 남아있었다

 

C. arabica의 좁은 유전적 기초는, 

東티모르에서 Arabica × Robusta 교잡화의 자생적 발생 덕분에 지난 세기 전반에 처음으로 확대되었으며, 

이는 녹 저항성과 잡종강세(heterosis)(나중에 포르투갈과 라틴 아메리카에서 국제적 육종에 의해 활용되었음)를 나타내는

소위 Timor 하이브리드 파생종들을 낳았다 [11].  

재배 아라비카 유전자 풀을 확장시키는 다른 잠재적 기회들에는,

🍀 인도에서의 C. arabicaCoffea liberica 간의 자생적 하이브리드들 [12,13],

🍀 뉴칼레도니아(New Caledonia)에 지역적으로 국한되어 남아있어온

      새롭게 형성된 Arabica × Robusta 하이브리드들 [14,15], 그리고

🍀 Coffea racemosa를 사용하는 이종교배 육종[16]의 활용이 포함된다.  

 

세포유전학적 증거에 따르면

C. arabica에서는 二染色體 減數分裂 行動(disomic meiotic behavior)의 不規則性이 일반적이며, 

이는 아마도

➡ 同祖(染色)體들(homoeologs) 사이의 太絲期 염색체 2차 접합

       (pachytene chromosome secondary associations)[17]과

後期 염색체 지연 (anaphase chromosome lagging)[18]으로 인해 발생할 수 있다. 


1가(Univalent), 3가(trivalent) 및 4가(quadrivalent) 염색체 접합 (chromosome associations)은

재배품종 SL28 및 Caturra의 생식세포  모세포(gamete mother cells)에서

무시할 수 없는 빈도로 발생하는 것으로 보고되었다 [18,19]. 


재배품종들 내 표현형 돌연변이체들에서 관찰되는 

DNA 함량 변이(DNA content variation)의 빈도와 정도는 

C. arabica 재배 생식질에서 異數性 (aneuplodies)이 존재한다는 근거를 제공할 수 있을 것이다 [20].

 

異數性 (aneuploidy)은 

일반적으로 이배체(diploid) 種의 식물 발달과 성장에 치명적이거나 부정적인 영향을 미치는 반면,

多倍數體 (polyploid) 種의 경우에는 더 잘 견디며

다양성이 매우 낮은 종에서는 표현형 변이(phenotypic variation)를 추구하는 데 적극적으로 선택될 수도 있다.
이 개념은 체세포 배 발생(somatic embryogenesis) 이후 재생된 식물들에서 나타나는

표현형 변이체들 (phenotypic variants)은 거의 체계적으로 염색체 수가 변경된 것으로 밝혀진 반면,

야생형 식물은 정상적인 염색체 수를 갖는다는 사실에서 뒷받침된다 [21,22].

 

본 연구에서 우리는 

📌 ONT long reads및 Hi-C 데이터를 사용하여 

📌 C. arabica의 염색체 규모 어셈블리(chromosome-scale assembly)를 생성하며, 

      이는 연속성 및 완전성 뿐만 아니라 

      이배체 조상 C. canephora 및 C. eugenioides의 어셈블리들과의 순서 및 방향 일관성에 있어서 

      이전 버전에 비해 명확한 개선을 나타낸다. 


우리는 이 자료를 활용하여 이전에 접근할 수 없었던

📌 동원체 주위 영역(pericentromeric regions)을 포함하는 C. arabica 염색체의 구조를 설명하고

      배수체 계통(polyploid lineage) 확립 초기에 발생하여
      오늘날 전체 종에 의해 공유되는 
오리진 종의 부모와 비교하여

📌 상호 및 비상호적인 同祖的 交換 (homoeologous exchanges)을 식별한다.


우리는 또한 

공개적으로 이용 가능한 

전체 게놈 재배열 데이터 (whole genome resequencing data) [23,24]의 지원을 받아,

📌 C. arabica 종의 유전적 다양성에 대한 초기 추정치를 다듬는다(refine)


우리의 분석 덕분에 우리는 높은 뉴클레오티드 다양성이 없는 상황에서도

C. arabica의 상당한 표현형 다양성이 존재한다고 주장하는 반대 증거를 받아들일 수 있었다.


우리는 

📌 다양한 유형의 염색체 이상(chromosomal aberrations)과 

📌 동조 염색체들(homoeologous chromosomes) 간의 교환이 빈번하며, 

📌 배수체화 사건(polyploidization event) 직후 뿐만 아니라, 

     가정과 달리 훨씬 후기 단계에서도 

     발생하고 집단에서 다형성을 유지한다는 것을 보여준다.


마지막으로, 우리는 

📌 Arabica-like germplasm (즉, 유전적 또는 게놈 저장소에서는 분류학적으로 C. arabica로 지정되지만, 

     게놈 분석에서는 Coffea sp. 유전자 이입의 증거를 보여주는 액세션들/엔트리들)에서 

     Timor 하이브리드 파생물을 통한 수수께끼 같은 로부스타 유전자 이입의 증거를 확인한다.

 

 Contiguity, accuracy and
 completeness of the genome assembly

  • C. arabica의 조립된 시퀀스1.32 Gbp에 달하며 (Supplementary Table 1),
    유동세포분석법 어세이 (flow cytometry assays)에서 관찰된
    2.71 pg ± 0.04의 2C value에 기초한 기대 게놈 사이즈 1.33 Gbp에 거의 비슷하다 [5]. 
    이 중에서, 틈이 많지 않은 시퀀스(ungapped sequence)의 1,098,789,244 bp가 22개의 염색체 유사분자들로 조립되었고, 이는 175개의 콘티그 (contigs), 80개의 scaffolds, 그리고 22개의 super scaffolds로 이루어진다
    (Fig. 1a, Supplementary Table 2 and Supplementary Method 1).
  • 이 어셈블리는 consensus sequence의 정확성을 평가하기 위해 BAC sequences와 비교되었다. 
    우리는 350개의 무작위 유전자 영역들에 걸쳐 1.5 Mbp의 샘플에 있어,
    이 어셈블리와 BAC scaffolds 사이의 전체 99.4% sequence identity (시퀀스 동일성)를 발견했다.  
  • 이 어셈블리는 이전의 C. arabica 어셈블리들보다,
    더 나은 완전성연속성 뿐만 아니라
    이배체 조상들의 어셈블리들과의 순서 및 방향에서 더 나은 일관성을 보여준다
    (Supplementary Figs. 1-11 and Supplementary Tables 3-4). 

  • 우리는 57,794개의 유전자 모델을 예측했고
    그 길이는 중간 값이 2,409 bp였고, 엑손(exons) 수의 중간 값은 4였다. 
    (※ exon = 단백질 또는 펩티드의 코딩 정보를 가지고 있는 DNA 또는 RNA 분자 세그먼트)
  • 이들 중에서, 2,528 bp의 median length를 가진 27,337개의 유전자가 canephora 서브게놈에 속했다.
  • 다른 2,480 bp의 median length를 가진 28,197개의 유전자는 eugenioides 서브게놈에 속했다
  • 겨우 2,260개 유전자들만이 unanchored scaffolds에서 예측되었다.
  • 코딩 시퀀스의 누적 길이는 85.5 Mbp에 달했으며, 이는 전체 게놈 길이의 6.5%에 해당한다. 
  • 인트론(Introns, 介在배열)은 238 bp의 median length를 보여주었으며, 누적적으로 게놈길이의  12.5%를 커버한다. 
  • BUSCO analysis [25]는,
    기대되는 보편적인 싱글-카피 유전자들의 99.3%가 완전하게 조립되었고,
    0.7%는 조립된 시퀀스에 존재하지 않았으며,
    단편화(fragmented)되거나 부분 카피(partial copies)로도 존재하지 않았다.
  • 비교적 최근의 기원을 가진 사배체(tetraploid) 종에서 기대되는 바와 같이 [6],
    expected universal orthologs의 91.5%가 완전했고, 복제되었다. 

  • 텔로미어 반복(Telomeric repeats)은 
    44개의 염색체 말단들(chromosomal ends) 중에 38개에서
    염색체 유사분자들(chromosome pseudomolecules)의 터미널들에서 조립되었다 (Fig. 1a). 
  • Chr7e의 상부 말단(lower end)의 어셈블리와
    Chr11e의 상부 말단(upper end)의 조립은,
    부분적으로 조립된 35S rDNA arrays의 유사분자(pseudomolecule)에서
    말단의 존재(distal presence)에 의해 중절되었다(interrupted) (각각 35개의 repeats와 30개의 repeats).
       (※ pseudomolecule = 콘티그 사이에 작은 시퀀스가 ​​있는 연결(concatenation))
  • 1개의 unanchored scaffold (scaffold_682, 127 Kb in size)가
    1개의 terminus에서 telomeric repeats를 그리고 다른 terminus에서 12개의 35S rDNA units를 가졌다.  
  • 염색체 7번과 11번의 동일한 시퀀스의 방향과 관련하여
    scaffold_682에서의 telomeric repeats와 rDNA의 방향은
    이것이 Chr7c 또는 Chr7e의 염색체 말단을 나타낼 수 있다고 믿게 하며,
    이는 C. arabica의 염색체 7번에 있는
           rDNA 유전자좌 35S의 하위 텔로미어 위치(subtelomeric location)에 대한 증거를 제공한다 (Fig. 1a).
  • 35S rDNA unit의 290개의 추가적인 repeats가 16개의 unanchored scaffolds에서 발견되었다.
    그러므로, 35S rDNA는 ~3.42 Mbp에 달하며, 보존된(conserved) 9.5 Kb monomer로 구성되었다. 
  • 35S rDNA arrays는 세번의 transposable element (TE) insertions에 의해 끊겼다(interrupted).
  • 2개의 5S rDNA 유전자좌들이 Chr11e에서 그리고 하나는 Chr11c에서 조립되었다(assembled) (Fig. 1a). 
  • 따라서 Chr11은 35S rDNA arrays 및 5S rDNA arrays 두 가지 모두를 보유하고 있는 중이다(carrying).

  • 2개의 추가적인 5S rDNA 유전자좌들이
    FISH assays에 관한 문헌 보고들[26]에 기반하여 다른 2개의 염색체들에서 기대되었고,
    어떠한 염색체 유사분자(chromosome pseudomolecules)로든 조립되지 않았다. 
  • 추가적인 5S rDNA repeats가 28개의 unanchored scaffolds에서 발견되었다. 
    5S rDNA는 누적하여  ~4.58 Mbp에 달했고, conserved ~0.5 Kb monomer로 구성되었다. 
  • Telomeric repeats는 Chr4e pseudomolecule로부터 누락되었다 (missing).
    3개의 unanchored scaffolds는 거의 전부 telomeric repeats로 이뤄졌다. 
  • 거의 완전하고 연속적인 시퀀스가 하나의 염색체(Chr7c)에서 얻어졌고,
    동원체의 그리고 동원체주위의
    일렬로 나란히 반복된 미소부수체 어레이들을 분해(resolving)했다 (Figs. 1a and 2a).

 

그림 1 | C. arabica 염색체의 그래픽 표현.
a 게놈 어셈블리의 연속성과 완전성 및 rDNA 어레이의 위치.
b C. arabica 하위 게놈 간의 신테니 플롯.
c 100Kb의 비반복 DNA 및 A/B 유형 염색질 구획에 해당하는 4,467개의 비중첩 게놈 윈도우에 걸친
       유전자 및 전이 요소(TE) 밀도.

모든 패널에서 y축은 백만 염기쌍(Mbp)을 나타낸다.
소스 데이터는 소스 데이터 파일로 제공된다.

 

 

 Chromatin organization and
 evolutionary history of the C. arabica genome

  • 이질사배체 게놈(allotetraploid genome)의 매우 정확하고 완전한 어셈블리의 구득가능성으로 인해, 
    두 개의 동조 게놈들 (homoeologous genomes)을 정확하게 비교하여,
    진화 및 기능적 역학을 더 잘 이해할 수 있다.
  • 어셈블리의 스캐폴딩에 사용된 어린 잎 조직들에서 얻은 동일한 Hi-C 데이터
    염색체 유사분자들에 대한 reads의 mapping 후, 3차원적 염색질(chromatin) 조직을 연구하는 데 사용되었다. 
  • 더 큰 보리(barley) 게놈에서 관찰된 것과 비슷하게 [27],
    우리는 염색체내 Hi-C 접촉 매트릭스들 (intrachromosome Hi-C contact matrices)에서
    역대각선 패턴(anti-diagonal pattern)의 존재를 관찰했는데 (Supplementary Fig. 12),
    이는 2개의 염색체 완들(chromosome arm)이 그 동원체(centromere)에서 접힌 후
    서로 접촉해 있는 C. arabica 間期 핵들(interphase nuclei)에서의 RABL configuration의 발생을 가리키는 것이다.  
  • 브 텔로미어 부위 영역들(subtelomeric regions) 간의 더 높은 접촉 빈도가,
    보리(barley) [27]와 애기장대(Arabidopsis) [28]에서 관찰된 것처럼,
    Hi-C contact matrix에서 분명하다

  • 우리는 50Kb 해상도에서 정규화된 거리 상호작용 행렬(distance normalized interaction matrices)에 대해 
    주성분 분석(principal component analysis)을 수행하고,
    PC1 값들의 부호(sign)를 사용하여
    100Kb genome windows를
    활성 및 덜 콤팩트한(active and less compact) A 구획(compartment)
            (보통 느슨하고 고도로 전사된 진염색질 영역들(euchromatic zones)에 해당)에 할당하거나, 또는
    비활성이고 더 콤팩트한 B 구획
             (보통 빽빽하게 들어찬 이염색질 구역(tightly packed heterochromatic zones)에 해당)에 할당했다 [29]. 
  • 전체적으로 우리는 어린 잎들의 핵에 있는 아라비카 게놈이
    A 구획에 해당하는 약 465 Mbp (44.2%)
    B 구획에 해당하는 586 Mbp (55.8%)로 구성되어 있음을 관찰했다.
  • A 구획과 B구획에 상응하는 이 상대적인 비율들은
    2개의 서브게놈들(canephora 서브게놈의 44.1%와 eugenioides 서브게놈의 44.3%를 각각 나타내는 A)에서
    매우 비슷하고,
    대규모 염색질 조직(large scale chromatin organization)은 2개의 동조 염색체들 사이에서 자주 매우 비슷하다 (Supplementary Figs. 13-16). 
  • 제한된 수의 염색체들이 양쪽 끝 부분에 큰 B구획 옆에 A구획이 있는 반면,
    대부분의 염색체들은 A구획이 염색체의 한쪽 끝만 차지하는 비대칭 염색질 조직을 나타낸다
    (Supplementary Figs. 13-17).
  • A와 B 염색질 구획들은
    ➡ 다른 구조적 및 기능성 속성들 뿐만 아니라
    ➡ 매우 다른 진화적 역사를 보인다. 

  • 구조적으로 염색질 구획들(chromatin compartments)이 
    repeat와 유전자 밀도(gene density)를 매우 밀접하게 추적한다 (Fig. 1c and Supplementary Fig. 17).
  • A구획들은 repeat가 빈약하고 gene가 풍부한 반면,
    B구획들은 그 반대의 조직을 보인다 (Supplementary Fig. 18a, b). 
  • 전이인자들(transposable elements)의 모든 上科들(superfamilies)은 주로 B 구획에 위치하며,
    A/B구획들 간 상대적 풍부성(relative abundance)에서 상과들 간의 차이가 있다 (Supplementary Table 5).

  • 진화적으로, A구획들은 B구획들보다 
    서브 게놈들 간에 훨씬 더 많은 공유 서열(shared sequence)과 
    더 높은 서열 동일성(sequence identity)을 갖는데 (Fig. 2b and Supplementary Fig. 18c-f),
    이는 주로 다른 TE insertions 역사 (history of TE insertions)의 결과이다
  • 전체로서, C. arabica 내의 두 서브 게놈들은
    132 Mbp의 shared TEs를 포함하여 444 Mbp에 걸쳐 공선적이며 (collinear),
    이는 누적적으로 canephora 서브 게놈의 40.8% 그리고 eugenioides 서브 게놈의 40.1%를 차지하며,
    average sequence identity는 94.9%이다 (Fig. 1b, c and Supplementary Figs. 19-24). 
  • 그 서브 게놈들의 나머지 부분들은
    이배체 조상 종들 간의  고정 변이(standing variation)의 일부인 TEs의 presence/absence variation 때문에
    구조적 변이(structural variants)가 매우 풍부하며, 이는 누적적으로 519Mbp를 포함하고 염색체 전체 길이의 47.3%에 해당한다 (Supplementary Figs. 1-11 and 19-24). 
  • 알려진 TEs에 기인할 수 없는 presence/absence variation로 인한 비공유 서열 135Mbp도 존재하며,
    이는 염색체 전체 길이의 12.3%에 해당한다 (Supplementary Table 6). 

  • A와 B 구획을 비교할 때 
    공유 서열(shared sequence) 비율의 현저한 차이를 볼 수 있는데, 
    이는 낮은/단일 사본 DNA 서열 (low/single copy DNA sequences)로 인한 것이 아니라 
    B ​​구획에 존재하는 많은 수의 비공유 TE 요소들(non-shared TE elements) 때문이다.

  • 요소 내 LTR 발산 (intra-element LTR divergence)을 기반으로 한
    LTR-retrotransposon insertions의 연대 측정은
    공유된 레트로 요소(shared retro-elements)가
    비공유된 레트로요소보다 훨씬 오래되었음을 보여준다
    (Supplementary Fig. 25 and Supplementary Method 2). 
  • 이는 공유된 것이 두 조상 종들 사이의 분리보다 앞서고,
    비공유된 것들은 분리 후에 삽입된 더 젊은 요소를 나타내며,
    B 염색질 영역들(chromatin domains)에 해당하는 큰 염색체 영역(large chromosomal regions)에서 볼 수 있는 극적인 서열 분기(dramatic sequence divergence)에 기여한다는 가설과 일치한다 (Supplementary Figs. 1-11 and 19-24). 
  • C. arabica의 가장 최근 기원(very recent origin)으로는 이질다배체화 사건(allopolyplodization event) 이후에 공유되지 않은 삽입 중 적어도 일부가 발생했는지 그리고 C. arabica의 정상 서열 변이(standing sequence variation)에 기여할 수 있는지 여부를 확인할 수 없다.
  • 기능적으로, A구획들은 분석된 모든 조직들에서 전사적으로 더 활동적이다 (transcriptionally more active) (Supplementary Fig. 26). 
  • 동조 유전자들 간의 발현 차이들에 관한 이전 분석에서는
    유전자 쌍의 65%에 대해 유사한 수준의 발현이 나타났다  [30]. 
  • 우리는 동조 유전자들 간의 발현 수준 차이들은 염색질 구획들과 연관시켰다. 

  • 분석된 모든 조직들은
    A 구획보다 B 구획에 위치한 유전자 쌍의 발현 수준에서 더 큰 차이를 보여주었으며
    (차이는 분석된 12개의 샘플 중 10개에서 통계적으로 유의했다),
    이는 B 구획들에 존재하는 더 높은 수준의 구조적 변이로 인해 발생할 수 있었고,
    그것은 그 유전자들의 동조적 copies에 대해 작용하는 cis-조절 요소에서의 변이를 초래할 수도 있었다 (Supplementary Fig. 27). 

  • 우리는 코페아 재배 및 커피 생산에 중요한 카페인 생합성 경로에 관여하는 유전자 그룹에 대해
    두 조상 게놈 간의 구조적, 기능적 및 진화적 측면에 대한 자세한 비교 분석을 수행했다.
  • 카페인 생합성 경로의 세 가지 주요 단계 제어에 관여하는
    특정 N-methyltransferases (메틸트랜스퍼라제)를 포함하는 유전자좌 [31]는
    C. arabica 염색체 1번과 9번에 위치한다.
  • 3,7-dimethylxanthine N-methyltransferase (DXMT) 유전자
    테오브로민(theobromine)의 카페인으로의 효소적 전환의 마지막 단계를 제어하며,
    이 유전자의 결실 또는 감소된 발현은 Coffea humblotiana [32] 및
    C. arabica에서 카페인 합성에 있어서의 변차 (variation in caffeine synthesis)를 설명하며  [33,34],
    Chr1의 상부 하위 텔로미어 영역(upper subtelomeric region)에 위치한다.
  • C. arabica에서의 canephora 동조(염색)체(homoeolog) (Chr1c)는
    단일 DXMT copy을 전달한다 (carries) (Supplementary Fig. 28a). 
  • C. arabicaeugenioides 동조(염색)체(homoeolog) (Chr1e)는
    유전자 자체와, 2개의 DXMT copies를 낳은 5’intergenic region의 부분을 포함하여,
    ~ 6.5 Kb 길이의 tandem duplication을 보유한다 (carries) (Supplementary Fig. 28b). 
  • canephora-derived DXMT는 
    C. arabica에서 복수의 조직들 (예, 잎, 줄기, 뿌리, 눈, 莖頂分裂組織(shoot apical meristem), 그리고 핵과)에서
    발현된다.
  • canephora-derived DXMT의 발현
    그린 핵과들의 발육시에 최대 수준을 보여주며,
    완전히 익은 핵과들에서, 그리고 intermediate ripening stages에서 수집된  벌크된 핵과 샘플들에서
    최저 수준을 보였다 (Supplementary Figs. 28 and 29). 
  • eugenioides-derived DXMT paralogs (동조상동 유전자들)은
    핵과들의 그린 단계 동안에 발육시에만 상당히 발현되었다 (Supplementary Figs. 28 and 29).
         (※ paralog =  either of a pair of genes that derive from the same ancestral gene)
  • DXMTs가
    유전자가 풍부하고 repeat가 빈약한 서브 텔로미어 A 염색질 도메인(subtelomeric A chromatin domain) 내에 위치함에도 불구하고,
    DXMT 유전자들 주변의 유전자간 공간(intergenic space)은 유전자 발현의 기관-특이적 조절(organ specific regulation)에서 관찰된 차이를 설명할 수 있는 동조-특이적인 반복적 DNA의 존재(homoeologous-specific repetitive DNA)를 특징으로 한다 (Supplementary Figs. 30 and 31).
  • Xanthosine methyltransferase (XMT) and 7-methylxanthine N-methyltransferase (MXMT)
    —theobromine과 그 전구물질들의 합성을 컨트롤하는 두 유전자들—는
    Chr9c와 Chr9e 모두에 여러 개의 XMT (xanthine-methyltransferase)가 포함된 유전자 클러스터(gene cluster)에서 함께 발생한다 (colocalize). 

  • Chr9c의 클러스터에는 153.1Kb 영역에 5개의 XMT 예측 유전자(predicted genes)가 포함되어 있다 (Supplementary Fig. 32a).
  • Chr9e의 클러스터에는, 
    191.5Kb 영역의 C. canephora MXMT 및 XMT proteins [31]와 유사성을 갖는
    6개의 XMT 예측 유전자 및 번역된 뉴클레오티드 서열(translated nucleotide sequences)이 포함되어 있다 (Supplementary Fig. 32b). 
  • XMT 클러스터에 걸쳐 있는 영역은
    C. arabicaC. humblotiana의 동조체들(homoeologs) 사이의 코딩 서열(coding sequences) 외부에서
    거의 공선성(collinearity)을 나타내지 않는다 (Supplementary Fig. 33).
  • 이 유전자 클러스터 내에서 테오브로민 (MXMT, C. canephora의 Cc00_g24720 유전자에 해당)으로의
    효소 전환(enzymatic conversion)을 컨트롤하는 paralog는
    두 서브 게놈과 유사한 수준으로 C. arabica 기관에서 발현된다.
  • C. arabica 동조성 클러스터(homoeologous clusters)의 다른 XMT 유전자 카피의 경우,
    C. canephora seeds에서 발현되는
    XMT copy (Cc09_g06970)와  가장 높은 서열 유사성(sequence similarity)을 보이는 것은
    C. arabica 기관들에서 더 많이 발현되는 것들이기도 하다 (Supplementary Fig. 29).
  • 이 XMT copy의 canephora-derived homoeolog (동조체)는
    모든 organs에서 eugenioides-derived XMT 보다 훨씬 더 높은 수준으로 전사(transcribed)되고 복제되는데(replicates), 이는 그린 핵과 발달 시에 가장 심한 상황이다. 
  • 핵과에서 XMT 및 MXMT의 발현 패턴들은
    커피 콩들의 이 유전자들의 발현에 대한 최근의 상세한 분석 [35]과 크게 일치하는 반면,
    DXMT genes의 경우,
    eugenioides에 존재하는 두 copies의 누적 발현을 생각하면
    그 두 서브게놈들의 유전자들 간의 차이는 덜 드라마틱해 보인다. 
  • 선행 연구에서 강조된 바와 같이 [35],
  • 이 카페인 합성 유전자들의 발현 패턴은 다 익은 씨앗들의 카페인 함량과 높게 상관되는 것으로 보인다. 

Fig. 2 | 진정염색질 영역 및 이질염색질 영역의 동조 염색체들 간 시퀀스 및 구조적 변이.

a. Chr7c의 구성 및 염색질 조직.
빨간색 별표로 표시되고 삽도에서 확대된, 고도로 보존된 2.7Kb 단량체의 직렬 반복 배열이 있는
패널 상단의 시퀀스 동일성 히트맵 (Sequence identity heatmap); 
유전자 히스토그램 (파란색), Athila-(갈색) 및 크로모바이러스-유래(올리브 녹색) 시퀀스 풍부도의
히스토그램들이 엑손 염기 쌍(유전자)의 퍼센트와
손상되지 않은 Coffea Athila 및 Chromovirus 시퀀스들을 사용하여
Repeat-Masker에 의한 마스크된 염기 쌍의 백분율로 표시.
100 Kb의 비-반복 DNA를 포함하는 4,467개의 비중첩 게놈 윈도우와,
100 Kb의 비중첩 게놈 윈도우를 사용하여 A/B 구획들을 정의하는 PC1 값의 히스토그램을 보여준다.


b. Chr7c와 Chr7e의 비교.
각 점들은 겹치지 않는 2Kb 윈도우들 간의 동일성이 >70%인 시퀀스 정렬을 나타낸다.
각 점들의 색상은 시퀀스 동일성의 %를 나타낸다.
박스 도표는
동조체들 사이에 공유되거나 (흰색과 회색) 또는 private한 (분홍색과 자홍색)
          뉴클레오티드들의 비율을 나타낸다.

이들 카테고리들은 주석이 달린 전이 인자들 (회색 및 자홍색)과
                             비반복 DNA (흰색)의 뉴클레오티드 부분으로 추가로 분류된다.

분홍색 스택에는 low-copy DNA 뿐만 아니라
                         공선상 영역 외부의 전이 인자들로 주석이 달리지 않은 기타 DNA 영역들도 포함된다.


두 패널 모두에서 x-축은 백만 염기쌍 (Mbp)을 나타낸다. 소스 데이터는 소스 데이터 파일로 제공된다.

 

 Centromeric regions of the C. arabica genome

  • C. arabica에서의 동원체 미소부수체 어레이(centromeric satellite arrays)의 부재에 관한
    선행연구의 언급과는 달리 [36], 식물 동원체들에서는 그 존재가 보편적인데,
    우리는 C. arabica에서
    개별적으로 사이즈가 수백 Kb에 달하고,
    집합적으로는 각 염색체의 B 염색질 구획에 걸쳐 수 Mbp로 확장된
    종렬 반복들의 큰 미소부수체 구조(large satellite structures of tandem repeats)를 발견했다
       (Supplementary Figs. 17, 34-35). 
  • 우리는 보통 계(kingdoms)에 걸쳐 관찰되는 것으로 (예, 출아효모(budding yeast) [37], 애기장대(Arabidopsis) [2], 그리고 인간 [38])
    동원체 형성 (centromere formation)을 촉진하는, 더 높은 차원의 반복 구조들을 형성하는
    짧은 단량체 단위들(short monomeric units) (100-200 bp)를 발견하지 못했다
  • 사이즈가 2 Kb보다 더 짧은 repeat units를 가진 종으로 배열된 영역들(tandemly arranged regions)은
    Tandem Repeats Finder [39]를 사용하여 발견되지 않았다.  
  • 각 염색체의 이질염색질 영역들의 상당한 비율이, 2 Kb 보다 긴 유닛을 가진 종렬 반복(tandem repeats)의 큰 어레이들로 이루어졌고, 그 시퀀스들은 보통 다른 크로모도메인(chromodomain) 함유 Gypsy retrotransposons로부터 파생된다  (Fig. 2a and Supplementary Fig. 17).
  • CRM, Tekay, Galadriel, Reina 및 Athila 파생 시퀀스들은 
    C. arabica 게놈의 45.4%를 차지하며, 특히 각 염색체의 B 염색질 구획에 위치한다 (Supplementary Fig. 17). 
  • 대개 CRM 및 Tekay clades로부터 파생되는, 그리고 더 제한적 정도로, Reina 및 Galadriel clades로부터 파생되는
    단량체 단위들(Monomeric units)이 그 염색체에 걸쳐 복잡한 배열의 alternating arrays를 형성한다  (Supplementary Figs. 34-35).

  • 최고 밀도의 크로모바이러스-유래 어레이(chromovirus-derived arrays)를 포함하는
    큰 염색체 영역들(chromosomal regions)은 일반적으로 때때로 크로모바이러스-유래 어레이가 산재되어 있는 최고 밀도의 Athila-유래 직렬 배열 어레이(Athila-derived tandemly arranged arrays)가 있는 영역 옆에 있다  (Supplementary Fig. 35). 

  • 전체 동원체 영역(centromeric region)에 걸쳐 있어야 하는 단일 콘티그 (single contig)로 구성된 Chr7c에서 (Fig.  1a), 크로모바이러스-유래 어레이와 Athila-유래 어레이는 2,683bp CRM-유래 단량체에 의해 형성된 690Kb 길이의 미소부수제 구조에 의해 단절된다. 이는 그 어레이 내의 서열 구성이 고도로 보존되고 주변 영역의 서열 구성이 매우 다양하다 (Fig. 2 and Supplementary Method 3).
  • 동일한 단량체(monomer)가
    동조 염색체(homoeologous chromosome)(Chr7e)의 동일한 영역에서 394Kb 길이의 어레이를 형성한다.
  • 단위체 단위(monomeric units)의 계통발생학적 분석은
    이러한 배열의 형성이 두 조상 종들 사이의 분기(divergence)보다 앞선다는 것을 나타낸다.
  • 배열 내 서열 변이(intra-array sequence variation) 패턴은 또한
    서로 다른 역학에 따라 확장되고 진화했음을 시사한다 (Supplementary Fig. 36). 
  • Chr7e의 배열(array)은
    마치 이 배열의 일부가 더 최근에 확장되었거나 동일하지 않은 교차(unequal crossover) ​​사이클들을 통해 서열 균질화(sequence homogenization)를 겪은 것처럼
    매우 유사한 단량체들(monomers)로 형성된 큰 부분을 보여준다.
  • Chr7c의 배열(array)은
    단량체들 사이에서 낮은 서열 동일성(lower sequence identity)을 보여 주며,
    단량체들는 물리적 거리가 증가함에 따라 시퀀스에서 점차 덜 유사하게 된다. 
  • Chr7e 및 Chr7c 배열들(arrays) 모두
    LTR-retrotransposons의 삽입들로 중단된다 (interrupted)
    one in Chr7e, which was then duplicated, and 8 in Chr7c, Supplementary Figs. 37-38).
  • 레트로트랜스포존 삽입(retrotransposon insertions)은 
    9.2~0.3 MYA 범위의 오랜 기간에 걸쳐 발생했다 (Supplementary Table 7).
  • 더 오래된 삽입들은
    Chr7c의 말단 부분(distal part)에 위치하며,
    이는 단량체들 간의 더 높은 시퀀스 분기(higher sequence divergence)도 보여준다. 
  • 다른 염색체 의사분자(chromosome pseudomolecule)는
    이 단량체의 배열을 가지고 있지 않지만,
    동일한 단량체가 총체적으로 4.0Mbp에 달하는 27개의 고정되지 않은 스캐폴드(unanchored scaffolds)에 존재하며
    총체적으로 그들의 시퀀스의 97.9%를 커버하는 이 단량체의 직렬 배열(tandem arrays)을 포함하고 있다.
  • 이러한 스캐폴드들은
    염색체 의사분자들에 할당되지 않은 다른 염색체들에 속하는
    동원체 미소부수체 배열 (centromeric satellite arrays)을 나타낼 수 있다.
  • C. arabica B 구획의 복잡한 아키텍쳐와, conserved human ɑ-satellite 및 게놈에서 동원체(centromere) 형성을 촉진하는 Arabidopsis CEN180 satellite2와 모든 염색체들에 걸친 single short monomer의 tandem repeats의 부족이, DNA 시퀀스 특징만을 사용하여 C. arabica 동원체의 정확한 위치의 예측을 못하게 방해한다. 


 Chromosomal rearrangements between subgenomes
 in the sequenced Bourbon genotype

  • 비록 동조 유전자 쌍들의 선조 염색체 위치가 일반적으로 다배체화 사건 후에 유지되어 왔지만,
    C. arabica assembly는 이런 일반적인 룰에 대한 소수의 예외를 보여준다. 
  • 우리는 A 염색질 구획(chromatin compartments)을 포함하고,
    자가사배체 염색체 영역(autotetraploid chromosomal regions)을 생성하는,
    동조 염색체들 간의 세번의 서브 텔로미어 교환 사건 (three subtelomeric events of exchange)의 위치
    정확하게 그려냈다 [40] regions (Chr2c:74,564,297-74,718,367, Chr7c:1-1,252,944 and Chr10e:1-56,401).
  • 이들 중 가장 큰 것이 Fig. 1b에 나와있고,
    다른 것들은 Fig. 1b의 그래픽 배율에서 보일 수 있도록 하기에 너무 사이즈가 작다. 
  • 이 이벤트들로 인해,
    canephora 동조 염색체 세그먼트들 (homoeologous chromosome segments)이
    유게니오이드 동조 세그먼트들로 대체되었으며,
    이는 이질배수체 상태가 상실된 169개의 예측 유전자들에 집합적으로 영향을 미쳤다.
  • 분석된 모든 액세션들에서 이들 영역들에 동조 SNPs(homoeologous SNPs)가 부족한 것으로 나타난 바와 같이,
    이러한 동조 대체들(homoeologous replacements)은 C. arabica에서 고정되어 있다 (see next paragraph).
  • 그 어셈블리를 서포트하는 long reads에서의 SNP 분포를 분석하면, 
    Chr2c의 Cara0002c46780과 Cara0002c46790 유전자,
    Chr2e의 Cara0002e47690과 Cara0002e47700 유전자 사이의 유전자 간 공간에서
    Chr2의 동조 교환(homoeologous exchange)이 발생했음을 알 수 있다.

  • Chr7에서의 동조 교환(homoeologous exchange)은
          Helitron 전이 인자(transposable element) 내에서 발생한 반면,
    Chr10에서의 동조 교환은
          Mutator 전이 인자 내에서 발생했다.

  • 'Bourbon'의 염색체-규모 조립(chromosome-scale assembly)은 또한
    이전에 발견되지 않은 상호 대칭 교환(reciprocal and symmetrical exchange)을 포함하는
    동조성 재조합(homoeologous recombination)의 대규모 사건을 밝혀냈는데,
    이는 아마도 배수체화 이벤트 전에
    종간 하이브리드 이배체 세포 계통(interspecific hybrid diploid cell lineage)에서 발생한
    부모 염색체들 사이의 유사분열 교차 (mitotic crossing-over)에서 유래하는 것일 수 있다 [41].
  • 상호 교환(reciprocal exchange)
    천연 염색체(native chromosomes) 10의 canephora
    eugenioides 암(arms)을 7.6Mbp 교환했다  (Fig. 1b).
  • 상호 교환 부위 (site of reciprocal exchange)
    키네신-유사 단백질(kinesin-like protein) KIN-14R의 전사 단위(transcriptional unit) 내에서 발생했다
    (gene models Cara0010e09280 and Cara0010c09420, shown in Supplementary Fig. 39). 
  • Cara0010e09280 및 Cara0010c09420는 negative strand로부터 19개의 엑손(exons)으로 전사된다 (transcribed).

  • 약 3 Kb의 명백한 교차 관련 전환 영역 (crossing-over associated conversion tract)(COCT) [42]이
    exon 6과 intron 10의 중간 사이에서 볼 수 있으며,
    여기서 두 동조체 (homoeologs)는 거의 동일한 시퀀스 영역(sequence tract)을 나타내며,
    이는 현재의 C. canephora 보다는 현재의 C. eugenioides와 더 유사하다. 
  • PCR-based assay를 사용하여, 우리는 
    실험적으로 ‘Bourbon’에서의 이런 동조성 재조합(homoeologous recombination, 부분 유사재결합)의 증거를
    검증했고,
    이 사건이 예멘 기원의 Bourbon/Typica 생식질에만 국한된 것이 아니라,
    에티오피아 생식질의 대표인 ‘1-Geisha’ 액세션에서도 존재한다는 것을 보였고,
    이는 Ethiopian germplasm와 Bourbon/Typica germplasm 사이의 분리를 앞서는
    고대 사건의 결과라는 것을 제시한다 (Supplementary Fig. 40). 
  • 이러한 동조 교환(homoeologous exchange) 후에,
    작은 서브텔로미어 동조 대체 사건 (small subtelomeric homoeologous replacement event) (앞서 설명한 것)이
    55 Kb의 canephora DNA (이전에 Chr10e homoeolog로 이동됨)를
    eugenioides DNA로 대체했다. 
  • 지금까지 보고된 경우들과 달리,
    Chr8c와 Chr8e (Fig. 1b, Chr8c:26,514,569-30,375,036, Chr8e:34,155,493-37,608,685)를 구별하는
    대규모의 염색체내 역위와 전좌 (intrachromosomal inversion and translocation)
    다배체화 이벤트 이후(post-polyploidization event)의 결과인 것으로 보이지 않는다 (또한 Supplementary Fig. 12의 contact map의 서포팅 증거를 보라, 그리고 어셈블리-관련 이슈들을 배제하기 위해 Supplementary Figs. 1-11의 Caturra assembly에 있는 동일한 염색체들과의 공선성(collinearity)을 보라). 


  • 비록 C. canephora C. eugenioides 게놈들의 어셈블리들이 이 염색체 영역에 걸쳐 고도로  분열적이지만 (Supplementary Figs. 1–11),
    그들은 이 염색체내 재배열(intrachromosomal rearrangement)이
    2개의 이배체 조상 종들 간의 고정적인 변이(standing variation)의 일부라는 것을 확인해주는 것으로 보이며,
    따라서 염색체 재배열(chromosomal rearrangement)은 다배체화 사건을 앞서는 것으로 보인다
  • 이전에 설명한 네 가지 배수체화 후 염색체 재배열은 
    C. arabica 진화 과정의 매우 초기에 발생한 것으로 보이며 오늘날 우리가 조사한 모든 분류에 존재한다.
    반면, 우리는
    ONT 시퀀싱을 위해 게놈 DNA를 추출한 Bourbon 표본에는 존재하지만,
    이전에 Illumina 시퀀싱을 위해 게놈 DNA를 추출한 Bourbon 표본에는 존재하지 않는,
    하위 텔로미어 동조 대체 (subtelomeric homoeologous replacement) 이벤트를 확인했다 [6].

  • 5.7 Mbp (Supplementary Fig. 41)를 포함하고 앞에서 우리가 설명한 다른 4개와 같은 A 염색질 구획에서 발생하는 Chr1c의 하단에서 eugenioides의 canephora로의 대체는, 시퀀싱에 사용되는 액세션에서의 이형접합 변이체(heterozygous variant)를 생성했으며,
    이는 해당 지역에 대한 CAN:EUG = 1:3 copy number variation의 조건과 호환되는,  
    Chr1c에서 평균 보다 일관적으로 더 낮은 read coverage와,
    Chr1e에서 평균보다 일관적으로 더 높은 read coverage를 보여주었다. 
  • 교환 사이트(exchange site)에 걸쳐 있는 
    연속 및 분할(continuous and split) long-reads에서의 동조적 SNPs 패턴은
    그 이벤트가 동조 유전자들(homoeologous genes) Chr1c의 Cara0001c18950과 Chr1e의 Cara0001e19460 내에서 또는 바로 상류(upstream)에서 발생했음을 나타낸다.
  • Illumina sequencing을 위해 앞서서 사용된 견본(specimen)에서,
    우리는 어느 한 동조체(homoeolog)에서 average read coverage로부터 왜곡들이 관찰되지 않았고,
    이는 native CAN:EUG = 2:2 copy number condition을 제시한다. 
  • ONT sequencing을 위해 사용된 같은 견본으로부터의 DNA를 사용한 Hi-C data는
    이 동조 대체(homoeologous replacement)의 부위 주변의 Chr1c/Chr1c, Chr1e/Chr1e and Chr1c/Chr1e contacts의 혼합을 보여주었고, 이는 그 존재에 대해 그리고 그것의 이형접합 상태에 대한 서포트를 부여한다.  
  • 유전자가 풍부한 큰 게놈 영역과 관련된
    이러한 명백한 새로운 염색체 교체 사건(chromosomal replacement event)의 관찰은
    이러한 유형의 동조체들(homoeologs) 사이의 염색체 재배열(chromosomal rearrangements)이
    매우 최근에 발생한 종에서의, 뉴클레오티드 다양성은 여전히 ​​매우 낮은, 종내 유전적 변이(intraspecific genetic variation)의 생성에 중요한 메커니즘을 나타낼 수 있음을 시사한다.

 

Fig.3 | 172개의 코페아 종 액세션들에서의 유전적 다양성
a ➡ PCA의 첫 두 성분들의 2차원 그래프.
       C. eugenioides의 액세션은 a에 포함되지 않았고, 그것은 Supplementary Fig. 43에 제공되어 있다.
       두 주성분분석들에서 C. canephora 33-1 액세션은 low coverage 때문에 제거되었다
       (Supplementary Data 1).

b ➡ a에서 점선 사각형으로 표시된 부분을 확대한 그림.
b(삽도) Box plot ➡ 3개의 아라비카-유사 표본과
             3개의 티모르 하이브리드 파생물 (P7963, T5175 및 T8667)에서의,
             C. canephora 유전자 이입이 없는 영역(각 품종의 왼쪽에 있는 올리브 녹색 상자) 또는
             C. canephora 유전자 이입이 있는 영역 (각 품종 오른쪽에 있는 자홍색 상자)에 있는 것에 기초하여
             소트된
100 Kb의 비반복적 DNA의 게놈 윈도우 당 SNPs의 수의 분포.

             박스들은 1과 3 사분위수를 가리키며,
             박스 내 수평선은 중위수를 가리키고,
             위스커는 ±1.5 × 사분위수간 범위를 가리킨다.
             각 박스 아래 숫자들은 각 게놈 구획 내의 게놈 윈도우의 수를 가리킨다.
c, d ➡ 100 Kb의 비반복적 DNA를 함유하는 4,467 개의 비-중첩적 게놈 윈도우에 걸친
            뉴클레오티드 다양성 (π)의 백분위수 분포 (c)와 염색체 분포 (d).
            d에서,
바 척도의 화살표들은 중위값들을 가리키며, y-축들은 백만 염기들을 가리킨다 (Mbp).

 

 Genetic diversity in the species Coffea arabica and
 in Arabica cultivated germplasm

  • 우리는 22개의 염색체 의사분자(chromosome pseudomolecules)에 걸쳐 
    액세션당 평균 716,303,048개의 정보 사이트(informative sites)로부터 
    174개의 Coffea sp. 액세션들의 세트에서 7,694,774개의 변이 사이트(variant sites)를 호출했다(called).
  • 그들의 오리지널 문헌 보고들 [6,9,24]에서 공개적으로 구득가능한 액세션들과,
    본 페이퍼의 분석들에 기초한 그  수정본(revision)에 대한 분류학적 분류(taxonomic classification)에 기초하여 (Fig. 3ad and Supplementary Fig. 43),
    우리의 WGS panel은 C. canephora 액세션 34개, C. eugenioides 액세션 1개, C. arabica 액세션 95개, 그리고 C. arabica × Coffea sp. introgression lines 44개로 구성되었다 (Supplementary Data 1). 
  • C. arabica 액세션들은
    뉴클레오티드 다양성 중간 값(median nucleotide diversity)이 π=3.12×10-4이었다 (Fig. 3c). 
  • Outlier π values를 가진 게놈 윈도우(Genomic windows)는
    C. arabica에서 그 게놈에 걸쳐 무작위적으로 산재되었다 (Fig. 3d).
  • 누적적으로, C. arabica 액세션들은 특히 eugenioides 서브게놈 보다 위양성(false positive) SNPs가 더 쉽게 제거된
    canephora 서브게놈에 걸쳐, 게놈 윈도우당 동형접합 SNPs 수가 매우 낮았다 (Supplementary Fig. 44).

  • 에티오피아 액세션들은 Bourbon/Typica 액세션들과 구별되는 것으로 확인되었으며 (Fig. 3b),
    동형접합 SNP 빈도(homozygous SNP frequencies)가 더 높은 제한된 수의 게놈 영역들에 기여한다.
  • C. arabica의 이형접합성 SNP 수(heterozygous SNP counts)의 분포는
    이러한 액세션들의 대부분이 교배 시스템(masting system)을 기반으로 동형접합적(homozygous)일 것으로 예상되므로,
    SNP calling의 기준 위양성 오류율(baseline false positive error rate)을 반영할 가능성이 있다.

    공개적으로 사용 가능한 시퀀싱 데이터의 적용 범위가 낮기 때문에 필터링 절차로 오류율을 낮출 수 없다 (Supplementary Data 1).
  • 우리는 'Bourbon'에서 동형접합성 동조 대체 이벤트(homozygous homoeologous replacement events)를 감지한 세 영역들 중 어느 곳에서도 분석된 어떤 액세션들에서도 동조 SNP 빈도(homoeologous SNP frequency)의 증가를 감지하지 못했다.
  • 이는 우리가 'Bourbon’의 genome assembly에서 관찰한 동조대체(homoeologous replacements)가
    선조 사건(ancestral events)을 나타낸다는 증거를 제공한다.

  • 선조 이배체 종은
    균일한 게놈 분포(그림 3c, d)를 갖는 C. arabica보다 1차수 더 높은 뉴클레오티드 다양성 값을 보여주었다.
    단, 여기서 동형접합성의 트랙(tracts of homozygosity)을 가진 싱글 액세션으로 표시된 C. eugenioides만을 예외이다. 

  • 우리는 종간 유전자이입의 특징을 나타내지 않은
    C. arabica의 95개의 진실한 액세션들(bona fide accessions)에서
    1,877,440개의 SNP를 발견했다 (Supplementary Data 1). 
  • 이 데이터세트로 얻은 계통수(phylogenetic tree)는
    널리 사용되는 Bourbon/Typica 그룹의 재배품종들, 포레스트 커피 생산 시스템에 의해 지역적으로 활용되는 에티오피아 생식질, 또는 가든 커피 생산 시스템에 의해 지역적으로 활용되는 에티오피아 생식질을 주로 포함하는 강력하게 지지되는 브랜치들 (bootstrap values > 80%)을 보여주었다 (Supplementary Fig. 45).
  • 이 트리는 또한 에티오피아의 유전적 다양성에 대한 명확한 지리적 패턴을 보여주었다.
  • 이 지리적 패턴 내에서
    Yemeni accessions이라고도 불리는 Bourbon/Typica 그룹의 재배품종들은 the Main Rift 동쪽의 에티오피아 하이랜드의 랜드레이스 품종들과 함께 통계적으로 지원되는 브랜치로 그룹화된다 (Supplementary Fig. 45). 

  • 우리가 C. arabica × C. canephora introgression lines으로 재분류한 모든 액세션들은 (Supplementary Data 1)
    C. arabica와 비교할 만한 뉴클레오티드 다양성 추정치를 보여주는 그들의 genomic windows의 주요한 부분과,
    C. canephora 내에서 관찰된 것과 유사한 추정치를 보여주는 canephora 서브게놈에서 그들의 genomic windows의 variable fraction을 나타낸다.
  • 증가된 뉴클레오티드 다양성을 나타내는
    C. arabica × C. canephora introgression lines에서의 genomic windows는
    그 게놈 전체에 걸쳐 무작위로 분포되지 않지만,
    C. canephora introgressed haplotypes (카네포라 유전자이입된 일배체형들)의 존재와 호환되는 큰 연속 염색체 세그먼트에서는 발견된다.

  • 이 결과로서, C. arabica × C. canephora introgression lines는
    Ethiopian accessions 및 Bourbon/Typica varieties로 대표되는
    순수 C. arabica 생식질의 PCA biplot에서 대체되는(displaced) 것으로 보이며,
    이는 모두 매우 낮은 다양성을 포함한다 (Fig. 3b).
  • 순수 C. arabica 생식질의 핵심으로부터 점점 더 멀리 떨어져 있는
    개별 C. arabica × C. canephora introgression lines는
    추정적으로 유전자 이입된 게놈 윈도우들의 수는 다르지만,
    이러한 게놈 윈도우들에서의 뉴클레오티드 다양성 수준은 다르지 않다.
  • 이 모든 것은, Timor-hybrid 파생 (Catimor) 액세션들 P7963, T5175, T8667로
    Fig. 3b에 표시된 알려진 C. arabica × C. canephora introgression lines (Supplementary Data 1)의 경우에 해당되며, 뿐만 아니라, 이전에 문헌 보고들과 보관된 메타데이터에서 [23,24] Arabica로 분류된 41개의 다른 서열화된 표본들 그룹의 경우에도 해당된다.
  • 오리지널 문헌 보고들에서, 이러한 액세션들 중 일부에는 의도적으로 introgression lines로 샘플링되었거나, 육종 기관들의 생식질 저장소들로부터 도입되었음을 암시하는 코드와 원산지 국가가 부여되었다 (Supplementary Data 1).

  • 그런 액세션들에서 유전자 이입된 일배체들(introgressed haplotypes)은
    그들이 선택적 이점들 때문에 우선적으로 유지된 것처럼 (Supplementary Data 2), 그리고/또는
    공통적인 선조의 이벤트로부터 파생된 것처럼 (Supplementary Figs. 47 and 48),
    공유되는 염색체 영역들에 거쳐 확장하는 경향이 있다 (Supplementary Fig. 46 and Supplementary Method 4).
  • 한 대표적인 예외는,
    주어진 코드에 기초하여,  무관한 C. liberica introgression line에 해당할 것으로 기대된  액세션 S288이다 (Supplementary Fig. 49). 

  • 유전자 이입 게놈 윈도우들을 보유하는 아프리카 및 인도 샘플들도
    3개의 유명한 Arabica-like 품종들 (즉, Kent, SL28, 그리고 SL34), 에티오피아 플랜테이션들로부터 샘플링된 2개의 액세션들 (GNG1 및  GUG3), 그리고 에티오피아의 포레스트 생산 시스템에서 나온 1개의 액세션 (CHF1)을 포함하고 있다 [23].
  • Kent, SL28 그리고 SL34는 일반적으로 토종 아프리카 크롭 생식질의 일부로 생각된다.
  • CHF1 액세션은 가장 특이한 경우인데, 그것은 C. canephora 유전자 이입의 특징들이 있는 게놈 윈도우의 수가 가장 낮으며, 이 유전자 이입은 동형접합적이기 때문이다 (Fig. 3b).
  • 이들 추정적인 C. arabica × C. canephora introgression lines는
    Timor hybrid derivatives에서 발견되는 것과 같은 C. canephora 유전자 이입의 증거를 가진 비슷한 genome fraction을 보이며,
    그들은 또한 the introgressed regions의 위치와 몇 가지 재조합  중단점들(recombination breakpoints)를 공유한다 (Supplementary Fig. 50). 
  • 이런 유사성들은 그들이 공통의 조상으로부터 C. canephora introgression를 모두 물려받았다는 것을 가리키는 것일 수 있다. 
  • 공개적으로 이용가능한 Kent와 SL34에 관한 시퀀싱 데이터는
    각 품종의 대표로 시퀀싱된 단일 표본이 이형접합 상태의 C. canephora 유전자 이입의 tracts를 가지고 있음을 보여 주며,
    이는 해당 유전자 이입들이 종자 풀 대표에서 아직 고정되지 않았음을 나타내거나, 또는
    시퀀스된 액세션들이 샘플링된 장소에서의 지역적 유전자 흐름(local gene flow)에서 파생될 수 있다는 것을 가리킨다. 

  • 공개적으로 이용가능한 SL28에 관한 시퀀싱 데이터는 이 품종의 대표로서 시퀀싱된 단일 표본이 동형접합 상태에서의 C. canephora 유전자 이입 tracts을 보유한다는 것을 보여준다 (Supplementary Fig. 51). 
  • 우리는 코스타리카 CATIE 커피 생식질 컬렉션으로부터 구한 다른 SL28 액세션을 재서열 분석했는데,
    유전자 이입의 특징을 보이지 않았으며 (Supplementary Fig. 51),
    이는 개별 액세션들에서 검출가능한 유전자 이입 이벤트들이,
    새로운 플랜테이션들이 그들의 원천들로부터 유성 생식된 재료를 사용하여 설립되면 유전적 순수성에 대한 위협을 부여하는 그들의 현재 종자 풀의 최근 오염 이벤트들로 인한 것일 수 있다는 것을 확인해준다. 
  • 커피 산업에서 그리고 커피 과학 커뮤니티에서의 이 이슈의 스케일을 이해하고,
    그 출현이 Timor 하이브리드 및 C. liberica derivatives의 세계적 보급 후에 발생했다는 것을 증명하기 위해,
    우리는 잎 녹병 저항적 재료의 세계적 보급 이전에, 그리고 에티오피아의 커피 생산 시스템에서의 그 도입 이전에 [6],
    1960년대에 에티오피아에서 시행된 탐사들에 의해 수집된 생태형들의 GBS-data를 재분석하였다 (Supplementary Method 5).

  • 우리는 이 생태형들은, 에티오피아 및 아프리카의 기타 지역들 그리고 아프리카 외부에서 샘플링된 재배되는 품종들과 랜드레이스들의 다른 액세션들과 비교하였다 (대개 CATIE의 같은 유전자 뱅크에 보유되고 있는 것들) [6].
  • 기대한 바와 같이,
    우리는 잎 녹병 저항적 재료들의 가설적인 도착 시기를 앞서는 에티오피아 생태형들에서 유전자 이입의 특징들을 발견하지 못했다 [43] (Supplementary Figs. 52-53, Supplementary Data 3 and Supplementary Method 6). 
  • 반대로, 우리는 Cameroon으로부터 도입된 Bourbon/Typica variety ‘Laurina’의 한 액세션에서 수수께끼 같은 Timor 하이브리드 유전자 이입을 발견했지만,
    Bourbon Island로부터 도입된 같은 ‘Laurina’ 품종의 다른 액세션에서는 발견하지 못했다 (Supplementary Fig. 54). 
  • 우리는 또한 Tanzania에서 온 2개의 C. arabica 랜드레이스들에서는
    C. liberica로부터의 유전자 이입을 발견했다 (Supplementary Figs. 52-53, 55). 
  • Catimor 계열에 존재하는 C. canephora 유전자 이입들이 Timor 하이브리드에서 파생된다는 사실을 감안할 때, 
    이러한 자생적인 교잡화(spontaneous hybridization)의 이벤트는
    육종 프로그램들에서의 의도적 사용 이외에, Arabica 생식질 내의 고정적인 변이(standing variation)에 기여하고 있으며, 같은 일이 또 다른 최근의 C. arabica × Coffea sp. Hybridization events의 경우에도 발생하고 있다는 결론을 내리게 되는 유혹이 든다. 

  • WGS와 GBS 데이터세트에서 나온 잘려진 유전자 이입과
    아리송한(cryptic) 유전자 이입을 가진 이 모든 액세션들을 제거한 후에 (Supplementary Fig. 53),
    엄선된 진정한 C. arabica 세트의 유전적 다양성에 관한 분석 결과 재배품종들, 랜드레이스들, 그리고 자생적 생식질 모두가 제한된 유전적 베이스를 가지는 것으로 확인되었다. 

 

Fig. 4 | C. arabica 핵형의 그래픽 표현. a GNG5 액세션. b GISF2 액세션.
청색과 녹색 세로 기호들은 각각 canephora와 eugenioides 동조적 사본을 나타낸다. 염색체, 결손 및 교환은 스케일에 맞게 그려져 있다. 각 핵형 옆의 플롯은 'Bourbon'과 관련하여 각 동조 유전자(canephora, 청색선; eugenioides, 녹색선)의 범위 깊이에서 염색체 간 및 염색체 내 변이를 보여준다. 또한 canephora 하위 유전체(각 패널의 위)와 eugenioides 하위 유전체(각 패널의 아래)를 참조하여 두 액세션(주황색 선, 앞면)과 'Bourbon'(회색선, 배경)에서 동조 변이 빈도를 보여준다. 이는 삼염색체, 동조 교환 및 대규모 결손(검은색선 상자로 강조 표시)의 영향을 받는 염색체와 영향을 받지 않는 염색체(Chr1, 점선 상자)에서 나타난다. Depth of coverage plot의 그리드를 형성하는 수평 점선 회색 선들은 4:0(y = 2), 3:2(y = 1.5), 2:2(y = 1), 그리고 0:2(y = 0) 동조 사본들의 조건에서의 기대 값을 나타낸다. Homoeologous variant frequency plots의 그리드를 형성하는 수평 점선 회색들은 4:0(y = 1), 3:1(y = 0.75), 2:2(y = 0.5), 1:3(y = 0.25), 그리고 0:2(y = 0) 동조 사본들의 조건에서의 기대 값을 나타낸다. X축은 백만 염기쌍(Mbp)을 나타낸다. 그래픽적으로 확장된 버전의 염색체 plots의 전체 시리즈는 figshare repository [43]에서 구할 수 있다.

 

 

 Chromosomal aberrations and homoeologous exchanges
 as drivers of genetic diversity in the C. arabica species

 

  • ONT 시퀀싱에 사용 된 Bourbon 개체의 이형 접합 상태에서 추정되는 
    최근 동조적 교환 이벤트(recent homeologous exchange event)의 식별 (Supplementary Fig. 56)을 기반으로, 
    우리는 SNP 분석에도 사용된 
    94개의 진정한 C. arabica 세트에서의 (Supplementary Data 1), 그리고  
    4개의 컨트롤 액세션들에서의 (Supplementary Table 10), 
    균형 및 불균형 구조 변이(structural variation)의 추가적인 이벤트들을
    식별하기 시작했다 (Supplementary Method 7).
  • 98개 재배열된 액세션들(resequenced accessions) 각각과 'Bourbon’ [43](Fig. 4에 예시됨) 사이의
    read depth of coverage와 동조 SNP 변이체 빈도(homeologous SNP variant frequency)를 비교하여,
    📌 이수성 (aneuploidies) (Fig. 4a and Supplementary Fig. 57),
    📌 결실 및 복제 (deletions and duplications)
            (Fig. 4b, Supplementary Fig. 58 and Supplementary Data 4),
    📌 그리고 'Bourbon'과 공유되지 않은 동조적 교환들(homoeologous exchanges)
             (Fig. 4a,b, Supplementary Figs. 59 and 60 and Supplementary Data 5)과 같은
    다른 타입들의 이상들 (aberrations)을 식별할 수 있었다
  • 대부분의 액세션들의 비교적 낮은 read coverage 하에서,
    사이즈가 적어도 200Kb 이상인 이벤트들만 신뢰성 있게 검출할 수 있었고,
    재배열(rearrangements)이 발생한 개별 염색체 사이트들(chromosomal sites)에 대한 심층 분석은 수행할 수 없었다.
  • 우리가 사용한 어프로치로는 염색체 10의 ‘Bourbon’에서 확인된 것과 같은 
    추가적인 상호 교환이나 또는 기타 균형 잡힌 염색체 재배열(balanced chromosomal rearrangements)을
     검출할 수 없었다. 왜냐하면 두 서브 게놈들 사이의 상대적 카피 수(relative copy number)를 바꾼 이벤트들만 확인할 수 있었기 때문이다.

  • 우리가 사용한 주요 어푸로치는 각 서브 게놈의 두 복사본이 존재할 때 예상되는 50% 값에서 동조적 변이 빈도(homoeologous variant frequency)의 변화를 기반으로 했다. 
  • 우리는 이전에 이 어푸로치를 ROH (Reduction Of Heterozygosity) [43]라고 불렀으며,
    여기서는 ROHH (Reduction of Homoeologous Heterozygosity)로 이름을 바꿨다.
  • ROHH 결과를, 'Bourbon'과 비교한 relative Depth Of Coverage (DOC)의 분석과 결합함으로써,
    염색체 이상(chromosomal aberrations)
    동조 교환(homoeologous exchanges)을,
    동형접합성 또는 이형접합성 조건에 있을 때 뿐만 아니라,
    체세포 모자이크 현상 (somatic mosaicism)를 분명히 보여주고 있는 경우에도 식별할 수 있었다.
  • 이 분석을 통해 우리는
    염색체 2번, 7번, 10번에서 'Bourbon'에 존재하는 교환 사건(exchange events)이
    C. arabica 계통에서 매우 초기에 발생했다는 이전 관찰[40]을 확인할 수 있었다.
  • 왜냐하면 우리가 분석한 모든 액세션들에서 고정된 것으로 보이기 때문이다
    (이는 또한 앞서 보듯이 우리의 SNP 분석에 의해서도 확인되었다).

  • 그러나 우리는 또한 전체 염색체 이수성(whole chromosome aneuplodies)을 보여주는 4개의 액세션들, 'Bourbon'에서 이미 관찰된 것들에의 추가적인 동조 교환(homoeologous exchanges)을 보여주는 44개의 액세션들, 그리고 'Bourbon'에 존재할 수도 있는 추가적인 대규모 결실또는 복제(deletions or duplications)을 보여주는 3개의 액세션들을 발견했다 (Supplementary Figs. 57 and 60). 
  • 우리가 검출한 대다수의 이벤트들은 ROHH 뿐만 아니라 DOC 측면 모두에서도,
    이형접합성 또는 동형접합성 상태 (heterozygous or homozygous state)의
    생식세포 돌연변이(germinal mutations)에 대한 기대에 부합한다.

  • 그러나 두 가지 이벤트가 있었다.
    하나는 이수성(aneuploidies)과 관련이 있고,
    다른 하나는 동조 교환(homoeologous exchange)과 관련되어 있다.
  • 이 이벤트들은 통계적으로 매우 유의하고 물리적으로 매우 크지만,
    서열 분석된 개체가 체세포 모자이크 현상(somatic mosaicism)을 초래하는 염색체 이상(chromosomal aberration)에 대한 체세포 돌연변이(somatic mutation)를 겪었다고 가정해야만 설명할 수 있거나, 또는 서열분석된 매터리얼이 검출된 체세포 돌연변이(somatic mutation)에 대해 다른 적어도 2개의 유전적으로 이형접합적인(heterogeneous) 개체들로부터 파생되었다는 것을 가정해야만 설명할 수 있다. 
  • 우리는 3염색체(trisomies)를 가진 3개의 액세션들을 식별했는데, 
    염색체 9의 경우가 2개 (하나는 eugenioides-유래 염색체의 추가적인 copy와 관련되고, 
    다른 하나는 canephora-유래 염색체의 엑스트라 카피와 관련이 있음), 그리고 
    canephora-유래 염색체의 추가적인 copy와 관련되는 염색체 11의 경우가 1개이다. 
  • 우리는 또한 Chr2e에 대한 삼염색체성(trisomy)과 Chr10c에 대한 단일염색체(monosomy)를 포함하는 MESF1 액세션에서 추정적인  키메라 현상(chimerism)도 식별했다.  
  • 식물들은 일반적으로 동물보다 이수성(aneuploidy)에 더 잘 견디는 것으로 오랫동안 알려져 왔으며 [44],
    배수체(polyploids)는 이수성 개체(aneuploid individuals)의 자발적인 발생을 자주 나타낸다 [45].
    아마도 감수분열(meiosis) 중에 다중 염색체 세트(multiple chromosome sets)를 적절하게 분할(partitioning)하는 것에서의 오류의 결과일 것이다. 
    단염색체 변이체 및 삼염색체 변이체(monosomic and trisomic variants)에 내성이 있는 것으로 알려진 이질육배체(allohexaploid)  Triticum aestivumis와, 새로 생성된 합성 육배체(hexaploid) 밀 식물은 훨씬 더 높은 빈도의 이수성(aneuploidy)을 나타낸다 [46]. 

  • 따라서 이수체 (aneuploid) C. arabica 액세션들의 식별은 예상치 못한 일이 아니다.
    이수체 상태(aneuploid condition)는 감수분열(meiosis)을 통해 안정적으로 유전되지 않지만,
    영양 번식(vegetative propagation)이 이 상태의 장기간 유지에 더 좋을 수 있다.

    관련된 액세션들의 핵형 분석(Karyotyping)은 검출된 이수체들에 대한 확실한 증거를 제공할 수 있다.
    이수체들의 존재는 C. arabica의 이염색체 감수분열 행동(disomic meiotic behavior)의 불규칙성에 대한 관찰과 일치하며 [13,14],
    재배품종들 내 표현형 돌연변이들(phenotypic mutants) 사이의 DNA 함량 변화(content variation)에 대한 관찰과도 일치한다 [22].

  • 동조적 교환(Homoeologous exchanges)이 많은 수의 액세션들에서 식별되었으며, 모두가,
    엑손 서열들(exonic sequences)이 풍부하고,
    Tes에서 고갈되어 있으며(depleted), 그리고
    발생한 염색체의 평균 보다 동조체들(homoeologs) 간에서 더욱 공선적인(more collinear)
           (Supplementary Data 6),   
    염색체 1, 5,6, 7, 8, 10 그리고 11의 말단 부분들(terminal portions)에
    관련되었다 (Fig. 5 and Supplementary Data 5). 
  • 종합적으로,
    이들은 특정 유전자 온톨로지(gene ontology) 카테고리들(Supplementary Data 7)이 풍부하지 않았으며,
    동조 교환 부위(sites of homoeologous exchange)는 Timor 하이브리드 파생물들의 유전자 이입 세그먼트들에서 식별된 동조 재조합 부위(sites of homologous recombination)와 일치하지 않았다 (Supplementary Fig. 61). 
  • Fig. 4에서 볼 수 있는 하나 또는 몇 개의 개별 게놈 윈도우들[43]을 involving하는 ROHH peaks에 해당하는 더 작은 교환들은 대부분의 액세션들의 다소 낮은 커버리지로 정의된 우리의 분석 파이프라인(analytical pipeline)의 민감도 한계(sensitivity limits)로 인해 검출되지 않았을 수 있다.

 

Fig. 5 | Graphical representation of large homoeologous exchanges in C. arabica.
청색과 녹색 수직 기호들은 각각 고유한 카네포라와 유게니오이데스 동조적 사본과 C. arabica 생식질(> 200Kb)에서 발견된 동조적 교환으로 인한 염색체를 나타낸다. 동조적 교환의 각 이벤트는 Supplementary Data 6에서와 같이 숫자로 식별되며, n은 이벤트가 감지된 액세션 수를 나타낸다. 검은색 화살촉은 대략적인 교환 위치를 나타낸다. 기호들은 일정한 비율로 그려지지 않는다. 정확한 길이는 Supplementary Table 2 및 Supplementary Data 5-6에 보고되어 있다. Sequence identity plot에서 점은 겹치지 않는 2Kb 윈도우 사이의 동일성이 >70%인 서열 정렬을 나타낸다. 각 점의 색상은 서열 동일성의 %를 나타낸다. 막대 그래프는 동조 염색체 사이의 구조적 변이를 보여주며, 동조체 사이에 공유되는(흰색과 회색) 또는 개인용(분홍색과 자홍색) 뉴클레오티드의 fraction을 보여준다. 이러한 범주는 주석이 달린 전이 인자들(회색 및 자홍색)과 비반복 DNA(흰색)의 뉴클레오티드 부분으로 추가로 분류된다. 분홍색 스택에는 low-copy DNA 뿐만 아니라 동일선상 영역 외부의 전이 요소로 주석이 추가되지 않은 기타 DNA 영역도 포함된다. 각 동조체의 백만 염기쌍(Mbp) 단위의 염색체 좌표를 나타내는 축은 막대 플롯과 서열 동일성 플롯을 모두 나타낸다. 소스 데이터는 소스 데이터 파일과 보충 데이터 6으로 제공된다.

 

 

  • 대다수 이벤트들에는 가든-기반 및 포레스트-기반 커피 생산 시스템을 대표하는 랜드레이스 품종들과 액세션들을 포함하여 에티오피아로부터의 액세션들이 포함되었다.
  • 예멘 오리진의 Bourbon/Typica 생식질에 속하는 품종에서 식별된 교환의 유일한 경우는 (Supplementary Figs. 59-60), 우리가 염색체 1에서 추정적인 매우 큰 키메라 교환 이벤트(chimeric exchange event)를 검출한 Costarica-1 액세션에 있었다.
  • 다양한 ‘Bourbon’ 나무들에서의 다형성 동조 교환들(polymorphic homoeologous exchanges)의 식별을 바탕으로,
    우리는 ‘Bourbon’에서 일어난 일이 드문 경우인지 일반적인 상황인지에 대한 의문을 해결하기 위해,
    널리 알려진 다른 재배품종들의 서로 다른 액세션들 사이에서 유사한 다형성들(similar polymorphisms)을 찾아보았다.
    이를 위해 우리는 2개의 ‘Geisha’ 액세션들을 리시퀀스했고 (Supplementary Table 10), 그리고
     이들을 서로 비교했으며, 세번째로 공개적으로 이용 가능한 ‘Geisha’ 액세션과도 비교했다 (Supplementary Data 1). 

  • 우리가 Costarica-1에서 발견한 염색체 1의 매우 큰 키메라 교환 이벤트(very large chimeric exchange event)는
    우리가 CATIE로부터 조달 받은 에티오피아 액세션 T.02722에 해당하는 1-Geisha 액세션에서
    이형접합성 상태(heterozygous condition)로 존재하는 동일한 이벤트와 일치하는 것으로 보인다 (Supplementary Data 3). 
  • 이 이벤트는 공개적으로 이용 가능한 ‘Geisha’ ((Supplementary Data 1) 또는
    World Coffee Research로부터 제공받은 액세션 (Supplementary Table 10)에는 존재하지 않으며,
    이는 아라비카 생식질에서의 동조 교환(homoeologous exchanges)이, 동시에,
    같은 이름으로 식별되는 액세션들 사이에서는 다형적(polymorphic)이며,
    다른 이름으로 식별되는 액세션들 사이에서는 공유된다(shared)는 것을 확인해준다. 
  • 다수의 이벤트들이 7번 염색체와 관련되었으며,
    대부분은 4개의 동조체들(homoeologs)이 모두 eugenoides-유래 염색체 영역을 갖고 있고(carry), 
    따라서 동질배수체 상태(autopolyploid condition)에 있는 반대쪽 끝에서 발생한다.
  • 동질배수체 상태에 있는 말단의 바로 밑 하류에서도 이벤트들이 검출되었지만,
    교환이 이미 존재하고 모든 액세션들에 고정되어 있는 염색체의 바로 말단 부분(very terminal portion)에서 발생하는 이벤트들은, DOC 또는 ROHH에서 변화를 일으키지 않았기 때문에 검출할 수 없었을 것이다.
  • 독립적인 실험에 의해 C. arabica에서 발생하는 것으로 밝혀진,
    감수분열 시 동조 염색체(homoeologous chromosomes)를 포함하는 4價 (tetravalents) 또는 2價(bivalents)의 형성은 [18,19] 이 조건에 의해 선호될 수 있으며 이에 염색체에 대해 관찰된 높은 빈도의 동조 교환(homoeologous exchanges)을 설명할 수 있을 것이다. 

  • 전반적으로, 서로 다른 염색체들에 걸친 이러한 모든 이벤트들은 C. arabica의 동조성 쌍(homoeologous pairing)이 완전히 또는 심각하게 억제되지 않았음을 시사한다 [47].
  • 우리는 low read coverage를 보상하는데 사용된 큰 윈도우 사이즈로 인해, 낮은 분석 해상도가 하강(descent)에 의해 그들의 정체(identity)를 보장하지 않음에도 불구하고, 유사한 염색체 좌표를 가진 이벤트들을 군집화하여 액세션들 사이의 공유 이벤트들을 가리키려고 했다 (Fig. 5, Supplementary Fig. 62 and Supplementary Table 9). 

  • 이러한 경고(caveat)로 인해, ONT 시퀀싱에 사용된 Bourbon 표본의 이형접합성 조건(heterozygous condition)에서 검출한 것과 유사한 교환 이벤트(exchange event)가 포레스트-기반 커피 생산시스템 (DASF2)에 사용된 에티오피아 액세션의 이형접합성 상태(heterozygous state)에서도 검출되었고, 동일한 그룹에 속하는 두 개의 다른 에티오피아 액세션들에서, 다시 이형접합성 상태에서 분명하게 상호적인  이벤트(apparently reciprocal event)가 식별되었다 (GSSF5 and YASF2, Supplementary Data 1).

  • 3개의 액세션들은 모두 genome-wide SNPs에서 세워진 계통발생수(phylogenetic tree)에서
    Bourbon/Typica group과 매우 멀리 떨어져 있으며 서로 상당히 멀리 관계되어 있다 (Supplementary Fig. 45). 
  • 우리가 발견한 45개 이벤트들 중 무려 25개가 이형접합성 상태(heterozygous condition)에 있었으며,
    이는 동조체(homoeologs) 간 교환의 매우 빈번한 발생 결과로 매우 최근에 발생(very recent origin)했음을 가리키는 것일 수 있다.
  • Χ-scan analysis에 사용된 size threshold을 초과한 것들(염색체 7의 상단에 있는 이벤트) 중에서,
    아라비카 생식질에서 단 하나의 고정된 동조 교환 이벤트(fixed homoeologous exchange event)의 관찰과, 
    그 생식질에서 여전히 다형적인 복수의 다른 이벤트들에 대한 관찰은, 
    그 종의 기원이 최근에 일어났다(the origin of the species is recent)는 가설을 뒷받침하는 추가적인 증거이다.
  • ROHH와 결합하여 두 쌍의 동조 염색체들(homeologous chromosomes)를 고려할 때 이질배수체에서 예상되는 것과 다른 DOC 수준을 통해 우리는 중복(duplications)이나 결실(deletions)의 결과로 염색체 분절의 전체 사본 수를 변경하는 대규모 사건의 발생을 추론할 수 있었다 (Supplementary Fig. 58 and Supplementary Data 4).
  • Chr4e의 상단에 있는 1.5Mbp의 시퀀스와 관련된 단일 복제 이벤트(single duplication event)가 이형접합성 조건(heterozygous condition)의 단일 액세션에서 검출되었다. 그러나 복제된 세그먼트의 현재 위치를 확인할 수 없었다.

  • 각각 단일 액세션에서 두 개의 큰 삭제(deletions)가 감지되었다.
    하나는 Chr3c 상단에서 약 14.2Mbp의 매우 큰 세그먼트를 포함하고
    다른 하나는 Chr7e 하단에서 2.2Mbp의 세그먼트를 포함한다.
    첫 번째는 이형접합성 상태(heterozygous condition)인 것으로 추정되는 반면,
    두 번째는 동형접합성 상태(homozygous condition)로 추론되었다.
  • 세 가지 사건 모두 terminal이었고, 염색체를 따라 사이질(interstitial)이 아니었다.

  • 배수체(polyploid) 개체들은 특히 동형접합성 상태(homozygous condition)에서
    이배체(diploid) 개체보다 결실(deletions) 발생을 더 쉽게 견딜 수 있지만,
    매우 드물게 발생하는 단염색체(monosomies)와 결합할 때 동조 교환(homoeologous exchanges) 수에 비해 훨씬 더 제한된 수의 삭제 이벤트(deletion events )가 관찰된 것은, C. arabica와 같은 이질사배체(allotetraploid) 종에서는 이러한 현상이 덜 용인된다는 사실을 지적하는 것일 수 있다.
  • 한편, 그 관찰된 차이들은 단순히 다양한 유형의 염색체 돌연변이(chromosomal mutations) 발생 빈도의 차이에서 비롯될 수 있다.
  • 결실 (deletions) 및 중복(duplications)의 경우에도,
    분석 파이프라인의 민감도 한계로 인해 하나 또는
    몇 개의 개별 게놈 창(genomic windows)과 관련된 ROHH 피크에 해당하는 작은 이벤트가 감지되지 않을 수 있다는 점을 다시 강조해야 한다.

  • 우리가 확인한 다양한 염색체 이상(chromosomal aberrations) 중 어느 것도 
    새로운 서열 변이(new sequence variants)를 도입하지는 않지만, 
    모두 동조체증(homoeologs) 사이의 유전자 투여량(gene dosage)을 변경할 수 있으며, 
    이수성(aneuploidies), 결실(deletions) 및 중복(duplications)의 경우 
    전체 유전자 투여량(total gene dosage)도 변경할 수 있다.

  • 유전자 카피 수의 이러한 변화는 발현 차이(expression differences)를 초래할 수 있으며,
    이는 조직 배양 및 체세포 배발생에서 자주 발생하는 이수성 체세포 변종(aneuploid somaclonal variants)에서 볼 수 있듯이,
    결과적으로 상당한 표현형 변이(phenotypic variation)를 초래할 수 있다 [20].

  • 따라서 게놈 재배열(genomic rearrangements)은
    종 내에서 이용 가능한 매우 제한된 뉴클레오티드 다양성을 지속적으로 보충하는 유전적 다양성의 중요한 원천을 나타낼 수 있다.
  • Long read technology를 사용하여 
    C. arabica의 염색체 수준 어셈블리를 개발함으로써 이 종을 형성하는 두 부모 게놈의 구조와 진화에 대한 자세한 비교 분석을 수행할 수 있게 되었다.
  • 동조 염색체(homoeologous chromosomes)의 각 쌍 내에서 우리는
    구조적 특징과 진화 역사가 현저히 다른 영역에 해당하는 두 개의 서로 다른 염색질 구획의 존재를 관찰했다 :
    염색질 구획(chromatin compartments)은 높은 유전자 밀도 (high gene density)와 낮은 시퀀스  발산 (low sequence divergence)을 나타내는 반면,
    동원체 주변의(pericentromeric) B 염색질 구획은 낮은 유전자 밀도와 최근 TE 삽입(recent TE insertions)으로 인한 높은 시퀀스 발산을 보인다. 
  • 동조 유전자 간의 발현 차이(Expression differences)는 A 염색질 구획보다 B 염색질 구획의 유전자에서 그 수가 훨씬 적음에도 불구하고 더 높다.

  • 카페인 생합성에 관여하는 것으로 추정되는 유전자를 고려했을 때, 우리는
    동조체들(homoeologs) 간의 발현 차이 뿐만 아니라 사본 수의 변이(차이)도 발견했다.
  • 발현 차이는 이전에 관찰된 바와 같이
    항상 eugenioides보다 canephora 동조체들에서 더 높은 발현 방향에 있었다 [35].
  • 동원체 단백질 A 점유(centromere protein A occupancy)를 뒷받침하는 시퀀스 어레이들을 식별하기 위한 염색질 면역 침전 시퀀싱 (chromatin immunoprecipitation sequencing)과 같은 C. arabica의 파악하기 어려운 동원체 영역을 식별하기 위해서는 추가 실험이 필요하다 [2].

  • 다배체화 (polypoidization) 이후에 발생한 사건들에 관해서는, 
    이전에 설명한 동조체들 간의 비상호적 염색체 교환 (non-reciprocal chromosomal exchanges)의 세 가지 사건을 더 정확하게 정의하는 것 외에도 우리는 상호 교환(reciprocal exchange)의 한 가지 이벤트를 확인했다.
  • 다양한 증거류가 이 네 가지 사건들이 분석된 모든 액세션들에게 공통적이 것으로 보이며,
    따라서 C. arabica가 형성된 후 매우 초기에 발생했을 가능성이 높다는 사실을 가리킨다.

  • 더 중요한 것은,
    우리는 다양한 유형의 이수성 (aneuploidies), 결실 (deletions) 및 중복 (duplications)으로 구성된 많은 추가 추정 염색체 이상들을 큰 세트의 액세션에서 식별했을 뿐만 아니라, 싱글 액세션 액세션 그룹에 private했던 동조체들 간의 비상호 염색체 교환 (non-reciprocal chromosomal exchanges)도 확인했으며, 이는 동형접합성 상태와 이형접합성 상태 둘 다에서 발견되었다는 것이다.
  • 이러한 사건들은 최근에 일어난 것으로 보이며, 게놈 전반에 걸쳐 매우 낮은 수준의 뉴클레오티드 다양성을 갖는 것으로 확인된 종에서 유전적 변이가 생성되는 메커니즘을 나타낼 수 있었다.

  • 대규모 액세션 세트의 전체 게놈 리시퀀싱 데이터를 기반으로 한 싱글 뉴클레오티드 변이를 분석한 결과, 알려진 혈통(pedigrees)에 기초하여 기대되었던 개체들에서 뿐만 아니라, C. arabica 재배품종들, 랜드레이스들 그리고 생태형들을 대표하는 것으로 가정된 작은 수의 개체들에서도, 추정적으로 C. canephora로부터 이입된 게놈 세그먼트들의 존재를 나타냈다. 
  • 이러한 유전자 이입된 세그먼트들을 C. arabica 액세션과, C. canephora 액세션 간의 교배로 생겨나 커피 잎 녹병에 대한 저항성을 제공하는 유전자를 운반하는 나무인 Timor hybrid의 파생물에 존재하는 부분들과 비교한 결과, 이들의 공통 기원이 밝혀졌다.
  • 검출된 유전자 이입 이벤트들은 현재 종자 풀의 최근 오염 사건으로 인한 것으로 보이며, 이러한 원천들로부터 유성 번식된 매터리얼을  사용하여 새로운 아라비카 플랜테이션들을 설립할 경우 유전적 순도에 위협이 될 수도 있다.

 

 DNA sequencing and de novo assembly 
 using ONT and Hi-C reads

  • WGS 라이브러리는 
    2−4 μg의 ‘Bourbon’의 고분자량 게놈 DNA와, 
    1D DNA Ligation Sequencing kit SQK-LSK109 (Oxford Nanopore Technologies, Oxford, UK)를 사용하여, 
    다음과 같은 일부 수정을 제외하고 제조업체의 지시사항들 따라서 마련되었다 :  incubation at 20 °C, extended ‘DNA repair & End-prep’ to 60 min, purification of adapter ligation reactions using an higher concentration (0.45X) of Agencourt AMPureXP beads (BeckmanCoulter, Brea, CA).
  • DNA 품질 체크는 Qubit 2.0 Fluorometer (Invitrogen, Carlsbad, CA)을 사용하여 수행되었다. 
  • 라이브러리들은 PromethION sequencer (Oxford Nanopore Technologies, Oxford, UK)을 사용하여
    시퀀싱되었으며, 평균 리드 길이 32 Kb의 121 Gbp를 생성하였다. 
  • ONT reads는 디폴트 파라미터들로 Canu48에 의해 수정되고 조립되었으나, 일부 파라미터는 다음과 같이 설정하였다 ; raw ErrorRate=0.4, correctedErrorRate= 0.144, minReadLength=10000, minOverlapLength=3000, ovlMerDistinct=0.975, corMhapSensitivity=high, saveReads=True, “batOptions = -dg 3 -db 3 -dr 1 -ca 500 -cp 50”.
  • Contigs의 polishing
    29.5 Gbp의 Illumina reads (BioProject PRJNA554647, SRR9822011-15)를 사용했고,
    BWA-MEM49를 사용하여 레퍼런스 시퀀스에 대한 read 정렬을 20-fold iteration하였고,
    Pilon을 사용해서 base correction이 수행되었다 [50]. 
  • Hi-C 라이브러리들의 준비는 
    Arima Genome-Wide HiC+ kit (Arima Genomics, Carlsbad, CA)을 사용하여 
    제조업체의 지시사항들에 따라 마련되었고, 
    NovaSeq 6000 instrument (Illumina, San Diego, CA)를 사용하여 시퀀스되었다.
  • Hi-C reads 정렬BWA-MEM49를 사용하여 (옵션 파라미터는 -5SP로 설정) 레퍼런스 게놈과 이뤄졌고,
    그리고 samblaster, the command samtools view -F 2316 그리고 matlock bamfilt (디폴트 파라미터로 설정)를 사용하여 필터링되었다 (https://phasegenomics.github.io/2019/09/19/hic-alignment-and-qc.html).

  • Chimeric contigs의 식별과 scaffolding은 
    SALSA으로 수행되었는데, 디폴트 파라미터들 외에 -e GATC,GANTC로 설정하였다 [51]. 
  • Genome-wide contact maps
    Juicer를 사용하여 생성되었고, Juicebox를 사용하여 작성되었다 [52].
  • Chromosome pseudomolecules (염색체 유사분자들)
    예전의 C. arabica genome assemblies (GCF_003713255.1)와 함께 정렬되었고,
    그에 따라 지향되고 코드화되었다 (oriented and coded). 

 

 Validation of sequence accuracy and 
 chromosomal reciprocal exchanges

  • BAC clone sequences이 
    BioProject PRJNA5546476로부터 인출되었고, ABySS53를 사용하여 조립되었다.
  • 384개의 무작위 BAC clones의 pooled sequencing에서 얻어졌던
    10 Kb보다 더 긴 Scaffolds이

    MUMmer를 사용하여 그 레퍼런스에서 맵핑되었다 [54]. 
  • 시퀀스 정렬의  구간들은
    95% sequence identity의 최소 수준(minimum threshold)으로 유지되었다. 
  • 반복적 시퀀스들의 Partial contig alignments는
    집합적으로 스캐폴드 길이의 >30%를 넘게 차지한 200 Kb range 내에서 일치하는 adjacent만 유지함으로써 필터 아웃되었다. 
  • 우리는 반복적 DNA로부터 유해하는 것일 가능성이 있는 유사한 레벨의 sequence identity를 가진 복수의 레퍼런스 영역들과 일치한, 시퀀스 BAC contigs [6]와 5 BAC contigs의 scaffolding을 위해
    사용된 절차로부터 유래하는 것일 수 있는 2가지 다른 염색체들에 맵핑된 두 부분들을 가지는
    8개의 chimeric scaffolds를 제외시켰다. 
  • 총 1.5 Mbp가 시퀀스 에러 율을 추정하는데 사용되었다. 
  • 염색체의 상호 교환들(chromosomal reciprocal exchanges)의 PCR-based validation assays를 위해
    사용된 프라이머 쌍들은 Supplementary Table 11에 보고되어 있다. 

 

 Gene and TE prediction

  • Gene prediction은
    C. arabica (Gen-Bank Assembly Accession GCA_003713225.1)로부터, 그리고
    Uniprot Gentianales, OrthoDB 및 SwissProt 데이터베이스들로부터 얻어진
    식물 단백질들의 정렬에 의해서, 그리고
    아래에 설명된 바와 같이 수행된 RNA read alignments에 의해서, 그리고
    SNAP [55], Glimmer [56],  BRAKER2 [57] 및 Geneid [58] 소프트웨어를 사용한
    ab initio gene prediction에 의해 제공된 보완적 증거를 사용하여 수행되었다. 
  • 최종 유전자 모델은 EvidenceModeler and PASA를 사용하여 생성되었다 [59]. 
  • Gene Ontology IDs는
    Pannzer260을 사용하여 부여되었고, the goslim_plant database를 사용하여 대략적 terms로 그룹화되었다.
  • Gene Ontology enrichment analysis은
    R package topGO를 사용하여 수행되었다. 
  • Intact TEs는 EDTA를 사용하여 식별되고 분류되었다 [61].
  • Repetitive DNA는
    RepeatMasker [62] 그리고 EDTA에 의해 생성된 TE 라이브러리를 사용하여 마스킹되었다.
  • Gypsy and Athila sequences를 가지는 Chromovirus-domain은
    Zhou & coworkers [63]의 annotation of intact LTR elements를 사용하여 추출되었고,
    그 라이브러리는 RepeatMasker [62]로 C. arabica assembly를 마스킹하는데 사용되었다. 

 

 Genome segmentation and 
 genomic and Hi-C windows analyses

  • 염색체 유사분자들 (Chromosome pseudomolecules)은 
    100Kb의 비반복적 DNA를 포함하는 다양한 크기의 4,467개의 nonoverlapping genomic windows로 분할되었다.
  • 가변 길이 및 고정된 낮은 사본 DNA 양(fixed low-copy DNA amount)의 창에서의
    이러한 분할(segmentation)은
    SNP frequency, nucleotide diversity, gene and TE densities 그리고 C. canephora introgressions에 대한 분석에 사용되었다. 
  • Identity heatmaps를 통한 직렬 반복 구조(tandem repeat structures)의 염색체-규모 시각화는
     2Kb 게놈 창을 사용하는 StainedGlass[64]를 사용하여 생성되었다.
  • Synteny plots은 SyRI를 사용하여 작성되었다 [65].
  • 정렬된 Hi-C reads에 대한 주성분 값 (Principal component values)은
    HOMER utility runHiCpca.pl [66]을 사용하여 생성되었다.
  • PCA는 전체 염색체 정규화된 거리 상호작용 매트릭스에 50Kb 분해능에서 적용되었다. 
  • 염색체를 따라 있는 각 영역은 그 분석에서의 차원(dimension)을 나타낸다. 
    첫 번째 고유벡터(eigenvector) (PC1)는 
    염색질 유형 (chromatin type), 즉 이질염색질 (heterochromatin) 또는 진염색질 (heterochromatin)에 의한 클러스터링을 광범위하게 반영하고 게놈 구획들(genome compartments)을 식별할 수 있다는 것이 이전에 밝혀졌다 [67].
  • A 및 B 구획은
    첫 번째 component (PC1) 값들의 부호에 따라 분류되었으며,
    여기서 양수 값은 A 구획을 식별하고 음수 값은 B 구획을 식별한다.
  • PC1 고유 벡터 기호(eigenvectors sign)는
    염색체 전체에서 일관성이 없을 수 있으므로,
    그 contact map을 직접 검사하여 기호를 수동으로 수정했다.

 

 Reference-based DNA and RNA read alignments

  • Short DNA 및 RNA reads는 리드 맵핑을 독특하게 하도록 허용하기 위해, 
    the displaced homoeolog에 대한 동조 대체(homoeologous replacement)의
    거의 동일한 복사본(the nearly identical copy)이
    마스크된(가려진) 레퍼런스 게놈의 수정된 버전으로 정렬되었다. 
  • RNA reads는 BioProject PRJNA554647에서 인출되었으며 STAR [68]를 사용하여 정렬되었다.
  • 유전자 발현 데이터는 StringTie를 사용하여 생성되었으며,
    reads 카운트는 TPM(Transcripts Per Million)으로 정규화되었다.
  • 발현 수준 (expression levels)과, 그리고 동조체(homoeologs) 사이의 발현 비율에서,
    A와 B 구획 사이의 차이는 two-sided Wilcoxon test를 사용하여 테스트되었다.

 

 Sequence variation and 
 homoeologous copy number variation analyses

  • 원시 데이터는 공개 저장소에서 인출되었다 (Supplementary Data 1 and 3).
  • DNA reads는 디폴트 파라미터들로 BWAMEM49를 사용하여 레퍼런스 게놈과 정렬되었다.
  • 독특한 맵핑 DNA reads는 mapping quality >10으로 유지되었다.
  • WGS 데이터의 경우,
    heterozygosity 파라미터가 0.01인 GATK69의 UnifiedGenotyper 툴을 사용하여
    raw variants가 호출되었다.
  • 유전자형(Genotypes)은 10개 reads의 minimum coverage로 호출되었다(called).
  • Minimum coverage는,
    공개 저장소로부터 다운로드한 low coverage 시퀀싱 데이터의 경우, 5개 reads로 줄었다.
  • Heterozygous genotypes는
    0.15에서 0.85 사이의 reference/alternative read coverage ratio로 호출되었다 (called).
  • Homozygous reference genotypes는 reference/alternative read coverage ratio ≤0.1로 호출되었다.
  • Homozygous alternative genotypes는 reference/alternative read coverage ratio ≥0.9로 호출되었다.
  • 우리는 Bourbon Illumina reads (30× genome coverage)의 자체 정렬에서 얻은 호출(calls)을 사용하여,
    레퍼런스 게놈 어셈블리의 정렬 오류(misalignment) 또는 시퀀스 부정확성(sequence inaccuracy)으로 인해
    발생하는 false variant sites를 필터아웃했다.
  • C. arabica의 Phylogenetic trees는 vcf-kit를 사용하여 구성되었다. 

  • GBS data의 경우에, raw variants는 Stacks를 사용하여 콜 되었다 (called). 
  • Heterozygous genotypes는 0.25와 0.75 사이의 reference/alternative read coverage ratio로 호출되었다. 
  • Homozygous genotypes는 WGS의 경우에 설명된 바와 같이 호출되었다. 

  • Variant sites는 그 개체들의 >50%에서 informative하면 유지되었다. 
  • 염색체 이상(chromosomal aberrations)과 동조적 교환의 검출(homoeologous exchanges)을 위해서,
    WGS reads의 정렬과 SNP calling이 동일한 소프트웨어로, 그리고
    DNA reads가 그 레퍼런스의 각 서브게놈으로 따로 정렬된 것으로 제외하고는
    위에서 설명된 것과 같은 파라미터들로 설정하여 수행되었다.
  • Homoeologous SNPs (동조적 SNPs)가
    250개의 변이 사이트(variant sites) 중첩이 있는 500개의 변이 사이트들이 포함된 가변 사이즈의 sliding windows에서 소프트웨어 χ‐scan [71]을 사용하여 균형 잡힌 homoeologous copy number의 정상적인 조건에서 예상되는 변이 빈도(variant frequency)와의 편차를 식별하는 데 사용되었다.
  • DOC (Depth of Coverage)는
    100Kb의 non-repetitive DNA를 포함하는 다양한 사이즈의 중첩되지 않는 4,467개의 게놈 창에서
    bedtools의 genomecov 명령을 사용하여 계산되었으며, ‘Bourbon’의 DOC에 대해 정규화되었다.
  • Copy number variation을 결정하는데 사용되는 ROHH 및 DOC 임계 값에 대한 자세한 내용은 Supplementary Method 7로 제시되어 있다. 

 

 Data availability

  • 본 연구에서 생성된 데이터는 다음과 같은 BioProject numbers 하에 NCBI database에 저장되었다:
    raw sequences and the genome assembly of ‘Bourbon’ PRJNA944143,
    raw sequences of 4 accessions (Supplementary Table 10) PRJNA1001613 and PRJNA1001614.
  • Bourbon assembly의 다음과 같은 게놈 특징들은
    https://coffea.appliedgenomics.org/에서 게놈 브라우저를 사용하여 도식적으로 이용가능하며,
    등록 하에 접근 가능하다:
    gene predictions supported by evidence of RNA read alignments, repeat annotation, k-mers, synteny and collinearity between homoeologs. 
  • Genetic diversity analysis를 위한 원시 시퀀스 데이터는
    BioProjects PRJNA505204, PRJNA790687, PRJNA554647, PRJNA497891로부터 얻어졌다. 
  • 대규모 데이터 세트들은 the figshare repository [43]에 저장되어 있다.
    [https://figshare.com/articles/figure/_b_A_chromosome-scale_assembly_reveals_chromosomal_aberrations_and_exchanges_generating_genetic_diversity_in_b_b_i_Coffea_arabica_i_b_b_germplasm_b_/23821881] with the DOI [https://doi.org/10.6084/m9.figshare.23821881]. 

  • 거기에는, 
    C. arabica의 Reduction Of Homoeologous Heterozygosity (ROHH) 및 DOC(Depth of Coverage) 분석이 
    포함되며, 
    개별적 유전자형 뿐만 아니라
    read coverage variation의 시뮬레이션들,
    GBS diversity panel에서의 introgression analysis,
    genome annotation data (gene prediction and repeat annotation in GFF3 File Format;
    gene annotation in txt format)을 포함하여,  
    개별 염색체에 따라 조직된 데이터가 포함된다. 

 

 

 

 References

 

 

 

 

댓글