본문 바로가기
Coffee Genetics

아라비카 커피 기원의 싱글 다배체화 사건이 극히 낮은 유전적 변이의 원인

by mjcafe 2024. 6. 5.

 

 

 


 

Coffea arabica는 

C. eugenioides와 C. canephora에 가장 밀접하게 관련된

두 종 간의 이종교배 (hybridization)로 인해 생성된

allopolyploid species (이질배수체 종) (2n = 4x = 44)이다. [1]

 

C. arabica의 이질배수체 종분화 (allopolyploid speciation)는 

지금으로부터 10,000년 또는 665,000년에 달하는 것으로 추정되는 넓은 시간 간격을 가지고 있다 [2,3].


많은 열대 나무 작물들과 달리, 아라비카 커피는 클론으로 번식하지 않는다.
재배품종들과 재래 원시품종들 (landraces)이 일반적으로 종자로 번식된다.
교배 시스템은 주로 자가수정 (self-fertilization)을 기반으로 하지만, 

수분 매개자를 통한 타가수정 (pollinator-mediated outcrossing)이 때때로 발생할 수도 있다.
우세한 자가수정(autogamy)은 높은 수준의 근친교배(inbreeding)로 이어진다.

C. arabica는 다양성의 주요 중심지인 에티오피아와 남수단이 기원지이다 [4] (FAO-1964, ORSTOM-1966).
예멘은 2차 분산 중심지(dispersal center)이다 [5].


C. arabica 생식질의 사용 및 이동에 대한 초기 역사에 대한 여러 설명이 문헌에서 이용 가능하지만, 

가장 완전하고 잘 문서화된 출판물은 Haarer (1958)의 저서이다.

 

14세기 중에, 커피 종자들이 에티오피아 남서부의 숲에서 예멘으로 옮겨졌고, 

15세기 말 모카와 카이로에 늘어나는 커피 하우스의 수요를 충족시키기 위해 커피 재배가 확대되었다. 
에티오피아 남서부의 다양성 중심지는 수세기 동안 카파 왕국(Kingdom of Kafa)의 지배를 받아온 지역에 해당한다.

이 지역은 1897년 메넬리크 2세 (Menelik II)가 그 왕국을 정복할 때까지 뚫을 수 없는 “성채(citadelle)”로 묘사되었다. 

따라서 에티오피아 남서부로부터 커피 종자가 초기에 유출되는 경우는 드물었고

예멘의 커피 재배는 좁은 유전적 기반에서 시작되었다
C. arabica는 그 후 에티오피아의 주요 기원지로부터가 아니라, 예멘으로부터 전 세계로 퍼졌다.

 

예멘 바깥으로의 중요한 이동은 다음과 같이 기록되었다.

 (i) 1670년바바 부단(Baba Budan)이 예멘에서 인도로 약간의 씨앗들을 밀반출하였고,

(ii) 1715년에 예멘에서 부르봉 섬(버번 섬, 오늘날의 레위니옹 섬)까지 매우 적은 씨앗들이 이동했다.

전자는 

1696년과 1699년에 네덜란드인들이 인도로부터 오늘날의 인도네시아로 약간의 씨앗들을 가져온 후 

Typica 품종을 탄생시켰다.

Typica는 인도네시아로부터 유럽을 거쳐 1723년에 아메리카 대륙에 도달했다.

 

후자는

19세기 중반에 아메리카 대륙과 동아프리카에 도달한 Bourbon 품종을 탄생시켰다.
인도에서는 1670년에 도입된 초기의 씨앗들이 수세기 동안 현지에서 재배되었다.


20세기 초동아프리카 (현재의 부룬디, 르완다, DR 콩고, 케냐, 탄자니아, 우간다)에서 커피 재배가 시작되었고,

예멘, 부르봉, 티피카 및 인도 품종들을 도입했으며,

여행자들의 주머니로 에티오피아로부터 유출된 그리고

아주 적은 수의 에티오피아 랜드레이스들을 도입했다 (예를 들어 Geisha와  Rume Sudan).

따라서, 동아프리카는 예멘의 초기 커피 재배에서 유래한 모든 다양한 품종들의 용광로로 간주될 수 있다. [6]

지리적, 역사적 데이터를 기반으로 한 이 시나리오를 뒷받침하려면 

유전적 다양성에 대한 분자적 분석이 필요하다는 것은 분명하다.

 

과거에는 C. arabica의 유전적 다양성을 연구하기 위해,

             미소부수체(microsatellites) 또는 RAPD사용되었다 [7-9].

최근에는 C. arabica 생식질에 대한 분자 연구가 8.5k SNP 배열을 사용하여

             Merot-L'anthoene et al.에 의해 수행된 바 [10],

             이는 이 종의 유전적 다양성에 대한

             최초의 게놈 전체 분석(genome-wide analysis of the genetic diversity)을 나타내지만,

             SNP 발견 패널(discovery panel)에 포함된 제한된 폭의 변이

             관련된 확정편향(ascertainment bias)의 문제가 있다. 

 

유전적 다양성을 조사하는 不偏的 어푸로치는 
   C. arabica 게놈 서열의 구득가능성에 의존하는 것으로 추정된다.

 

C. arabica의 조상 중 하나인 C. canephora의 현대 액세션의 게놈이 서열 분석되었지만 [11], 

2배체 게놈의 조립 (assembly of a diploid genome)은 

4배체 (tetraploid) 커피 생식질의 시퀀싱 데이터를 분석하는 데 제한적인 지원을 제공한다.
4배체 액세션들의 게놈 시퀀싱 이니셔티브는 

여러 연구 그룹(https://coffeegenome.ucdavis.edu/ [12] 등)에 의해 시작되었지만

신뢰할 수 있는 同祖 서열 소팅 (reliable sorting of homoeologous  sequences) 기능을 갖춘

개방형 게놈 어셈블리 (open-access genome assembly)는 아직 구득가능한 것이 없다


따라서 C. arabica의 이질사배체(allotetraploid) 게놈을 해독하는 것은 

이 종에 대한 정확한 GBS (Genotyping-by-Sequencing) 연구를 수행하는 데 필수적이다.

 

배수체 게놈 (polyploid genomes)의 short read sequencing의 과제 중 하나는

同祖 구성요소들 (homoeologous components)을 풀어서

그 반수체 보체 (haploid complement)에 대한 레퍼런스 시퀀스를 조립하는 것이 어렵다는 것이다.


여기서 우리는 풀링된 BAC 클론(pooled BAC clones)에 대한 short read sequencing을 사용했다.
각 DNA pool은 ~3%의 반수체 게놈 (haploid genome)을 포함했고, 따로따로 서열 분석 및 조립되었다.
이 전략을 통해 C. arabica L.의 첫 번째 공개 게놈 초안이 작성되었으며, 

이를 통해 C. arabica 액세션 및 그것의 부모 종에 대한 다형성 검출을 위한 최초의 GBS 어푸로치를 수행할 수 있었다.

 

이를 통해 우리는 (⇒ 연구목적)

  (i) C. arabica유전적 다양성의 지리적 구조를 확인한다.

      이는 종을 발생시킨 다배체화 단일 사건(single event of polyplodization) 이후에 발생했으며,

      부분적으로는 식재 매터리얼의 초기 이동에 의해 형성되었다.

 (ii) 커피 육종을 위한 다양성 원천을 탐지하고

(iii) C. arabicacanephora 서브게놈과 그리고

      일부는 로부스타 커피 원두 생산에 사용되는

      현대의 이배체(diploid) C. canephora 사이의 관계성을 이해한다. 

이 분석을 위해 우리는 

코스타리카의 CATIE International Coffee Collection에 보존된
    C. arabica 품종들을 선택했다.
    
이 컬렉션에는 엘리트 재배품종들 뿐만 아니라
    에티오피아 외부에서 구득가능한 C. arabica 유전적 다양성의 가장 광범위한 샘플링도 포함되어 있다.

우리는 또한 예멘의 농민 밭들에서 수집한 
     93개의 예멘 유전형(Yemeni genotypes)도 연구했다.


736개 아라비카 종에 대한 GBS 분석을 바탕으로, 우리는 

지리적 분포와 역사적 기록의 맥락에서 종의 유전적 다양성에 대한 설명을 개발했다.

 

  • BAC 라이브러리는 'Bourbon Vermelho' 품종의 C. arabica 나무로 구성되었다.
  •  ~2.8X 게놈 커버리지에 해당하는 BAC 클론은 384개 클론들의 96개  pools로 배열되었다 (Table S1).
  • DNA pools는 독립적으로 서열 분석되어, ABySS v1.3.713을 사용하여 조립된 488 Gbp를 생성했다.
  • 우리는 또한 2kbp DNA fragments에 걸쳐 있는 게놈 전체 짝 쌍(genome-wide mate pairs)으로부터 
    동일한 개별 42.7Gbp를 생성했다 (Table S1).
  • 이러한 메이트 쌍(mate pairs)은 BAC contigs를 스캐폴딩(scaffolding)하는 데 사용되어,
    164,254개의 scaffolds가 생성되었으며,
    이들은 N50은 19,010kbp이고 L50은 22.3kbp로 총 길이는 1.536Gbp에 달했다.
  • 우리는 paired-end whole genome shotgun (WGS) 시퀀스들에 대한 k-mer  analysis를 기반으로,
    ~1.3Gbp genome size를 추정했다.
  • k 값이 낮은 경우, 예: k = 16인 경우,
    C. arabica에서 이봉 분포(bimodal distribution)의 적용 범위(coverage)를 관찰했다 (Fig. S1).
  • 1개의 피크가 리드 트리밍 및 필터링(read trimming and filtering) 후
    예상되는 평균 게놈 범위에 해당하는 ~54X 값을 나타냈다.
  • 다른 피크는 서브게놈들 간에 시퀀스들이 동일할 때 예상되는 2배 더 높은 적용 범위를 나타냈다.
  • 우리는 C. arabica의 자가수정 특성과 합치될 수 있는(compatible),
    상당한 수준의 이형접합성 (heterozygosity)이 존재할 때 예상되는
    이배체 게놈 범위 (diploid genome coverage)의 절반에 해당하는 피크를 관찰하지 못했다.
  • 반대로, 더 높은 k 값의 경우, 예를 들어 k = 51인 경우, 
    k-mer 분석은 예상된 게놈 범위에서 정확하게 단일 피크를 생성했는데,
    이는 두 서브게놈 사이의 다양성이 상대적으로 높다는 것을 나타낸다.
  • 그런 다음
    C. eugenioides 액세션들에서 38Gbp의 short reads를 생성했는데,
    이는 대략 54X의 범위에 해당하며 (Table S1),
    66X 커버리지에 해당하는
    C. canephora doubled-haploid accession (이중 반수체 액세션) DH200-9411의 raw reads는
    NCBI Sequence Read Archive (SRA)로부터 다운로드되었다.

  • C. arabica scaffolds의 반복 시퀀스를 마스킹(masking)한 후, 각 스캐폴드에서 생성된 51-mer를
  • C. eugenioidesC. canephora WGS reads에서 얻은 51-mer와 비교했다.
  • 총 길이 444Mbp에 달하는 총 25,315개의 scaffolds는 
    C. eugenioides 보다 C. canephora와 더 많은 51-mer를 공유하므로, canephora 서브게놈에 할당되었다.
  • 총 길이 527Mbp에 달하는 총 26,627개의 scaffolds는 
    C. canephora 보다 C. eugenioides와 더 많은 51-mer를 공유하므로, eugenioides 서브게놈에 할당되었다.
  • 총 길이가 565Mbp에 달하는 나머지 112,312개 scaffolds는
    그들의 짧은 사이즈(short size) 또는 반복 서열의 존재 또는 同祖 서열(homoeologous sequences) 간의 높은 유사성으로 인해 서브게놈에 높은 신뢰도를 부여할 수 없었다.

  • 우리는 C. arabica, 'Bourbon Vermelho' 품종의 8개 다른 조직들로부터
    70Gb의 RNA-seq에 해당하는 5억 6천만 개의 리드를 시퀀싱했다 (Table S1 및 methods 섹션).
  • 우리는 이러한 서열을 사용하여
    BUSCO14의 식물 오솔로그 세트(plant orthologs set)의 92.4%를 포함하는
    C. arabica 게놈의 46,562개의 중복되지 않는 유전자 모델들(non-redundant gene models)을 예측했다.
    자세한 내용은 Supplementary Material for details를 참조.
  • 이들 중 21,254개와 22,888개의 유전자들은
    각각 canephora 및 eugenioides 서브게놈에 할당된 scaffolds에 위치했고,
    2,420개의 유전자들은 할당되지 않은 scaffolds에 위치했다. 
  • 유전자 예측
    https://worldcoffeeresearch.org/work/coffea-arabica-genome/ 웹사이트에서 다운로드할 수 있다.

 

  • 서열화된 'Bourbon’ 액세션들에서의 4배체 게놈(tetraploid genome)은 
    조상 종 중 하나(C. canephora)의 레퍼런스 이배체 게놈(diploid genome)과 비교하여
    주요 염색체 결실(major chromosomal deletions)을 나타내지 않았다.
  • 우리는 말단 1.2-Mbp의 염색체 7 (terminal 1.2-Mbp of chromosome 7)에서
    canephora DNA를 eugenoides DNA로 상동 대체(homoeologous replacement)하는 사건에 해당하는
    단일의 큰 염색체 재배열(single large chromosomal rearrangement)을 발견했으며,
    이는 179개의 예측 유전자들 (Fig. 1)를 포함하며,
    이는 그 영역에서의 상동체간 다형성(inter-homeologue polymorphisms) (hemi-SNP)의 결핍에 기초한
    선행 연구 발견들과 일치한다 [15].
  • 따라서 ‘Bourbon’은 유전자가 풍부한 이 영역에 걸친 동질배수체(autopolyploid)이며,
    카네포라 염색체의 이중 나선 절단(double-strand break)에 대한
    상동성-지향 복구(homology-directed repair)를 통해 유래했을 가능성이 있는
    유게니오이드 DNA의 4개 사본을 보유하고 있다.
  • 이 사건은, 우리가 본 연구에서 분석된
    C. arabica의 어떤 액세션에서도 해당 영역 전체에 걸쳐 hemi-SNP를 검출하지 못했기 때문에,
    이종교배(hybridization) 직후에 발생한 것 같다.

  • 우리는 single-copy genes (BUSCO)를 포함하는 가장 큰 스캐폴드를 사용하여,
    'Bourbon Vermelho'에서 canephora와 eugenioides 서브게놈들 사이의
    공유 뉴클레오티드 서열(shared nucleotide sequence)의 대략 1Mbp를 선택했다.
  • 각 스캐폴드 내의 공유 영역들은 (B)LastZ를 사용하여 식별되고 MUSCLE을 사용하여 재정렬되었다.
  • Hemi-SNP를 기반으로 한
    C. arabica 서브게놈들 간의 Nucleotide diversity (π)은 3.1 x 10-2에 달했다.

 

 

  • 우리는 GBS 데이터를 사용하여 C. arabica의 736개 표본(Dataset S2)에서 유전적 다양성을 추정했는데,
    이는 아마도 종에서 이용가능한 다양성의 큰 부분을 나타내는 것으로 생각된다.
  • 얻은 뉴클레오티드 다양성 추정치는 낮다
    (π = 2.3 × 10-4, 193,873개의 정보 뉴클레오티드에 걸쳐 652개의 SNPs를 기반으로 함).
  • 이는 두 조상 이배체 종의 현재 생식질에서 추정된 값보다 한 자릿수 낮은 값이다.
    (C. canephora π = 2.6 × 10−3, C. eugenioides  π = 1.1 × 10−3).

  • 우리는 변이 사이트 (the variant sites)의 74.4%에 해당하는 돌연변이들과 더불어,
    개별 돌연변이(private mutations) (즉, 단일 개체에서만 발견되는 변이 사이트)의 매우 독특한 분포를 관찰했다.
  • 우리의 read mapping 절차에서
    레퍼런스 게놈으로 사용된 기본 하위 게놈과 파생 하위 게놈(native and derived subgenomes) 사이의
    정렬 편향(alignment bias)으로 인해(자세한 내용은 Materials and Methods 참조) 또는 
    우리의 레퍼런스의 조각화(fragmentation)로 인해
    π의 과소평가를 배제하기 위해 우리는,
    최근에 이용 가능해진 C. arabica 'Caturra Vermelho'의 chromosome-scale assembly에 대해
    dRAD reads를 정렬하여
    이 분석을 반복했다 (GenBank assembly accession: GCA_003713225.1).
  • 우리는 339,526개의 뉴클레오티드로 이루어진 더 큰 샘플에 걸쳐, 
    두 가지 조상 이배체 종 (C. canephora π = 2.3 × 10−3, C. eugenioides π = 1.1 × 10−3)과
    C. arabica (π = 2.0 × 10−4) 모두에서 π의 수준을 확인했다.

  • 최근의 심각한 병목 후 확장을 겪은 개체군의 경우에 기대되는 바와 같이, 
    C. arabicaTaijma’s D 값은 매우 높은 음수(−2.51)였다

  • C. arabica의 변이 부위 중 큰 부분(87.6%)은
    0.05보다 낮은 마이너한 대립유전자 빈도(minor allele frequency)를 나타냈다. 
  • C. arabica의 한 개 이상의 개체에 존재하는 변이 부위 중 
    28.7%는 Hardy-Weinberg equilibrium을 훼손(violate)하지 않았으며,
    6%는 이형접합체 과잉(excess of heterozygotes)를 나타냈고,
    자가수정 종들의 경우에 기대되는 바와 같이,
    대다수(65.3%)는 예상대로 이형접합체의 결핍 (deficiency of heterozygotes)을 나타냈다.

  • 병목 효과(the bottleneck effect)의 심각성
    본 연구에서 가장 가능성이 높은 부모 종으로 대표되는 Coffea 속에서의 조상 다양성 (ancestral diversity)이
    C. arabica 개체군으로 실질적이지 않게 이월된 점 (unsubstantial carry-over)
    이 4배체 종이 단일의 교잡화 사건(single event of hybridization)에서 유래했음을 시사한다.
  • 이 결론은 
    이는 C. arabica에서 확인된 SNP의 대부분이 (Fig. 2A)
    그 부모 종들의 어느 것과도 공유되지 않음을 보여주는
    3종(C. arabica, C. canephora, C. eugenioides) 사이의 개별 대립유전자(private alleles) 분포에
    의해서도 뒷받침되는데,
    이는 오늘날 C. arabica에 존재하는 대부분의 변이(variation)가
    배수체화 사건(polyploidization event) 이후에 발생했으며,
    두 부모 종들로부터 C. arabica로의 주요 유전자 이입 사건(major introgression events)이 없었음을 확인해준다.

  • 우리는 msprime을 사용하는 in silico 시뮬레이션 [16]을 수행하여 
    다양성 수준 및 분포(diversity levels and distribution)가
    단일 배수체 개체 (single polyploid individual)의 모든 현재 C. arabica 액세션들의 최근 기원과
    맞는지 여부를 평가했다.

  • 우리는 
    세대당 염기당 6.5 × 10-10 ~ 3.25 × 10-8 범위의 돌연변이율(mutation rates)과,
    10,000년 또는 20,000년 전의 싱글 잡종 개체(single hybrid individual)로 시작하여,
    200 세대들 동안의 기하급수적 성장과,
    그 다음에 일정한 사이즈 또는 1,000년 전에 발생했던 병목으로부터 최종 사이즈로 회복하여,  
    현재 개체군의 유효 사이즈 Ne = 10,000 또는 50,000이 달성되는
    4가지의 서로 다른 가설적 데모그래픽 모델들을 시뮬레이션했다. 
  • 모델의 다른 매개변수들은 일정하게 유지되었다
    (재조합 속도 1 x 10-8, 연간 세대수 = 0.2, 샘플링 사이즈 = 700개 개체).
  • 이 모델은 
    가장 높은 돌연변이율의 경우 1.2 × 10-4 ~ 2.5 × 10-4 사이,
    가장 낮은 돌연변이율의 경우 2.4 × 10-6 ~ 5 × 10-6 범위의 뉴클레오티드 다양성 π와,
    23% (다배체화 10,000년 전, Ne =10,000)에서
    35%(다배체화 이벤트 10,000년 전, Ne =50,000, 데이터 세트 S1)에 이르는 범위의
    private SNPs 비율을 예측했다.

  • 세대 시간을 5년이라고 생각할 때,
    관찰된 것과 매우 유사한 다양성 추정치를 제공하는
    3.25×10-8의 새대당 가장 높은 돌연변이율은
    연간 기준으로 Arabidopsis (애기장대)에서 추정된 것에 해당한다 [17]. 
  • 커피 품종들과 랜드레이스들은 새로운 플랜테이션들을 설립하기 위해 종자로 전파되기 때문에, 
    우리는 또한 대규모 커피 재배 (약 0.4kya)가 시작된 이후
    현재 사이즈(current size) Ne = 500,000로 
    최근 확장되는 것을 시뮬레이션했다.
  • 이 모델은 π의 기대값들의 상당한 변화들을 예측하지는 않았지만, 
    관찰된 값들에 더 가까운 private SNPs의 더 높은 기대값들(42%)을 생성했다.

  • 다배체화를 겪은 단일 개체로부터의 모든 C. arabica 액세션들의 최근 기원에 대한 가정 하에서, 
    이는 이용 가능한 데이터와 in silico simulations 모두에 의해 완전히 뒷받침되는 것으로 보이며,
    C. arabica 개체군 자체 내 유전적 다양성의 패턴 및 분포에 대해 그리고
    조상 종들 내에서의 다양성과 비교하여 기대가 도출될 수 있다.

  • 우리는 카네포라 서브게놈에서 확인된 변이체(variants)만을 사용하여,
    35개 C. canephora 액세션들의 다양성과 관련하여 C. arabica 내 다양성을 분석하기 위해
    Principal Component Analysis (PCA)을 수행했으며,
    그 결과 처음 두 PC가 16.9%와 8.2%의 분산(variance)을 설명했다 (Fig. 3).

  • C. canephora 액세션들은 
    상업적으로 "Conilon"으로 식별되는 것, 예를 들어, 브라질에서 커피 생산에 사용되는 C. canephora 액세션들과,
    그리고 
    세계 다른 곳에서 재배되는 C. canephora 액세션들인 “Robusta”로 식별되는
    종 내에서의 다양성을 대표한다 [18]. 
  • 현대 C. canephora의 유전적 다양성은 
    단일 배수성 사건 시나리오 하에서 예상되는 바와 같이,
    C. arabica의 canephora 서브게놈의 다양성 보다 훨씬 넓다
  • 콩고-중앙아프리카 및 콩고-우간다로부터 온  현대 C. canephora의 Robusta 그룹들
    C. arabica에게 카네포라 서브게놈을 공여한 계통에 가장 가까운 것으로 보이며,
    이는 SNP chip array analysis에 기반한 관찰들을 확인해준다 [10].
  • 흥미롭게도 이 PCA에서, “Conilon” 그룹은
    연속체(continuum)를 형성하는 대신 다른 C. canephora 그룹으로부터 명확하게 분리된다. 

  • 그런 다음 C. arabica 개체들에서만 principal component analysis이 수행되었는데,
    두 서브게놈들에 대한 129,638개의 정보 위치에서 식별된 698개 변이 사이트를 사용하거나 (Fig. 2B),
    두 서브게놈들의 어느 한 서브게놈에서의 변이 사이트들을 별도로 사용하여 (Fig. 2C, 2D) 분석이 수행되었다. 
  • 관찰된 구조는, 서브게놈-특이적 SNPs가 병합되었는지 여부에 관계없이 매우 유사했다;
  • 그럼에도 불구하고 항상 매우 낮은 첫 두 components에 의해 설명되는 퍼센트는 eugenioides 서브게놈을 사용할 때 약간 더 높았으며,
  • 이는 이 서브게놈 전체에 걸쳐 유전적 변이(genetic variation)를 사용하면 개체군의 구조를 더 잘 설명할 수 있음을 의미한다.

 

 

 

  • 다형성이 매우 최근이고 대부분 private한 시나리오 하에서 예상한 대로,
    개체군의 하위 구조화(sub-structuring)가 비록 여전히 검출 가능하지만 매우 약하게 나타난다. 
  • 첫 번째 축(PC1)
    대다수의 에티오피아 개체군 (Landrace cultivated, Survey Ethiopia)를
    예멘 개체군(다른 지리적 클래스들, Dataset S2)와 분리하지만,
    일부 에티오피아 유전자형들은 예멘 카테고리에 가까이 위치했고
    그 반대도 마찬가지였으며 (Fig. 2),
    이는 에티오피아 액세션들로부터의 예멘 개체군의 최근 기원(14세기로 거슬러 올라감)을 기반으로
    예상한 대로이다 (Chevalier 1929).
  • 인도의 오래된 품종들과 동아프리카의 오래된 품종들, 뿐만 아니라 Bourbon/Typica 품종들은, 
    Yemeni germplasm이 차지하는(populated) PCA 평면의 영역과 겹쳤다 (Fig. 2). 
  • ‘Landrace generated’ 그룹은
    예멘 생식질이 차지하는(populated) PCA 평면의 영역을 전체적으로 커버했고,
    에티오피아 생식질이 차지하는  PCA 평면의 영역을 부분적으로만 커버했는데, 
    이는 에티오피아에 존재하는 유전적 다양성의 일부가
    현재 국지적으로만 재배에 사용되며, 다른 부분은 아직 활용되지 않았음을 제시한다. 

  • 널리 재배되는 품종들과 에티오피아 야생 생식질의 부분 ​​사이의 분리는 
    STRUCTURE 소프트웨어를 사용하여 수행된 조상 할당(ancestry assignment)을 통해 확증되었다.
  • K = 2인 경우에,
    한 조상 그룹(G1)에는
    에티오피아에서 조사되었거나
    최근 에티오피아에서 가져온 C. arabica 액세션들의 대다수가
    포함되었고 (Fig. 2E, 2F, Table S2; Fig. S2), 그리고
    다른 조상 그룹 (G2)에는
    모든 예멘 품종들, 그 후손들, 그리고
    국가의 가장 동쪽 지역에서 자라는 소수의 에티오피아 액세션들이 포함되었다. 
  • STRUCTURE를 실행하니, G1에서만 에티오피아 생식질의 명확한 구조가 밝혀졌다 (Additional text).

 

 

  • 전체 게놈 시퀀싱(Whole genome sequencing)은 
    생물학에 대한 이해에 혁명을 일으키고 있으며, 
    DNA 시퀀싱 기술의 발전으로 인해 해당 분야가 빠르게 발전하고 있다.
  • 복잡한 게놈들의
    게놈 서열 분석 및 조립(genome sequencing and assembly)의 정확성(accuracy)
    ⊙ 식물 재료 가용성부터
    게놈 사이즈,
    GC 함량,
    반복 함량 (repeat content),
    배수성 수준 (ploidy level),
    시퀀싱 기술 및
    생물정보학 소프트웨어에 이르는 다양한 요인의 영향을 받는다.

  • Pacific Biosciences 또는 Oxford Nanopore Technologies와 같은
    Long-read 시퀀싱 기술
    현재
    Mb 길이의 염색체 서열 또는
    고도로 이형접합성인 게놈들의 일배체형(반수체형, haplotypes)을
    재구성하는 데 사용된다 [23-27].


  • Short-read 시퀀싱
    비용이 덜 들고 동일한 투자로 더 많은 적용 범위를 제공하므로
    더 높은 시퀀스 정확도를 제공하지만
    어셈블리가 더 조각화된다 (more fragmented assemblies).

  • 유전자 함량 분석 (analysis of gene content), 
    유전자 마커의 발견 및 적용 (discovery and application of genetic markers), 
    유전적 다양성 연구 (studies of genetic diversity)와 같은 여러 응용 분야는 
    상대적으로 생산 속도가 빠른
    전체 게놈 샷건 어셈블리 초안(draft whole genome shotgun assemblies)을 사용하여 수행할 수 있다.

    이를 통해 게놈의 비반복적 부분(non-repetitive fraction)을 효율적으로 재구성할 수 있으며, 
    이는 해당 응용 분야에 가장 유익하다.

  • 우리 연구에서 우리는
    별도로 同祖 서열(homoeologous sequences)을 재구성하고,
    C. arabica의 대립 유전자 변이(allelic variation)를 연구하기 위한 레퍼런스를 제공할 목적으로
    서열 조립의 정확성(accuracy of sequence assembly)을 최대화하는 전략을 채택했다.
  • 우리의 게놈 어셈블리는
    22.3kbp의 L50으로 비교적 단편화되어 있지만
    보존된 식물 단일 복사본 오르소로그(plant single-copy  orthologs)(BUSCO) 세트의 92.4%를 포함하고 있으며,
    예상 유전자들의 94.8%를 부모 게놈에 할당할 수 있었다.
  • 우리는 C. arabica에서 46,562개의 단백질 코딩 유전자(protein-coding genes)를 예측했는데, 
    이는 조상 C. canephora 경우의 유전자수(25,574개)의 거의 두 배이다 [11]. 
    이 높은 숫자는 배수체화 사건 이후 현재까지,
    최근 게놈 배가(a recent  genome doubling)
    제한적 유전자 손실(limited gene loss) 또는
    僞유전자화 가설완전히 합치된다(compatible with).

  • C. arabica의 이형접합성 (heterozygosity) 수준이 매우 낮다는 점을 감안할 때, 
    우리가 직면해야 했던 주요 문제는 배수성 수준 (the ploidy level)이었다 [28].
  • 이 문제를 해결하기 위해 우리는
    유세포 분석 (flow cytometry)을 통해 염색체를 분리하기로 선택할 수 있었지만 [29], 
    쉬운 염색체 분리를 허용하는 적절한 유전적 자원이 부족하기 때문에 이 기술을 고려할 수 없었다.
  • 따라서 우리는
    동일한 풀에서 두 개의 同祖 단편(two homoeologous fragments)이 발생할 가능성이 매우 낮은
    BAC pooling의 계층적 시퀀싱 접근 방식 (a hierarchical sequencing approach)을 선택하여 [30,31],
    각 풀의 어셈블리들에서의 게놈 복잡성 (genome complexity)을 극적으로 감소시켰다.
  • 본고에서는, 아라비카 다양성을 연구하기 위해,
    이 게놈 어셈블리(genome assembly)를 성공적으로 적용한 사례를 보여준다.


  • 커피는 인류의 시간 규모에 비해 최근에 등장한 음료이다. 
    에티오피아 유목 산악인들은 아마도 커피의 자극 효과를 처음으로 알아차린 사람들이었을 것이다.
    그러나 오늘날 우리가 알고 있는 커피 추출의 사용은 예멘의 중세 시대에 시작되었을 것으로 추정된다.
  • 음료 커피 소비에 대한 최초의 고고학적 증거
    아라비아 반도 남쪽 끝에 있는 도시 Zabid (Yemen)에서 발견되었다 [32].
  • 예멘은 최초의 커피 시장이 되었을 것이다.
  • 에티오피아에서는 20세기 초까지 기독교인에게 커피를 마시는 것이 공식적으로 금지되었으며,
    에티오피아 커피 의식은 최근 발명된 것으로 생각된다 [33].
  • 일반적인 가정은 커피 종자가 에티오피아로부터 예멘으로 도입되었다는 것이다.
  • 에티오피아 남서부의 야생 커피 유전자형은 灣 반대편에 적응했어야 했다.
  • 그러나 오랜 기간(17세기 말)에 걸쳐 C. arabica 재배화 (domestication)가
    에티오피아의 Harar 지역, Zeghie 반도, Sidamo 및 Welega 지방에서
    과학 관찰자 또는 여행자에 의해 보고되기도 했다 [34].

  • 15세기와 16세기에 예멘에서는 현지 수요를 충족시키기 위해 커피 재배가 발전했다.
    예멘에서는 사람들이 산허리를 계단식 언덕(terraced hillsides)으로 바꾸고, 관개망을 건설했으며, 그늘 없이 커피를 재배하는 등 농업기술을 발명했다.
  • 우리의 연구에서 우리는
    일부 Typica’ 및 ‘Bourbon’-유래 재배품종들예멘 및 에티오피아 액세션들비교했다.
  • 라틴 아메리카에서는, 육종가들이 이 두 개의 좁은 유전적 기반을 활용하여 ‘Typica’ 및 ‘Bourbon’-유래 재배품종들을 탄생시켰으며, 
    모두 유사한 농업적 특성과 주요 커피 질병 및 해충에 대한 높은 민감성을 나타냈다 [35].
  • 오늘날 아라비카 커피의 80% 이상이 라틴 아메리카에서 생산되며, 
    아라비카 커피 생산은 여전히 ​​오래 전에 ‘Typica’ 및 ‘Bourbon’ 품종들 내에서의 계통 선택(line selection)을 통해
    개발된 재배 품종들이나 이들 품종 간의 교배(crosses)에서 유래한 묘목들을 기반으로 한다.

  • 우리는 최근 커피용으로 개발된 것과 같은 SNP chip을 사용하는 대신 
    GBS와 같은 비편향적 재배열 기반 방법 (unbiased resequencing-based method)을 사용하여
    C. arabica 종 내에서 유전적 다양성과 개체군 분기(population  divergence)를 분석하고
    조상 공여자 종과 비교하기로 결정했다 [10].
  • 위에서 언급한 chip에 존재하는 것보다 더 낮은 SNP의 총 수를 분석했지만,
    GBS 어푸로치가 제공하는 서열 다양성(sequence diversity)에 대한 비편향적 관점(unbiased view)을 통해
    뉴클레오티드 다양성 (nucleotide diversity),
    대립유전자 빈도 스펙트라(allele  frequency spectra), 그리고
    여타 개체군 매개변수들에 대한 확실한 추정치를 얻을 수 있었고,
    한편으로, 초기 SNP 발견 패널(discovery panels)에 존재하는
    특정 개체군으로부터 제한된 수의 개체들에 의해 유발되는 SNP 칩-기반 어푸로치들에 내재된
    개체군 분기(population divergence)를 추정하는데 있어서
    확인 편향(ascertainment bias)을 방지하는 데 사용할 수 있었다 [37,38].

  • 우리는 C. arabica에서
    지금까지 작물 종들에서 보고된 가장 낮은 수준의 유전적 다양성을 발견했다 (Table S4). 

    이는 또 다른 최근의 이질배수체 종(recent allopolyploid species)인 빵 밀 (bread wheat)의 경우에 관찰된 수준과 비교할 정도이며, 개별 액세션들 뿐만 아니라 조상 종들에 비해 그 종들에 대해서도, 개별 대립유전자들(private alleles)의 극도로 많은 부분이 비교할 정도이다. 

  • 돌연변이 축적 (mutation accumulation)에 대한
    전향적 컴퓨터 시뮬레이션(forward computer simulations)을 포함하여 수집된 모든 증거는,
    매우 최근의 진화 시기에 발생한
    단일 배수체화 사건(a single polyploidization event)으로부터의 C. arabica의 기원합치한다
  • 이는 이질배수체 진화(allopolyploid evolution)에 대한 가장 간단한 모델이며 (Doyle and Egan 2010),
    그 새로운 종에서 관찰되는 모든 변이는 그 배수체화 사건(the polyploidization event) 이후에 발생한 새로운 돌연변이로 인한 것이라고 예측한다.

 

  • 배수체 형성(polyploid formation) 후 초기 단계에서,
    일부 종들에서는 유전자 손실(gene loss) 및/또는 동조성 재조합(homeologous recombination)을 초래하는
    게놈 충격 (genomic shock)’이 발생하는 것이 관찰되었다 [39].
  • C. arabica에서는,
    염색체 7번 끝(tip)에서 한 차례(single instance)의 동조성 대체(homeologous replacement)가 관찰되었고,
    따라서 배수체화(polyploidization) 후에 발생하는
    주요 구조적 재배열(structural rearrangements)의 중요한 기여에 대한 증거는 없다.
      (※ homeologous = Partially homologous, 부분상동적)
  • 단일 이질배수체(single allopolyploid)로부터 나온 모든 액세션들의 
    매우 최근 기원 가설(the hypothesized very recent origin)과,
    그에 따른 조사된 모든 다형성(polymorphisms)의 매우 최근 기원(very recent origin)의 가설에도 불구하고,
    우리의 결과는
    그 종 분포의 남서쪽 끝 범위의 열대우림 지역에 여전히 존재하는 에티오피아 액세션들과, 그리고
    Bourbon/Typica 계통에 속할 뿐만 아니라
    East Africa와 India에서 나온, 모든 월드와이드 재배 품종들과 유전적으로 유사한,
    동부 에티오피아와 예멘에서 집중 재배(intensive plantation)에 사용되는 생식질 간의
    유전적 분화 (genetic differentiation)를 밝혀냈다.
  • 이러한 결과는
    Bourbon/Typica 계통을 통해 예멘에서 C. arabica가 전 세계적으로 확산되었다는 역사적 정보일치하며,
    매우 제한적이지만, C. arabica 재배 품종들의 개량을 위한 새로운 유전적 변이의 저장소를 나타낼 수 있는
    야생 에티오피아 생식질의 존재를 지적한다
    (에티오피아 개체군 내 변이 패턴에 대한 더 자세한 분석은 보충 자료를 참조). 

  • Lashermes et al. (1996)의 연구 [40]에서, 저자들은
    RAPD 마커를 사용하여 20개 액세션들의 유전자형을 분석하고(genotype),
    cultivated coffee 또는 야생 에티오피아 액세션들로 구성된 두 그룹을 관찰했다.
  • 119개의 액세션들과 16개의 마커를 사용한 유사한 연구에서도 유사한 결과가 나타났다 [7].
  • 마지막으로,
    73개의 액세션들과 15개의 SSR 마커를 기반으로 한 Silvestrini et al. (2008)의 연구에서는,
    두 그룹, 즉 예멘으로부터의 the cultivated group과 에티오피아 액세션들을 대표하는 두 번째 그룹만 발견했다 [41].
  • 유전적 다양성(Genetic diversity)은 
    작물의 유전적 개량의 기초이며, 전략적인 경제 및 문화 정체성 문제가 되었다.
  • 에티오피아의 C. arabica 생식질 보존 문제는
    Labouisse et al. (2008)에 의해 리뷰되었으며 [42],
    지역적 인구 과잉이 에티오피아 남서부 山地林 地帶 (montane forest)의 생물다양성 파괴를 가속화하는 주요 원인인 것으로 보인다 [43].

  • 분자 수준에서 커피의 유전적 다양성에 관한 지식은
    ex situ 컬렉션들에서의 효과적인 전략적 보존과
    in situ 개체군 보호 뿐만 아니라,
    이러한 자원을 현재와 미래의 육종 요구사항을 모두 충족하기 위해 사용하는 데 필수적이다.

  • CATIE의 방대한 생식질 컬렉션은 쉽게 접근할 수 있지만 작물 개선을 위한 사용은 여전히 ​​매우 제한적이다.
    본 연구에 사용된 분자 마커는 종의 유전적 다양성의 구조를 명확히 하는 데 도움이 되었다.
  • 에티오피아 산림 지역에서 수집된 야생 생식질은
    육종 프로그램을 위한 새로운 다양성의 귀중한 원천으로 이미 간주된다.
    예를 들어, 야생 에티오피아 조상과 아메리카 품종(즉, 예멘 인구의 후손) 사이의 통제된 교배는 고소출의 F1 하이브리드를 생산했으며 [44],
    이는 표적 선택(targeted selection)을 통해 더욱 차별화되고 최적화될 수 있는 잡종강세 그룹(heterotic groups)을 제안한다 [45].

    에티오피아 외부의 컬렉션들 내에서 이용 가능한 C. arabica의 유전적 다양성은 
    현재 전 세계 기후변화 문제에 대처하기 위한 육종 프로그램에 활용되고 있다.
  • 기존 커피 유전자원이 에티오피아에 보존되도록 보장하기 위해서는
    글로벌 커피 유전자원 보존 컨소시엄이 확실히 필요하지만,
    훨씬 더 높은 C. arabica의 현재 조상 개체군의 다양성에 비해
    C. arabica의 유전적 다양성의 낮은 수준이 시사하는 바는,
    Timor 하이브리드의 파생물들에서의 커피 녹병 저항성을 달성하기 위해 활용되는 것과 같은
    이배체 종(diploid species)으로부터
    이질사배체 종(allotetraploid species)으로의 유전자 이입 사건(introgression events)이 [46,47]
    재배 생식질에서의 유전적 다양성을 실질적으로 확대하고,
    커피 재배의 환경적, 경제적, 그리고 사회적 서스테이너빌리티를 향상시키기 위해
    다른 무엇보다 가장 중요하다는 것이다.

 

 

 

본 연구에서 우리는

별도로 同祖 서열(homoeologous sequences)을 재구성하고,

아라비카의 대립유전자 변이(allelic variation)를 연구하기 위한 레퍼런스를 제공할 목적으로,

게놈 복잡성(genome complexity)을 줄이고

결과적으로 4배체 종인 Coffea arabica 서열 조립의

    정확성(accuracy of sequence assembly)을 최대화하기 위해,

계층적 시퀀싱 접근 방식(a hierarchical sequencing approach)을 채택했다.

우리의 게놈 어셈블리(genome assembly)는 

상대적으로 단편화되어(fragmented) 있지만, 

보존된 식물 단일 사본 오솔로그 세트(the conserved set of plant single-copy orthologs)의 대부분을 포함하고 있으며,

예상 유전자들의 대부분을 그들의 부모 게놈(parental genome)에 할당하고,

아라비카 개체군의 역사와 다양성에 대한 심층적이고 비편향적 분석을 수행할 수 있게 해준다.

우리는 C. arabica에서 

매우 낮은 수준의 유전적 다양성(very low level of genetic diversity)

극도로 많은 부분의 개별 대립유전자들(extremely large fraction of private alleles)을 발견했는데,

이는 개별적인 액세션들을 고려할 때 뿐만 아니라,

그 배수체 종을 두 개의 조상 종과 비교할 때에도 마찬가지였다.

수집된 모든 증거는 

매우 최근의 진화 시기에 발생한 

단일 배수체화 사건 (single polyploidization event)으로부터의

        C. arabica의 기원과 맞아떨어지며,

이는 다양한 데모그래픽 시나리오 하에서 in silico forward simulation을 통해서도 입증되었다.

 

우리의 결과는 여전히 

‘야생’ 에티오피아 액세션 그룹(‘wild’ Ethiopian accessions)과,

기타 ‘야생‘ 에티오피아 액세션들을 포함한 또 다른 그룹, 그리고

‘Typica’ and/or ‘Bourbon’ lineages에 속하는 상업용 생식질을 포함하여

연구된 대부분의 cultivated accessions 간의

유전적 차이를 보여준다.

에티오피아 저장고(reservoir)는

C. arabica 재배 품종들의 개량을 위해 활용될 수 있지만,

상업적으로 재배되는 매터리얼들로부터의 제한된 분기(limited divergence)로 인해,

우리는 유명한 Timor 하이브리드의 경우와 같이,

이배체 부모 종으로부터 이질사배체 종으로의 유전자 이입 이벤트를 활용할 것을 제안한다.

Coffea arabica의 매우 최근 기원(extremely recent origin)과 

낮은 유전적 다양성으로 인해, 

식물 육종, 형질 매핑 및 유전자 분리에 전통적으로 사용되는 많은 어푸로치들이 덜 효율적이며,

새로운 대체 어푸로치들의 개발이 반드시 필요하다.

 

  • 게놈 조립을 위한 시퀀싱(Sequencing for genome assembly)
    C. arabica ‘Bourbon Vermelho’ 한 개체를 사용하여 수행되었다. 
  • 묘목들은
    El Salvador의 Ahuachapán이라는 생산 지역으로부터 수입된 체리들로부터
    체세포 클론발생 (somatoclonal embryogenesis)에 의해 얻어졌다. 
    동일한 품종에서 9개의 조직/기관(어린 잎, 잎, 줄기, 뿌리, 적색 핵과, 녹색 핵과, 다중 핵과, 분열조직, 새싹)을
    샘플링했다.
  • 서브게놈 할당을 위한 시퀀싱(Sequencing for subgenome assignment)
    이탈리아 우디네 리비냐노 (Rivignano, Udine)의 일리카페 온실에서 유래된
    C. eugenioides의 액세션을 사용하여 수행되었다. 

  • 175,872개 BAC 클론의 BAC 라이브러리
    Lucigen Corporation에 의해 게놈 DNA로부터 구축되었다.
  • 36,864개의 BACs를 무작위로 선택하여,
    96개의 384-well plates에 접종하고,
    클로람페니콜(chloramphenicol) 항생제가 보충된 2x LB 배지(medium)에서
    37°C에서 22시간 동안 배양했다.
  • 각 플레이트의 384개의 박테리아 배양균을 단일 튜브에 혼합했다. 
  • 각 풀을 박테리아 세포의 알칼리 용해(alkaline lysis)에 적용하고,
    BAC vector를
    Bacteriophage Phi29 중합효소(IllustraTM TempliPhiTM Large Construct V2 kit, Resnova)를 사용하여
    20°C에서 16시간 동안 등온 반응을 통해 시험관 내에서 증폭시켰다.
  • 그런 다음 BAC DNA를 에탄올과 아세트산나트륨 침전으로 정제하고 증류수에 재현탁시켰다.
  • BAC pools은 형광계(fluorometer) (Qubit, Invitrogen)에서 정량화하고,
    1x TBE buffer에서 0.8% agarose gel에서 시각화했다.
  • Illumina 라이브러리는 제조업체의 프로토콜에 따라
    NexteraTM DNA Sample Preparation kit (New England Biolabs)를 사용하여 구축되었다. 
  • 그런 다음 라이브러리들을
    magnetic beans AMPure XP (Agencourt)로 정제하고,
    Caliper GX (Perkin Elmer)에서 정량화한 다음,
    Illumina HiSeq2000 (Illumina)을 사용하여 시퀀싱하여 100-bp paired ends를 생성했다.
  • 12개 pools로부터의 라이브러리들도
    Illumina MiSeq sequencer로 시퀀싱되어 250-bp paired ends을 생성했다.
  • Whole-Genome Shotgun 라이브러리는
    제조업체의 프로토콜에 따라 Illumina TruSeq DNA Sample 준비 키트를 사용하여
    C. arabica의 동일한 개체의 게놈 DNA로부터, 그리고
    C. eugenioides의 한 개 액세션으로부터 구축되었다.
  • C. arabica WGS는
    Illumina HiSeq2000을 사용하여 수행되었으며, 100-bp paired ends를 생성했다. 
  • C. eugenioides WGS는
    Illumina HiSeq2000을 사용하여 수행되었으며, 125-bp paired ends를 생성했다.
  • C. arabica의 동일한 개체에 대해
    겔 전기영동 사이즈 선택 없이, Illumina 프로토콜에 따라
    Mate pair Library v2 Sample Preparation kit를 사용하여
    2-3 kbp mate-pair library가 구축되었다. 
  • 그 라이브러리를
    Bioanalyzer 2100(Agilent)을 사용하여 검증하고,
    Qubit (Invitrogen)을 사용하여 정량화한 다음,
    Illumina HiSeq2000에서 시퀀싱했다.

  • Reads는 디폴트 파라미터들과 minimum read length 50bp를 사용하여
    erne-filter v1.4.348로 품질이 조정되었다.
  • 디폴트 파라미터들을 사용하되 -O 5 -n 2 -m 35로 하여,
    cutadapt [49]로 어댑터들이 제거되었다. 
  • Cloning vector, Escherichia coli (대장균), 그리고 chloroplast reads를 erne-filter v1.4.348로 필터링했다.
  • Mate pairs는 위와 동일한 절차를 사용하여
    다듬고(trimmed) 필터링한 다음,
    Biotine signature의 유무에 따라 내부적으로 개발된 Perl scripts를 사용하여
    실제 mate pairs 또는 paired-ends로 소트되었다.

 

 

  • 각 BAC pool은 디폴트 파라미터들을 사용하되, 
    k = 71, aligner = map, b = 1000000, p = 0.95, s = 500, n = 10으로 하여, 
    ABySS v1.3.713로 독립적으로 조립되었다 (assembled). 
  • WGS mate pairs
    인접한 콘티그(adjacent contigs)를 결합하기 위한 최소 10개의 mate pair links가 있는
    SSPACE v3.0 [50]을 사용하여
    각 BAC pool 내의 콘티그(contigs)를 스캐폴딩(scaffolding)하는 데 사용되었다.
  • Repeat DNARepeatMasker로 다음과 같은 파라미터들로 마스킹했다 :
    -qq -nolow -norna -no_is -gff with repeat library derived from the C. canephora genome [11].
  • k-mer analysis
    -c 3 -s 10 G 그리고 -m 16 or 51의 파라미터들로 Jellyfish [51]를 사용하여 수행되었다.
  • Effective sequencing depth (유효 시퀀싱 깊이)(N)
    modal k-mer frequency (M), read length (L), k-mer length (K)에 기초하고,
    공식 N = M*L/(L-K + 1)에 따라서 k-mer analysis으로 추정되었다 [52];
    게놈 사이즈는 sequencing yield를 N으로 나눈 값에서 도출되었다.
  • C. canephora k-mer 분석의 경우,
    NCBI Sequence Read Archive experiments ERX294808, ERX294809, ERX294819, ERX294831, ERX294847, ERX294857, ERX294862, ERX294873, ERX294881 및 ERX294885로부터 reads를 다운로드했다. 
  • C. eugenioidesC. canephora 51-mers는
    파라미터 -m 51 -c 3 -s 10 G로 해서 Jellyfish [51]를 사용하여 Illumina reads로부터 생성되었다.
  • 스캐폴드(Scaffolds)
    각각 C. canephora와 더 많은 51-mer를 공유하거나 또는
    C. eugenioides와 더 많은 51-mer를 공유하는 경우,
    canephora 또는 eugenioides 서브게놈에 속하는 것으로, 내부적으로 개발된 Perl scripts를 가지고 분류되었다.
  • 1000개 미만의 avaiable 51-mers를 가진 scaffolds,
    즉 매우 짧거나 대부분 반복적인 DNA를 포함하거나 또는
    두 부모 종 모두에 대해 비슷한 수의 공유되는 51-mers를 가진 스캐폴드(차이 < 10%)는
    분류되지 않은 상태로 유지되었다.

 

 

  • RNA 추출은, 
    제조업체의 프로토콜(http://www.sigmaaldrich.com/)에 따라 
    Spectrum Plant Total RNA Kit(SIGMA)를 사용하여 이뤄졌다. 
  • 제조업체의 지침(http://www.illumina.com/)에 따라 
    Illumina mRNA-Seq Sample Prep kit v2.0을 사용하여
    라이브러리 마련을 위한 스타팅 물질로 1.5μg의 우수품질 RNA (R.I.N. > 7)를 사용했다.
  • Poly-A mRNA는 94°C에서 1.5분 동안 단편화되었으며 (fragmented),
    모든 정제 단계 (purification steps)는 1X Agencourt AMPure XP beads를 사용하여 수행되었다.
  • 라이브러리 품질과 수량은 [53]에 자세히 설명된 대로
    Agilent Bioanalyzer 2100 High Sensitivity 그리고 Qubit DNA High Sensitivity (Invitrogen)를 사용하여
    평가되었다.
  • 라이브러리들을 함께 합치고, 그렇게 해서 얻어진 풀을
    Agilent Bioanalyzer 2100에서 체크하여 몰농도(molarity)를 결정했다.
  • Illumina HiSeq2500에서
    (http://www.illumina.com/systems/sequencing-platforms/hiseq-2500.html) 
    페어드 엔드 시퀀싱(Paired-end sequencing)을 수행하여 125개 base reads를 생성했다.
  • Trimmomatic [54]이 
    어댑터 클리핑 (adapter clipping) 및 품질 트리밍 (quality trimming)에 사용되었다.
  • 최소 리드 길이 (minimum read length)는 35bp로 설정되었으며,
    슬라이딩 창 (sliding window) 5 내에서
    최소 품질 점수(minimum quality score)는 20으로 설정되었다.
  • RNA-seq reads는
    hisat2 [55]를 사용하여, 다폴트 파라미터들로,
    maximum intron length를 50kbp로 설정하여, 레퍼런스 게놈에서 정렬되었다.
  • 게놈 유도 전사체 (Genome-guided transcript) 재구성(reconstruction)은
    stringtie를 사용하여 각 RNA-library에 대해 독립적으로 수행되었으며 [56],
    최소 접합 범위 (minimum junction coverage)를 5(option -j)로 설정했다.
  • 그 전사체들(transcripts)은
    발현된 전사체 서열의 접합 정렬 (spliced alignments of expressed transcript sequences)을 활용하여
    유전자 구조를 자동으로 모델링해주는
    진핵생물 게놈 주석 도구(eukaryotic genome annotation tool)인 PASA [57]를 사용하여
    추가로 조립되었다.

 

  • 유전자 예측 (Gene prediction)은 다음과 같은 여러 증거 소스를 통합하는 결과를 가져왔다.
      (i) RNA-seq 데이터;
     (ii) 뉴클레오티드 및 단백질 정렬;
    (iii) 새로운 유전자 훈련 및 예측.
  • ab initio 유전자 예측에는
    Augustus [58,59], Snap [60], Glimmer [61] 및 GeneMark [62]의 5가지 다른 프로그램이 사용되었다.
  • RNA-Seq read alignments에서 파생된 Intron coordinates가 GeneMark에 제공되었다.
  • PASA에 의해 생성된 유전자 모델은 Snap, Glimmer 및 Augustus를 훈련(train)하는 데 사용되었다. 
  • 간단히 말해서, PASA alignment assemblies는
    ab initio 유전자 예측자를 훈련하기 위한 고품질 데이터 세트를 생성하기 위해
    단백질 코딩 영역(protein coding regions)을 자동으로 추출하는 데 사용되었다.
  • PASA에 의해 생성된 가장 낮은 품질의 유전자 모델을 훈련 데이터 세트에서 폐기하기 위해,
    C. canephora의 데이터 세트에 대한 유사성 검색(similarity search with blast)을 통해 검증된
    완전한 유전자만 고려했다.
  • The blast search로부터,
    e-값이 1e-30보다 낮고
    정렬 범위(alignment coverage)가 90% 보다 높은 일치 항목(match)을 가진 단백질만
    ab initio 예측 변수를 트레이닝하는 데 사용되었다.
  • Eudycotyledon 분류학 순위, Gentianales order, Coffea genus, 그리고 C. canephora 종에 속하는
    가까운 것부터 먼 관련 유기체에 이르는
    뉴클레오티드 및 단백질 서열(Nucleotide and protein sequences)을 NCBI에서 다운로드하고,
    exonerate를 사용하여 레퍼런스 게놈에 정렬했다.
    (https://www.ebi.ac.uk/about/vertebrate-enomics/software/exonerate ).
  • 다음과 같은 엄격한 기준을 적용하여 고품질 정렬만 유지되었다 :
    protein level에서 30% identity and 70% alignment coverage,
    nucleotide level에서 50% identity and 70% alignment coverage.

  • 단일 유전자 모델(single gene model)을 얻기 위해
    이전에 수집된 증거를 EVidenceModeler [57]를 사용하여
    유전자 예측 (gene prediction)에 결합했다.
  • EVidenceModeler(EVM)는
    ab initio 유전자 예측(gene predictions)과
    단백질 및 전사체 정렬(protein and transcript alignments)을
    가중 합의 유전자 구조(weighted consensus gene structures)로 결합한다.

  • 위양성 예측(false positive prediction)을 줄이고
    전반적인 유전자 예측 품질을 향상시키기 위해 여러 필터가 적용되었다: 


    1. ab initio 프로그램들에 의해서만 예측된 유전자는, 
        적어도 두 가지 다른 ab initio 프로그램들에 의해 확인된 경우,
        완전하고(with a start and a stop codon) 300개 염기쌍(base pairs)보다 긴 경우에만 고려되었다.

    2. 외부 증거(예: 단백질/RNA-seq)에 의해 뒷받침되는 유전자는, 
        적어도 두 가지 다른 유형의 증거들에 의해, 또는
        하나의 외부 증거와 하나의 ab initio 유전자 예측변수에 의해 확인되면, 고려되었다.

    3. 낮은 ab initio 서포트 (as per step 1)을 갖는 예측된 유전자들은 추가로 처리되었다. 
        단 하나의 ab initio 프로그램에 의해 지원되는 것들은,
        Coffea 단백질 서열 데이터베이스에서 발견된 경우에만 유지되었다.
        Query와 subject 모두에 대해 sequence coverage가 50% 이상 일치하는 단백질과
        1e-6보다 낮은 e-값은 복구되었다.

  • 이러한 필터를 통과하는 유전자 모델은
    UTR 영역(regions)을 추가하고 대체 접합(alternative splicing)을 예측하기 위해
    PASA를 사용하여 추가 처리되었다.

  • 동일한 유전자의 여러 이소형(multiple isoforms)과 서열 중복(sequence redundancy)을 제거하기 위해,
    옵션 -g를 1로 설정한 CD-HIT [63]을 사용하여,
    DNA coding sequences을 클러스터링했으며,
    각 유전자 유전자좌에 대해 가장 긴 전사체 이소형(the longest transcripts isoform)을 선택했다.
  • CD-HIT는
    처음에 클러스터링 백분율(the clustering percentage identity) ID를 0.9로 설정하여 실행되었다.
  • 서브게놈 k-mer 분류 유전자(subgenome k-mer classified genes)를
    적절한 클러스터에 유지하면서 가능한 한 많은 유전자를 클러스터링하는 임계값을 경험적으로 식별하기 위해
    출력을 구문 분석하는(parse) Perl 스크립트가 개발되었다.
  • 최적의 클러스터링 백분율 아이덴터티(optimal clustering percentage identity)는
    0.9961에서 얻어졌다 (Fig. S5).

 

  • C. arabica 예측 유전자(predicted genes)의 
    BLASTp similarity searches (e-value threshold of 1e−5)을
    NCBI(non-redundant protein database, 비중복 단백질 데이터베이스)에 대해 수행했다.
  • InterProscan564가
    보존 단백질 영역(conserved protein domain)과
    기능적 주석 (functional annotation)을 얻기 위해 사용되었다.
  • 사용된 데이터베이스에는
    PROSITE patterns, PRINTS, PFAM, PRODOM, SMART, TIGRFAM 및 PANTHER가 포함되었다.
  • Gene Ontology 및 KEGG classifications는
    BLASTp 및 InterProscan 아웃풋에서 ​​BLAST2GO 2.6.065를 실행(running)하는 것으로 예측되었다.

 

  • 본 연구의 유전형 분석(genotypic analysis)을 위해 
    C. arabica (781), C. canephora (35) 그리고 C. eugenioides (10)의 광범위한 액세션들을  수집했다.
  • Coffea arabica 품종 중
    45개는 GBS 분석 후 충분한 reads을 생성하지 못했기 때문에 연구에서 제외되었으며,
    총 736개의 아라비카 액세션들이 남았다.
  • 본 연구에 포함된 최종 Coffea arabica 유전자형은 다음과 같다:
    CATIE에서 제공한 648개의 C. arabica 액세션들 및
    Sana'a University에서 제공한 88개의 예멘에서 수집된 C. arabica 액세션들.
  • C. canephoraC. eugenioides 액세션들은
    IRD (프랑스 Institut de Recherche pour le Développement)에 의해 수집되었으며 [66],
    CATIE 또는 CIRAD에 의해 제공되었다.
  • 모든 781개의 액세션 리스트는 Dataset S2에 제공되어 있다. 

  • 이 이력과 관련하여, 아라비카 액세션들은 다음 범주를 사용하여 코드화된다.
  • Survey Ethiopia:
    FAO survey in Ethiopia (FAO 1964)로부터 441개 액세션들,
    ORSTOM survey in Ethiopia (1966)로부터 84개 액세션들 (Guillaumet 1967), 그리고
    1957년 이전에 에티오피아에서 수집된 ‘Lejeune survey’ 또는 기타 서베이에서 얻은 16개 액세션들.
    ※ Dataset S2에는 FAO 및 ORSTOM 서베이들 중에 식물학자가 제공한 359개 액세션들에 대한
                               지리적 좌표와 고도가 제공된다.
  • Landrace cultivated :
    FAO 및 ORSTOM 서베이 외에 에티오피아 농장들에서 수집된 에티오피아 재배되는 개체군의 49개 액세션들.
    이 서베이는 FAO 및 ORSTOM 서베이 보다 문서화 수준이 낮다.
  • Survey Yemen :
    Sana'a University (88개 액세션들) 또는 FAO (CATIE 컬렉션에 심어진 5개 액세션들)에서 수집된
    예멘에서 경작되는 subspontaneous-derived 액세션들을 대표하는 93개 액세션들.
    이러한 액세션들은 재배화된 것(domesticated)으로 간주될 수 있다.
      Sana'a University에서 제공한 28개의 액세션들의 고도와 지리 좌표가 Dataset S2에 보고되어 있다.
  • East Africa and Indian Old varieties:
    1930년대에 인도와 동아프리카에서 셀렉트된 품종들의 45개 액세션들.
  • Typica/Bourbon cultivars:
    Krug and Carvalho (1951)에 의해 기술된 식물학적 변종들(botanical varieties)과 일치하는                                  CATIE field GeneBank으로부터의 7개 액세션들.
    본 연구에서 이 품종들은 아시아와 라틴 아메리카에서 2세기 이상 널리 재배된 두 가지 품종들을 대표한다.

 

  • 잎들이 수집되어 동결건조되었고, 
  • 게놈 DNA 추출
    ADNid (Montpellier, France)에서
    ADNid method (http://www.adnid.fr/index-2-4A.html)를 사용하여 추출되었다. 
  • Genotyping by sequencing (GBS)
    the Cornell University Institute for Genomic Diversity에서 수행되었다.
                       (http://www.igd.cornell.edu/index.cfm/page/GBS.htm). 

  • Illumina template libraries 생성은 앞서 설명된 바와 같이 [67], 
    the restriction enzyme PstI 다음에
    HiSeq2000 (Illumina)에서의 single-end sequencing을  사용하여 이뤄졌다. 

 

  • 10개의 C. eugenioides 액세션들 및 35개의 C. canephora 액세션, 787개의 C. arabica 액세션들에
    제한 효소 PstI을 사용하여 GBS를 적용했다 [67].
  • 96개의 바코드화된 액세션들이 풀링되었으며,
    각 풀은 코넬대학의 IGD (Institute for Genomic Diversity)에서
    91 bp single-end sequencing mode를 사용하여
    Illumina HiSeq2000의 플로우 셀 한 레인(one lane of a flow cell)에서 실행(run)되었다.
  • 총 ~172GB의 DNA 서열 데이터가 획득되었다.
  • reads는
    처음에 각 액세션에 해당하는 개별 바코드를 제거하기 위해 처리되었으며,
    사용자 정의 Python 스크립트를 사용하여 각 액세션에 대한 개별 fastq 파일들로 분리되었다.

  • C. arabica 게놈의 이질배수성 (allopolyploid nature) (즉, 두 서브게놈 사이의 다형성)으로 인한
    위양성 SNP 검출(false positive SNP detection)을 피하기 위해,
    두 개의 서브게놈 각각에 대해 하나씩, 두 개의 in silico reference sequences을 생성했다.

  • canephora in silico 레퍼런스는 다음과 같이 구성되었다:
     (i) 조립된 카네포라 서브게놈 (the assembled canephora subgenome),
    (ii) 조립된 유게니오이데스 서브게놈의 완전한 同祖의 보체
          (a full homoeologous complement of the assembled eugenioides subgenome), 및
    (iii) 할당되지 않은 스캐폴드 (the unassigned scaffolds).
  • 마찬가지로, eugenioides in silico 레퍼런스는 다음과 같이 구성되었다: 
    (i) 조립된 유게니오이데스 서브게놈 (the assembled eugenioides subgenome),
    (ii) 조립된 카네포라 하위게놈의 완전한 同祖의 보체
         (a full homoeologous complement of the assembled canephora subgenome), 및
    (iii) 할당되지 않은 스캐폴드 (the unassigned scaffolds).

  • 조립된 카네포라 서브게놈의 완전한 동조의 보체(full homoeologous complement)을 생성하기 위해,
    C. arabica ‘Bourbon Vermelho’의 WGS reads는
    조립된 카네포라 서브게놈과 할당되지 않은 스캐폴드에 대해 BWA [68]를 사용하여 정렬되었다.
    그런 다음, GATK [69]를 사용하여 디폴트 파라미터들로,
    동조의 SNPs (homoeologous SNPs)를 호출하고(called),
    최소 깊이(minimum depth)가 50이고,
    대립유전자 빈도(allele frequency)가 0.25에서 0.75 사이인 사이트에 대해
    GATK FastaAlternateReferenceMaker를 사용하여
    대체 동조 레퍼런스(alternative homoeologous reference)를 생성했다.
  • 조립된 유게니오이데스 서브게놈의 완전한 同祖 보체를 얻기 위해 동일한 절차가 적용되었다.

  • 두 서브게놈에서 대립 유전자 SNPs를 각각 호출하기 위해,
    canephora 및 eugenioides의 in silico 레퍼런스에 대해
    BWA-MEM v0.7.1068을 사용하여 GBS reads을 정렬했다.
  • 두 인위적 레퍼런스들(artificial references)의 경우 모두,
    Stacks v2.170을 사용하여 SNP calling을 수행했다.
  • 최소 10개의 reads가 포함된 variant sites만 유지되었다.
  • 대립유전자 빈도가 0.25보다 낮거나 0.75보다 높은 이형접합성(Heterozygous) SNP는 폐기되었다.
  • 두 개의 인위적 레퍼런스를 사용하여 검출된 다형성(Polymorphisms)은 병합되었으며, 
    각 서브게놈의 기본 스캐폴드(native scaffolds)에서 호출된 변이 사이트(variant sites)만
    후속 분석을 위해 유지되었다.
  • STRUCTURE 분석 및 PC 분석을 위한 SNPs 데이터 세트를 얻기 위해
    Stacks는
    옵션 –r (해당 개체군에 있어서 유전자좌를 처리하는 데 필요한 개체군 내 개체의 최소 비율)을 0.75로 설정하고
    옵션 max-clipped (maximum soft-clipping level, in fraction of read length)은
             minimum stack length 73bp에 해당하는 디폴트 값 0.20으로 설정된다.
  • 8개의 Bourbon/Typica 액세션들 중에서
    7개 또는 8개의 missing genotype calls가 있는 Variants sites는
    정렬 불량(misalignments)으로 해석되어 필터 아웃되었다.

  • Principal Component Analysis는 R package ade4를 사용하여 수행되었다 [71].
  • 다양성에 대한 계층적 연구는
    STRUCTURE v2.3.4 [72]에서 구현된 혼합물을 사용한 모델 기반 클러스터링 절차를 사용하여 수행되었다.
  • 실행은 1~13 범위의 k 값에서 K당 10번의 반복과
              75,000의 burn-in period 그리고
              75,000 MCMC 반복으로 수행되었다.
  • k vs ΔK를 plotting하니,
    그룹이 2개 일 때 가장 높은 값이 나타났고, 그 다음 그룹이 2개일 때 나타났다 (Fig. S2).
  • 따라서 멤버십(membership) 임계값(threshold) 0.80을 적용한 후, 
    2개 개체군들 각각에 대해 STRUCTURE를 다시 수행했다.
  • ΔK에 따르면 두 번째 개체군은 2개의 그룹으로 나뉘었다 (Fig. S2).
  • PCoA (Principal Coordinates Analysis)
    poppr 패키지[74]로 계산된 provesti distance matrix를 가지고,
    ape [73]를 사용하여
    R (version 3.5.1, 64 bit; http://www.r-project.org/) with ape에서 수행되었다.

    PCoA는 ggplot2를 사용하여 plot 되었다 (Fig. S3).

  • 종의 낮은 수준의 다양성과
    PstI 제한 부위(restriction sites)의 high frequency를 고려하여, 우리는
    C. arabica, C. canephora, 그리고 C. eugenioides에서
    π, Tajima’s D 그리고 개별 또는 공유 SNPs를 더 잘 추정하기 위해,
    –r 옵션을 (해당 개체군에 있어서 유전자좌를 처리하는데 필요한 개체군 내의 개체들의 최소 비율) 0.50으로 설정하고,
    –max-clipped 옵션을 (read length의 일부로 표시되는, maximum soft-clipping level) 0.68로 설정하여
                                     
    (minimum stack length 30 bp에 해당함)
    Stacking을 돌림으로써(running), 게놈 샘플링을 증가시켰다. 

  • 이러한 분석을 위해,
    모든 C. eugenioides 액세션들이 동조 레퍼런스(homozygous reference)이고,
    C. canephora 액세션들이 homozygous alternative이거나, 그 반대인 사이트들이
    residual homoeologous SNPs로 해석되어 필터 아웃 되었으며, 뿐만 아니라,
    C. eugenioidesC. canephora에서의 missing data, 그리고
    C. arabica에서 >95% 내의 사이트들도 필터 아웃하였다. 
  • Nucleotide diversityTajima’s D는,
    R package PopGenome에 포함되어 있는 diversity.stats method를 사용하여
    각 그룹에 대해 계산되었다 [75].

 

 

 

World Coffee Research | Coffea Arabica Genome

The first fully open-access genome sequence for Arabica coffee

worldcoffeeresearch.org

 

 

 

 

 

 

댓글