久久久久无码精品,四川省少妇一级毛片,老老熟妇xxxxhd,人妻无码少妇一区二区

淺析現(xiàn)階段高通量測序中的拼接問題論文

時間:2022-04-28 00:46:19 其他類論文 我要投稿
  • 相關(guān)推薦

淺析現(xiàn)階段高通量測序中的拼接問題論文

  摘要:近年來,隨著第二代測序技術(shù)的普及和第三代測序技術(shù)的逐步發(fā)展,高通量測序技術(shù)在實際研究中的應(yīng)用越來越廣泛。高速率、高性價比是其主要優(yōu)點(diǎn)。相對于傳統(tǒng)的桑格(Sanger)法測序來言,高通量測序得到的片段長度較為短小,故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結(jié)了現(xiàn)階段高通量測序中拼接問題的研究結(jié)果,針對現(xiàn)在流行的各種算法進(jìn)行了簡單介紹。

淺析現(xiàn)階段高通量測序中的拼接問題論文

  關(guān)鍵詞:高通量測序;reads 拼接;contigs 組裝;OLC、De brujin 圖

  一、測序技術(shù)的發(fā)展過程和現(xiàn)狀[1]

 。ㄒ唬┥8穹

  桑格法又叫做雙脫氧鏈終止法,由Sanger在1977年提出。通過加入帶有放射標(biāo)記的dd NTP(雙脫氧核苷酸)使DNA合成終止。再通過電泳,并使用放射自顯影技術(shù)讀出堿基。此方法得到的片段較長,能達(dá)到1000bp左右。

 。ǘ┑诙鷾y序技術(shù)

  隨著科學(xué)技術(shù)的發(fā)展,傳統(tǒng)的桑格法已經(jīng)不能滿足研究的需要。科學(xué)家們需要更快的速度、更高的通量以及更低廉的價格,于是第二代測序技術(shù)應(yīng)運(yùn)而生。其核心思想是邊合成邊測序。現(xiàn)在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平臺。第二代測序是現(xiàn)階段測序技術(shù)的主流,也是高通量測序的開始。

 。ㄈ┑谌鷾y序技術(shù)

  第三代測序技術(shù)是指單分子測序技術(shù)。不需要經(jīng)過PCR的過程即可測序,速度可以達(dá)到每秒十個堿基。通量更大,讀長更短,是現(xiàn)階段測序技術(shù)的發(fā)展方向。

  二、高通量測序中的拼接工作

 。ㄒ唬└咄繙y序所得片段的特點(diǎn)

  高通量測序之后所得到的序列片段稱為reads(讀取),其主要特點(diǎn)兩點(diǎn)。一是長度短,一般在200bp以 下,最長的454平臺能達(dá)到的長度也不過1000bp,因此需要進(jìn)行 大量的拼接才能得到整條DNA序列。二是有部分重疊,由于測序位置具有隨機(jī)性,故各reads總會有一定的重疊,這些重疊是拼接工作的關(guān)鍵。

 。ǘ┢唇舆^程

  整個拼接過程分為兩步。第一步,考察reads的重復(fù)序列,并拼接成更長的片段,稱為contigs(重疊群),這一步稱為reads的拼接;第二步,確定contigs之間的順序關(guān)系,并按此排列,形成稱為scaffolds的序列,這一步叫做contigs的組裝。

  三、Reads的拼接

 。ㄒ唬┢唇舆^程的難點(diǎn)

  reads拼接過程中要克服的難點(diǎn)主 要有兩點(diǎn),一是高通量測序得到的reads長度較短,故內(nèi)含信息較少,不易確認(rèn)相對順序。二是遠(yuǎn)程連接信息(Long-range linking information)的不可靠性。 2這兩點(diǎn)制約著reads拼接過程的準(zhǔn)確率。

 。ǘ┓椒╗3]

  reads拼接過程中算法的基本要求是de novo(從頭測序),即不需要任何序列信息即可對原料進(jìn)行測序。由此衍生出兩種主流的算法:

  1.OLC

  OLC,即交疊-排列-共有序列算法(Overlap-layout-consensus),是一個比較傳統(tǒng)的算法,其基本思想為根據(jù)reads間的重復(fù)部分,確定可能性的reads連接順序。

  其步驟為:構(gòu)建交疊圖:對每兩個reads進(jìn)行比對,計算它們的重疊度---排列reads:將reads進(jìn)行排列,確定它們之間的相對位置,建立overlap圖---生成共有序列:通過多序列比對等方法,確立最后的contig.

  OLC算法的計算量主要體現(xiàn)在交疊圖的構(gòu)建,而高通量測序得到的海量短序列有大量的交疊,往往需要大量的運(yùn)算時間。故OLC算法并不適合現(xiàn)在高通量測序的發(fā)展趨勢。現(xiàn)在某些拼接軟件,如Shorty、CABOG等仍在使用基于此的算法。雖然這些軟件針對OLC算法有一定的改進(jìn)和優(yōu)化,但其拼接速度和準(zhǔn)確性仍受到限制。

  2.De brujin圖

  基于De brujin圖(DBG)的算法是現(xiàn)在最流行的算法,許多常用的拼接軟件如Velvet、ABy SS等都在使用這種算法。其特點(diǎn)為把基因序列的拼接問題轉(zhuǎn)化為了數(shù)學(xué)上的圖論問題,大大提高了拼接效率。

 。1)基本思想

  reads中 連 續(xù) 的k個 堿 基 稱 為k -mer,作 為DBG的節(jié)點(diǎn),兩個k-mer如 果在同一read中 相鄰,則形成一條邊。故每個read都會對一些邊加權(quán),最后形成一個含有節(jié)點(diǎn)、有權(quán)值的邊的DBG,由此生成最佳的contig.

 。2)步驟

  篩選reads:對reads進(jìn)行檢測,去除掉可能錯誤的reads---確定k值:k的值直接影響速度和精度。 K值較大時,精度有所提高,但更容易受覆蓋率的影響。故應(yīng)該根據(jù)覆蓋率、reads長度等確定合適的k值---處 理DBG:根 據(jù) 確 定 的k值,做 出DBG,同時完成化簡和修正---根據(jù)DBG,拼接成contig.

 。3)優(yōu)缺點(diǎn)

  DBG算法在處理海量短reads的時候效果優(yōu)秀,與現(xiàn)在測序技術(shù)的發(fā)展趨勢相匹配。然而,由于k-mer的長度較短,此方法受重復(fù)序列、測序錯誤的影響較大。

 。ㄈ┎煌唇榆浖男Ч町

  不同的拼接軟件在reads拼接過程中表現(xiàn)為三點(diǎn):一是比起軟件來說,reads質(zhì)量對拼接結(jié)果影響更大;二是與標(biāo)準(zhǔn)序列的接近度隨reads和拼接軟件的不同有很大改變;三是各軟件拼接的正確率差別很大,但與接近度的結(jié)果不一致。

  四、Contigs的組裝

  與reads的拼接相比,contigs的組裝的難度相對較小。這是因為contigs的長度較reads長很多,所含信息較多。故可以較為準(zhǔn)確的組裝成scaffold

 。ㄒ唬┙M裝過程的難點(diǎn)[4]

  Contigs組 裝 過 程 中 的 難 點(diǎn) 主 要 有 二。一 是contigs中 含有大量的重復(fù)序列,不易確定contigs之間的相對順序;二是由于contigs由reads拼接而成,其中不 免 會 有 一 些 錯 誤,這 些 錯 誤 也 會 對contigs的組裝產(chǎn)生干擾。

 。ǘ┓椒

  Contigs組 裝的方法較reads拼 接而言較多,一般常用的有圖論法和光學(xué)圖譜法(Optical mapping)兩種。

  1.圖論法[5]

  圖論法是比較傳統(tǒng)的方法,與reads拼接有相似的地方。它以contigs作為節(jié)點(diǎn),由相連的讀取對(Linking reads pair)作為邊,由此形成算圖。

  其一般步驟為:庫的構(gòu)建:構(gòu)建出含有所有reads的 庫---計算相連讀取對之 間的距離,并由此計算gap的長度---把長度放在邊上,作為算圖的數(shù)據(jù)。

  其理想的輸出結(jié)果是一條scaffold序列,對應(yīng)一條染色體,包含以正確順序排 列 的contigs和contigs之間gap的長度。

  2.光學(xué)圖譜法[6]

  光學(xué)圖譜法是一種較為新穎的方法。通過內(nèi)切酶將DNA切斷,此時DNA的片段的譜表現(xiàn)出一種特殊的指紋或是識別碼的性質(zhì)。利用光學(xué)方法追蹤此信息得到相對位置,由此組裝成正確的scaffold.

  主要步驟為:將contigs放 置 在 光 學(xué) 圖 譜上---修正光學(xué)圖譜---做出contigs的連接圖,由此決定最佳的contigs連接順序。

  光學(xué)圖譜法的組裝結(jié)果有著很高的覆蓋率,巧妙運(yùn)用光學(xué)圖譜法可以獲得很高的成本效益。

  有研究表明,當(dāng)與454平臺獲得的實驗結(jié)果相結(jié)合的時候,光學(xué)圖譜法可以迅速、價廉的得到排列好的定向的contigs組,由此可以產(chǎn)生一個將近完整的基因組。

 。ㄈ┌l(fā)展方向

  Contigs組裝過程的關(guān)鍵點(diǎn) 在于如何得到正確的連接順序。現(xiàn)階段此方面研究多集中在這一方向。

  五、前景與展望

  隨著生物學(xué)研究向微觀、向基因領(lǐng)域逐步延伸,高通量測序作為獲得基因序列的主要方法,越來越受到重視,拼接技術(shù)也在不斷發(fā)展。高通量測序的基因片段會變得海量且短小,應(yīng)對此變化,拼接技術(shù)也會由確定“唯一的基因序列”向確定“最可能的基因序列”完成轉(zhuǎn)變。因此,新一代的拼接技術(shù)會在準(zhǔn)確率、覆蓋率和速度上,作出超于現(xiàn)在拼接技術(shù)的改進(jìn)。

  參考文獻(xiàn):

  [1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.

  [2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.

  [3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.

  [4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

  [5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.

  [6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 (10):1229 -1235.doi:10.1093/bioinformatics/btn102.

【淺析現(xiàn)階段高通量測序中的拼接問題論文】相關(guān)文章:

公路工程審計過程中問題淺析論文04-24

淺析體育社會問題的理論研究論文04-24

電力工程審計問題與解決對策淺析論文04-21

淺析郭沫若《女神》中的積極浪漫主義論文04-01

淺析現(xiàn)代教育資源在體育教學(xué)中的應(yīng)用論文01-15

淺析營銷稽查在電力營銷管理中的運(yùn)用論文04-01

淺析農(nóng)業(yè)推廣的信息化問題及應(yīng)對策略論文03-06

淺析數(shù)學(xué)語言在教學(xué)中的作用論文(通用12篇)12-19

畢業(yè)論文答辯中的常見問題04-27

項目成本管理中存在的問題及對策論文03-24