Miksi Hadoop on täydellinen ottelu genomien sekvensointiin

Kirjoittaja: Roger Morrison
Luomispäivä: 19 Syyskuu 2021
Päivityspäivä: 5 Saattaa 2024
Anonim
Miksi Hadoop on täydellinen ottelu genomien sekvensointiin - Tekniikka
Miksi Hadoop on täydellinen ottelu genomien sekvensointiin - Tekniikka

Sisältö


Lähde: A3701027 / Dreamstime.com

Ottaa mukaan:

Genomisekvensointi vaatii tehokkaita teknologiatyökaluja kaiken datan käsittelemiseksi, ja Hadoop on vastuussa tehtävästä.

Kliininen genomiikka on kiehtova aihe, jossa ihmiset työskentelevät huipputeknologian avulla nopeiden ja tarkkojen tulosten käsittelemiseksi. Markkinoilla on saatavana paljon genomisekvenssejä, ja ne tuottavat sekvenssitietojen petabyyttejä, ja sekvensoinnin kasvu aikoo tuottaa datan eksabyyttejä lähitulevaisuudessa. Täällä Hadoop on täydellinen alusta monimutkaisen genomiikan työnkulun käsittelemiseen. Hadoop voi tallentaa ja lajitella valtavia määriä tietoa ja voi myös tehdä tarkoituksenmukaisia ​​analyysejä. (Saadaksesi kuvan siitä, kuinka paljon tietoa tämä todella tarkoittaa, lue Ymmärtäminen bitteistä, tavuista ja niiden kerrannaisista.)


Genomiikan nykyaika ja tulevaisuus

Nykyään genomikartoitus on saavuttanut kehityksen huipun. Monet genomiikkateollisuuteen liittyvät ihmiset ovat täynnä uteliaisuutta, ja kun uusia mahdollisuuksia esiintyy, parempi tekniikka on tunnin tarve. Genomisekvensointi on erittäin toistuva ja resurssimainen tehtävä. Pelkästään vuonna 2013 tuotettiin noin 15 petatavua dataa, ja vain 2000 sekvensseriä. Tämä leuan pudottava määrä sisälsi 300 kt sekvensoitua ihmisen genomitietoa. Tällä tiedontuotantonopeudella voidaan arvioida, että vuoteen 2018 mennessä tuotetaan noin yksi eksabyytti tietoa. Tämä johtuu sekvenssien kasvusta, jotka tuottavat yhä enemmän dataa ajoa kohden. Toinen syy on erittäin tehokkaiden ja edullisten genomisekvensointikoneiden tulo markkinoille. Vuodesta 2008 näiden koneiden hinta on laskenut tasaisesti. Tämä johtuu voimakkaista seuraavan sukupolven koneista, jotka ovat hieroneet markkinoita.


Genomikartoitusalan tarpeet

Ihmisen genomista kerätyn datan käsittelemiseen käytetään kompleksisia algoritmeja. Sitten nämä tiedot on tallennettava. Sitä voidaan tarkistaa tulevaisuudessa vertailuun alkuperäisiin tietoihin. 100 Gt: n datan käsittely ja tallennus ei ole liian vaikeaa, varsinkin kun teet sen sekvenssikeskuksissa käytettävien voimakkaiden koneiden kanssa. Tutkimukset osoittavat, että tämä tietomäärä voidaan käsitellä vain noin 1 000 suorittimen tunnissa, joten se on erittäin helppoa. Tällä teknisen kehityksen nopeudella on selvää, että genomiteollisuus prosessoi pian tuhansia gigatavuja vain muutamassa sekunnissa.

Tiedonhallinta- ja tallennustekniikat eivät kuitenkaan kehitty niin nopeasti, minkä vuoksi voidaan odottaa suurta arvokkaan tiedon menetystä. Tämä ei ole toivottavaa, koska se haittaa vakavasti ihmisen genomiikan kehitystä. Joten tarve tehokkaalle ja helposti päivitettävälle tiedonhallintatekniikalle on erittäin suuri. Tämä voi olla tehokasta etenkin lähitulevaisuudessa, jolloin genomikartoitus siirtyy suurista laboratorioista, joissa on tehokkaat tietokoneet, pieniin sairaaloihin ja laboratorioihin.

Mitä ratkaisussa odotetaan?

Uusien genomisten sekvensointitekniikoiden löytämisen ja kehittämisen vauhti on erittäin korkea. Tämä vauhti voi olla erittäin hyödyllinen lääketieteelle tieteellisenä askeleena tärkeimpien sairauksien hävittämiseksi. Tämäkin vauhti voi kuitenkin olla myös erittäin haastava.

Haasteena on sekvensointiprojektien tuottaman suuren tietomäärän hallinta. Joten tarvitaan tehokas ratkaisu, joka auttaa suurten tietojen tallentamisessa ja käsittelyssä. Tämän ratkaisun on oltava halpa ja nopea, samalla kun se on myös mukautuva. Tämän ratkaisun tarjoaman analyysin on myös oltava tarkka ja vakio. Joten, mikä on ratkaisu ongelmaan? Epäilemättä se on Hadoop. (Lisätietoja Hadoopin käytöstä, katso 5 tietämystä Big Datasta (Hadoop) palveluna.)

Miksi Hadoop on paras ratkaisu perimän sekvensointiin

Genomiikkateollisuus tarvitsee erinomaisen ratkaisun, joka voi auttaa heitä tehokkaasti hallitsemaan tietoja, käsittelemään niitä ja tallentamaan ne tulevaa käyttöä varten. Tämä ratkaisu näyttää sopivan täydellisesti Hadoop-ohjelmiston kanssa. Joten Hadoopia voidaan pitää täydellisenä suurena datanhallintaohjelmana, joka voi parantaa huomattavasti genomiteollisuuden nykyisiä tietojen tallennustekniikoita.

Hadoopin reaaliaikaisten ominaisuuksien avulla genomisekvenssit voivat analysoida ja tallentaa suuria määriä tietoja kerralla reaaliajassa. Tämä mahdollistaa myös datan tulevan käytön. Hadoop voi voittaa monia vanhoja järjestelmiä, koska se on paljon nopeampi ja luotettavampi kuin ne.

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Mitä muuta Hadoop voi tehdä?

Hadoopin ansiosta genomiikan ja geenien sekvensoinnin alalla on avattu suuri joukko mahdollisuuksia ja mahdollisuuksia. Hadoop tarjoaa rinnakkaislaskentavaihtoehtoja, joiden vuoksi nopeampi sekvensointi on mahdollista. Hadoopin MapReduce-toimintoa käyttämällä voidaan myös helposti kartoittaa suuri määrä geenejä. Tämän vuoksi sekvensoinnista Hadoopilla tulee todella ”seuraava sukupolvi” ja se on paljon helpompaa.

Hadoopin mahdollisuudet

Hadoopilla on useita mahdollisuuksia genomiteollisuudessa, mutta paras niistä johdettiin Genes & Development -lehdessä Lynda Chinin artikkelissa ”Syövän genomitietojen ymmärtäminen”. Tässä artikkelissa hän keskustelee siitä, kuinka moderni genomiikka on avannut uusia ovia, ja tämä on johtanut moniin myönteisiin tuloksiin, kuten esimerkiksi syöpään liittyvän genomitiedon löytämiseen. Tästä syystä olemme lähempänä löytää parannuskeinoja itse syöpään. Tämä vaatii kuitenkin hieman enemmän huomiota ja tehokkaan tiedonhallintasovelluksen alan tutkimuskapasiteetin parantamiseksi. Tämä voi olla paras mahdollisuus Hadoopille todistaa nopeus, teho ja tarkkuus.

Crossbow: Seuraavan sukupolven tiedonhallintaympäristö

Crossbow, joka on genomien uudelleensekvensoinnin analysointiin tarkoitettu ohjelmistoputki, on yksi parhaista ratkaisuista. Se oli seurausta integroitumisesta Hadoopissa sekvensoidun datan kohdistamiseen tarkoitetun nopean algoritmin, jota kutsutaan Bowtieksi, ja tehokkaan algoritmin, joka vertaa ja tutkii sekvensoitua dataa, eli genotyypin, nimeltään SoapSNP, välillä. Se on rakennettu Apache Hadoop -sovellukselle ja perustuu MapReduce-kehyksen toteutukseen. Crossbow on kannettava, skaalautuva ja sopii myös pilvilaskentatyökaluksi.

Tämän voimakkaan integraation avulla koko genomi voidaan tutkia vain yhdessä päivässä paikallisessa klusterissa, jossa on 10 solmua. 40-solmuisella klusterilla prosessi on vielä nopeampi ja valmistuu vain kolmessa tunnissa kokonaiskustannuksilla alle 100 dollaria! Crossbowin tarkkuuden testaamiseksi tehty tutkimus osoitti, että se voi verrata kutakin genomia 99 prosentin tarkkuudella. Toinen Crossbowin hyödyllinen ominaisuus on, että se toimii pilvessä. Siten Crossbow antaa tuhansille tuleville sekvenssikeskuksille, kuten sairaaloille, järjestää suuria määriä genomitietoja ilman, että tarvitaan mitään tehokkaita, kalliita tietokoneita ja tekniikkaa.

Muu Hadoop-pohjainen genomiikkaohjelmisto

Monet yritykset ovat tunnustaneet Hadoopin voiman genomiikan maailman muuttamisessa. He ovat sopivasti modifioineet Hadoopia hyödyntämään sen mahdollisuuksia edistyneeseen genomien sekvensointiin. Alla on esimerkkejä tunnetuista Hadoop-pohjaisista genomisekvensointiratkaisuista:

  • Hadoop-BAM: Tämä on tehokas tiedonhallintatyökalu, joka hyödyntää Hadoopin MapReduce-toimintoa moniin genomiikkaan liittyviin toimintoihin, kuten genotyypitykseen. Tämä toimii binaarisen kohdistuksen / kartan muodossa.
  • Cloudburst: Tämä Hadoop-pohjainen ratkaisu luotiin vuonna 2009. Se on erittäin tehokas genomisekvenssien vertailussa ja yksittäisten geenien kartoittamisessa. Tämä on myös yksi ensimmäisistä tätä tarkoitusta varten suunnitelluista Hadoop-sovelluksista.

johtopäätös

Integrointi suurten tietojen ja genomitekniikan välillä on osoittautunut avuksi nykyaikana. Nämä alustat ovat tehokkaita löydettäessä useiden sairauksien, kuten syövän, hoitoja. Genomikartoituksen avulla löydettävää tietoa voidaan käyttää ennaltaehkäisevän tiedon muodostamiseen tällaisista sairauksista. Suurten tietojen tuloa voidaan pitää käännekohtana genomiikan maailmassa, ja jos tietoa käytetään viisaasti, niin mahdollisesti myös laajemmalla terveydenhuollon alalla. Ainoa tapa tämän kentän etenemiseen on asianmukaisten tiedonhallintatyökalujen, kuten Hadoopin, käyttö.