Kuinka Hadoopin SQL voi auttaa isojen tietojen analysoinnissa?

Sisältö

Määritelmä SQL Hadoop
Kuinka SQL Hadoopissa toimii?
SQL: n tärkeimmät edut Hadoopilla
Lisää ihmisiä voi nyt käyttää Hadoopia
Suurten tietojen analysointi Hadoopilla on nyt yksinkertaisempaa
Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi
Toinen näkökulma SQL: ään Hadoopilla
johtopäätös

Lähde: Maciek905 / Dreamstime.com

Ottaa mukaan:

Hadoopin SQL yhdistää nämä kaksi tiedonhallintamenetelmää muodostaen uuden työkalun tietojen analysointiin.

Hadoopin SQL on ryhmä analyyttisiä sovellustyökaluja, jotka yhdistävät SQL-tyylisen kyselyn ja tietojen käsittelyn viimeisimpiin Hadoop-tietokehyselementteihin. SQL: n esiintyminen Hadoopissa on tärkeä kehitys isojen tietojenkäsittelyn kannalta, koska se antaa laajemmille ihmisryhmille mahdollisuuden työskennellä menestyksekkäästi Hadoopin tietojenkäsittelykehyksen kanssa suorittamalla SQL-kyselyitä Hadoopin käsittelemien valtavien suurten tietojen määrille. Hadoop-kehys ei selvästikään ollut aikaisemmin niin tavoitettavissa ihmisille, etenkin sen kyselyominaisuuksien suhteen. Kehityksen perusteella töissä on ollut useita työkaluja, jotka lupaavat parantaa yritysten tuottavuutta, kun on kyse suurten tietojen käsittelystä ja analysoinnista laadulla ja nopeudella. Työkalun oppimiseen ei myöskään tarvitse investoida paljon, kuten perinteisen SQL-tietämyksen pitäisi tehdä.

Määritelmä SQL Hadoop

Hadoopin SQL on sovellusryhmä, jonka avulla voit suorittaa SQL-tyylisiä kyselyjä Hadoopin tietojenkäsittelykehyksen ylläpitämässä isoissa tiedoissa. Tiedonhaku, haku ja analysointi on selvästi helpottunut lisäämällä SQL Hadoopiin. Koska SQL oli alun perin suunniteltu relaatiotietokantoihin, sitä oli muokattava Hadoop 1 -mallin, joka käsittää MapReduce ja Hadoop Distributed File System (HDFS), ja Hadoop 2 -mallin, jolla ei ole MapReduce- ja HDFS-järjestelmiä.

Yksi varhaisimmista pyrkimyksistä yhdistää SQL Hadoopiin johti Hive-tietovaraston luomiseen HiveQL-ohjelmiston kanssa, joka pystyi kääntämään SQL-tyyliset kyselyt MapReduce-töiksi. Sen jälkeen kehitettiin useita sovelluksia, jotka voisivat tehdä samanlaisia töitä. Myöhempien työkalujen joukossa ovat Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) ja Tez (Hive on Tez).

Kuinka SQL Hadoopissa toimii?

Hadoopin SQL toimii Hadoopin kanssa seuraavilla tavoilla:

Hadoop-ympäristön liittimet kääntävät SQL-kyselyn MapReduce-muotoon, jotta Hadoop ymmärtää kyselyn.
Pushdown-järjestelmät suorittavat SQL-kyselyn Hadoop-klusterissa.
Järjestelmät jakavat valtavan määrän SQL-kyselyjä MapReduce-HDFS-klusterien välillä klusterien työmäärän mukaan.

Näyttää siltä, että SQL-kysely ei muuta sen luonnetta; se on Hadoop, joka mukauttaa kyselyn ymmärtämään muotoon.

SQL: n tärkeimmät edut Hadoopilla

Kuten jo todettiin, SQL on Hadoopissa tärkeä kehitys siinä, että suurten tietojen analysointi saataisiin entistä useammalle osalle ja helpottaa ja nopeuttaa tietojen analysointia. Ei ole epäilystäkään siitä, että Hadoopin tietokehys on ollut hieno työkalu suurten tietojen analysointiin, mutta siihen on silti pääsy vain rajoitetulle joukolle ihmisiä, ei pelkästään sen ainutlaatuisen arkkitehtuurin oppimiseen tarvittavien valtavien ponnistelujen vuoksi, vaan myös siksi, että se on yhteensopivuusongelmia muiden tekniikoiden kanssa. Hadoopin SQL lupaa puuttua näihin ongelmiin.

Lisää ihmisiä voi nyt käyttää Hadoopia

Näyttää siltä, että Hadoopin SQL on tehnyt Hadoopista tasa-arvoisemman siinä mielessä, että laajemmat ihmisryhmät voivat nyt käyttää Hadoopia tietojen käsittelyyn ja analysointiin. Aikaisemmin Hadoopin käyttämiseksi tarvitset tietoa Hadoop-arkkitehtuurista - MapReduce, Hadoop Distributed File System tai HBase. Nyt voit kytkeä lähes minkä tahansa analyyttisen tai raportointityökalun ja käyttää ja analysoida tietoja.Hadoopin SQL: n ansiosta joukko SQL: n Hadoop-moottoreissa, kuten Cloudera Impala, Concurrent Lingual, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HAWQ, Apache Drill, ScleraDB, Progress DataDirect, Simba ja Splice Machine, ovat nyt kaupallisesti saatavissa. käytettäväksi isojen tietojen kanssa. On selvää, että tämä on avannut Hadoopin laajemmalle yleisölle, joka voi nyt odottaa lisäävänsä sijoitetun pääoman tuottoa suuriin tietoihin.

Suurten tietojen analysointi Hadoopilla on nyt yksinkertaisempaa

Nyt sinun tarvitsee vain suorittaa iso tieto vanha hyvä SQL-kysely tietojen noutamiseksi ja analysoimiseksi. SQL on kehittynyt itsestään vain relaatiotietokantatyökalusta suureksi data-analyysityökaluksi, mikä on todellakin merkittävä muutos. Sinun ei tarvitse huolehtia siitä, kuinka Hadoop käsittelee kyselyjä - sillä on oma tapa tulkita SQL-kyselyitä ja antaa sinulle tulokset. Asiantuntijat uskovat, että vaikka Hadoopin hajautetussa tiedostojärjestelmässä on rinnakkaiskäsittely hyödykeklustereita suuria tietoja varten, se voi parantaa prosessointikykyään, jos se toimii SQL-tyylisessä interaktiivisessa kyselyssä. Ennen kuin HDFS yhdistettiin SQL: ään, tietojen käsittely HDFS: n kanssa vei kauan, ja tehtävä vaati erikoistuneita tietotekijöitä. Ja kyselyt eivät olleet vuorovaikutteisia. Apache Tez -kehyksessä, joka käsittää Spark-analyyttisen moottorin ja Stingerin interaktiivisen kyselykiihdyttimen Hive-tietovarastoon, nämä ongelmat on ratkaistu. Jälleenmyyjän Target Corporationin strategia- ja arkkitehtuuriryhmän johtajan Anu Jainin mukaan ”Meille on erittäin tärkeää varmistaa, että tarjoamme käyttäjille interaktiivisen kyselyoikeuden. Tezin kanssa pystymme tarjoamaan tämän kyvyn liiketoiminnalle. ”

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Gartnerin kysely paljasti interaktiivisen analyysin suosion kasvavan Hadoopin käyttäjien keskuudessa. Kyselyn mukaan 32% vastaajista käyttää kolmansien osapuolien rajapintoja HDFS: n tai HBase: n kanssa, 27% käyttää itse luomia kyselyjä Hive-palvelun kautta, kun taas 23% käyttää Hadoop-jakelukohtaisia työkaluja, kuten Cloudera Impala ja Pivotal HAWQ.

Toinen näkökulma SQL: ään Hadoopilla

Vaikka näyttää siltä, että Hadoopin SQL aikoo ratkaista monia Hadoopin kanssa liittyviä ongelmia, eräs näkemys uskoo, että SQL: llä voi olla paljon ongelmia, varsinkin kun se yhdistetään Hadoopin kanssa. Tämän näkemyksen mukaan SQL ei ehkä ole niin tehokasta analyyttisenä työkaluna suurten tietojen suhteen. Hadoop Summit -käyttäjäpaneelin John Williamsin mukaan SQL ei ehkä ole paras analyyttinen työkalu suurten tietojen käsittelemiseen. Williamsin, joka on TrueCarin, joka tarjoaa käyttäjille online-ostoalustalla, vanhempana varatoimitusjohtajana platform-operaatioille, ”SQL: n suoritusaika suuressa tietojoukossa on hidasta. Samaan aikaan Hadoop SQL: ssä on nopeampaa esimerkiksi YARNin ja Tezin kanssa. "

Eikä se ole ainoa SQL-ongelma. Siellä on paljon ylimääräisiä tehtäviä, kuten tietojen tutkiminen, skeeman suunnittelu, hakemistojen ja kyselyiden luominen ja normalisointi, joista sinun on huolehdittava yhdistäessäsi SQL: tä Hadoopiin, ja saatat kuluttaa paljon aikaa ja vaivaa. Kaikkien näiden ponnistelujen jälkeen ei ole mitään takeita siitä, että olet suorittanut jotain pysyvää. Jos jotain, sovelluksen muuttuessa, sinulta voidaan joutua tekemään uudelleen jo tekemäsi. SQL: n sijasta tulisi suorittaa iso datakeskeinen kehitys Java- ja Python-pohjalta, koska nämä kielet soveltuvat paremmin jäsentämättömään tietojenkäsittelyyn.

johtopäätös

Tuomaristo selvittää edelleen, onko SQL Hadoopilla vastaus Hadoopin käyttöön liittyvien ihmisten ongelmiin. Mutta selvästi teollisuus tarvitsee paremman vaihtoehdon Hadoopin omille tiedonhakuominaisuuksille, ja tämän vaihtoehdon on oltava vuorovaikutteinen. Hadoop-työkalujen SQL tarjoaa interaktiivista analysointia, josta on hyötyä. Yritykset eivät halua tuhlata aikaa yrittäessään järkevää monimutkaisesta, aikaa vievästä analyysista. Toistaiseksi yritykset pitävät SQL: ää Hadoop-työkaluilla erittäin hyödyllisinä.