Kudu: Pelivaihdin Hadoopin ekosysteemissä?

Sisältö

Mikä on Kudu?
Mikä on Kuduksen nykytila?
Kuinka Kudu voi täydentää HDFS / HBase -sovellusta?
Kudu-kehyksen ominaisuudet
Kuinka Kudu voi muuttaa Hadoop-ekosysteemiä?
Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi
johtopäätös

Lähde: Agsandrew / Dreamstime.com

Ottaa mukaan:

Kudu on avoimen lähdekoodin projekti, joka auttaa hallitsemaan varastointia tehokkaammin.

Kudu on uusi avoimen lähdekoodin projekti, joka tarjoaa päivitettävän tallennustilan. Se on täydennys HDFS / HBase: hen, joka tarjoaa peräkkäisen ja vain luku -tyyppisen tallennuksen. Kudu soveltuu paremmin nopean datan nopeaan analysointiin, mikä on tällä hetkellä liiketoiminnan kysyntää. Joten Kudu ei ole vain uusi Hadoop-ekosysteemiprojekti, vaan sillä on potentiaalia muuttaa markkinoita. (Lisätietoja Hadoopista, katso 10 tärkeintä Hadoopin termeä, jotka sinun on tiedettävä ja ymmärrettävä.)

Mikä on Kudu?

Kudu on erityinen säilytysjärjestelmä, joka tallentaa jäsenneltyä tietoa taulukkojen muodossa. Jokaisessa taulukossa on ennalta määritettyjen sarakkeiden lukumäärä. Jokaisella heistä on ensisijainen avain, joka on oikeastaan ryhmä yhdestä tai useammasta taulukon sarakkeesta. Tämä ensisijainen avain on tehty lisäämään rajoitus ja varmistamaan sarakkeet. Se toimii myös hakemistona, joka mahdollistaa helpon päivityksen ja poistamisen. Nämä taulukot ovat sarja tietojoukkoja, joita kutsutaan tableteiksi.

Mikä on Kuduksen nykytila?

Kudu on todella hyvin kehittynyt ja siihen liittyy jo paljon ominaisuuksia. Se tarvitsee kuitenkin vielä hiomista, joka voidaan tehdä helpommin, jos käyttäjät ehdottavat ja tekevät joitain muutoksia.

Kudu on täysin avoimen lähdekoodin oma, ja sillä on Apache Software License 2.0. Se on tarkoitettu toimitettavaksi myös Apachelle, jotta sitä voidaan kehittää Apache-inkubaattoriprojektiksi. Tämä antaa sen kehitykselle etua vielä nopeammin ja kasvattaa edelleen yleisöä. Tietyn ajan kuluttua Kudun kehitys tehdään julkisesti ja avoimesti. Monet yritykset, kuten AtScale, Xiaomi, Intel ja Splice Machine, ovat liittyneet toisiinsa osallistuakseen Kudun kehittämiseen. Kudulla on myös suuri yhteisö, jossa suuri joukko yleisöjä tarjoaa jo ehdotuksiaan ja mielipiteitään. Joten ihmiset ovat, jotka ajavat Kudun kehitystä eteenpäin.

Kuinka Kudu voi täydentää HDFS / HBase -sovellusta?

Kudu ei ole tarkoitettu korvaamaan HDFS / HBase. Se on todella suunniteltu tukemaan sekä HBasea että HFDS: ää ja toimimaan niiden rinnalla parantamaan niiden ominaisuuksia. Tämä johtuu siitä, että HBase: lla ja HDFS: llä on edelleen monia ominaisuuksia, jotka tekevät niistä tehokkaampia kuin Kudu tietyissä koneissa. Kaiken kaikkiaan tällaiset koneet saavat enemmän hyötyä näistä järjestelmistä.

Kudu-kehyksen ominaisuudet

Kudu-kehyksen pääpiirteet ovat seuraavat:

Erittäin nopeat taulukon sarakkeiden skannaukset - Parhaat tietomuodot, kuten Parketti ja ORCFile, tarvitsevat parhaat skannausmenetelmät, joihin Kudu vastaa täydellisesti. Tällaiset muodot tarvitsevat nopeita tarkistuksia, jotka voivat tapahtua vain, kun pylvästiedot koodataan oikein.
Suorituskyvyn luotettavuus - Kudu-kehys lisää Hadoopin yleistä luotettavuutta sulkemalla monet Hadoopin aukot ja aukot.
Helppo integrointi Hadoopin kanssa - Kudu voidaan integroida helposti Hadoopin ja sen eri komponenttien kanssa lisää tehokkuutta.
Täysin avoin lähdekoodi - Kudu on avoimen lähdekoodin järjestelmä, jolla on Apache 2.0 -lisenssi. Sillä on suuri joukko kehittäjiä eri yrityksistä ja taustoista, jotka päivittävät sitä säännöllisesti ja tarjoavat muutosehdotuksia.

Kuinka Kudu voi muuttaa Hadoop-ekosysteemiä?

Kudu rakennettiin sopimaan Hadoopin ekosysteemiin ja parantamaan sen ominaisuuksia. Se voidaan integroida myös joihinkin Hadoopin tärkeimpiin komponentteihin, kuten MapReduce, HBase ja HDFS. MapReduce-työt voivat joko tarjota tietoja tai ottaa tietoja Kudu-taulukoista. Näitä ominaisuuksia voidaan käyttää myös Sparkissa. Erikoiskerros antaa joitain Spark-komponentteja, kuten Spark SQL ja DataFrame, Kudun käyttöön. Vaikka Kudua ei ole kehitetty niin paljon, että se korvaa nämä ominaisuudet, arvioidaan, että muutaman vuoden kuluttua sitä kehitetään niin, että se voi tehdä niin. Siihen asti Hadoopin ja Kudun välinen integraatio on todella hyödyllinen ja voi täyttää Hadoopin ekosysteemin suuret aukot. (Lisätietoja Apache Sparkista on ohjeaiheessa Kuinka Apache Spark auttaa nopeaa sovelluskehitystä.)

Kudu voidaan toteuttaa monissa paikoissa. Seuraavassa on joitain esimerkkejä tällaisista paikoista:

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Tulojen suoratoisto melkein reaaliajassa - Paikoissa, joissa tulot on vastaanotettava ASAP: lla, Kudu voi tehdä merkittävän työn. Esimerkki tällaisesta paikasta on yrityksissä, joissa suuria määriä dynaamisia tietoja tulvii eri lähteistä, ja ne on saatettava nopeasti saataville reaaliajassa.
Aikasarjasovellukset, joilla on erilaiset käyttötavat - Kudu on täydellinen aikasarjapohjaisille sovelluksille, koska taulukkojen asettaminen ja niiden skannaaminen on yksinkertaisempaa. Esimerkki tällaisesta käytöstä on tavarataloissa, joissa vanhat tiedot on löydettävä nopeasti ja käsiteltävä tuotteiden tulevan suosion ennustamiseksi.
Vanhat järjestelmät - Monet yritykset, jotka saavat tietoa eri lähteistä ja tallentavat niitä eri työasemille, tuntevat olonsa kudun kanssa kotoisaksi. Kudu on erittäin nopea ja pystyy integroimaan tehokkaasti Impalan kanssa kaikkien koneiden tietojen käsittelyyn.
Ennustava mallintaminen - Tietoteknikot, jotka haluavat hyvän mallintamisalustan, voivat käyttää Kudua. Kudu voi oppia jokaisesta siihen syötetystä datajoukosta. Tiedemies voi ajaa ja ajaa mallia toistuvasti nähdäksesi mitä tapahtuu.

johtopäätös

Vaikka Kudu on vielä kehitysvaiheessa, sillä on tarpeeksi potentiaalia olla hyvä lisäosa tavallisille Hadoop-komponenteille, kuten HDFS ja HBase. Sillä on tarpeeksi potentiaalia muuttaa Hadoop-ekosysteemiä kokonaan täyttämällä kaikki aukot ja lisäämällä myös joitain muita ominaisuuksia. Se on myös erittäin nopea ja tehokas ja voi auttaa suurten tietotaulukoiden nopeasti analysoinnissa ja tallentamisessa. Sitä on kuitenkin vielä jäljellä, jotta sitä voitaisiin käyttää tehokkaammin.