10 tärkeintä Hadoop-termiä, jotka sinun on tiedettävä ja ymmärrettävä

Sisältö

Mutta ensin katsaus kuinka Hadoop toimii
Hadoop Yhteinen
Hadoopin hajautettu tiedostojärjestelmä (HDFS)
MapReduce
HBase
Pesä
Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi
Apache Pig
Apache Spark
Apache Cassandra
Vielä yksi resurssineuvottelija (lanka)
Impala

Lähde: Trueffelpix / Dreamstime.com

Ottaa mukaan:

Jotta ymmärrät suurta tietoa todella, sinun on ymmärrettävä vähän Hadoopista ja sen ympärillä olevasta kielestä.

Suuria tietoja, tarttuvaa nimeä rakenteellisen, jäsentämättömän tai osittain jäsentämättömän massan määrille, on tunnetusti vaikea kaapata, tallentaa, hallita, jakaa, analysoida ja visualisoida, ainakin käyttämällä perinteisiä tietokanta- ja ohjelmistosovelluksia. Siksi isoilla tietotekniikoilla on potentiaalia hallita ja käsitellä valtavia tietomääriä tehokkaasti ja toimivasti. Ja sen Apache Hadoop, joka tarjoaa puitteet ja niihin liittyvät tekniikat suurten tietojoukkojen käsittelemiseksi tietokoneiden klusterien yli hajautetulla tavalla. Joten jotta ymmärrät tosiasiallisesti suuria tietoja, sinun on ymmärrettävä vähän Hadoopista. Täällä voit myös katsoa Hadoopin suhteen kuulemasi termejä - ja mitä ne tarkoittavat.

Mutta ensin katsaus kuinka Hadoop toimii

Ennen kuin siirryt Hadoop-ekosysteemiin, sinun on ymmärrettävä kaksi perustavanlaatuista asiaa selvästi. Ensimmäinen tapa on, kuinka tiedosto tallennetaan Hadoopiin; toinen on kuinka tallennetut tiedot käsitellään. Kaikki Hadoop-tekniikat toimivat pääasiassa näillä kahdella alueella ja tekevät siitä käyttäjäystävällisemmän. (Hanki perusteet Hadoopin toiminnasta artikkelissa Kuinka Hadoop auttaa ratkaisemaan suurten tietojen ongelma.)

Nyt ehdot.

Hadoop Yhteinen

Hadoop-kehyksessä on erilaisia moduuleja erilaisille toiminnoille ja nämä moduulit voivat olla vuorovaikutuksessa keskenään useista syistä. Hadoop Common voidaan määritellä yhteiseksi apuohjelmakirjastoksi, joka tukee näitä moduuleja Hadoop-ekosysteemissä. Nämä apuohjelmat ovat pohjimmiltaan Java-pohjaisia, arkistoituja (JAR) tiedostoja. Ohjelmoijat ja kehittäjät käyttävät näitä apuohjelmia lähinnä kehittämisaikana.

Hadoopin hajautettu tiedostojärjestelmä (HDFS)

Hadoopin hajautettu tiedostojärjestelmä (HDFS) on Apache Hadoopin osaprojekti Apache Software Foundation -säätiön puitteissa. Tämä on Hadoop-kehyksen tallennuksen selkäranka. Se on hajautettu, skaalautuva ja vikasietoinen tiedostojärjestelmä, joka ulottuu useiden Hadoop-klusteriksi kutsuttujen hyödykelaitteiden yli. HDFS: n tavoitteena on tallentaa valtava määrä tietoa luotettavasti ja korkealla suorituskyvyllä pääsyä sovellustietoihin. HDFS noudattaa isäntä / orja-arkkitehtuuria, jossa isäntä tunnetaan nimellä NameNode ja orjat tunnetaan nimellä DataNodes.

MapReduce

Hadoop MapReduce on myös Apache Software Foundation -säätiön alaprojekti. MapReduce on oikeastaan ohjelmistokehys, joka on kirjoitettu vain Java-kielellä. Sen päätavoite on prosessoida suuria tietoaineistoja hajautetussa ympäristössä (koostuu hyödykelaitteistosta) täysin rinnakkain. Kehys hallitsee kaikkia toimintoja, kuten työn ajoittamista, seurantaa, toteuttamista ja uudelleen suorittamista (epäonnistuneissa tehtävissä).

HBase

Apache HBase tunnetaan nimellä Hadoop-tietokanta. Se on sarakkeellinen, hajautettu ja skaalautuva iso tietovarasto. Se tunnetaan myös tyyppinä NoSQL-tietokanta, joka ei ole relaatiotietokannan hallintajärjestelmä. HBase-sovellukset kirjoitetaan myös Java-versiossa, rakennetaan Hadoopin päälle ja toimivat HDFS: llä. HBase-tietokantaa käytetään, kun tarvitset reaaliaikaista lukemista / kirjoittamista ja satunnaista pääsyä isoihin tietoihin. HBase on mallinnettu Googles BigTable -konseptien perusteella.

Pesä

Apache Hive on avoimen lähdekoodin tietovarasto-ohjelmistojärjestelmä. Hive kehitettiin alun perin ennen kuin se tuli Apache Software Foundation -säätiön alaisuuteen ja siitä tuli avoimen lähdekoodin ohjelmisto. Se helpottaa suurten tietojoukkojen hallintaa ja kyselyä hajautetussa Hadoop-yhteensopivassa tallennustilassa. Hive suorittaa kaikki toiminnot käyttämällä SQL-tyyppistä kieltä, jota kutsutaan HiveQL: ksi. (Lisätietoja lyhyt esittely Apache-pesään ja sikaan.)

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Apache Pig

Yahoo aloitti sian alun perin MapReduce-töiden kehittämisessä ja suorittamisessa suurelle määrälle hajautettua dataa. Nyt siitä on tullut avoimen lähdekoodin projekti Apache Software Foundation -säätiön alaisuudessa. Apache Pig voidaan määritellä alustaksi erittäin suurten tietojoukkojen tehokkaalle analysoinnille. Sikojen infrastruktuurikerros tuottaa jaksoja MapReduce-töitä varsinaisen käsittelyn suorittamiseksi. Sikojen kielikerros tunnetaan nimellä Pig Latin, ja se tarjoaa SQL-kaltaisia ominaisuuksia kyselyjen suorittamiseen hajautettuihin tietojoukkoihin.

Apache Spark

Spark on alun perin kehittänyt AMPLab UC Berkeleyssa. Siitä tuli Apache-ylimmän tason projekti helmikuussa 2014. Apache Spark voidaan määritellä avoimen lähdekoodin, yleiskäyttöiseksi, klusterinlaskennan kehykseksi, joka tekee tietojen analysoinnista paljon nopeampaa. Se on rakennettu Hadoop-hajautetun tiedostojärjestelmän päälle, mutta sitä ei ole linkitetty MapReduce-kehykseen. Sparks-suorituskyky on paljon nopeampi kuin MapReduce. Se tarjoaa korkean tason sovellusliittymiä Scalassa, Pythonissa ja Javassa.

Apache Cassandra

Apache Cassandra on toinen avoimen lähdekoodin NoSQL-tietokanta. Cassandraa käytetään laajasti hallitsemaan suuria määriä jäsenneltyjä, osittain jäsenneltyjä ja jäsentämättömiä tietoväliä useissa tietokeskuksissa ja pilvitallennuksessa. Cassandra on suunniteltu "päättömään" arkkitehtuuriin, mikä tarkoittaa, että se ei tue isäntä / orja-mallia. Tässä arkkitehtuurissa kaikki solmut ovat samat ja tiedot jakautuvat automaattisesti ja tasaisesti kaikille solmuille. Cassandran tärkeimpiä ominaisuuksia ovat jatkuva saatavuus, lineaarinen skaalautuvuus, sisäänrakennettu / muokattava replikointi, mikään yksittäinen vikakohta ja toiminnan yksinkertaisuus.

Vielä yksi resurssineuvottelija (lanka)

Vielä toinen resurssineuvottelija (YARN) tunnetaan myös nimellä MapReduce 2.0, mutta se kuuluu tosiasiallisesti Hadoop 2.0: n alaan. Lanka voidaan määritellä työn ajoitus- ja resurssienhallintakehykseksi. YARNin perusajatuksena on korvata JobTrackerin toiminnot kahdella erillisellä daemonilla, jotka vastaavat resurssien hallinnasta ja ajoittamisesta / seurannasta. Tässä uudessa kehyksessä on globaali ResourceManager (RM) ja sovelluskohtainen isäntä, joka tunnetaan nimellä ApplicationMaster (AM). Globaali ResourceManager (RM) ja NodeManager (per solmu orja) muodostavat todellisen datan laskentakehyksen. Nykyisiä MapReduce v1 -sovelluksia voidaan myös ajaa YARN: ssä, mutta ne on käännettävä uudelleen Hadoop2.x-purkkeihin.

Impala

Impala voidaan määritellä SQL-kyselymoottoriksi, jolla on valtava rinnakkaiskäsittely (MPP) teho. Se toimii natiivisti Apache Hadoop -kehyksessä. Impala on suunniteltu osaksi Hadoop-ekosysteemiä. Siinä on sama joustava tiedostojärjestelmä (HDFS), metatiedot, resurssienhallinta ja suojauskehykset kuin muissa Hadoop-ekosysteemikomponenteissa. Tärkeintä on huomata, että Impala on paljon nopeampi kyselyjen käsittelyssä kuin Hive. Mutta meidän on myös muistettava, että Impala on tarkoitettu pienen tietosarjan kyselyyn / analysointiin, ja se on suunniteltu pääasiassa analysointityökaluksi, joka toimii käsitellyssä ja jäsennellyssä tiedossa.

Hadoop on tärkeä aihe IT: ssä, mutta on niitä, jotka suhtautuvat skeptisesti sen pitkän aikavälin kannattavuuteen. Lue lisää aiheesta Mikä on Hadoop? Cynics Theory.