Miksi Spark on tulevaisuuden big data -alusta

Video: Digiammatit: Data Science Manager | Jonne Heikkinen

Sisältö

Mikä on Apache Spark?
Miksi Spark on niin tärkeä Hadoopilla
Mitä Sparksilla on ainutlaatuisia ominaisuuksia?
Miksi Spark ei ole korvaus Hadoopille
Mitä yritykset ajattelevat Sparkista ja Hadoopista
Käytännön toteutukset
johtopäätös

Lähde: Snake3d / Dreamstime.com

Ottaa mukaan:

Apache Spark on avoimen lähdekoodin työkalu suurten tietojen käsittelyyn, joka hiipii Hadoopissa (ja tietyllä tavalla ylittää sen).

Apache Hadoop on jo pitkään ollut perustana suurille datasovelluksille, ja sitä pidetään perustietoalustana kaikille isoihin tietoihin liittyville tarjouksille. Muistitietokanta ja laskenta ovat kuitenkin kasvussa nopeamman suorituskyvyn ja nopeiden tulosten vuoksi. Apache Spark on uusi kehys, joka käyttää muistin ominaisuuksia nopeaan käsittelyyn (melkein 100 kertaa nopeampi kuin Hadoop). Joten Spark-tuotetta käytetään yhä enemmän suurten tietojen maailmassa ja pääasiassa nopeampaan käsittelyyn.

Mikä on Apache Spark?

Apache Spark on avoimen lähdekoodin kehys käsittelemään valtavia tietomääriä (suuria tietoja) nopeudella ja yksinkertaisuudella. Se soveltuu isoihin tietoihin perustuviin analytiikkasovelluksiin. Kipinää voidaan käyttää Hadoop-ympäristössä, itsenäisenä tai pilvessä. Se kehitettiin Kalifornian yliopistossa ja tarjottiin myöhemmin Apache Software Foundation -säätiölle. Siksi se kuuluu avoimen lähdekoodin yhteisöön ja voi olla erittäin kustannustehokas, mikä antaa amatööri-kehittäjille mahdollisuuden työskennellä helposti. (Lisätietoja Hadoops-avoimesta lähdekoodista on artikkelissa Mikä on avoimen lähdekoodin vaikutus Apache Hadoop -ekosysteemiin?)

Sparkin päätarkoitus on, että se tarjoaa kehittäjille sovelluskehyksen, joka toimii keskitetyn tietorakenteen ympärillä. Spark on myös erittäin tehokas ja sillä on luontainen kyky käsitellä nopeasti suuria määriä dataa nopeasti lyhyessä ajassa, mikä tarjoaa erittäin hyvän suorituskyvyn.Tämä tekee siitä paljon nopeamman kuin sen, jonka sanotaan olevan sen lähin kilpailija, Hadoop.

Miksi Spark on niin tärkeä Hadoopilla

Apache Spark on aina ollut tiedossa, että se ohittaa Hadoopin useissa ominaisuuksissa, mikä todennäköisesti selittää miksi se on edelleen niin tärkeä. Yksi tärkeimmistä syistä tähän olisi käsittelyn nopeuden huomioon ottaminen. Itse asiassa, kuten edellä jo todettiin, Spark tarjoaa noin 100 kertaa nopeamman prosessoinnin kuin Hadoopin MapReduce samalla määrällä dataa. Se käyttää myös huomattavasti vähemmän resursseja verrattuna Hadoopiin, mikä tekee siitä kustannustehokkaan.

Toinen keskeinen näkökohta, jolla Sparkilla on etäisyys, on yhteensopivuus resurssienhallinnan kanssa. Apache Sparkin tiedetään ajavan Hadoopin kanssa, samoin kuin MapReduce kuitenkin, jälkimmäinen on tällä hetkellä yhteensopiva vain Hadoopin kanssa. Apache Spark voi kuitenkin toimia muiden resurssienhallintojen, kuten YARN tai Mesos, kanssa. Tietotieteilijät mainitsevat tämän usein yhtenä suurimmista alueista, joilla Spark todella ylittää Hadoopin.

Helppokäyttöisyyden suhteen Spark taas sattuu olemaan paljon parempi kuin Hadoop. Sparkilla on sovellusliittymiä useille kielille, kuten Scala, Java ja Python, Spark SQL: n kaltaisten ominaisuuksien lisäksi. Käyttäjän määrittämien toimintojen kirjoittaminen on suhteellisen helppoa. Se sattuu myös ylpeillä interaktiivisella moodilla komentojen suorittamiseen. Toisaalta Hadoop on kirjoitettu Java-kielellä ja on ansainnut maineen, että sitä on aika vaikea ohjelmoida, vaikka siinä onkin työkaluja, jotka auttavat prosessissa. (Lisätietoja Sparkista on ohjeaiheessa Kuinka Apache Spark auttaa nopeaa sovelluskehitystä.)

Mitä Sparksilla on ainutlaatuisia ominaisuuksia?

Apache Sparkilla on joitain ainutlaatuisia ominaisuuksia, jotka erottavat sen todella monista kilpailijoistaan tietojenkäsittelyn alalla. Joitakin näistä on kuvattu lyhyesti jäljempänä.

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Sparkilla on myös luontainen kyky ladata tarvittava tieto ytimeen koneoppimisalgoritmien avulla. Tämän ansiosta se on erittäin nopea.

Apache Spark tarjoaa kyvyn käsitellä kuvaajia tai jopa graafisen luonteen mukaisia tietoja, mikä mahdollistaa helpon analysoinnin suurella tarkkuudella.

Apache Sparkilla on MLib, joka on kehys, joka on tarkoitettu rakenteelliseen koneoppimiseen. Se on myös pääasiassa nopeampi toteuttaa kuin Hadoop. MLib pystyy myös ratkaisemaan useita ongelmia, kuten tilastollisen lukemisen, datanäytteen ja lähtötilanteen testauksen, muutamia mainitakseni.

Miksi Spark ei ole korvaus Hadoopille

Huolimatta siitä, että Sparkilla on useita näkökohtia, joissa se lyö Hadoopin kädet alas, on yhä useita syitä, miksi se ei voi vielä korvata Hadoopia.

Ensinnäkin Hadoop tarjoaa yksinkertaisesti suuremman työkalusarjan verrattuna Sparkiin. Sillä on myös useita teollisuuden tunnustettuja käytäntöjä. Apache Spark on kuitenkin edelleen suhteellisen nuori verkkotunnuksessa ja tarvitsee jonkin aikaa saadakseen itsensä tasolle Hadoopin kanssa.

Hadoopin MapReduce on myös asettanut tietyt teollisuusstandardit täysimittaisen toiminnan suorittamisessa. Toisaalta uskotaan edelleen, että Spark ei ole täysin valmis toimimaan täysin luotettavasti. Usein Sparkia käyttävien organisaatioiden on hienosäädettävä sitä, jotta se olisi valmis vaatimuksiinsa.

Hadoopin MapReduce, joka on ollut pidempään kuin Spark, on myös helpompi määrittää. Näin ei kuitenkaan ole Sparkin tapauksessa, kun otetaan huomioon, että se tarjoaa aivan uuden alustan, jota ei ole todella testattu karkeilla korjauksilla.

Mitä yritykset ajattelevat Sparkista ja Hadoopista

Monet yritykset ovat jo alkaneet käyttää Sparkia tietojenkäsittelytarpeisiinsa, mutta tarina ei lopu siihen. Sillä on varmasti useita vahvoja näkökohtia, jotka tekevät siitä uskomattoman tietojenkäsittelyalustan. Siihen sisältyy kuitenkin myös kohtuullinen osuus haitoista, jotka on korjattava.

On alan käsitys, että Apache Spark on täällä jäädäkseen ja on mahdollisesti tulevaisuus tietojenkäsittelytarpeille. Sille on kuitenkin vielä tehtävä paljon kehitystyötä ja kiillotusta, jonka avulla se voi todella hyödyntää mahdollisuuksiaan.

Käytännön toteutukset

Apache Spark on ollut ja on edelleen käytössä lukuisissa yrityksissä, jotka vastaavat niiden tietojenkäsittelyvaatimuksia. Yksi menestyneimmistä toteutuksista toteutettiin Shopify, joka pyrki valitsemaan soveltuvia myymälöitä yritysyhteistyöhön. Tietovarasto piti kuitenkin aikataulun, kun se halusi ymmärtää asiakkaidensa myymiä tuotteita. Sparkin avulla yritys pystyi käsittelemään useita miljoonia tietueita ja käsittelemään sitten 67 miljoonaa tietuetta muutamassa minuutissa. Se määritteli myös mitkä kaupat olivat tukikelpoisia.

Sparkin avulla Pinterest pystyy tunnistamaan kehittyvät trendit ja käyttää sitä sitten käyttäjien käyttäytymisen ymmärtämiseen. Tämä mahdollistaa entistä paremman arvon Pinterest-yhteisössä. Sparkia käyttää myös TripAdvisor, yksi maailman suurimmista matkustustietosivustoista, nopeuttaakseen suosituksiaan kävijöille.

johtopäätös

Ei voi epäillä Apache Sparkin kykyä edes tällä hetkellä ja ainutlaatuisia ominaisuuksia, jotka se tuo pöytään. Sen prosessointiteho ja nopeus sekä yhteensopivuus luovat äänen useille tulevaisuuden asioille. Sillä on kuitenkin myös useita aloja, joita on parannettava, jotta sen potentiaali voidaan todella hyödyntää. Vaikka Hadoop hallitsee edelleen juurikaan tällä hetkellä, Apache Sparkilla on tulevaisuuden valoisa tulevaisuus, ja monet pitävät sitä tulevaisuuden alustana tietojenkäsittelyvaatimuksille.