Avain laadukkaaseen big data -analytiikkaan: erilaisten ymmärtäminen - TechWise Episode 4 -kopio

Kirjoittaja: Roger Morrison
Luomispäivä: 17 Syyskuu 2021
Päivityspäivä: 21 Kesäkuu 2024
Anonim
Avain laadukkaaseen big data -analytiikkaan: erilaisten ymmärtäminen - TechWise Episode 4 -kopio - Tekniikka
Avain laadukkaaseen big data -analytiikkaan: erilaisten ymmärtäminen - TechWise Episode 4 -kopio - Tekniikka

Sisältö


Lähde: Jakub Jirsak / Dreamstime.com

Ottaa mukaan:

Isäntä Eric Kavanagh keskustelee isojen tietojen analysoinnista alan asiantuntijoiden kanssa.

Eric: Hyvät naiset ja herrat, on vuoden 2014 loppu - ainakin melkein. Se on vuoden viimeinen verkkolähetyksemme, ihmiset! Tervetuloa TechWise: lle! Todellakin! Nimeni on Eric Kavanagh. Minä olen moderaattorisi mahtavaan verkkolähetykseen, ihmiset. Olen todella, todella innoissani. Meillä on verkossa kaksi mahtavaa analyytikkoa ja kaksi hienoa yritystä - todellisia innovaatioita tässä koko suuressa tietoekosysteemissä. Ja aiomme puhua kaikkea avainta isojen tietojen analysointiin on erojen ymmärtäminen. Joten mennään eteenpäin ja sukellaan oikealle, ihmiset.


Meillä on useita esittelijöitä. Kuten huomaat, yläosassa on todella sinun. Mike Ferguson soittaa aina Yhdistyneestä kuningaskunnasta, missä hänen täytyi saada erityisiä etuoikeuksia jäädäkseen toimistotaloonsa myöhään. Se on kuinka myöhäistä hänelle on. Meillä on tohtori Robin Bloor, oma pääanalyytikomme täällä Bloor-ryhmässä. Ja meillä on RedPoint Globalin toimitusjohtaja ja perustaja George Corugedo ja SAS-instituutin vanhempi ratkaisuarkkitehti Keith Renison. Nämä ovat fantastisia yrityksiä, ihmiset. Nämä ovat yrityksiä, jotka todella innovoivat. Ja aiomme kaivata hyviä juttuja siitä, mitä siellä tapahtuu tällä hetkellä koko isojen tietojen maailmassa. Ja katsokaamme sitä, että pieni tieto ei ole kadonnut. Ja siihen, annan tässä yhteenvedon.



Joten, siellä on vanha ranskalainen ilmaus: "Mitä enemmän asiat muuttuvat, sitä enemmän ne pysyvät samoina." Katsotaanpa tässä joitain tosiasioita - iso data ei ratkaise pienen datan ongelmia. Yritysten pieni tieto on edelleen siellä. Se on edelleen kaikkialla. Se on toiminnan polttoaine nykypäivän tietotaloudelle. Ja iso data tarjoaa komplimenttia näistä ns. Pienyritystiedoista, mutta se ei syrjäytä pieniä tietoja. Se on edelleen noin. Pidän monista asioista isoista tiedoista, erityisesti sellaisista kuin koneella tuotetut tiedot.


Ja tänään puhumme todennäköisesti vähän sosiaalisen median tiedoista, jotka ovat myös erittäin voimakkaita juttuja. Ja jos mietit esimerkiksi kuinka sosiaalinen toiminta on muuttanut liiketoimintaa, ajatelkaapa tässä kolmea nopeaa verkkosivustoa:, LinkedIn ja. Ajattele sitä tosiasiaa, että viisi vuotta sitten kukaan ei tehnyt tällaista. on ehdoton juggernaut nykyään. , tietenkin, on valtava. Se on mahtavaa. Ja sitten, LinkedIn on tosiasiallinen standardi yritysten verkottumiselle ja viestinnälle. Nämä sivustot ovat humongoisia, ja jotta ne voisivat hyödyntää niissä olevia tietoja, se elvyttää joitain peliä muuttavia toimintoja. Se tuo todella paljon hyötyä monille organisaatioille - ainakin niille, jotka hyödyntävät sitä.



Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Joten hallinto - hallinto on edelleen merkityksellinen. Jälleen iso tieto ei poista hallinnon tarvetta. Aivan rehellisesti, on aivan uusi tarve keskittyä siihen, miten hallita isojen tietojen maailmaa. Kuinka varmistat, että menettelyt ja politiikka ovat paikallaan; että oikeat ihmiset saavat oikeat tiedot; että sinulla on yhteyshenkilöitä, oletko täällä ollut mukana sukulaisuudessa? Itse tiedät mistä tiedot ovat peräisin, mitä niille on tapahtunut. Ja se kaikki muuttuu.


Olen rehellisesti sanottuna todella vaikuttunut siitä, mitä olen nähnyt siellä tässä kokonaan uudessa maailmassa, joka hyödyntää Hadoop-ekosysteemiä, mikä on tietysti paljon enemmän kuin varastointi toiminnallisuuden kannalta. Hadoop on myös laskennallinen moottori. Ja yrityksen on selvitettävä, kuinka valjastaa tämä laskentateho, rinnakkaisprosessointikyky. He tekevät todella, todella hienoja asioita. Opimme siitä tänään.


Toinen mainittava asia, josta Dr. Bloor on puhunut viime aikoina, on se, että innovaatioaalto ei ole ohi. Joten, olemme nähneet paljon tietenkin huomiota Hadoopin ympärillä. Olemme nähneet Clouderan ja Hortonworksin kaltaisia ​​yrityksiä, todellakin tekemässä aaltoja. Ja he kehittävät kumppanuuksia hyvin kutsuneiden yritysten kanssa tänään, rehellisesti sanottuna. Ja he kehittävät kumppanuuksia, joissa on paljon ihmisiä. Mutta innovaatioaalto ei ole ohi. Apache-säätiöstä kehräytyy lisää projekteja, jotka eivät muutu vain loppupisteeseen, jos haluat - ihmisten käyttämiin sovelluksiin -, mutta itse infrastruktuuriin.


Joten tämä koko langan kehitys - jälleen yksi resurssineuvottelija - on todella kuin käyttöjärjestelmä isoille tiedoille. Ja se on iso, iso juttu. Joten aiomme oppia kuinka tämä muuttaa myös asioita. Joten vain pari bittiä itsestään selviä neuvoja, ole varovainen pitkien sopimusten edetessä, tiedätkö, viiden, kymmenen vuoden sopimukset tulevat olemaan aalto, tie, joka minusta näyttää. Haluat välttää lukitsemisen hinnalla millä hyvänsä. Aiomme oppia kaikesta tästä tänään.


Joten, ensimmäinen tänään puhunut analyytikomme - koko ohjelman ensimmäinen puhuja on Mike Ferguson, joka soittaa Isosta-Britanniasta. Aion antaa sinulle avaimet, Mike, ja antaa sinun viedä se pois. Mike Ferguson, lattia on sinun.


Mike, oletko siellä? Saatat olla mykistetty. En kuule häntä. Meidän on ehkä soitettava hänelle takaisin. Ja hyppäämme vain oikealle Robin Bloorin dioille. Robin, aion tehdä täällä köyhän Mike Fergusonin. Aion mennä hetkeksi.


Onko se sinä, Mike? Kuuletko meitä? Ei. Luulen, että meidän on mentävä ensin Robinin kanssa. Joten, pidä yksi sekunti, ihmiset. Vedän myös linkkejä dioihin täällä muutamassa minuutissa. Joten sen jälkeen annan minun avaimet Robin Bloorille. Robin, voit mennä ensin Miken sijasta, ja soitan Mikelle sekunnissa.


Robin: Okei.


Eric: Pidä kiinni, Rob. Anna minun mennä eteenpäin ja viedä liukumäki tänne, Rob. Se vie hetken.


Robin: Okei.


Eric: Kyllä. Voit kuitenkin puhua siitä, mistä olemme tekemisissä, täällä hallintotavan suhteen. Tiedän, että aiot puhua hallintotavasta. Tätä tyypillisesti ajatellaan pienyritystietojen yhteydessä. Joten nyt minulla on kalvo ylös, Robin. Älä siirrä mitään. Ja täällä. Lattia on sinun. Ota se pois.


Robin: Okei. Joo. Tarkoitan, hyvin, meillä oli aikaisemmin sovittu, Mike puhui analyyttisestä puolella, ja puhun hallintotavasta. Jossain määrin hallinto noudattaa analytiikkaa siinä mielessä, että se on syy siihen, että teet suuria tietoja, ja syy siihen, että kokoat kaikki ohjelmistot analysointia varten, on siellä, missä arvo on.


Ongelma. Ja kysymys on siinä, että tiedät, että tiedot on hävitettävä. Tiedot on järjestettävä. Tiedot on koottava yhteen ja hallittava tavalla, joka mahdollistaa analytiikan tapahtuvan täysin varmasti - luulen, että se on sana. Joten ajattelin puhua olevan yhtälön hallintopuoli. Luulen, että sanottava asia on todella se, että tiedätte, että hallintotapa oli jo kysymys. Hallintotapa oli jo ongelma, ja siitä alkaa tulla koko tietovarastopelin aihe.


Mitä todella tapahtui, siitä on tullut paljon suurempi aihe. Ja syystä siitä on tullut paljon suurempi kysymys sekä enemmän tietoja, mutta tarkoitan, nämä ovat syyt, todella. Tietolähteiden määrä on kasvanut dramaattisesti. Aikaisemmin tietolähteet, jotka meillä on, määrittelivät suurelta osin mikä tahansa tietovarastoon syötetty. RTP-järjestelmät syöttävät normaalisti tietovaraston. Se on mahdollista vähän ulkoista tietoa, ei paljon.


Nyt olemme menneet maailmaan, jossa tietomarkkinat ovat olemassa tulossa, ja siksi siellä käydään kauppaa tiedoilla. Sinulla on jo kuormia ja kuormia erilaisia ​​streaming-tietolähteitä, jotka voit tosiasiallisesti tuoda organisaatioon. Meillä on sosiaalisen median tietoja, jotka ovat ottaneet heidät pois, niin sanotusti omalta osaltaan pois. Tarkoitan, että hirveä osa sosiaalisen median sivustojen arvosta on tosiasiallisesti niitä tietoja, jotka ne keräävät ja voivat siten tarjota ihmisten saataville.


Olemme myös löytäneet, tiedätkö, se on kuin ne olisivat jo olemassa. Meillä oli jo niitä lokitiedostoja, tiedätte, Splunkin tulossa. Ja pian tuli ilmeiseksi, että lokitiedostossa on arvoa. Joten organisaatiossa oli tietoja, jotka olivat - joita voimme kutsua uusiksi tietolähteiksi sekä ulkoisiksi lähteiksi. Joten, se on yksi asia. Ja se todella tarkoittaa, että tiedät mitä tahansa tietojen hallintaa koskevilla säännöillämme, joita meillä oli aikaisemmin, niiden on oltava tavalla tai toisella laajennettava, ja niitä on jatkettava, jotta ne voivat tosiasiallisesti hallita tiedot. Mutta olemme nyt alkaneet koota tavalla tai toisella.


Ja alaspäin tästä luettelosta meillä on suoratoisto ja tietojen saapumisnopeus. Yksi, mielestäni, Hadoopin suosion syistä on, että sitä voidaan melko paljon käyttää paljon tiedon saalisessa. Se voi myös käyttää tiedonsiirtonopeutta, että jos sinun ei tarvitse käyttää sitä heti, se on mukava rinnakkainen, valtava rinnakkaisympäristö. Mutta sinulla on myös tosiasia, että streaming-analytiikkaa on meneillään melkoisesti. Aikaisemmin pankkisektorit olivat kiinnostuneita sovellusten suoratoistosta, mutta nyt se on muuttunut tavallaan globaaliksi. Ja kaikki tarkastelevat sovellusten suoratoistoa tavalla tai toisella, potentiaalista keinoa saada arvoa tiedoista ja tehdä analytiikkaa organisaatiolle.


Meillä on jäsentelemättömät tiedot. Tilastotiedot, yleensä osa vain 10 prosenttia maailman tiedoista, olivat relaatiotietokannoissa. Nyt yksi tärkeimmistä syistä siihen oli enimmäkseen se, että se oli todella jäsentämätön, ja se oli - suuri osa siitä oli siellä verkossa, mutta melko paljon täynnä erilaisia ​​verkkosivustoja. Nämä tiedot ovat osoittautuneet myös analysoitavissa, myös käyttökelpoisiksi. Ja Symantec-tekniikan tullessa asteittain hiipumaan tilanteeseen on tulossa entistä enemmän.Joten, on todella tarpeen kerätä ja hallita jäsentämätöntä tietoa, ja se tarkoittaa, että se on paljon suurempi kuin ennen. Meillä on sosiaalinen tieto, jonka jo mainitsin, mutta asia, tärkein asia tässä, on se, että se todennäköisesti tarvitsee puhdistamista.


Meillä on esineiden Internet-tietoja. Se on eräänlainen tilanne. Sitä on todennäköisesti niin paljon, mutta suuren osan siitä täytyy pysyä jakelussa lähellä jotain sen käymää paikkaa. Mutta haluat myös tavalla tai toisella vetää sen tekemään analyyttisiä tietoja organisaation sisällä. Joten, se on lisätty vielä yksi tekijä. Ja nämä tiedot rakennetaan eri tavalla, koska se todennäköisesti - ne todennäköisesti alustetaan JSON: ään tai XML: ään, niin että se ilmoittaa itseään. Ja ei vain, tavalla tai toisella, että me todella vetämme tietoja sisään ja pystymme tekemään sellaista kaavaa lukemalla kyseistä tietopalaa.


Meillä on kysymys alkuperästä, ja tämä on analyyttinen kysymys. Minkä tahansa tekemäsi analyysin tuloksia ei todellakaan voida - jos haluat - hyväksyä, pitää voimassa pätevinä, ellet tiedä tietojen lähdettä. Tarkoitan, että se on vain ammattitaitoa tietotekijöiden toiminnassa. Mutta tiedätte, että meillä on datan alkuperä, se tarkoittaa, että meidän on tosiasiassa hallittava tietoja ja pidettävä muistiinpanoja sen alkuperästä.


Meillä on kysymys tietokoneen virrasta ja rinnakkaisista asioista, ja kaiken, mitä kaikki tekee, on, että kaikki etenee. Ongelmana on, että tietyt jo olemassa olevat prosessit voivat olla liian hitaita kaiken muun suhteen. Joten nopeudessa voi olla eroja.


Meillä on koneoppiminen. Koneoppimisella on todellakin tekeminen analytiikasta erilainen peli kuin se oli ennen. Mutta voit todella käyttää sitä vain, jos sinulla on voimaa.


Olemme saaneet tosi uudet analyyttiset työmäärät. Meillä on rinnakkaismaailma ja jotkut analyyttiset algoritmit on suoritettava rinnakkain maksimaalisen vaikutuksen saavuttamiseksi. Ja siksi ongelma tosiasiallisesti määrää sen, miten tosiasiallisesti tavalla tai toisella työnnät tietoja ympäri, annat tietoja, jos ne ovat saatavilla. Ja missä tosiasiallisesti suoritat analyyttisiä työkuormia, koska saatat tehdä sen tietokannassa. Joten saatat tehdä sen analyyttisissä sovelluksissa.


Joten, hallinnan haasteissa on koko joukko. Mitä teimme tänä vuonna - tutkimus, jonka teimme tänä vuonna, oli todella iso data-arkkitehtuurin ympärillä. Ja kun yritämme tosiasiallisesti yleistää sitä, johtopäätös, johon tulimme - kaavio, jonka keksimme, näytti paljon tältä.


En aio mennä tähän, varsinkin kun Mike aikoo tehdä kohtuullisen paljon analyyttisten tietojen arkkitehtuuriin. Mutta mitä haluan ihmisten keskittyvän vain tähän alaosaan, jolla olemme tavalla tai toisella kokoamassa tietoja. Meillä on jotain, johon haluaisin viitata, tietojenkäsittelylaitos tai tietojenkäsittelyn keskiö. Ja siellä hallinto tapahtuu. Joten tiedät, että jos keskitymme tavallaan, se näyttää siltä. Tiedät, että sitä syövät sisäisistä ja ulkoisista lähteistä peräisin olevat tiedot. Keskittimen tulisi teoriassa ottaa kaiken luotavan tiedon. Se olisi joko suoratoistettava ja hallittava sellaisena kuin se virtataan, jos sinun on tehtävä analysointia ja virtaustietoa, ja siirrettävä sitten keskittimeen. Tai muuten, kaikki tulee keskittimeen. Ja on olemassa joukko asioita, jotka ovat meneillään - jotka menevät napaan. Eikä sinulla voi olla tiettyä määrää analytiikkaa ja SQL: ää meneillään keskittimessä. Mutta jokaisessa solussa on myös tarve tietojen virtualisointiin datan siirtämiseksi muille alueille. Mutta ennen kuin mitään tällaista tapahtuu, sinun on tosin tavalla tai toisella suoritettava tietojen valmistelun hienosäätö. Voit kutsua sitä tietojen valmisteluksi. Se on paljon suurempi. Nämä ovat asioita, jotka mielestäni siihen sisältyy.


Meillä on järjestelmänhallinta ja palvelunhallinta tietyssä mielessä, että tämä on suurin osa tietokerroksesta, niin meidän on itse asiassa sovellettava kaikkia järjestelmiä, jotka hallitsevat perinteisesti käyttöjärjestelmän hallintaa, joita olemme perinteisesti tehneet, melkein kaikkiin käyttöjärjestelmiin. Mutta tarvitsemme tavalla tai toisella myös tarkkailla muita meneillään olevia asioita varmistaaksemme, että nämä eri palvelutasot täyttyvät, koska siellä on ehdottomasti oltava määritellyt palvelutasot tai kaikenlainen analytiikka toimivina tai BI-tiedot ovat toimitaan.


Tarvitsemme suorituskyvyn seurantaa ja hallintaa. Tarvitsemme jotain muuta, jotta voimme tietää, mitä uusia tietokoneresursseja joudumme ehkä varaamaan eri ajankohtina. Mutta myös, todella suuri työmäärä on täällä, melko monimutkainen ja kilpailevat keskenään resursseista. Tällä alueella on tehtävä jotain melko hienostunutta.


Meillä on nyt tiedon elinkaari tavalla, jota meillä ei koskaan ollut ennen. Täällä oleva kauppa on oikeastaan ​​kaiken muun yläpuolella, että emme keränneet tietoja ja heittäneet sitä aikaisemmin. Pyrimme keräämään tarvitsemiamme tietoja ja todennäköisesti säilytimme sen, ja sitten arkistoimme sen. Mutta hirveä paljon siitä, mitä teemme tästä eteenpäin, on tietojen tutkiminen. Ja jos et halua tietoja, hautaamme ne pois. Joten, tietojen elinkaaret ovat eri asia tilanteesta riippuen, mutta ne ovat myös hirveästi enemmän aggregointia tietoja. Siksi tiedät, kun tiedät, mistä aggregaatti on peräisin siitä, mikä on aggregaation lähde ja niin edelleen ja niin edelleen. Se on kaikki välttämätöntä.


Datalinja lainaa luonnollisesti. Ilman sitä sinun on tiedettävä ongelmat, joten tiedot… Meidän on tiedettävä, että tiedot ovat kelvollisia, mutta kuinka luotettavia ne ovat.


Olemme saaneet myös tietojen kartoituksen, koska suuri osa tiedoista tulee tavalla tai toisella. Ja tämä tarkoittaa, jos haluat, tämä liittyy jossain määrin MDM: ssä. Se on vain, että se on paljon monimutkaisempi nyt, koska kun sinulla on hirveästi paljon tietoja, jotka JSON on määrittänyt tai jotka perustuvat luettavissa olevaan XML-järjestelmään, sinun on tavalla tai toisella oltava aktiivinen datan kartoitustoiminta käynnissä.


Metatietojen hallintatilanne on enemmän kuin MDM, koska on tavalla tai toisella tarpeen rakentaa mitä haluaisin ajatella nyt eräänlaisena metadata-varastona kaikesta, josta olet kiinnostunut. löytö, koska joidenkin tietojen metatiedot eivät välttämättä ole ilmoitettu, ja haluamme käyttää niitä välittömästi. Ja sitten tapahtuu tietojen puhdistus, mikä on valtava asia, kuinka sarjan asioita, joita siellä voi tehdä. Ja tietoturva on myös. Kaikki nämä tiedot on turvattava hyväksyttävälle tasolle, ja se saattaa jopa tarkoittaa tietyissä tapauksissa - esimerkiksi salaamalla paljon arvoja.


Joten kaikki tämä työmäärä on itse asiassa hallintoimperiumi. Kaiken tämän, tavalla tai toisella, on oltava koko analyyttisen aktiivisuutemme samanaikaista tai aiempaa. Tämä on suuri määrä koordinoituja sovelluksia. Se on itsenäinen järjestelmä. Ja sitten ne, jotka eivät tee sitä eri ajankohtina, kärsivät sen puutteesta etenemään eteenpäin, koska mahtava osa näistä asioista ei ole oikeastaan ​​valinnaista. Lopputuloksena on vain kasvava entropia, jos et tee niitä.


Joten tietojen analysoinnin ja hallinnan suhteen sanoisin, että todellakin, toinen käsi pesee toisen. Ilman hallintoa analytiikka ja BI eivät katoa ajoissa. Ja ilman analysointia ja BI: tä, tietojen hallintaan ei joka tapauksessa ole paljon tarvetta. Joten nämä kaksi asiaa todella kulkevat käsi kädessä. Kuten Lähi-idässä sanotaan, "toinen käsi pesee toisen". Ja se on todella kaikki mitä minun on sanottava. Toivon - toivottavasti olemme nyt saaneet Miken takaisin.


Eric: Meillä on. Mike, oletan että olet siellä. Aion työntää diasi ylös.


Mike: Olen. Okei, kuuletko minua?


Eric: Kyllä, kuulen sinut. Kuulostaa upealta. Joten anna minun esitellä ... Siellä sinä menet. Ja olet nyt esittelijä. Ota se pois.


Mike: Hyvä on, kiitos! Huomenta, hyvää iltapäivää, hyvää iltaa teille kaikille. Anteeksi hikka alussa. Jostain syystä olen vaiennut itseni ja näen kaikki, mutta he eivät voineet kuulla minua.


Hyvä on. Joten se, mitä haluan tehdä nopeasti, on puhua isojen tietojen analyyttisestä ekosysteemistä. Sanon, että jos haluat kysyä minulta kysymyksiä tässä istunnossa tai myöhemmin, voit saada minut tietooni täältä. Kuten totesin, keskellä yötä täällä Isossa-Britanniassa.


No, anna minun päästä mihin haluan puhua. On selvää, että viime vuosien aikana olemme nähneet kaikenlaisia ​​uusia löydettyjä tietoja, joita yritykset haluavat nyt analysoida - kaikkea napsautussuunnan tiedoista online-käyttäytymisen ymmärtämiseen ja sosiaalisen median tietoja, joista Eric puhui ohjelman alku täältä. Luulen, että Robin mainitsi JSON: n, BSON: n, XML: n - puoliksi jäsennellyn datan, joka kuvaa itseään. Tietenkin, meillä on myös koko tonni muita juttuja - kaikkea jäsentelemättömästä tiedosta, IT-infrastruktuurilokista ja anturitiedoista. Kaikki nämä suhteellisen uudet tietolähteet, joista yritykset ovat nyt kiinnostuneita, koska ne sisältävät arvokasta tietoa, joka voi syventää tietämäämme.


Joten se tarkoittaa periaatteessa, että analyyttinen maisema on siirtynyt perinteisen tietovarastoinnin ulkopuolelle. Rakennamme edelleen tietoja rakenteellisen ja monijärjestelmällisen datan yhdistelmän maailmaan, jossa monijärjestelmäinen tieto voisi monissa tapauksissa tulla yrityksen sisäpuolelta tai ulkopuolelta. Ja näiden uusien tietotyyppien ja uusien analysointitarpeiden seurauksena olemme nähneet uusien analyyttisten työmäärien syntymisen - kaiken liikkeessä olevan tiedon analysoinnista lähtien, mikä kääntää perinteisen tietovarastointiarkkitehtuurin päähänsä jonkin verran, missä me integroida tiedot, puhdistaa, muuntaa, tallentaa ja analysoida perinteisissä piireissä. Mutta analysoidessamme liikkeessä olevaa tietoa vangitsemme tiedot, integroimme ne, valmistelemme niitä analysoimalla ja tallentamalla sitten. Joten tiedoista analysoidaan, ennen kuin ne tallennetaan mihin tahansa.


Me analysoimme rakenteellisen tiedon monimutkaista, ehkä mallin kehittämistä, tilastollista ja ennustavaa mallin kehittämistä varten, mikä ei ole mitään uutta joillekin perinteisen tietovarastointitilan ihmisille. Meillä on tutkittava analyysi mallidatasta. Se on siellä jäsennellyn tiedon määrä. Meillä on uusia työtaakkoja graafisen analyysin muodossa, joka sisältää rahoituspalvelujen asiakkaille muun muassa petoksia. Se sisältää myös tietoverkkoturvallisuuden. Siihen sisältyy tietysti sosiaalisten verkostojen ymmärtäminen vaikuttajista ja vastaavista. Olen jopa oppinut sen johtamisessa, hänellä on muutaman vuoden graafinen analyysi.


Olemme saaneet tietovaraston optimoinnin tai ETL-prosessoinnin purkamisen, mikä on enemmän kuin tietynlainen IT-käytön tapaus, CIO saattaa rahoittaa sitä. Ja jopa tietojen ja tietovarastojen arkistointi pitämään sitä verkossa esimerkiksi Hadoopin tapaan. Joten kaikki nämä uudet analyyttiset työmäärät ovat lisänneet uusia alustoja, uusia tallennusalustoja analyyttiseen maisemaan. Joten sen sijaan, että meillä olisi vain perinteiset tietovarastot, tietokartat, meillä on nyt Hadoop. Meillä on NoSQL-tietokantoja, kuten kuvaajatietokantoja, joita käytetään usein analyyttisiin työkuormiin. Tietenkin, voimme tehdä kuvaaja-analyysin nyt Hadoopissa itsessään ja NoSQL-kuvaaja-DBMS-tietokannoissa. Meillä on suoratoistoanalytiikka, jonka Robin mainitsi. Ja meillä on - jos haluat - rakentaa malleja, ehkä myös analyyttisiin tietovarastolaitteisiin. Mutta kaikki tämä on monimutkaista analyyttistä maisemaa, ja nyt tarvitaan useita alustoja. Ja luulen, että haasteena kaikille yrityksille, joilla on front office tai back office, tai rahoitukseen, hankintoihin, henkilöstöhallintoon ja jonkinlaisiin toimintoihin, on selvittää, mitkä analyyttiset projektit liittyvät perinteiseen tietovarastointipaikkaan. Ja kun tiedät, että näihin uusiin suuriin tietoalustoihin liittyy analyyttisiä projekteja ja missä ajaa, tiedät, mikä analyyttinen työmäärä on, mutta et saa unohtaa liiketoimintaa siinä mielessä, että se on - näet nyt, että se on yhdistelmä suuria data-analyyttiset projektit ja perinteiset isodatavarastointiprojektit, joita yhdessä tarvitaan vahvistamaan sisäisesti asiakkaan tai toiminnan ympärillä, riskien, rahoituksen tai kestävyyden ympärillä. Ja siksi haluamme, että nämä kaikki mukautetaan strategisiin liiketoimintaprioriteetteihimme, jotta pysymme tiellä ja tiedämme, että työnnä neulat, jotka on työnnettävä sisään, parantaaksesi liiketoiminnan suorituskykyä, vähentääkseen kustannuksia, riskien vähentämiseksi jne., tiedätte, koko yrityksellemme. Joten ei ole niin, että yksi korvaa toisen täällä isoilla tiedoilla ja perinteisillä. Sitä käytetään molemmat yhdessä. Ja se muuttaa dramaattisesti arkkitehtuuria, tiedät.


Joten minulla on täällä suhteellisen uusi arkkitehtuuri, jota käytän asiakkaideni kanssa. Ja niin, kuten näette nyt pohjassa, laaja valikoima tietolähteitä, ei vain rakennettu enää. Jotkut niistä virtaavat suoraa dataa, kuten anturit, kuten markkinatiedot, sellaista. Se voi olla jopa live-napsautustietoja. Se voi olla suoraa videon suoratoistotietoa. Joten sen ei tarvinnut olla jäsennelty. Joten voimme suorittaa tietojen prosessoinnin automaattisiksi toimiksi reaaliajassa, ja mikä tahansa kiinnostava tieto voidaan suodattaa ja siirtää yritystietojen hallintatyökaluihin, joita voidaan käyttää analyyttisten tietovarastojen asuttamiseen. Ellet näe tässä sekoituksessa, meillä on nyt perinteinen tietovarastointi, Hadoop- ja NoSQL-tietokannat. Meillä on myös perustietojen hallinta yhdistelmässä. Ja se lisää painostusta koko tiedonhallintatyökalusarjaan, ei vain näiden tietovarastojen asuttamiseksi, vaan datan siirtämiseksi niiden välillä.


Tämän lisäksi meidän on yksinkertaistettava käyttövälineitä. Emme voi vain kääntyä käyttäjän puoleen ja sanoa: "Hanki kaikki nämä tietovarastot, pidä näitä sovellusliittymiä - sinun ongelmasi". Sinun on yksinkertaistettava pääsyä. Joten, sellaisena kuin siellä on katkoviivoissa, näet, että tietojen virtualisointi ja optimointi piilevät monenlaisten tietojen tallennuksen monimutkaisuuden, yritä ja helpottaa loppukäyttäjien pääsyä tähän. Ja tietysti, päällä on valikoima työkaluja, kaikkea perinteisistä BI-työkaluista, jotka on tavallaan käynnistetty tietovarastoinnin yläosassa, siirtymällä vähitellen kaavion vasemmalle puolelle ja muodostamaan yhteyden Hadoops-ohjelmiin. ja sitten maailman NoSQL-tietokannat.


Olemme saaneet hakua saadakseen uuden vuokrasopimuksen elämästä erityisesti kehon jäsennellylle, jäsentelemättömälle tiedolle, joka usein tallennetaan Hadoopiin. Meillä on räätälöityjä analyyttisiä sovelluksia, jotka voidaan tehdä Hadoop-alustalla MapReducen kanssa, esimerkiksi Spark-kehys. Meillä on graafiset analyysityökalut, joiden avulla voit keskittyä siellä hyvin erityisiin työkuormiin. Joten joukko työkaluja ja tietovirrat ovat myös monimutkaisempia. Se ei ole enää vain yksisuuntainen katu tietovarastoissa. Se on tietysti nyt perustiedot.


Meillä on tulossa uusia tietolähteitä, joko siepattuina NoSQL: ssä, tietovarastot, kuten MongoDB, kuten Cassandra, kuten HBase. Saimme tietoja suoraan Hadoopiin analysointia ja tietojen valmistelua varten. Saimme uusia näkemyksiä Hadoopista ja tietovarastoista. Meillä on arkisto, joka on tulossa tietovarastoista Hadoopiin. Nyt saimme tietosyötteitä myös kaikkiin NoSQL-tietokantoihin ja tietokarttoihin. Joten mitä täällä voit nähdä, tiedonhallinnassa on paljon enemmän toimintaa. Ja se tarkoittaa, että se asettaa tiedonhallintaohjelmistot huomattavaan paineeseen. Se ei ole enää vain yksisuuntainen katu. Se on kaksisuuntaista tiedonsiirtoa. Se on paljon enemmän toimintaa käynnissä, ja siksi skaalattavuus on tärkeä sekä tiedonhallintatyökalun edessä että tietolähteessä.


Joten, tämä kaavio palaa siihen arkkitehtuuriin, jonka mainitsin hetki sitten. Se näyttää erilaiset analyyttiset työmäärät tämän arkkitehtuurin eri osissa. Tällainen vasemmalla alareunassa, sinulla on reaaliaikainen suoratoisto, suoratoistoprosessointi tapahtuu tiedoille, jotka tulevat pois, tiedätkö, mistä tahansa live-datavarastosta. Meillä on luokan analyysi tapahtumassa NoSQL-graafitietokannoissa. Se voi tapahtua myös Hadoopissa. Esimerkiksi Spark-kehyksen ja siinä olevan GraphX: n avulla olemme saaneet tutkivan analyysin ja tietojen jalostamon, joista Robin puhui tapahtuvan Hadoopilla. Meillä on edelleen olemassa perinteisiä työkuormia ja tietovarastointia, tiedätte, energiankäyttäjät rakentavat tilastollisia ja ennustavia malleja, ehkä tietovarastolaitteisiin. Ja yritämme edelleen yksinkertaistaa tämän kaiken käyttöä, jotta se olisi helppoa loppukäyttäjille.


Joten menestys koko kokoonpanon ympärillä on muutakin kuin vain analyyttistä puolta. Tiedätkö, että voimme laittaa analyyttiset alustat paikoilleen, mutta jos emme pysty sieppaamaan ja nielemään, tiedät, suurella nopeudella ja suurella määrällä mittakaavassa olevaa tietoa, siinä ei ole paljon pistettä. Tiedätkö, minulla ei ole mitään analysoitavaa. Ja niin isodatanalytiikan menestys vaatii käyttöjärjestelmien laajentamista. Se tarkoittaa, että pystyt tukemaan uusia liiketoimia, tiedät huippuja. Tiedätte, että siellä sieppaamilla muilla kuin transaktioilla tarkoitetuilla tiedoilla voi olla uusia saapumisasteita erittäin, erittäin korkeita nopeuden datan, kuten anturien tai minkä tahansa syötteen, saapumisasteella. Meidän on pystyttävä huolehtimaan kaikesta tästä - kyettävä sieppaamaan tällainen tieto ja tuomaan se analysoitavaksi. Meidän on myös skaalattava analytiikka itse, yksinkertaistettava pääsyä jo mainitsemaniini tietoihin. Sitten sitoa se. Tiedätkö, että meidän on kyettävä tarkentamaan noihin käyttöjärjestelmiin antamaan sille suljetun silmukan.


Joten, talon operatiivisen puolen skaalaaminen tietojen kaappaamiseksi, tiedät, vie NoSQL-tietokannan maailmaan. Tarkoitan, tässä näet viisi luokkaa NoSQL-tietokantaa. Tämä on luokka mallinnettavana vain yhdistelmänä neljästä edellä olevasta. Yleisesti ottaen tiedät sen avainarvot, tallennetut asiakirjat ja sarakeperheiden tietokannat - siellä olevat kolme ensimmäistä -, joita käytetään tavallaan muun tyyppiseen transaktiotietoon ja muuhun kuin kaupalliseen tietoon.


Jotkut tietokannoista, jotka tukevat ominaisuuksina; jotkut heistä eivät. Mutta silti, tiedätte, näemme näiden käyttöönoton sellaisten sovellusten mitoittamiseksi. Ja niin, esimerkiksi kun olemme siirtyneet pois pelkästään työntekijöiltä, ​​jotka tekevät tapahtumia näppäimistöllä, nykyisille asiakkaille ja massoille, jotka käyttävät uusia laitteita voidakseen tehdä niin. Olemme nähneet valtavan kasvun yrityksiin tehdyissä liiketoimissa. Ja niin, meidän on mitoitettava transaktiosovelluksia sen tekemiseksi.


Nyt, yleisesti ottaen, se voidaan tehdä NewSQL-tietokannoissa relaatiotietokantoina, kuten NuoDB ja VoltDB, jotka esitetään tässä. Tai jotkut NoSQL-tietokannat, jotka mahdollisesti tukevat ACID-ominaisuuksia, jotka voivat taata tapahtumien käsittelyn, voivat olla mukana. Tämä koskee myös ei-transaktiotietoja, kuten ostoskoritietoja ennen kauppaa, tiedät, ennen kuin ihmiset ostavat tavaroita, anturitietoja, koska menetän anturin lukemisen satojen miljoonien anturilukemista. Se ei ole iso juttu. Napsautukset, tiedät, napsautusvirtamaailmassa - jos käytän napsautusta, se ei ole iso juttu.Joten tiedät, että meillä ei välttämättä tarvitse olla ACID-ominaisuuksia siellä, ja siellä se olikin siellä, missä NoSQL-tietokannat tulevat peliin - se kyky tehdä erittäin korkeaa, oikeanlaista mittakaavan käsittelyä tämän uuden tyyppisen tiedon sieppaamiseksi.


Samanaikaisesti haluamme analytiikan laajuuden. Ja niin, datan vetäminen tietovarastoista analyyttisiin alustoihin ei enää aio hakkeroida sitä, koska tiedot ovat liian suuria. Mitä todella haluamme, on työntää analytiikka toisella tavalla, yrityksen tietovarastoon Hadoopiin, virtaprosessointiin, jotta analytiikka voidaan viedä tietoihin. Se, että joku sanoo sen olevan tietokannan analysoinnissa tai Hadoopin analytiikassa, ei kuitenkaan välttämättä tarkoita, että analysointi suoritetaan rinnakkain. Ja rehellisesti sanottuna, jos aiot investoida näihin uusiin massiivisesti rinnakkain skaalautuviin tekniikoihin, kuten Hadoop, kuten tietovarastolaitteisiin, ja mitä, kuten klusteroitujen stream-prosessointimoottorienkin kanssa, tarvitsemme analytiikan toimimaan rinnakkain.


Joten se on vain kassalla. Tiedätkö, että jos meillä on analytiikkaa, joka auttaa ennustamaan asioita asiakkaille, toiminnoille, riskeille jne., Haluamme heidän toimivan samanaikaisesti, ei vain ajavansa alustalla. Haluamme molemmat. Ja se johtuu siitä, että tiedätte, tekniikka on kuin nämä uudet visuaaliset etsintätyökalut, kuten myös SAS. Se on itse asiassa yksi sponsoreistamme täällä.


Yksi asia, mitä ihmiset haluavat, on ainakin hyödyntää Hadoopin ja sitten tietokannan analytiikan henkilöitä. Ja haluamme, että ne toimivat samanaikaisesti voidakseen suorittaa tarvittavan suorituskyvyn niin suurilla tietomäärillä. Samalla yritämme yksinkertaistaa pääsyä kaikkeen tähän. Ja niin, SQL on nyt jälleen asialistalla. Tiedätkö, SQL on - SQL Hadoopilla on kuuma nyt. Seuraan sitä nyt 19 SQL- ja Hadoop-aloitteessa. Lisäksi voitte saada nämä tiedot, tiedätte, monin tavoin, jotta pääsemme suoraan SQL: ään Hadoopissa itse, voimme siirtyä SQL: n hakuhakemistoon. Tällä tavalla, kuten tiedätte, joillakin kyseisen tilan hakupalveluista, meillä voi olla SQL-pääsy analyyttisiin relaatiotietokantoihin, joissa on Excel-taulukoita Hadoopille.


Meillä voi nyt olla SQL-käyttöoikeus datan virtualisointipalvelimeen, joka voidaan sitten yhdistää Hadoopin tietovarastoon. Olen nytkin alkanut nähdä SQL-pääsyn suoratoistoa koskeviin tietoihin. Joten SQL-pääsy kaikkeen tähän kasvaa nopeasti. Ja osa haasteesta on vain siksi, että SQL-pääsyä markkinoidaan siellä. Kysymys kuuluu, pystyykö SQL käsittelemään monimutkaisia ​​tietoja? Eikä se välttämättä ole suoraviivaista. Täällä on kaikenlaisia ​​komplikaatioita, mukaan lukien se, että JSON-tiedot voivat olla sisäkkäisiä. Meillä voi olla skeemavariantitietueita. Joten ensimmäisellä tietueella on yksi kaavio. Toisella levyllä on erilainen kaavio. Nämä asiat ovat hyvin erilaisia ​​kuin mitä tapahtuu suhteellisessa maailmassa.


Joten meidän on tehtävä kysymyksiä siitä, millaista tietoa me yritämme analysoida, ja mitkä ovat sellaiset analyyttiset ominaisuudet. Onko se, paneeli, jonka haluat tehdä? Onko se koneoppimista? Onko se kaavioanalyysi? Voitko tehdä sen SQL: ltä? Tiedätkö, onko se SQL: n tavoitettavissa? Kuinka monta samanaikaista käyttäjää meillä on tekemässä tätä? Tiedät, että meillä on satoja samanaikaisia ​​käyttäjiä. Onko se mahdollista monimutkaisissa tiedoissa? Kaikki nämä asiat ovat avainkysymyksiä. Joten tein erään tyyppisen luettelon täältä, jotka mielestäni sinun tulisi harkita. Tiedätkö, millaisia ​​tiedostomuotoja? Millaisista tietotyypeistä me puhumme? Millaisia ​​analyyttisiä toimintoja voimme käyttää SQL: stä saadaksemme monimutkaisia ​​tietoja? Ja eräänlaiset toiminnot toimivat samanaikaisesti. Tarkoitan, heidän on ajauduttava rinnakkain, jos meidän on pystyttävä mitoittamaan tätä. Ja voinko liittyä Hadoopin tietoihin tänään sen ulkopuolella, tiedätkö, tai sitä ei voida tehdä? Ja mitä teen kaikille näille erityyppisille kyselytyökuormille?


Ja kuten näemme, tiedät mitä olen nähnyt, SQL- ja Hadoop-jakelussa on paljon eroja. Seuraan näitä kaikkia. Ja muuten, se on puhdasta SQL: tä Hadoopilla. Se ei tällä hetkellä sisällä edes tietojen virtualisointia. Ja niin, paljon siellä ja paljon tilaa konsolidoitumiselle, mitä mielestäni tapahtuu seuraavan vuoden aikana, noin 18 kuukautta. Mutta se avaa myös toisen asian, nimittäin sillä, että minulla voi olla useita SQL-moottoreita samoilla tiedoilla Hadoopissa. Ja sitä ei voi tehdä suhteellisesti.


Tämä tarkoittaa tietysti, että sinun on sitten tiedettävä, millaista kyselyn työmäärää käytän? Pitäisikö minun suorittaa tämä erä tietyllä SQL: llä Hadoop-aloitteessa? Pitäisikö minun suorittaa vuorovaikutteisia kyselytyökuormia toisen SQL: n kautta Hadoop-aloitteessa jne., Jotta tiedän mihin yhdistää? Ihannetapauksessa meidän ei tietenkään pitäisi tehdä sitä. Meidän olisi pitänyt vain kysyä asiasta. Jotkut optimoijat selvittävät parhaan tavan tehdä se. Mutta emme ole vielä täysin siellä, mielestäni.


Mutta silti myös tiedon virtualisoinnilla, mainitsin aikaisemmin, on erittäin tärkeä tehtävä yksinkertaistaa pääsyä useisiin tietovarastoihin. Ja jos luomme uusia näkemyksiä Hadoopista, on varmasti uskottavaa yhdistää kyseiset tiedot toisiinsa ja perinteiset tietovarastot esimerkiksi tietojen virtualisoinnin avulla välttämättä siirtämällä tietoja Hadoopista perinteisiin tietovarastoihin. Tietysti voit myös tehdä sen. On myös uskottavaa, jos arkistoin tietoja perinteisistä tietovarastoista Hadoopiin. Voin silti päästä siihen ja liittää sen takaisin tietovarastoon kuuluviin asioihin tietojen virtualisointiin. Joten minulle mielestäni datan virtualisoinnilla on suuri tulevaisuus tässä kokonaisarkkitehtuurissa ja kaikkien näiden tietovarastojen käytön yksinkertaistaminen.


Ja unohtamatta, että kun luot näitä uusia käsityksiä, olipa kyse sitten relaatiotietokannasta tai NoSQL-järjestelmästä, haluamme silti ohjata nämä oivallukset takaisin toimintaamme, jotta voimme maksimoida löytämämme arvon, jotta voimme hyödynnämme sitä tehokkaampiin ja oikea-aikaisempiin päätöksiin siinä ympäristössä liiketoiminnan optimoimiseksi.


Joten käsitelläkseni sitten tarvitsemme, tietäen, uusia tietolähteitä, mitä näen. Meillä on uusia alustoja monimutkaisemmalta arkkitehtuurilta, jos haluat, käsitellä sitä. Ja Hadoopista tulee erittäin, erittäin tärkeitä, tarpeellisia tietojen valmisteluun nestemäisille hiekkalaatikoillemme, arkistokyselyille, arkistoille tietovarastoista, tiedonhallinnalle, joka leviää siipiään siirtyäkseen tietovarastoinnin ulkopuolelle tietojen hallintaan kaikilla näillä alustoilla, ja uusille työkaluille kykenevä analysoimaan ja käyttämään tietoja näissä ympäristöissä, pystyy käyttämään skaalautuvaa tekniikkaa tietojen parempaan syöttämiseen ja skaalaamaan analytiikkaa työntämällä ne alas alustoille, jotta ne olisivat rinnakkaisia. Ja sitten toivottavasti myös yksinkertaistamaan pääsyä kaikkeen siihen nousevan SQL: n kautta, joka tulee sisään. Joten, se antaa sinulle kuvan siitä, mihin olemme siirtymässä. Joten sen kanssa palaan, luulen, Eric nyt, onko se?


Eric: Okei, se on upeaa. Ja ihmisten, minun on sanottava, niiden seikkojen välillä, jotka juuri sait Robinilta ja Mikeltä, on todennäköisesti yhtä kattava ja tiivis yleiskatsaus koko maisemaan katsottavasta kuin milloin tahansa löydätkin. Annan mennä eteenpäin ja jonota George Corugedo ensin. Ja siinä se on. Saanen ottaa hetken hetkeksi. Hyvä on, George, aion antaa avaimet sinulle ja viedä ne pois. Lattia on sinun.


George: Hienoa! Kiitos paljon, Eric, ja kiitos, Rob ja Mike. Se oli hienoa tietoa ja paljon mitä olemme samaa mieltä. Joten palataan takaisin Robinin keskusteluun, koska tiedätte, ettei ole sattumaa, että RedPoint on täällä ja SAS on täällä. Koska RedPoint, keskitymme todellakin sen tietopuoleen hallintoon, tietojen käsittelyyn ja analytiikkakäyttöön valmistautumiseen. Joten anna minun vain proomun läpi nämä kaksi dioa. Ja todella puhua ja poimia Robinin kohta MDM: stä ja kuinka tärkeätä se on ja kuinka hyödyllistä, mielestäni - ja luulemme - Hadoop voi olla MDM: n ja tiedonlaadun maailmassa.


Tiedätkö, Robin puhui vähän siitä, tiedättekö kuinka se liittyy yritystietovarastojen maailmaan ja minä tulen - tiedätte, olen viettänyt useita vuosia Accenturessa. Ja mielenkiintoista on se, kuinka monta kertaa meidän piti käydä yrityksissä ja yrittää selvittää, mitä tehdä tietovarastoon, joka oli pohjimmiltaan hylätty. Ja paljon niin tapahtui, koska tietovarasto-ryhmä ei oikeastaan ​​mukauttanut rakennettaan liiketoiminnan käyttäjiin tai tiedon kuluttajiin. Tai kesti vain niin kauan, että siihen mennessä, kun he olivat rakentaneet asian, liiketoiminnan käyttö tai sen liiketoiminnan perusteet olivat kehittyneet.


Ja yksi niistä asioista, joista mielestäni olen niin innoissani, ajatus Hadoopin käytöstä päädatan hallintaan, tietojen laatuun ja tietojen valmisteluun on se, että voit aina palata takaisin atomitietoihin Hadoop-tietojärvi tai -säiliö tai tietovarasto tai keskitin tai mikä tahansa summa-muoto, jota haluat käyttää. Mutta koska pidät aina kyseistä atomitietoa, sinulla on aina mahdollisuus kohdistaa se uudelleen liiketoiminnan käyttäjien kanssa. Koska analyytikkona - koska olen tosiasiallisesti aloittanut urani statistikkona - tiedät, että mikään ei ole pahempaa kuin tiedätte, yritystietovarastot ovat loistavia raporttien johtamisessa, mutta jos haluat tehdä todella ennustavaa analytiikkaa, he ovat ei todellakaan ole niin hyödyllistä, koska mitä todella haluat, on rakeinen käyttäytymistieto, joka jotenkin koottiin yhteen ja koottiin tietovarastoon. Joten mielestäni tämä on todella tärkeä ominaisuus, ja se on yksi asia, josta voin olla eri mieltä Robinin kanssa, että jättäisin henkilökohtaisesti tietoja datajärvelle tai tietokeskukseen niin kauan kuin mahdollista, koska niin kauan kuin tiedot ovat siellä ja se on puhdasta, voit katsoa sitä yhdestä suunnasta toiseen. Voit yhdistää sen muihin tietoihin. Sinulla on aina tilaisuus palata takaisin siihen ja tehdä uudelleen rakenneuudistusta ja kohdistaa itsesi sitten liiketoimintayksikköön ja tarpeeseen, joka tällä yksiköllä voi olla.


Yksi muun tyyppisistä mielenkiintoisista asioista tässä on, että koska se on niin tehokas laskentaympäristö, paljon siitä työmäärästä, josta olemme puhuneet, näemme sen kaiken tulleen suoraan Hadoopiin. Ja vaikka luulen, että Mike puhui kaikista erilaisista tekniikoista, joita maailmassa on - tämän tyyppisessä suurten tietojen ekosysteemissä, ajattelemme, että Hadoop on todella työhevonen tehdä niin suuri mittakaava laskennallisesti intensiivisessä käsittelyssä, joka perustiedot ja tiedon laatu vaativat. Koska jos pystyt tekemään sen siellä, tiedät vain sen taloudellisuuden, että siirrät tietoja kalliista tietokannoistasi taloudellisiin tietokantoihin, tämä ajaa todella paljon hyötyä nykyään suurissa yrityksissä.


Nyt tietenkin on joitain haasteita, eikö niin? Teknologioiden ympärillä on haasteita. Monet heistä ovat hyvin epäkypsiä. Sanoisin, tiedätkö, en tiedä kuinka monta, mutta monet tekniikat, jotka Mike mainitsi, ovat edelleen nollapisteessä - jotain vapautetaan, eikö niin? Joten, nämä tekniikat ovat hyvin nuoria, erittäin epäkypsiä, silti koodipohjaisia. Ja se todella luo haaste yrityksille. Keskitymme todella yritystason ongelmien ratkaisemiseen. Joten uskomme, että tiellä on oltava erilainen tapa, ja juuri se, mitä ehdotamme, on erilainen tapa kuljettaa joitain juttuja käyttämällä joitain näistä hyvin syntyvistä tekniikoista.


Ja niin, ja sitten toinen mielenkiintoinen asia, joka on jo mainittu aiemmin, on se, että kun sinulla on tietoja, joita vangitset minkä tyyppisissä Hadoop-ympäristöissä, se on yleensä luettavissa oleva skeemi eikä kirjoitusmalli. joitain poikkeuksia lukuun ottamatta. Ja tuo lukeminen, paljon tilastotieteilijät tekevät siitä. Ja niin, tilastotieteilijöillä on oltava työkaluja, joiden avulla he pystyvät rakentamaan tiedot asianmukaisesti analyyttisiin tarkoituksiin, koska päivän päätteeksi, jotta tiedoista olisi hyötyä, se on rakennettava jossain muodossa nähdäksesi joitain tai vastaamaan kysymykseen tai yritys, jonkinlainen yritys, luo liiketoiminnan arvoa.


Joten missä meillä on sisäänpääsy, on, että meillä on erittäin laajapohjainen ja kypsä EPL-, ELT-tiedonlaatulaiteavain ja hallintasovellus. Se on ollut markkinoilla useita vuosia. Ja siinä on kaikki toiminnot tai suuri osa toiminnoista, jotka Robin luetteloi kyseisessä ympyräkaaviossa - kaikkea puhtaasta raa'asta tietojen kaappaamisesta monenlaisissa muodoissa ja XML-rakenteissa ja mitä tahansa, aina kykyyn suorittaa kaikki puhdistukset, datan loppuun saattaminen, datan korjaus, datan geospatiaaliset ydinbitit. Se on jotain, josta on tullut yhä tärkeämpää nykyään esineiden Internetin kanssa. Tiedätkö, että suureen osaan tekemäämme tai suuriin tietoihin liittyy maantiede. Ja niin, kaikki jäsentäminen, tokenointi, puhdistaminen, korjaus, muotoilu, jäsentäminen jne. Kaikki tämä tapahtuu käyttöjärjestelmässämme.


Ja sitten, ja ehkä, mielestämme tärkeintä on deduktioinnin idea. Tiedätkö, että ytimessä, jos tarkastellaan mitä tahansa perustietojen hallinnan määritelmää, sen ydin on deduplikaatio. Se pystyy tunnistamaan kokonaisuudet eri tietolähteistä ja luomaan sitten perustietueen kyseiselle kokonaisuudelle. Ja tuo kokonaisuus voisi olla henkilö. Kokonaisuus voi olla esimerkiksi osa lentokoneta. Kokonaisuus voi olla ruoka, kuten olemme tehneet yhdelle kuntosalin asiakkaalle. Olemme luoneet heille ruokatietokannan. Joten riippumatta siitä, minkä kokonaisuuksien kanssa työskentelemme - ja tietysti yhä enemmän on ihmisiä ja heidän identiteettinsä välityspalvelimia, jotka ovat esimerkiksi sosiaalisia kahvoja tai tilejä, mitä laitteita ihmisiin liitetään, joitain asioita, kuten autoja ja puhelimet ja mikä tahansa muu mitä voitte kuvitella.


Tiedätte, että työskentelemme asiakkaan kanssa, joka asettaa kaikenlaisia ​​antureita urheiluvaatteisiin. Joten, tiedot tulevat joka suunnasta. Ja tavalla tai toisella, se on heijastus tai esitys ydinkokonaisuudesta. Ja yhä enemmän se on ihmisiä ja kyky tunnistaa näiden kaikkien tietolähteiden väliset suhteet ja kuinka ne liittyvät kyseiseen ydinkokoonpanoon, ja sitten pystyä seuraamaan kyseistä ydinkokonaisuutta ajan myötä, jotta voit analysoida ja ymmärtää kyseisen kokonaisuuden väliset muutokset ja kaikki ne muut elementit, jotka ovat kyseisen entiteetin esityksissä, todella kriittisiä esimerkiksi ihmisten pitkä- ja pitkittäisanalyysille. Ja se on todella yksi todella tärkeistä eduista, jotka, mielestäni iso tieto voi tuoda meille, on paljon parempi ihmisten ymmärtäminen ja pitkällä aikavälillä sekä ymmärrys ymmärryksistä ja siitä, miten ihmiset käyttäytyvät käyttäytyessään millä laitteilla jne. .


Joten anna minun siirtyä täältä nopeasti. Eric mainitsi langan. Tiedät, heitän tämän vain vähän sekunnin ajan, koska vaikka lanka - ihmiset puhuvat langasta. Mielestäni lanka on edelleen paljon tietämättömyyttä. Eikä paljon ihmisiä oikeasti - lanka on edelleen paljon väärinkäsitys. Ja tosiasia on, että jos sovelluksesi on suunniteltu oikealla tavalla ja sinulla on oikea taso tai rinnakkaisuus sovellusarkkitehtuurissa, voit käyttää YARNia hyödyntääksesi Hadoop-ohjelmaa skaalausalustana. Ja juuri sen olemme tehneet.


Tiedät taas, vain tuoda esiin joitain määritelmiä lanka ympärillä. Meille, mikä lanka on, on antanut meille itsellemme ja muille organisaatioille mahdollisuuden tulla MapReduce- ja Spark-ohjelmien ja kaikkien muiden työkalujen vertaiskäyttäjiksi. Mutta tosiasia on, että sovelluksemme ajavat optimoidun koodin suoraan lankaksi Hadoopiin. Ja siellä on todella mielenkiintoinen kommentti, jonka Mike on maininnut, koska tiedättekö, että kysymys analytiikasta ja analytiikastamme johtuu siitä, että ne ovat klusterissa, ajavatko ne todella rinnakkain? Voit kysyä saman kysymyksen monista olemassa olevista tiedon laadun työkaluista.


Suurin osa päivästä, siellä olevien laatutyökalujen on joko joko poistettava tiedot tai työnnettävä koodia sisään. Ja monissa tapauksissa se on yksi datavirta, jota prosessoidaan, koska sinun täytyy vertailla tietueita, toisinaan tietotyyppisissä toiminnoissa. Ja tosiasia on, että koska käytämme lankaa, olemme pystyneet todella hyödyntämään rinnakkaissovitusta.


Ja vain antaaksemme sinulle nopean yleiskuvan, koska tehdään uusi kommentti siitä, että on tärkeää laajentaa perinteisiä tietokantoja, uusia tietokantoja jne., Toteutamme tai asennamme klusterin ulkopuolelle. Ja työnnämme binaarimme suoraan resurssienhallintaan, YARNiin. Ja se, ja sitten YARN jakaa sen klusterin solmujen välillä. Ja mitä se on, on se, että lanka - Annamme langan hallita ja suorittaa työnsä, joka on selvittää missä tiedot ovat ja viedä työ tietoihin, koodiin tietoihin eikä siirtää tietoja ympäri. Kun kuulet datan laadun työkaluja ja he kertovat sinulle parhaita käytäntöjä on siirtää tiedot pois Hadoopista, aja koko elämäsi, koska se ei vain ole niin. Haluat viedä työn tietoihin. Ja juuri sen lanka tekee ensin. Se vie binaarisignaalimme solmuihin, joissa tiedot sijaitsevat.


Ja koska olemme klusterin ulkopuolella, voimme käyttää myös kaikkia perinteisiä ja relaatiotietokantoja, jotta meillä voi olla töitä, jotka ovat 100% asiakaspalvelinta perinteisessä tietokannassa, 100% Hadoop tai hybridi-töitä, jotka menevät Hadoopin asiakaspalvelimen kautta , Oracle, Teradata - riippumatta siitä mitä haluat ja kaikki samassa työssä, koska yksi toteutus voi käyttää molempia puolia maailmaa.


Ja sitten palaamalla koko ajatukseen työkalujen syntymästä, näet tämän, tämä on vain yksinkertainen esitys. Ja mitä me yritämme tehdä, on yksinkertaistaa maailmaa. Ja tapa, jolla teemme tämän, on tuomalla HDFS: n ympärille hyvin laaja toimintojoukko sen tekemiseksi ... Eikä siksi, että yritämme poistaa kaikki siellä olevat innovatiiviset tekniikat. Yritykset tarvitsevat vain vakautta, ja he eivät pidä koodipohjaisista ratkaisuista. Joten yritämme antaa yrityksille tutun, toistettavan, johdonmukaisen sovellusympäristön, joka antaa yrityksille mahdollisuuden rakentaa ja käsitellä tietoja erittäin ennakoitavalla tavalla.


Nopeasti tämä on sellainen vaikutus, jonka saamme sovelluksellamme. Näet MapReduce vs. Pig vs. RedPoint - ei koodiriviä RedPointissa. Kuusi tuntia kehitystä MapReducessa, kolme tuntia kehitystä sika ja 15 minuuttia kehitystä RedPointissa. Ja siellä meillä on todella valtava vaikutus. Käsittelyaika on myös nopeampi, mutta ihmisten aika, ihmisten tuottavuusaika, kasvaa huomattavasti.


Ja viimeisenä diaani täällä, haluan palata takaisin tähän ajatukseen, koska tämä on meidän tehtävämme käyttää datajärviä tai datakeskuketta tai tietojen jalostamoa nauttimisen keskipisteenä. En voinut olla samaa mieltä siitä ajatuksesta. Ja keskustelemme tällä hetkellä useiden suurten globaalien pankkien päävastaavien kanssa, ja tämä on valittu arkkitehtuuri.Kaikkien lähteiden tietojen syöttäminen suorittaa tietojen laadunkäsittelyn ja perustietojen hallinnan datajärven sisällä, ja työnnä sitten tiedot sinne, missä se tarvitsee mennä tukisovelluksiin, BI: n tukemiseen, mitä tahansa. Ja sitten, jos sinulla on analytiikkaa BI: ssä, ne voivat suorittaa suoraan datajärven sisällä, missä vielä parempaa, joka voi alkaa heti. Mutta hyvin paljon tämän ajatuksen mukana. Tämä topologia on sellainen, joka on - havaitsemme saavan paljon vetää markkinoille. Ja siinä se on.


Eric: Okei, hyvä. Mennään täällä. Menen eteenpäin ja annan sen Keithille. Ja Keith, sinulla on noin 10, 12 minuuttia rokkaamaan taloa täällä. Meillä kului vähän aikaa näissä näyttelyissä. Ja mainosimme 70 minuuttia tälle. Joten mene vain eteenpäin ja napsauta mitä tahansa kyseisen liukusäätimen kohtaa ja käytä alanuolta ja vie se pois.


Keith: Toki. Ei hätää, Eric. Arvostan sitä. Aion mennä eteenpäin ja lyödä vain pari kappaletta SAS: sta, siirryn sitten suoraan tekniikka-arkkitehtuureihin, missä SAS leikkaa suuren tietomaailman. Kaikissa näissä asioissa on paljon selitettävää. Voisimme viettää tunteja tutkimalla sitä yksityiskohtaisesti, mutta kymmenen minuuttia - sinun pitäisi pystyä kävelemään vain lyhyen ymmärryksen avulla siitä, missä SAS on ottanut analytiikan, tiedonhallinnan ja yritystiedustekniikat tähän suureen tietomaailmaan.


Ensinnäkin vain vähän SAS: stä. Jos et ole perehtynyt tähän organisaatioon, olemme viimeisten 38 vuoden ajan suorittaneet edistynyttä analytiikkaa, yritystietoa ja tiedonhallintaa paitsi isojen tietojen lisäksi myös pienen datan ja tietoturvan viimeisten 38 vuoden aikana. Meillä on valtava nykyinen asiakasjalka, noin 75 000 sivustoa ympäri maailmaa, ja se toimii joidenkin parhaiden organisaatioiden kanssa. Olemme yksityinen organisaatio, jolla on noin 13 000 työntekijää ja tulot 3 miljardia dollaria. Ja todellakin, luulen, että tärkeä osa on se, että meillä on perinteisesti ollut pitkä historia sijoittamalla merkittävät määrät tuloistamme takaisin T & K-organisaatioomme, joka on todella tuonut mukanaan paljon näitä upeita tekniikoita ja alustoja, joita sinä " aiomme nähdä tänään.


Joten aion hypätä suoraan näihin todella pelottaviin arkkitehtuurikaavioihin. Työskentelemme dioista vasemmalta oikealle. Joten, siellä on tuttuja asioita, jotka näet tämän alustan sisällä. Vasemmalla puolella kaikki ne tietolähteet, joista puhumme, syöttäminen näihin isoihin tietoalustoihin. Ja sitten sinulla on tämä iso tietoalusta.


En ole vain laittanut sanaa Hadoop sinne huipulle, koska viime kädessä esimerkit, jotka aion tänään tarjota, ovat erityisesti kaikkien tekniikoiden ympärillä, joissa olemme risteilyssä näiden suurten tietoalustojen kanssa. Hadoop sattuu olemaan yksi niistä, joissa meillä on joitain vakaisimmista käyttöönottovaihtoehdoista, mutta olemme myös ristissä melko vähän ja olemme kehittäneet paljon näitä tekniikoita jonkin aikaa joidenkin muiden yritystietovarasto-kumppaneidemme kanssa, kuten Teradata, Oracle, Pivotal ja vastaavat. Joten en voi mennä yksityiskohtiin, koska kaikkia erilaisia ​​tekniikoita tuetaan millä alustalla, mutta voin vain olla varma, että kaikki tänään kuvaamani tekniikat ovat enimmäkseen kaikkea sitä, mikä Hadoop ja suuri osa niistä on ristissä muiden teknologiakumppaneiden kanssa, jotka meillä on. Joten, meillä on iso istuin alusta täällä.


Seuraava oikealla puolella on SAS LASR Analytic Server -palvelumme. Nyt se on pohjimmiltaan massiivisesti rinnakkainen muistianalyyttisessä sovelluspalvelimessa. Olisi selvää, että se ei ole muistin tietokanta. Se on todella suunniteltu alusta alkaen. Se ei ole kyselymoottori, vaan suunniteltu palvelemaan analyyttisiä pyyntöjä massiivisessa mittakaavassa massiivisesti rinnakkain. Joten se on palvelun avainsovellukset, jotka näet siellä oikealla puolella.


Tutkimme vähän, kuten ihmiset käyttävät näitä asioita. Mutta pohjimmiltaan sovellus - näetkö sinä - ensimmäinen, on SAS: n korkean suorituskyvyn analytiikka. Se tulee olemaan - käytän paljon olemassa olevaa tekniikkaamme ja alustojamme, kuten Enterprise Miner tai vain SAS, enkä tee vain monisäikeistä joidenkin sellaisten algoritmien kanssa, jotka olemme rakentaneet työkaluihin, joita olemme tehneet vuosina, mutta myös massiivisesti samansuuntaisia. Joten siirtääksemme tietoja siitä suuresta tietoalustasta muistitilaan kyseiseen LASR Analytic Server -palvelimeen, jotta voimme suorittaa analyyttisiä algoritmeja - tiedätkö, paljon uutta koneoppimista, hermoverkot, satunnaiset metsien regressiot, sellaiset asiat - taas tiedot muistissa. Joten eroon siitä tietystä MapReduce-paradigman pullonkaulasta, jossa meille tehdään tiedostoja noille alustoille, se ei ole tapa, jolla haluat tehdä analyyttistä työtä. Joten haluamme kyetä nostamaan tiedot kerran muistitilaan ja jatkamaan sen läpi, tiedätte, joskus tuhansia kertoja. Joten siinä on kyse korkean suorituskyvyn analyyttisen LASR-palvelimen käytön käsitteestä.


Me - myös muut sen alla olevat sovellukset, visuaalinen analytiikka, jonka avulla voimme säilyttää kyseisen tiedon muistissa ja palvella suurempaa populaatiota samoilla tiedoilla. Joten antamalla ihmisille mahdollisuuden tutkia suuria tietoja. Joten ennen mallinnuskehitystyötämme tutkimme tietoja, ymmärrämme niitä, suoritamme korrelaatioita, teemme ennusteita tai treenaamme päätöksenpuita - sellaisia ​​asioita - mutta erittäin visuaalisesti, vuorovaikutteisesti muistissa oleviin tietoihin alustalla. Se palvelee myös BI-yhteisöämme siinä määrin, että sillä on hyvin suuri joukko käyttäjiä, jotka voivat käyttää kyseistä alustaa tekemään tavallisia nauhoituksia, joita näit - mitä melkein mitä tahansa, tiedätte, BI-myyjä siellä.


Seuraava vaihe, siirrymme sitten palveluun. Ja auttaaksemme tilastomiehiämme ja analytiikka-ihmisiämme pystymään tekemään sellaista ad-hoc-mallinnusta, jossa tiedot muistetaan, poistetaan visuaalisesta analysoinnista ja tutkitaan visuaalisen tilastosovelluksemme kautta. Tämä on tilaisuus ihmisille, jotta ne eivät pysty ajamaan tilastoja erissä, jotka ikäänkuin tavallaan iteroivat, ajaa malleja, nähdä tulokset. Joten, joka voi ajaa mallia, katso tulokset. Tämä on visuaalinen vetäminen ja pudottaminen interaktiiviseen tilastolliseen mallintamiseen. Joten, tämä palvelee tilastomiehiämme ja tietotieteilijöitämme tekemään paljon varhaisesta etsivää visuaalista tilastotyötä.


Ja sitten, emme ole unohtaneet koodereitamme - ihmiset, jotka todella haluavat, pystyvät kuorimaan vastakkaiset rajapintakerrokset, on kirjoittaa sovelluksia ja kirjoittaa oma kooditukikohta SAS: iin. Ja se on Hadoopin muistitilastot. Ja se on - lähinnä koodikerros, joka antoi meille mahdollisuuden olla vuorovaikutuksessa kyseisen Analytic LASR -palvelimen kanssa antaa komentoja suoraan ja mukauttaa näitä sovelluksia pyyntömme perusteella. Se on analyyttinen pala.


Kuinka nämä asiat järjestetään ... Hups, olen pahoillani kaverit. Siellä me menemme.


Joten, meillä on todella muutama tapa, jolla teemme tämän. Yksi on tehdä se isoilla tiedoilla - tässä tapauksessa Hadoopilla. Ja täällä SAS LASR Analytic Server toimii erillisessä koneiden ryhmässä, joka on optimoitu hardcore analytiikkaan. Tämä on kätkeytyneenä mukavaan läheisyyteen isoan tietoalustaan, jolloin voimme skaalata sen erikseen isosta tietoalustasta. Joten näemme ihmisten tekevän tätä, kun he eivät halua saada sellaista, mitä luonnehdin, kuten vampyyri-ohjelmisto, joka syö kaikkiin Hadoop-klusterin solmuihin. Ja he eivät välttämättä mittaa sitä suurta tietoalustaa, joka soveltuu raskaiden nosto-operaatioiden muistiinpanointiin. Joten sinulla voi olla 120 Hadoop-klusterin solmua, mutta heillä voi olla 16 analyyttisten palvelimien solmua, jotka on suunniteltu suorittamaan tällaista työtä.


Meillä on edelleen mahdollisuus ylläpitää tätä samansuuntaisuutta isosta tietoalustasta datan vetämiseksi muistiin. Joten se todella on SAS: n käyttäminen Hadoop-alustan kanssa. Erilainen tapaamismalli tarkoittaa silloin hyvin, että voimme käyttää myös kyseistä hyödykealustaa ja ajaa sitä - ajaa lähinnä Analytic LASR Server -palvelinta Hadoop-alustoilla. Joten, siellä olemmekin ... toimit suuren tietoalustan sisällä. Tämä on myös joitain muista laitevalmistajistamme. Joten se antoi meille mahdollisuuden käyttää kyseistä hyödykealustaa käytännössä kyseisen työn tekemiseen.


Me näemme sen useammin sellaisissa asioissa kuin korkean suorituskyvyn analyysit, joissa kyseessä on yhden tai yhden kertaluonteinen analyyttinen ajo, enemmän erään suuntautunut missä olet - et halua välttämättä kuluttaa Hadoopin muistitilaa alustalla. Olemme erittäin joustavia tällaisen käyttöönoton mallin suhteen, ehdottomasti työskenteleessämme YARNin kanssa monissa näissä tapauksissa varmistaaksemme, että pelaamme mukavia klustereita.


Okei, niin se on analyyttinen maailma, vain selkeyttää sitä analyyttisen sovelluksen avulla. Mutta mainitsin, että SAS on alussa myös tiedonhallinnan alusta. Ja on asioita, jotka ovat tarkoituksenmukaisia ​​ajaa logiikka kyseiselle alustalle tarvittaessa. Joten, meillä on pari tapaa, joilla teemme sen. Yksi on tietojen integrointimaailmassa, tietojen muuntamiseen liittyvän työn tekeminen ei välttämättä ole järkevää vetää sitä takaisin, kuten olemme aiemmin kuulleet, suorittamalla suuren datan laaturutiinin. Haluamme ehdottomasti ajaa asiat, kuten tiedonlaaturutiinit, kyseiselle alustalle. Ja sitten asiat, kuten mallipisteytys. Joten, minun mallini on kehitetty. En halua kirjoittaa kyseistä asiaa MapReduce-sovelluksessa ja tehdä siitä vaikeaa ja aikaa vievää uudelleen työtä uudelleen alkuperäiseen tietokantaalustaan.


Joten jos tarkastellaan esimerkiksi Hadoopin pisteytyskiihdytinä, jonka avulla voimme pohjimmiltaan ottaa mallin ja työntää SAS: n matemaattinen logiikka alas kyseiseen Hadoop-alustaan ​​ja toteuttaa se siellä käyttämällä samansuuntaista kohtaa, joka on kyseisen suuren tietoalustan sisällä. Sitten meillä on koodikiihdytin erilaisille alustoille, mukaan lukien Hadoop, ja se antaa meille mahdollisuuden suorittaa SAS: n datavaihekoodi käytännössä alustan sisällä massiivisesti rinnakkaisella tavalla - siten, että suoritamme tiedonsiirtomuodoille erilaisia ​​töitä alustalla. Sitten SAS: n tietojen laadunkiihdytin, jonka avulla meillä voi olla istuva laatutietokanta, joka pystyy tekemään esimerkiksi sukupuolen sovittamista, standardointia vastaavaa koodia - kaikkia erilaisia ​​tiedonlaatuasioita, jotka olet jo kuullut tänään.


Ja sitten viimeisessä kappaleessa on Data Loader. Tiedämme, että yrityskäyttäjämme on kyettävä välttämättä joutumaan kirjoittamaan koodia, suorittamaan tietojen muuntamista näillä isoilla tietoalustoilla. Data Loader on mukava WYSIWYG-käyttöliittymä, jonka avulla voimme kääriä nämä muut tekniikat yhteen. Se on kuin ohjattu ohjattu toimimaan, esimerkiksi, suorittamaan pesän kysely tai suorittamaan datan laaturutiini, eikä siinä tapauksessa tarvitse kirjoittaa koodia.


Viimeinen asia, jonka mainitsen, on tämä etukappale. Kuten aiemmin mainitsin, meillä on massiivinen SAS-jalka maailmassa. Ja tätä, emme voi vain välttämättä tehdä kaikkia niitä alustoja, jotka ovat olemassa, ollakseen tässä tilassa heti. Joten, meillä on ehdottomasti olemassa oleva jalansija käyttäjiä, joiden on saatava tietoja istuen näissä suurissa tietoalustoissa, kuten esimerkiksi tietojen poistaminen Teradatasta ja laittaminen takaisin Hadoopiin, ja päinvastoin. Malleja ajaessani osaan jo suorittaa SAS-palvelimillani, mutta minun on hankittava data, joka on nyt sijoitettu Hadoop-alustalle. Joten, siellä on tämä pieni pikkukuvake, nimeltään "mistä", ja jonka avulla voimme muodostaa yhteyden SAS-käyttömoottorimme avulla - moottorit Hadoopiin, Poladan Clouderaan, Teradataan, Greenplumiin ... Ja luettelo jatkuu. Tämä antaa meille mahdollisuuden käyttää olemassa olevia kypsä SAS-alustojamme, jotka ovat jo olemassa, saadakseen tietoja näiltä alustoilta, tehdäksemme tarvittavat työt ja työntää tulokset takaisin näille alueille.


Viimeinen asia, jonka mainitsen on, että kaikkia näitä tekniikoita, joita näet, hallitsevat kaikki samat tavalliset yleiset metatiedot. Joten, puhumme muutostyön saamisesta, datan laatusäännöstä työssä, sen siirtämisestä muistiin voidakseen tehdä analytiikkaa, mallin kehittämisestä pisteytys. Meillä on koko analyyttinen elämäntapa, ja elinkaaria hallitsevat yhteiset metatiedot, hallinto, turvallisuus ja kaikki asiat, joista tänään puhuimme.


Joten vain yhteenveto, siellä on todella ne kolme suurta asiaa, jotka viedään pois. Yksi on se, että voimme kohdella tietoalustaa samoin kuin mitä tahansa muuta tietolähdettä vetämällä niistä, työntämällä heidän luokseen, kun se on tarkoituksenmukaista ja kätevää. Voimme työskennellä noiden suurten tietoalustojen kanssa, luettelemalla tiedot tarkoitukseen rakennetulle edistyneelle analyytikolle muistialustalla. Joten se on LASR-palvelin.


Ja sitten viimeiseksi, voimme työskennellä suoraan noissa suurissa tietoalustoissa hyödyntämällä niiden jakeluprosessointikykyä siirtämättä tietoja ympäri.


Eric: No, se on fantastista tavaraa, ihmiset. Joo, tämä on hienoa! Sukellaan siis oikein joihinkin kysymyksiin. Näihin tapahtumiin menemme yleensä noin 70 minuuttia tai vähän pidempään. Joten näen, että siellä istuu edelleen suuri yleisö. George, luulen, että heitän ensimmäisen kysymyksemme sinulle. Jos puhut binaarisen äänen työntämisestä Hadoopiin, mielestäni se kuulostaa minusta kuin olisit todella optimoinut laskennallisen työnkulun. Ja se on koko avain, jotta pystymme suorittamaan tällaisia ​​reaaliaikaisia ​​tiedonhallinnan ja tiedon laadun tyylin saavutuksia, koska se on se arvo, jonka haluat saada, eikö? Jos et halua palata MDM: n vanhaan maailmaan, jossa se on erittäin vaivalloista ja aikaa vievää, ja sinun on pakotettava ihmiset toimimaan tietyillä tavoilla, mikä melkein koskaan ei toimi. Ja niin, mitä olet tehnyt, olet tiivistänyt sen syklin, mikä oli. Kutsutaan sitä päivinä, viikkoina, joskus jopa kuukausina sekunteiksi, eikö niin? Onko se mitä tapahtuu?


George: Se on aivan totta, koska saamme mittakaava ja klusterista saamme suorituskyky ovat todella hämmästyttäviä suhteessa, vain, tiedätkö, olen aina epäröivä vertailuarvojen suhteen. Mutta vain suuruusluokkaa, kun meillä olisi miljardi, 1,2 miljardia tietuetta ja teemme täydellisen osoitteen standardisoinnin - sanon keskipitkällä HP-koneella - se vie, kuten tiedät, kahdeksan prosessorikoneta, tiedät , 2 keikkaa RAM-muistia per ydin, tiedät, että kesti 20 tuntia. Voimme tehdä sen noin kahdeksassa minuutissa nyt, tiedätkö, 12-solmuisessa klusterissa. Ja niin, prosessoinnin mittakaava, jota nyt voimme tehdä, on niin dramaattisesti erilainen, että - ja se sopii hyvin siihen ajatukseen, että sinulla on kaikki nämä tiedot käytettävissänne. Joten käsittely ei ole yhtä riskialtista. Jos teit sen väärin, voit tehdä sen uudelleen. Sinulla on aikaa, tiedät. Se todella muutti asteikkoa siinä missä, tiedätte, sellaisista riskeistä tuli todella todellisia liiketoimintaongelmia ihmisille, kun he yrittivät käyttää MDM-ratkaisuja. Sinulla on oltava 30 offshore-henkilöä, jotka tekevät tiedonhallintaa ja kaikkea. Ja niin, sinulla on vielä joitain siitä, mutta nopeus ja asteikko, jolla voit käsitellä sitä nyt, antaa sinulle todella paljon enemmän tilaa.


Eric: Kyllä, se on todella, todella hyvä asia. Rakastan sitä kommenttia. Joten, sinulla on aika tehdä se uudelleen. Se on fantastista.


George: Kyllä.


Eric: No, se muuttaa dynamiikkaa, eikö niin? Se muuttaa sitä, miten ajattelet mitä yrität. Tarkoitan, muistan tämän 18 vuotta sitten erikoistehosteiden tekemisen alalla, koska minulla oli asiakas, joka oli siinä tilassa. Ja painat painikkeita tehdäksesi sen ja menet kotiin. Ja tulisit takaisin ehkä lauantaina iltapäivällä nähdäksesi miten meni. Mutta jos sait väärin, se oli erittäin, hyvin, erittäin tuskallinen. Ja nyt, se ei ole läheskään - se ei ole edes lähellä niin tuskallinen, joten sinulla on mahdollisuus kokeilla lisää tavaroita. Minun on sanottava, että se on todella, todella hyvä asia.


George: Se on aivan totta. Joo, ja puhaltat ylimääräisen jalan. Tiedät, että saat työpaikan puolivälissä vanhaan aikaan ja se epäonnistuu, olet puhallut SOS-tasosi. Se siitä.


Eric: Oikein. Ja olet suurissa vaikeuksissa, joo. Oikein.


George: Se on totta. Oikein.


Eric: Keith, anna minun heittää yksi sinulle. Muistan tekemäni haastattelun CIL: nne kanssa, Keith Collins, uskon, että takaisin, luulen, että ehkä 2011. Ja hän puhui paljon suunnasta, jonka SAS oli ottanut erityisesti työskennelläkseen asiakkaiden kanssa SAS: stä johdetun analyysin upottamiseksi toimintajärjestelmiin. Ja tietysti kuulimme Mike Fergusonin puhuvan muistamisen tärkeydestä. Koko idea on, että haluat pystyä sitomaan nämä jutut toimintoihisi. Et halua analyysiä tyhjiössä, irrotettuna yrityksestä. Sillä ei ole mitään arvoa.


Jos haluat analyysin, joka voi suoraan vaikuttaa ja optimoida toimintaa. Ja jos katson taaksepäin - ja minun on sanottava, ajattelin, että se oli tuolloin hyvä idea -, se näyttää jälkikäteen todella, todella älykäs idea. Ja luulen, että se on todellinen etu, joka teillä on. Ja tietenkin, tämä upea perintö, tämä valtava asennuskanta ja se, että olet keskittynyt upottamaan nämä analytiikat käyttöjärjestelmiin, mikä tarkoittaa, että nyt - ja myönnetty, se vie jonkin verran työtä - olen varma, että olet ' olet työskennellyt sen suhteen kovasti. Mutta nyt voit hyödyntää kaikkia näitä uusia innovaatioita ja olet todella siinä mielessä, että pystyt hyödyntämään kaikki nämä asiat asiakkaidesi kanssa. Onko tämä kohtuullinen arvio?


Keith: Kyllä, ehdottomasti. Konsepti on, että saat tämän idean päätöksenteosta tai päätöksenteosta, joka on tietysti jossain määrin tutkittavaa, tieteellistä. Ellet osaa suunnitella prosessia todella ... Jos ajattelet auton kehittämistä, sinulla on suunnittelijoita, jotka tekevät tästä kauniista autosta, mutta vasta, kun insinöörit ovat asettaneet suunnitelman paikoilleen ja valmistaneet todellisen elinkelpoisen tuotteen ennen sinua pystyy tosiasiallisesti asettamaan asiat paikoilleen, ja se on lähinnä mitä SAS on tehnyt. Se on yhdistänyt päätökset - päätöksentekoprosessin ja päätöksentekoprosessin yhdessä siten, että kun puhut kiihdyttimistä, erityisesti pistekiihdyttimistä, tiedät, jos otat kehittämäsi mallin ja pystyt työntämään sen pois Teradatalle tai työnnä se ulos Oraclen tai Hadoopin kanssa, ilman mallin kehitystyötä, mallin käyttöönottoon. Se on avain, koska mallien tarkkuus heikkenee ajan myötä. Joten mitä kauemmin kestää, kun otat sen ja otat sen tuotantoon, se tarkoittaa mallin tarkkuuden menetystä.


Ja sitten toinen kappale on, että haluat pystyä seuraamaan ja hallitsemaan prosessia ajan myötä. Haluat vähentää malleja, kun ne vanhenevat ja ovat epätarkkoja. Haluat katsoa sitä, tarkistaa niiden tarkkuus ajan myötä ja rakentaa ne uudelleen. Ja niin, meillä on myös mallinhallintatyökaluja, jotka istuvat myös päällä ja jotka todella seuraavat metatietoja mallinnetun prosessin ympärillä. Ja ihmiset ovat sanoneet, että mallintaminen, tiedätte, että sellainen konsepti on kuin mallitehdas tai mitä haluatte sitä kutsua. Asia on, se asettaa metatiedot ja hallinnan prosessiin, ja siinä ovat kolme isoa asiaa, joihin törmäämme - autamme ihmisiä ansaitsemaan rahaa, säästämään rahaa ja pitämään heidät vankilassa.


Eric: Myös tämä viimeinen on aika iso. Haluan välttää kaiken tämän. Joten, puhutaanpa ...Annan yhden viimeisen kysymyksen, ehkä te molemmat pystytte hyppäämään tämän eteenpäin. Minusta näyttää siltä, ​​että maailman heterogeenisyys kasvaa vain. Luulen, että näemme ehdottomasti kiteytymistä hybridi pilviympäristöjen ympärillä. Mutta silti näet paljon tärkeimpiä pelaajia tarttumassa ympäriinsä. IBM ei ole menossa minnekään. Oracle ei ole menossa minnekään. SAP ei ole menossa minnekään. Ja on niin monia muita myyjiä, jotka ovat mukana tässä pelissä.


Myös operatiivisella puolella, missä sinulla on kirjaimellisesti tuhansia ja tuhansia erilaisia ​​sovelluksia. Ja kuulin - suurin osa teistä puhuu tästä, mutta luulen, että molemmat hyväksyisitte sen, mitä olen sanonut. Olemme nähneet tämän suuntauksen nyt vain laskennallisen tehon suhteen analyyttisissä moottoreissa, arkkitehtuurissa. Yritykset ovat puhuneet jo vuosia siitä, että he pystyvät käyttämään muita moottoreita ja palvelemaan eräänlaista orkesteripistettä. Ja luulen, George, heitän sen ensin sinulle. Minusta näyttää siltä, ​​että se on jotain, joka ei muutu. Meillä on tämä heterogeeninen ympäristö, joka tarkoittaa sellaisia ​​asioita kuin reaaliaikainen CRM ja tiedon laatu ja tiedonhallinta. Sinun on toimittajana oltava käyttöliittymä kaikkien näiden eri työkalujen kanssa. Ja sitä asiakkaat haluavat. He eivät aio haluta jotain, joka tekee sen hyvin näiden työkalujen kanssa eikä niin hyvä näiden välineiden kanssa. He haluavat MDM: n ja CRM: n Sveitsin, eikö niin?


George: Se on totta. Ja se on mielenkiintoista, koska olemme todella ottaneet sen omakseen. Osa siitä on historia, joka meillä oli avaruudessa. Ja tietenkin työskentelimme jo kaikissa muissa tietokannoissa, Teradatassa ja maailman palasissa. Ja sitten teit - toteutusprosessissa, erityisesti niin kuin teimme, vain niin, että se - sinulla on tämä ulottuvuus kaikissa näissä eri tietokannoissa. Yksi mielenkiintoisista asioista on, että meillä on joitain asiakkaita, jotka ovat vain helvettiä eliminoimaan kaikki relaatiotietokannat. Ja se on mielenkiintoista. Tiedät, tarkoitan, se on hieno. Se on kiinnostavaa. Mutta en vain näe, että se todella tapahtuu suurten yritysten tasolla. En näe sen tapahtuvan pitkään. Joten mielestäni hybridi on täällä jo pitkään ja sovelluksemme toisella puolella, jossa meillä on viestintäalustamme kampanjanhallintajärjestelmässämme. Olemme itse suunnitelleet sen. Nyt olemme julkaissut version, joka tekee tämän ja joka voi nyt muodostaa yhteyden hybrididataympäristöön ja tehdä Hadoop-kyselyä tai tehdä tietokantoja tai analyyttisiä tietokantoja koskevia kyselyjä. Joten mielestäni se on vain tulevaisuuden aalto. Ja olen samaa mieltä siitä, että virtualisoinnilla on varmasti suuri merkitys tässä, mutta olemme vain - siirrymme suoraan kaikkien sovellusten tietoihin.


Eric: Okei, hienoa. Ja Keith, heitän sen sinulle. Mitä mieltä olet heterogeenisesta maailmasta, jonka edessä olemme toimiessaan eräänlaisena jalana?


Keith: Kyllä, se on todella kiehtovaa. Uskon, että mitä löydämme enemmän - ei vain asioiden tiedonhallinnan puolella -, mutta mikä on tällä hetkellä todella kiehtovaa, on analyysiperustan avoimen lähdekoodin luonne. Joten näemme organisaatioiden kaltaisia ​​organisaatioita tai Spark-tekniikkaa, kuten Spark, ja ihmisiä, jotka käyttävät Pythonia ja R: tä ja kaikkia näitä muita avoimen lähdekoodin tekniikoita. Mielestäni sitä voidaan tulkita jonkin verran konfliktina tai uhkana. Mutta todellisuus on, että meillä on todella upeita komplimentteja kaikista noista avoimen lähdekoodin tekniikoista. Tarkoitan yhtäältä, että toimimme avoimen lähdekoodin käyttöjärjestelmien päällä, Jumalan tähden.


Mutta myös, kuten kyky integroida esimerkiksi R-malli SAS-paradigmaan, voit käyttää molempien maailmojen parasta, eikö niin? Kuten, joten tiedämme, että osa akateemisen maailman kokeellisista asioista ja osa mallin kehitystyöstä on poikkeuksellista ja erittäin hyödyllistä mallin kehittämisprosessissa. Mutta vaikka voisit parittaa sen tuotantoluokan tyyppisillä työkaluilla, se puhdistaa ja parantaa paljon ja tarkistaa ja varmistaa, että mallille annettavat tiedot ovat, se on valmistettu kunnolla, jotta se ei epäonnistu teloituksen yhteydessä. Ja sitten, kun pystymme tekemään esimerkiksi mestarihaastajamalleja avoimen lähdekoodin malleilla. Näitä asioita etsimme mahdollistaa ja näiden kaikkien tekniikoiden todella heterogeenisen ekosysteemin osana. Joo, niin on enemmän - meille se tarkoittaa enemmän kyseisten tekniikoiden omaksumista ja kohteliaisuuksien etsimistä.


Eric: No, tämä on ollut fantastista tavaraa, ihmiset. Menimme täällä vähän kauan, mutta haluaisimme saada niin monta kysymystä kuin mahdollista. Lähetämme Q&A-tiedoston tänään esittelijöillemme. Joten jos mihinkään kysymääsi ei vastattu, varmistamme, että siihen vastataan. Ja ihmiset, tämä kääri sen vuodelle 2014. Kunnioittavasti DM-radiossa huomenna ja ensi viikolla, ja sitten kaikki on valmis ja se on lomatauko.


Paljon kiitoksia teille kaikille ajastanne ja huomiostamme, että seuraat kaikkia näitä upeita verkkolähetyksiä. Meillä on upea vuosi vuodelta 2015. Ja puhumme pian sinulle, ihmiset. Kiitos taas. Pidämme huolta. Hei hei.