5 avainaluetta, joilla suurilla tiedoilla on suuri vaikutus

Video: 03.12.2020 Espoon valtuuston kokous: talousarvio / Esbo fullmäktiges möte: budget

Sisältö

Miten se tapahtui
Suuret tiedot, suuri mahdollisuus
Jotain katsottavaa

Lähde: Nmedia /Dreamstime.com

Ottaa mukaan:

Suuret tiedot ovat suuria yrityksiä kaikkialla, mutta muutama erityinen alue hyödyntää tätä tekniikkaa eniten.

Kun aloitin tämän artikkelin, aion luetteloida erityyppisiä suuria tietoalustoja. Mutta sen jälkeen, kun kolme päivää oli yritetty korjata kaikki suuret tietotarjoukset - relaatiot vs. ei-relaatiot, SQL vs. NoSQL ja tietokanta vs. kehys - jonkinlaiseen järjestyksessä, päätin välttää tämän sotkun.

Lisäämään loukkaantumista loukkaantumiseen toivoin esitellä henkilölle, joka loi termin "big data" osana artikkelia. Mutta en voi edes tehdä sitä. Ei ole sovittua vastausta. Itse asiassa on olemassa täysimittainen tutkimusprojekti, jossa tutkitaan, kuka alun perin tuotti suuria tietoja. Sen sijaan aion tarkastella joitain keskeisiä tapoja, joilla iso dataa käytetään. Se on paljon tärkeämpää. Ja se on mielenkiintoisempaa ja yllättävämpää kuin voisi luulla.

Miten se tapahtui

Perinteistä tiedon louhintaa käyttävät analyytikot ovat manipuloineet tietoja vuosien ajan. Samojen analyytikkojen on nyt vaikea selviytyä yritysten, yksityisten organisaatioiden ja valtion virastojen tallentaman tiedon määrästä ja monimuotoisuudesta.

Syötä iso data, seuraava evoluutiovaihe tiedon louhintaan. Big data on suunniteltu käsittelemään nykypäivän digitaalimaailmassa luotavia valtavia tietokantoja ja lukemattomia tietotyyppejä. Jos "massiivinen" olet ajatellut Googlea ja kaikkia sen keräämiä tietoja, olisit ballparkissa. Mikä voi yllättää sinut siitä, että Google on vasta neljänneksi maailman suurimpien tietokantojen kymmenen parhaan listan luettelossa. Tammikuusta 2014 alkaen ilmaston maailman tietokeskus oli listan kärjessä 220 teratavua dataa, ja se on jonkun arvaus tiettyjen valtion virastojen hallinnassa olevien tietokantojen koosta.

Tietysti iso tieto otettiin käyttöön, koska sen avulla on mahdollista käsitellä valtavia määriä erilaisia tietoja ja löytää uskomattomia - ja uskomattoman yksityiskohtaisia ja henkilökohtaisia - asioita. HR-alan analyytikko John Sumser tarjoaa seuraavan esimerkin:

"Nykyään luomme hypoteeseja ja keräämme tietoja. Huomenna teemme käänteisen kuvan. Jatkuva, vakaa tietojen kerääminen antaa meille mahdollisuuden tarkastella tietoja ennen kysymysten laatimista. Tämä tarkoittaa, että saamme vastauksia kysymyksiin, joita emme tehneet." t tiedä kysyä. Ajattelemme kokonaisen joukon asioita, joiden oletamme olevan tosiasioita. "

Tietenkin, olemme kaikki kuulleet joistakin kammottavista tavoista, joita nämä tiedot on käytetty, kuten esimerkiksi Kohteiden kyky selvittää nuorten naisten raskaus ennen kuin hänen perheensä edes selviää. Mutta suuria tietoja käytetään myös paljon vähemmän pahaan aiheisiin. Tässä on muutama organisaatio, joka hyödyntää sitä eniten:

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Yksi ilmeinen alue, josta suuri tieto auttaa, on sähköisten terveystietojen käsittely turvallisesti ja tarkasti lääketieteellisissä organisaatioissa. Tarkat tietueet tarjoavat potilaille paremman palvelun ja vähentävät virheitä. Terveydenhuoltokenttä mukauttaa ilmeisistä syistä suurta dataa hitaammin vastatakseen potilaiden luottamuksellisuutta koskevia valtion viranomaismääräyksiä.

Kuten aiemmin mainittiin, iso data tunnetaan vastausten tarjoamiseksi kysymyksiin, joita ei ole vielä esitetty. Terveydenhuollossa tämä saattaa tarkoittaa uuden lääkkeen tai hoidon löytämistä, jota ei olisi toisin löytynyt. McKinsey & Company: n mukaan iso tieto voisi tehdä seuraavista mahdollisista ei niin kaukaisessa tulevaisuudessa:

Biologisten prosessien ja lääkkeiden ennakoivasta mallinnuksesta tulee hienostuneempaa ja laajempaa.
Potilaiden on tunnistettu liittyvän kliinisiin tutkimuksiin, jotka perustuvat useampiin tietolähteisiin, kuten sosiaaliseen mediaan.
Kokeita seurataan reaaliajassa turvallisuus- tai toimintakysymysten tunnistamiseksi nopeasti.
Vaikeiden hyödynnettävien jäykien datasilojen sijaan tiedot kerätään sähköisesti ja kulkevat helposti eri yksiköiden välillä.

Suuret tiedot, suuri mahdollisuus

Vaikka suuria tietoja hyödynnetään joillakin tietyillä alueilla, se tarjoaa mahdollisuuden kaikille organisaatioille seuraavilla alueilla:

Melkein kaikki laskenta- ja verkkolaitteet lokitiedot. Lokitietojen määrä muuttuu nopeasti hankalaksi. Suuret tiedot voivat helposti hallita sitä tietomäärää, jolloin järjestelmänvalvojat voivat seurata verkkoaktiviteettia, diagnosoida ongelmia tai Rubinin antamassa esimerkissä etsiä tiettyjä verkkoliikennekuvioita, jotka osoittavat haittaohjelmaaktiivisuuden.

Jos luet tätä artikkelia, se on melko turvallinen veto, että tiedät OpenSSL: ää ympäröivän Heartbleed-ongelman. Teknisen ongelman lisäksi on huolestuttavaa, että haavoittuvuus on ollut olemassa useita vuosia. Rubin mainitsi, että suurten tietojen avulla verkonvalvojat voivat työskennellä data-analyytikkojen kanssa luoda ohjelman, joka etsii kaikista verkkolokista haitallisia sykettä. Tämä EKTR-viesti mainitsee:

"Jokainen verkko-operaattori, jolla on laaja pakettiloki, voi tarkistaa haitallisten sydämenlyöntien varalta. TCP: n hyötykuorma on yleensä 18 03 02 00 03 01 tai 18 03 01 00 03 01 (tai ehkä jopa 18 03 03 00 03 01)."

Seuraava esimerkki on näytteen lähtö auditointikomennosta:

Reititin # näyttää auditoinnin

* 14. syyskuuta 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Käyttäjä:

* 14. syyskuuta 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Käyttäjä:

* 14. syyskuuta 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Käyttäjä:

* 14. syyskuuta 18: 37: 32.107:% AUDIT-1-TIEDOSTOJÄRJESTELMÄ: Hash:

330E7111F2B526F0B850C24ED5774EDE Käyttäjä:

* 14. syyskuuta 18: 37: 32.107:% AUDIT-1-LAITTEISTO_KONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Käyttäjä:

Jos seuraat aikaleimoja, kaikkien näiden merkintöjen aikaväli oli alle yksi sekunti. En haluaisi edes ekstrapoloida sitä päiväksi, puhumattakaan kahdesta vuodesta!

Jotain katsottavaa

Jos tarkistat työpaikkailmoitukset, siellä ei ole tarvetta suurten tietojen asiantuntijoille. Kysyin tästä Rubinilta. Hän suostui mainitsemalla, että hänen opiskelijansa olivat innostuneita heidän mahdollisuuksistaan. Sitten tajusin, että suuret tietoalustat, erityisesti avoimiksi lähteiksi katsotut, seuraavat aikataulua, joka on hyvin samankaltainen kuin kuinka Linuxista tuli valtavirta.

Yliopistot omaksuvat avoimen lähdekoodin versioita isotietoalustoista, erityisesti Hadoop, koska ne ovat ilmaisia ja opiskelijat voivat manipuloida lähdekoodia. Joten kaikki nuo avoimet lähteet täyttävät tutkinnon suorittajat haluavat mieluummin työskennellä avoimen lähdekoodin alustoilla, koska he tietävät parhaiten. Se on mielenkiintoista katsella.