Kuinka isot tiedot pienenevät

Kirjoittaja: Judy Howell
Luomispäivä: 28 Heinäkuu 2021
Päivityspäivä: 11 Saattaa 2024
Anonim
Kuinka isot tiedot pienenevät - Tekniikka
Kuinka isot tiedot pienenevät - Tekniikka

Sisältö


Ottaa mukaan:

Suurten tietojen kerääminen ja analysointi on vain yhtälön puoli; toinen on kuinka ymmärtää se.

Mark Zuckerberg ilmoitti 4. lokakuuta 2012 saavuttaneensa merkittävän virstanpylvään: miljardin aktiivisen käyttäjän. Tätä puhuakseen hän kertoi haastattelijalle, että ainoat muut yritykset, joilla on miljardi asiakasta, olivat "luultavasti Coca Cola ja McDonalds".

Tämä on vain yksi esimerkki erittäin suuresta määrästä, jonka yritysten on nyt kohdattava. Numerot ovat niin suuret, että useimmat ihmiset eivät todellakaan voi saada käsiinsä niin sanotusti. Mitä tapahtuu, on, että näistä numeroista tulee abstrakteja. Ne ovat niin suuria, he eivät vain ole todellisia meille.

Lisää tähän tosiasia, että käsittelemme ja tallennamme yhä enemmän tietoja päivittäin, ja löydämme itsemme melkein kykenemättä käsittelemään sekä tietomäärää että yksittäisten arvojen kokoa. Google käsittelee noin 24 petatavua päivässä, kun taas videopeli "World of Warcraft" käyttää 1,3 petatavua tallennustilaa pelin ylläpitämiseen.


Nyt ne ovat suuria lukuja. Sitten ongelmaksi tulee paitsi kuinka käsitellä tällaisia ​​valtavia tietomääriä, myös kuinka ymmärtää niitä. Onneksi näiltä alueilta on saatu apua monista suunnista. (Hanki taustaa siitä, kuinka suurta dataa käytetään käyttöön tässä infografisessa, humanisoivassa Big Datassa.)

Kuinka datat pienenevät

Muutaman viime vuoden ajan Internetin isä Sir Tim Berners-Lee on aktiivisesti kampanjoinut avoimen datan puolesta, joka määritellään datana, joka on kaikkien saatavilla tutkittavaksi ja analysoitavaksi. Berners-Lee antaa TED-videossa esimerkkejä siitä, kuinka tietojen saatavuus johti rasismin paljastamiseen Ohiossa ja auttoi tarjoamaan kaivattua terveydenhuoltoa Haitin pakolaisleireille.On selvää, että nämä ovat sovelluksia, joissa tiedot ovat siirtyneet abstraktiosta todellisuuteen.


Ehkä tunnetuin tilastotietojen esittämismenetelmien kehittäjä helposti ymmärrettävässä grafiikassa on Hans Rosling. Hänen Gapminder-ohjelmistonsa, ohjelmiston, joka muuntaa kansainväliset tilastot liikkuviksi, interaktiivisiksi grafiikoiksi, voi ladata kaikentyyppisissä tietokoneissa. (Löydät hienoja esimerkkejä sen käytöstä tässä TED-puheessa. Gapminderin kehityksestä keskustellaan toisessa keskustelussa.) Unohda ympyräkaaviot: Tämä ohjelmisto esittelee tilastot paitsi järkevällä tavalla, mutta se tekee vaikutelman . Et koskaan saa hankkipompoja teostilastoista, mutta nämä grafiikkapakkaukset ovat tarpeeksi lyöntiä ajattelemaan mieltäsi.

Vaikka Rosling on tilastollisesti perehtynyt professori, David McCandless on toimittaja, joka kiinnosti vasta äskettäin menetelmien suunnitteluun, jotta dataanalyysi esitetään tavalla, joka todella antaa tietoa. Hänen TED-puheessaan esitetään esimerkkejä tietovisuaalista sellaisista monimuotoisista tutkimuksista, kuten videopelien yhteiskunnalliset huolet, vitamiinilisien tehokkuus ja romanttiset hajoamiset vuodenaikojen ja kuukausien mukaan. McCandlessille tiedot edustavat ainutlaatuista uutta suuntausta journalismissa ja tapaa tutkia aihetta ja tarjota tietoa tavalla, joka ei koskaan ollut mahdollista. (Voit tarkistaa todella hämmästyttäviä esimerkkejä siitä, kuinka tätä sovelletaan Data Journalismin käsikirjassa.)

Chris Jordan omaksuu erilaisen lähestymistavan. Toisin kuin Rosling ja McCandless, Jordania hyödyntää taiteilijanaan taustansa esitelläkseen tietoja aiheista, kuten tupakoinnin kuolemat, vankilavankeudet, reseptilääkeriippuvuus ja muut tärkeät aiheet tavalla, joka on sekä kaunis että voimakas. Sen tiedot - tai tiedot - taiteena ja Jordans-tapauksessa joitain melko vahvoja poliittisia kommentteja. (Voit tarkistaa Jordansin työn täältä.)

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Jordania, Rosling ja McCandless ovat vain kolme niistä monista ihmisistä, jotka yrittävät hyödyntää tarkoituksenmukaisesti nykyään maailmassa olevaa suuria tietoja, mutta tämä joukko suuria datan pioneereja kasvaa.

Kaupan työkalut

Ennen kuin voimme muuttaa tietoja hyödylliseksi, meidän on ensin ymmärrettävä se. On luotava välineet, jotta voidaan ymmärtää tosiasioiden ja tietojen laajamittainen laajentuminen, jonka tutkijat, tutkijat ja yritykset tuottavat vuosittain. EMC: n tukemassa IDC: n tutkimuksessa vuonna 2011 kävi ilmi, että tiedot kaksinkertaistuvat jatkuvasti ja kuluttavat joka kerta alle kaksi vuotta. Tutkimuksessa todettiin lisäksi, että vuonna 2011 luodaan ja toistetaan valtava 1,8 zettabyyttiä.

Zettabyte?

Joo, se on 1000 eksabyyttiä ja eksabyytti on 1000 petatavua (saatat muistaa, että 1000 teratavua, mikä puolestaan ​​on 1000 gigatavua).

Nyt siellä on muutama vaikea asettaa aseesi ympäri! EMC-tutkimuksessa yritetään saada se epäselväksi tarjoamalla mielenkiintoisia esimerkkejä siitä, mitä 1,8 zettabyyttiä vastaa:

  • Jokainen Yhdysvaltain ihminen tweettoi kolme tweettiä minuutissa 26,976-vuotiaana keskeytyksettä
  • Jokaisella ihmisellä maailmassa on yli 215 miljoonaa korkearesoluutioista MR-skannausta päivässä
  • Yli 200 miljardia HD-elokuvaa (kahden tunnin pituinen). Yhden 47 miljoonan vuoden ihmisen katsominen jokaisen elokuvan, jos hän katseli koko päivän joka päivä.
  • Tietoja tarvitaan 57,5 ​​miljardin 32 Gt: n Apple iPad -laitteiden täyttämiseen.

Niiden monien iPadien avulla voisimme:

  • Luo iPadeista 4 005 mailin pituinen ja 61 jalkaa korkea seinä, joka ulottuu Anchoragesta, Alaska, Miamiin, Floridaan.
  • Rakenna suuri iPadin Kiinan muuri. (Se olisi kaksi kertaa alkuperäisen keskimääräinen korkeus.)
  • Rakenna 20 jalkaa korkea seinä Etelä-Amerikan ympärille
  • Kattaa 86 prosenttia Mexico Citystä
  • Rakenna vuori 25 kertaa korkeammalle kuin Mt. Fuji

Jotta näistä tiedoista voidaan tehdä hyödyllisiä - muuntaa niistä hyödyllisiä tietoja, tarvitsemme pelkästään sovelluksia ja "mashupsia" - palveluiden, kuten Google Earthin ja New York Times Internationalin otsikoiden tai NYC-ravintolaoppaan, avioliiton NYC Health Dept -palvelun kanssa. - Arvioinnit - mutta myös erittäin tehokkaat työkalut suodattaa, lajitella ja analysoida tietojoukkoja päätöksentekoon, tieteellisiin tutkimuksiin ja vaikeaseen analyysiin tarvittavan tiedon tarjoamiseksi. IBM on kehittänyt sellaiset työkalut, joita se viittaa kollektiivisesti Smarter Analytics -sovellukseen käytettäväksi suurten data- ja pilvipalveluidensa yhteydessä. Se niputtaa ohjelmisto-, laitteisto- ja konsultointipalveluita yrittääkseen tarjota tietoalustan, jolla voidaan tehdä liike- ja tieteellisiä päätöksiä. Hewlett-Packard, Oracle ja monet muut tietotekniikkayritykset ovat myös tavoittamassa tuotteita asiakkaille yrittääkseen tehokkaasti käsitellä tätä informaatiota.

Suuret tiedot, suuri potentiaali

Tämän uuden datakauden potentiaalin hyödyntämiseksi tarvitsemme paljon enemmän järjestelmiä ja sovelluksia. Tarvitsemme IT-ammattilaisia, joilla on 2000-luvun koulutus ja taidot. Tarvitsemme sovellusasiantuntijoita, jotka todella ymmärtävät yritysten, teollisuuden, valtion virastojen, armeijan, yrittäjien ja tutkijoiden toiminnan ja tarpeet. Tarvitsemme myös rauhallisia ja kypsiä analyytikoita, jotka kyseenalaistavat tietoanalyysin perusteella tehdyt arviot. Tehokkaiden tietokonetyökalujen, jotka toimivat "taikuutta" suurilla tietomäärillä, on helppo hukkua. Terveyden järjen on aina oltava etusijalla tai ainakin edellytettävä tietojen uudelleenkäsittelyä.

Tiedämme jo, että suurten tietojen potentiaali on rajaton, mutta niin on myös virhekyky. Siksi työkalut, jotka on rakennettu kaiken tämän tiedon ymmärtämiseksi, voivat olla avain kietoaksesi aseemme isojen tietojen ongelman ympärille.