Tietoluettelot ja koneoppimismarkkinoiden kypsyminen

Sisältö

Infonomics Imperative
Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi
Mitä tietokatalogi voi tehdä yrityksille
Lisääminen koneoppimiseen
Kuinka valita

Lähde: Nmedia / Dreamstime.com

Ottaa mukaan:

MLDC-markkinat kasvavat, ja yritysten, jotka pyrkivät tehokkaasti hyödyntämään suurta dataa koneoppimisen avulla, tulisi olla tietoisia alan huippunimistä ja heidän henkilökohtaisista sijoituksistaan.

Tämä on isojen tietojen ikä. Saamme tietoa täynnä, ja yritysten on haaste hallita ja hyödyntää siitä tietoa.

Nykyinen suurten tietojen kulku ei edellytä vain määrää, monimuotoisuutta ja nopeutta, vaan myös monimutkaisuutta. Kuten SAS on todennut suuria tietoja koskevassa historiassa ja nykyisissä huomioissa, se on tekijä streamista "useista lähteistä, mikä vaikeuttaa tietojen linkittämistä, sovittamista, puhdistamista ja muuntamista järjestelmien välillä". (Haluatko tietää enemmän isoista tiedoista? Katso (Big) Datas Big Future.)

Arvokkaan tiedon löytäminen ei ole vain tiedon keräämistä mahdollisimman paljon, vaan oikeiden tietojen löytämistä. On mahdotonta selvittää kaikkea käsin tapahtuvien prosessien avulla. Tästä syystä yhä useammat yritykset ovat "kääntymässä tietoluetteloihin tietojen saatavuuden demokratisoimiseksi, heimojen tietotiedon mahdollistamiseksi tietojen keräämiseksi, tietosääntöjen soveltamiseksi ja kaiken datan aktivoimiseksi nopeasti yrityksen arvoksi".

Täällä dataluettelot (joskus kutsutaan myös tietoluetteloiksi) syötetään kuvaan. Tässä määritellyn mukaisesti ne antavat käyttäjille "mahdollisuuden tutkia vaadittavia tietolähteitä ja ymmärtää tutkittuja tietolähteitä, ja auttavat samalla organisaatioita saavuttamaan nykyisen sijoituksensa lisäarvoa". Yksi tapa, jolla se tehdään, on mahdollistamalla huomattavasti parempi pääsy tietoihin erityyppisten käyttäjien keskuudessa, jotka voivat käyttää sitä tai myötävaikuttaa siihen.

Infonomics Imperative

Gartner totesi, että tietoluetteloiden kysyntä on lisääntynyt dramaattisesti vuoden 2017 lopussa, ja nimitti Gartnerin "uudeksi mustaksi". Niistä tunnettiin nopea ja taloudellinen ratkaisu "kartoittaa ja luokitella organisaatioita, jotka jakautuvat yhä enemmän hajautettuihin ja hajautettuihin tietoaineistoihin ja kartoittaa niiden tiedon toimitusketjut". Tämän välttämättömyys on syntynyt "infonomian" nousun johdosta, joka vaatii tietojen seurantaan samaa huolellisuutta kuin muiden liiketoimintavarojen hallintaan. (Lisätietoja toimitusketjuista on artikkelissa Kuinka koneoppiminen voi parantaa toimitusketjun tehokkuutta.)

Gartnerit ottavat suihkut The Forrester Wave ™: Machine Learning Data Catalogs -luettelolla, Q2 2018. Yli puolet raportissa tehdyistä tutkimuksen osallistujista kertoi suunnittelevansa tietokatalogin toteutuksen rakentamista. Todennäköisesti niitä motivoi suurelta osin se, että jokaisella oli organisaatiossaan vähintään seitsemän tietojärveä. Kuten Gartner ottaa tietokatalogit selittää, tietokatalogit ovat erityisen hyödyllisiä "tietojen sisällön, merkityksen ja arvon" vetämiseksi, joka tyypillisesti jätetään luokittelemattomassa muodossa datajärvelle.

Forrester kertoi, että yli kolmannes tieto- ja analysointipäättäjistä käsitteli 1 000 kt tai enemmän tietoa vuonna 2017, mikä oli vain 10–14 prosenttia edellisenä vuonna. Tietojen hallinta tällä mittakaavalla on kasvava haaste tai erityisesti kaksi haastetta:

"1) olemassa olevien liiketoimintaprosessien yhdistäminen datan lähteeksi sen analysoimiseksi ja oivalluksen toteuttamiseksi sekä 2) tiedon hankkiminen, kerääminen, hallinta ja hallitseminen datan kasvaessa."

Ei vikoja, ei stressiä - vaiheittaiset ohjeet elämää muuttavien ohjelmistojen luomiseen tuhoamatta elämääsi

Et voi parantaa ohjelmointitaitojasi, kun kukaan ei välitä ohjelmiston laadusta.

Mitä tietokatalogi voi tehdä yrityksille

Gartner tunnistaa erityiset tavat, joilla tietoluettelot voivat parantaa organisaation tiedonkulkua ja tuottavuutta:

Organisaation käytettävissä olevan ajan tasalla olevan tietoaineiston luettelon kokoaminen ja välittäminen.
Luodaan yhteinen yrityssanaston sanasto, joka määrittelee organisaatiotietojen semanttisen tulkinnan ja merkityksen ja tarjoaa siten välineet määritelmien epäjohdonmukaisuuksien välittämiselle ja ratkaisemiselle.
Mahdollistetaan dynaaminen ja ketterä yhteistyöympäristö, jonka avulla yritys- ja IT-kollegat voivat kommentoida, dokumentoida ja jakaa tietoja.
Tarjoaa tietojen käytön läpinäkyvyyden suvun ja vaikutusanalyysin avulla.
Tietojen seuranta, auditointi ja jäljittäminen tiedonhallintaprosessien tukena.
Metadatan sieppaaminen parantaa sisäistä tietojen käytön ja uudelleenkäytön analyysiä, kyselyjen optimointia ja tietojen varmentamista.
Tietojen koonmuutos liiketoiminnan käytöllä kaappaamalla, välittämällä ja analysoimalla olemassa olevaa tietoa, mistä se tulee, mihin mihin sitä käytetään, miksi sitä tarvitaan, miten se virtaa prosessien ja järjestelmien välillä, kuka on siitä vastuussa, mitä se tarkoittaa ja mikä arvo sillä on.

Gartnerin raportissa on tärkeää saada tiedot asianmukaisesti tunnistetuiksi ja pääsyä organisaation avainhenkilöille, ei pelkästään löytää tapa "ansaita rahaa tietoresursseille digitaalisen liiketoiminnan tulosten saavuttamiseksi", vaan myös säännösten noudattamiseksi riippumatta siitä, ovatko ne teollisuuden kannalta tärkeitä erityisiä, kuten sairausvakuutusten siirrettävyyttä ja vastuuvelvollisuutta koskevaa lakia (HIPAA), tai yleisempiä, kuten yleinen tietosuoja-asetus (GDPR).

Lisääminen koneoppimiseen

Mutta mikään ei ole ilman sen haittoja. Tietokatalogien ongelmana on ollut hidas ja työläs prosessi, joka liittyy niiden manuaaliseen rakentamiseen kaikkien metatietojen kanssa, jotka on asetettava paikoilleen. Tällöin koneoppimiskomponentti tulee sisään.

Tietoluetteloita, joita Forrester arvioi, kutsutaan MLDC: ksi, koska ne hyödyntävät koneoppimisen voimaa, joka on yksi AI: n osista. Kuten Podium Data -blogi selitti, se tekee mahdolliseksi "rakentaa pysyvän metatietovaraston ja soveltaa sitten ML / AI: ää frettiin ja paljastaa mahdollisesti hyödyllisiä oivalluksia taustalla olevien tietoresurssien ympärille".

Kuinka valita

Auttaakseen organisaatioita arvioimaan, minkä yrityksen tulisi valita, Forrester sovelsi 29 arviointipistettä 12 parhaan MLDC: n joukkoon. Se tunnisti näiden markkinoiden johtajat seuraavasti: IBM, Relito, Unifi Software, Alation ja Collibra. Sen löytämiä vahvoja esiintyjiä ovat Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics ja Cloudera. Hortonworks seisoo yksin "haastajan" listalla.

Kuitenkaan ei pitäisi mennä pelkästään kokonaisluokittelussa. Mietinnössä eritellään kunkin erityiset vahvuudet ja heikkoudet. Vastaavasti, jos jokin tietty ominaisuus, kuten tutkimus ja kehitys, on erittäin tärkeä organisaatiolle, se voi pitää Hortonworksia IBM: n ja Colilbran yhtä suurena tässä suhteessa, koska näillä kolmella on viiden parhaan pistemäärän laatu, joka oli kaksi pistettä parempi kuin Alation ja Coloudera ja neljä pistettä parempi kuin Cambridge Semantics.

Vastaavasti Forrester-raportti kehottaa niitä, jotka käyttävät raporttia ohjeiksi, olettamaan, että parhaiten sijoittautunut yritys on kaikille paras valinta. Heidän tulee kiinnittää erityistä huomiota arvioinnin jakautumiseen löytääkseen, mikä vastaa heidän erityisiä vaatimuksiaan.