Voiko suurissa tiedoissa koskaan olla liian paljon dataa?

Video: Michael James on the Teachings of Ramana Maharshi and the Practice of Self-Enquiry: BatGap interview

Sisältö

K:

V:

Vastaus kysymykseen on kuuluva KYLLÄ. Suuressa dataprojektissa voi olla ehdottomasti liian paljon dataa.

Näin voi tapahtua lukuisilla tavoilla, ja monista syistä, miksi ammattilaisten on rajoitettava ja kuratoitava tietoja monilla tavoilla oikeiden tulosten saamiseksi. (Lue 10 suurta myyttiä isoista tiedoista.)

Yleensä asiantuntijat puhuvat "signaalin" erottamisesta "kohinasta" mallissa. Toisin sanoen suurten tietojen mereen asiaankuuluvaa tietoa on vaikea kohdistaa. Joissain tapauksissa etsit neulaa heinäsuovasta.

Oletetaan esimerkiksi, että yritys yrittää käyttää suurta dataa tuottaa erityisiä oivalluksia asiakaskunnan segmentistä ja heidän ostoistaan tietyllä aikavälillä. (Lue Mitä iso data tekee?)

Valtavan määrän tietoresurssien ottaminen voi johtaa satunnaisten tietojen hankkimiseen, mikä ei ole merkityksellistä, tai se voi jopa tuottaa poikkeaman, joka vääristää tietoja toiseen suuntaan.

Se myös hidastaa prosessia dramaattisesti, koska laskentajärjestelmien on painettava suurempien ja suurempien tietojoukkojen kanssa.

Niin monissa erityyppisissä hankkeissa on erittäin tärkeää, että tietotekniikan suunnittelijat kuraavat tiedot rajoitettuihin ja erityisiin tietojoukkoihin - edellä mainitussa tapauksessa kyse olisi vain kyseisen asiakasryhmän tiedoista, vain kyseisen ajan tiedot. tutkittava kehys ja lähestymistapa, joka syrjäyttää ylimääräiset tunnisteet tai taustatiedot, jotka voivat sekoittaa asioita tai hidastaa järjestelmiä. (ReadJob-rooli: Datainsinööri.)

Katsotaanpa lisää, miten tämä toimii koneoppimisen rajalla. (Lue koneoppiminen 101.)

Koneoppimisen asiantuntijat puhuvat "ylimääräisestä" nimityksestä, jossa liian monimutkainen malli johtaa vähemmän tehokkaisiin tuloksiin, kun koneoppimisohjelma käännetään irti uusista tuotantotiedoista.

Yliasennus tapahtuu, kun monimutkainen datapistejoukko vastaa liian hyvin ensimmäistä harjoitussarjaa, ja älä anna ohjelman mukautua helposti uuteen tietoon.

Nyt teknisesti ylikuormitus ei johdu liian monien tietonäytteiden olemassaolosta, vaan liian monien tietopisteiden kruunaamisesta. Mutta voisit väittää, että liian suuren datan määrän saaminen voi olla avuksi myös tämän tyyppisissä ongelmissa. Dimensionaalisuuden kirous käsittelee joitain samoja tekniikoita, joita tehtiin aiemmissa isoissa dataprojekteissa, kun ammattilaiset yrittivät selvittää, mitä he syöttävät IT-järjestelmiä.

Tärkeintä on, että iso data voi olla yrityksille suunnattoman hyödyllistä tai siitä voi tulla suuri haaste. Yksi näkökohta tässä on se, onko yrityksellä oikeat tiedot pelissä. Asiantuntijat tietävät, että ei ole suositeltavaa yksinkertaisesti upottaa kaikki tietovarastot täyttösuppiloon ja keksiä näkemyksiä tällä tavalla - uusissa pilvipohjaisissa ja hienostuneissa tietojärjestelmissä pyritään hallitsemaan ja hallitsemaan ja kuratoimaan tietoja, jotta saadaan tarkempia ja tietoresurssien tehokas käyttö.