Miksi keinotekoisia toistuvia hermoverkkoja on usein vaikea kouluttaa?

Sisältö

K:

V:

Keinotekoisten toistuvien hermoverkkojen kouluttamisen vaikeudet liittyvät niiden monimutkaisuuteen.

Yksi yksinkertaisimmista tavoista selittää, miksi toistuvia hermoverkkoja on vaikea kouluttaa, on, että ne eivät ole eteenpäin suuntautuvia hermoverkkoja.

Eteenpäin siirtyvissä hermoverkoissa signaalit liikkuvat vain yhteen suuntaan. Signaali siirtyy tulokerroksesta eri piilotettuihin kerroksiin ja eteenpäin järjestelmän lähtökerrokseen.

Sitä vastoin toistuvilla hermoverkoilla ja muun tyyppisillä hermoverkoilla on monimutkaisemmat signaaliliikkeet. Luokitellut palauteverkoiksi, toistuvilla hermoverkoilla voi olla signaaleja, jotka kulkevat sekä eteen- että taaksepäin, ja ne voivat sisältää erilaisia "silmukoita" verkossa, joissa numerot tai arvot syötetään takaisin verkkoon. Asiantuntijat yhdistävät tämän toistuviin hermoverkkoihin, jotka liittyvät heidän muistiinsä.

Lisäksi on olemassa toisen tyyppinen monimutkaisuus, joka vaikuttaa toistuviin hermoverkkoihin. Yksi erinomainen esimerkki tästä on luonnollisen kielenkäsittely.

Hienostuneessa luonnollisessa kielenkäsittelyssä hermoverkon on kyettävä muistamaan asiat. Sen on myös otettava panoksia vastaan. Oletetaan, että on ohjelma, joka haluaa analysoida tai ennustaa sanan muiden sanojen lauseessa. Järjestelmässä voi olla esimerkiksi kiinteä viiden sanan pituus arvioitavalle järjestelmälle. Tämä tarkoittaa, että hermostoverkolla on oltava tulot jokaiselle näistä sanoista, samoin kuin kyky “muistaa” tai harjoitella näiden sanojen taustoja. Näistä ja muista samanlaisista syistä toistuvilla hermoverkoilla on tyypillisesti nämä pienet piilotetut silmukat ja palautteet järjestelmässä.

Asiantuntijat valittavat, että nämä komplikaatiot vaikeuttavat verkkojen kouluttamista. Yksi yleisimmistä tavoista selittää tämä mainitsemalla räjähtävä ja häviävä kaltevuusongelma. Pohjimmiltaan verkon painot johtavat joko räjähtäviin tai häviäviin arvoihin, joissa on paljon läpimenoja.

Neuraaliverkoston edelläkävijä Geoff Hinton selittää tätä ilmiötä verkossa sanomalla, että taaksepäin suuntautuneet lineaariset kulkut aiheuttavat pienempien painojen kutistumisen eksponentiaalisesti ja suurempien painojen räjähtämisen.

Tämä ongelma, hän jatkaa, pahenee pitkillä sekvensseillä ja useammilla aikavaiheilla, joissa signaalit kasvavat tai rappeutuvat. Painon alustaminen voi auttaa, mutta nämä haasteet on sisällytetty toistuvaan hermoverkkomalliin. Theres tulee aina olemaan asia, joka liittyy heidän erityiseen suunnitteluun ja rakentamiseen. Pohjimmiltaan jotkut monimutkaisemmat hermoverkotyypit todella uhmatavat kykyämme hallita niitä helposti. Voimme luoda käytännössä ääretön määrän monimutkaisuutta, mutta ennustettavuus ja skaalautuvuushaasteet kasvavat usein.