Vahvistusoppiminen

Kirjoittaja: Lewis Jackson
Luomispäivä: 11 Saattaa 2021
Päivityspäivä: 15 Saattaa 2024
Anonim
Ohjaamaton vahvistusoppiminen robotiikassa
Video: Ohjaamaton vahvistusoppiminen robotiikassa

Sisältö

Määritelmä - mitä vahvistusoppiminen tarkoittaa?

Vahvistusoppiminen on keinotekoisen älyn yhteydessä eräänlainen dynaaminen ohjelmointi, joka kouluttaa algoritmeja palkkio- ja rangaistusjärjestelmän avulla.


Vahvistava oppimisalgoritmi eli agentti oppii vuorovaikutuksessa ympäristönsä kanssa. Agentti saa palkinnot suorittamalla oikein ja rangaistukset virheellisestä suorittamisesta. Agentti oppii ilman ihmisen väliintuloa maksimoimalla palkkionsa ja minimoimalla rangaistuksensa.

Johdanto Microsoft Azureen ja Microsoft Cloud | Tämän oppaan läpi opit mitä pilvipalvelussa on kyse ja kuinka Microsoft Azure voi auttaa sinua siirtämään ja johtamaan yritystä pilvestä.

Techopedia selittää vahvistusoppimisen

Vahvistusoppiminen on käyttäytymispsykologian inspiroima lähestymistapa koneoppimiseen. Se on samanlainen kuin kuinka lapsi oppii suorittamaan uuden tehtävän. Vahvistusoppiminen on ristiriidassa muiden koneoppimislähestymistapojen kanssa siinä, että algoritmille ei kerrota nimenomaisesti, kuinka tehtävä suoritetaan, vaan se toimii ongelman läpi yksin.


Asiamiehenä, joka voi olla itse ajava auto tai shakkia pelaava ohjelma, vuorovaikutuksessa ympäristönsä kanssa, se saa palkintotilan riippuen suorituskyvystään, kuten turvalliseen määränpäähän ajamiseen tai pelin voittamiseen. Agentti saa sitä vastoin rangaistuksen virheellisestä suorittamisesta, kuten tien päältä poistumisesta tai tarkistuksesta.

Agentti ajan myötä päättää maksimoida palkkionsa ja minimoida sakkojensa dynaamisella ohjelmoinnilla. Tämän keinotekoisen älykkyyden lähestymistavan etuna on, että se antaa AI-ohjelmalle mahdollisuuden oppia ilman ohjelmoijaa selventämään, kuinka agentin tulisi suorittaa tehtävä.