EITC/AI/ARL Advanced Reinforcement Learning is die Europese IT-sertifiseringsprogram oor DeepMind se benadering tot versterkingsleer in kunsmatige intelligensie.
Die kurrikulum van die EITC/AI/ARL Gevorderde Versterkingsleer fokus op teoretiese aspekte en praktiese vaardighede in versterkingsleertegnieke vanuit die perspektief van DeepMind georganiseer binne die volgende struktuur, wat omvattende videodidaktiese inhoud insluit as verwysing vir hierdie EITC-sertifisering.
Versterkingsleer (RL) is 'n gebied van masjienleer wat handel oor hoe intelligente agente in 'n omgewing moet optree om die idee van kumulatiewe beloning te maksimeer. Versterkingsleer is een van drie basiese masjienleerparadigmas, saam met leer onder toesig en leer sonder toesig.
Versterkingsleer verskil van leer onder toesig deurdat u nie die gemerkte invoer-/uitsetpare hoef te bied nie, en dat dit nie nodig is om suboptimale aksies eksplisiet reg te stel nie. In plaas daarvan is die fokus op die vind van 'n balans tussen verkenning (van onbekende gebied) en ontginning (van huidige kennis).
Die omgewing word gewoonlik in die vorm van 'n Markov-besluitproses (MDP) gestel, omdat baie versterkingsleeralgoritmes vir hierdie konteks gebruik maak van dinamiese programmeringstegnieke. Die belangrikste verskil tussen klassieke dinamiese programmeringsmetodes en versterkingsleeralgoritmes is dat laasgenoemde nie kennis aanvaar van 'n presiese wiskundige model van die MDP nie, en dat dit groot MDP's is waar presiese metodes onuitvoerbaar word.
Vanweë die algemeenheid daarvan, word versterkingsleer in baie dissiplines bestudeer, soos spelteorie, beheerteorie, operasionele navorsing, inligtingsteorie, simulasiegebaseerde optimalisering, multi-agentstelsels, swermintelligensie en statistieke. In die operasionele navorsings- en kontroleliteratuur word versterkingsleer benaderde dinamiese programmering, oftewel neuro-dinamiese programmering, genoem. Die probleme van belangstelling in versterkingsleer is ook bestudeer in die teorie van optimale beheer, wat meestal handel oor die bestaan en karakterisering van optimale oplossings, en algoritmes vir die presiese berekening daarvan, en minder oor leer of benadering, veral in die afwesigheid van 'n wiskundige model van die omgewing. In die ekonomie en spelteorie kan versterkingsleer gebruik word om te verduidelik hoe ewewig onder beperkte rasionaliteit kan ontstaan.
Basiese versterking word geskoei as 'n Markov-besluitproses (MDP). In wiskunde is 'n Markov-besluitnemingsproses (MDP) 'n diskrete tydstogastiese beheerproses. Dit bied 'n wiskundige raamwerk vir die modellering van besluitneming in situasies waar uitkomste gedeeltelik lukraak en deels onder die beheer van 'n besluitnemer is. MDP's is nuttig vir die bestudering van optimaliseringsprobleme wat deur dinamiese programmering opgelos word. MDP's was minstens so vroeg in die 1950's bekend. 'N Belangrike ondersoek na Markov-besluitnemingsprosesse is die gevolg van Ronald Howard se boek Dynamic Programming en Markov Processes uit 1960. Dit word in baie vakgebiede gebruik, waaronder robotika, outomatiese beheer, ekonomie en vervaardiging. Die naam van MDP's kom van die Russiese wiskundige Andrey Markov, want dit is 'n uitbreiding van Markov-kettings.
By elke tydstip is die proses in een of ander toestand S en kan die besluitnemer enige aksie a kies wat beskikbaar is in toestand S. Die proses reageer op die volgende stap deur lukraak na 'n nuwe toestand S 'te beweeg en die besluitnemer 'n ooreenstemmende beloning Ra (S, S ').
Die waarskynlikheid dat die proses in sy nuwe toestand S 'beweeg, word beïnvloed deur die gekose aksie a. Spesifiek word dit gegee deur die toestand oorgangsfunksie Pa (S, S '). Die volgende toestand S hang dus af van die huidige toestand S en die optrede van die besluitnemer a. Maar gegewe S en a, is dit voorwaardelik onafhanklik van alle vorige state en optrede. Met ander woorde, die staatsoorgange van 'n MDP bevredig die Markov-eiendom.
Markov-besluitprosesse is 'n uitbreiding van Markov-kettings; die verskil is die toevoeging van aksies (keuse toelaat) en belonings (motivering gee). Omgekeerd, as slegs een aksie vir elke staat bestaan (bv. 'Wag') en alle belonings dieselfde is (bv. 'Nul'), verminder 'n Markov-besluit tot 'n Markov-ketting.
'N Versterkingsleeragent werk in diskrete tydstappe met sy omgewing. Telkens ontvang t die agent die huidige toestand S (t) en beloning r (t). Dit kies dan 'n aksie a (t) uit die beskikbare aksies wat dan na die omgewing gestuur word. Die omgewing beweeg na 'n nuwe toestand S (t + 1) en die beloning r (t + 1) wat verband hou met die oorgang word bepaal. Die doel van 'n agent vir versterkingsleer is om 'n beleid aan te leer wat die verwagte kumulatiewe beloning maksimeer.
Die formulering van die probleem as 'n MDP neem aan dat die agent die huidige omgewingstoestand direk in ag neem. In hierdie geval word gesê dat die probleem volledig waarneembaar is. As die agent slegs toegang het tot 'n deelversameling van state, of as die waargenome toestande deur geraas beskadig word, word gesê dat die agent gedeeltelik waarneembaar is, en formeel moet die probleem geformuleer word as 'n gedeeltelik waarneembare Markov-besluitproses. In beide gevalle kan die stel aksies wat tot die agent se beskikking is, beperk word. Die toestand van 'n rekeningsaldo kan byvoorbeeld beperk word tot positief; as die huidige waarde van die staat 3 is en die toestandoorgang probeer om die waarde met 4 te verlaag, sal die oorgang nie toegelaat word nie.
As die agent se prestasie vergelyk word met dié van 'n agent wat optimaal optree, gee die verskil in prestasie die idee van spyt. Om optimaal op te tree, moet die agent redeneer oor die langtermyngevolge van sy optrede (dws om toekomstige inkomste te maksimeer), alhoewel die onmiddellike beloning hieraan verbonde negatief kan wees.
Versterkingsleer is dus besonder geskik vir probleme wat 'n vergoeding vir langtermyn- en korttermynbeloning insluit. Dit is suksesvol toegepas op verskillende probleme, insluitend robotbeheer, hysskedulering, telekommunikasie, backgammon, checkers en Go (AlphaGo).
Twee elemente maak versterkingsleer kragtig: die gebruik van monsters om prestasie te optimaliseer en die gebruik van funksiebenadering om groot omgewings te hanteer. Danksy hierdie twee sleutelkomponente kan versterkingsleer in groot omgewings in die volgende situasies gebruik word:
- 'N Omgewingsmodel is bekend, maar 'n analitiese oplossing is nie beskikbaar nie.
- Slegs 'n simulasiemodel van die omgewing word gegee (die onderwerp van simulasiegebaseerde optimalisering).
- Die enigste manier om inligting oor die omgewing te versamel, is om daarmee te kommunikeer.
Die eerste twee van hierdie probleme kan as beplanningsprobleme beskou word (aangesien daar 'n vorm beskikbaar is), terwyl die laaste een as 'n ware leerprobleem beskou kan word. Versterkingsleer skakel egter albei beplanningsprobleme om na masjienleerprobleme.
Die kompromie tussen eksplorasie en uitbuiting is deeglik bestudeer deur die veelarmige bandietprobleem en vir eindige staatsruimte-MDP's in Burnetas en Katehakis (1997).
Versterkingsleer vereis slim eksplorasiemeganismes; lukrake keuse van aksies, sonder verwysing na 'n geskatte waarskynlikheidsverdeling, toon swak prestasie. Die geval van (klein) eindige Markov-besluitnemingsprosesse word relatief goed verstaan. Vanweë die gebrek aan algoritmes wat goed skaal met die aantal toestande (of skaal tot probleme met oneindige toestandsruimtes), is eenvoudige ondersoekmetodes egter die mees praktiese.
Selfs al word die verkenningskwessie buite rekening gelaat en selfs al was die staat waarneembaar, bly die probleem om ervaring uit die verlede te gebruik om uit te vind watter aksies tot hoër kumulatiewe belonings lei.
Om jouself in besonderhede te vergewis van die sertifiseringskurrikulum, kan jy die tabel hieronder uitbrei en ontleed.
Die EITC/AI/ARL Gevorderde Versterkingsleersertifiseringskurrikulum verwys na oop-toegang didaktiese materiaal in 'n videovorm. Leerproses word verdeel in 'n stap-vir-stap-struktuur (programme -> lesse -> onderwerpe) wat relevante kurrikulumdele dek. Onbeperkte konsultasie met domeinkundiges word ook verskaf.
Gaan na vir besonderhede oor die Sertifiseringsprosedure Hoe dit werk.
Kurrikulumverwysingshulpbronne
Menslike vlakbeheer deur die publikasie van Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Oop toegangskursus oor diep versterkingsleer by UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL het toegepas op die K-armband-bandietprobleem van Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Laai die volledige vanlyn selflerende voorbereidingsmateriaal vir die EITC/AI/ARL Advanced Reinforcement Learning-program in 'n PDF-lêer af
EITC/AI/ARL voorbereidende materiaal – standaard weergawe
EITC/AI/ARL-voorbereidingsmateriaal – uitgebreide weergawe met hersieningsvrae