Die veld van masjienleer sluit 'n verskeidenheid metodologieë en paradigmas in, elk geskik vir verskillende tipes data en probleme. Onder hierdie paradigmas is leer onder toesig en sonder toesig twee van die mees fundamentele.
Leer onder toesig behels die opleiding van 'n model op 'n benoemde datastel, waar die insetdata met die korrekte uitvoer gepaar word. Die model leer om insette na uitsette te karteer deur die fout tussen sy voorspellings en die werklike uitsette te minimaliseer. Leer sonder toesig, aan die ander kant, handel oor ongemerkte data, waar die doel is om die natuurlike struktuur wat binne 'n stel datapunte teenwoordig is, af te lei.
Daar bestaan 'n tipe leer wat beide onder toesig en nie-toesig leertegnieke integreer, wat dikwels na verwys word as semi-toesigleer. Hierdie benadering maak gebruik van beide benoemde en ongemerkte data tydens die opleidingsproses. Die rasionaal agter semi-toesig leer is dat ongemerkte data, wanneer dit saam met 'n klein hoeveelheid benoemde data gebruik word, aansienlike verbetering in leerakkuraatheid kan lewer. Dit is veral nuttig in scenario's waar gemerkte data skaars of duur is om te bekom, maar ongeëtiketteerde data volop en maklik is om te versamel.
Semi-toesigleer is gebaseer op die aanname dat die onderliggende struktuur van die ongeëtiketteerde data waardevolle inligting kan verskaf wat aanvullend tot die benoemde data is. Hierdie aanname kan verskeie vorme aanneem, soos die tros-aanname, veelvuldige aanname of lae-digtheid skeiding aanname. Die tros-aanname stel voor dat datapunte in dieselfde groep waarskynlik dieselfde etiket sal hê. Die veelvuldige aanname dui daarop dat hoë-dimensionele data op 'n veelvoud van baie laer dimensionaliteit lê, en die taak is om hierdie veelvuldige aan te leer. Die lae-digtheid skeiding aanname is gebaseer op die idee dat die besluit grens moet lê in 'n gebied van lae data digtheid.
Een van die algemene tegnieke wat in semi-toesigleer gebruik word, is selfopleiding. In selfopleiding word 'n model aanvanklik opgelei op die gemerkte data. Dit gebruik dan sy eie voorspellings op die ongemerkte data as pseudo-etikette. Die model word verder opgelei op hierdie uitgebreide datastel, wat sy voorspellings iteratief verfyn. Nog 'n tegniek is mede-opleiding, waar twee of meer modelle gelyktydig op verskillende aansigte van die data opgelei word. Elke model is verantwoordelik vir die etikettering van 'n gedeelte van die ongemerkte data, wat dan gebruik word om die ander modelle op te lei. Hierdie metode ontgin die oortolligheid in veelvuldige aansigte van die data om leerprestasie te verbeter.
Grafiekgebaseerde metodes is ook algemeen in semi-toesigleer. Hierdie metodes bou 'n grafiek waar nodusse datapunte verteenwoordig, en rande verteenwoordig ooreenkomste tussen hulle. Die leertaak word dan herformuleer as 'n grafiekgebaseerde optimaliseringsprobleem, waar die doel is om etikette van die benoemde nodusse na die ongemerkte te versprei, terwyl die grafiekstruktuur behoue bly. Hierdie tegnieke is veral effektief in domeine waar data natuurlik 'n netwerk vorm, soos sosiale netwerke of biologiese netwerke.
Nog 'n benadering tot die kombinasie van leer onder toesig en sonder toesig is deur multi-taak leer. In multitaakleer word veelvuldige leertake gelyktydig opgelos, terwyl gemeenskaplikhede en verskille oor take heen ontgin word. Dit kan gesien word as 'n vorm van induktiewe oordrag, waar kennis wat uit een taak verkry word, help om die leer van 'n ander te verbeter. Multitaakleer kan veral voordelig wees wanneer daar 'n gedeelde voorstelling of kenmerkruimte tussen take is, wat die oordrag van inligting moontlik maak.
'n Praktiese voorbeeld van semi-toesigleer is in die veld van natuurlike taalverwerking (NLP). Oorweeg die taak van sentimentanalise, waar die doel is om 'n gegewe teks as positief of negatief te klassifiseer. Gemerkte data, soos resensies met sentiment-etikette, kan beperk word. Daar is egter 'n groot hoeveelheid ongemerkte teks beskikbaar. 'n Semi-toesig leerbenadering kan die opleiding van 'n sentimentklassifiseerder op die benoemde data behels en dit gebruik om die sentiment van die ongeëtiketteerde data te voorspel. Hierdie voorspellings kan dan as bykomende opleidingsdata gebruik word, wat die klassifiseerder se prestasie verbeter.
Nog 'n voorbeeld kan gevind word in beeldklassifikasie. In baie gevalle is die verkryging van gemerkte beelde arbeidsintensief en duur, terwyl ongemerkte beelde volop is. 'n Semi-toesig benadering kan die gebruik van 'n klein stel gemerkte beelde behels om 'n aanvanklike model op te lei. Hierdie model kan dan op die ongemerkte beelde toegepas word om pseudo-etikette te genereer, wat vervolgens gebruik word om die model weer op te lei.
Die integrasie van leer onder toesig en sonder toesig deur middel van semi-toesig leer en verwante metodologieë verteenwoordig 'n kragtige benadering in masjienleer. Deur die sterkpunte van beide paradigmas te benut, is dit moontlik om aansienlike verbeterings in modelprestasie te bereik, veral in domeine waar gemerkte data beperk is, maar ongemerkte data volop is. Hierdie benadering verbeter nie net die vermoë van modelle om uit beperkte data te veralgemeen nie, maar bied ook 'n meer robuuste raamwerk om die onderliggende struktuur van komplekse datastelle te verstaan.
Ander onlangse vrae en antwoorde t.o.v EITC/AI/GCML Google Cloud Machine Learning:
- Wat is die prestasie-evalueringsmaatstawwe van 'n model?
- Wat is lineêre regressie?
- Is dit moontlik om verskillende ML-modelle te kombineer en 'n meester-KI te bou?
- Wat is sommige van die mees algemene algoritmes wat in masjienleer gebruik word?
- Hoe om 'n weergawe van die model te skep?
- Hoe om die 7 stappe van ML in 'n voorbeeldkonteks toe te pas?
- Hoe kan masjienleer toegepas word op boutoelatingsdata?
- Waarom is AutoML-tabelle gestaak en wat volg hulle op?
- Wat is die taak om krabbels wat deur spelers in die konteks van KI geteken is, te interpreteer?
- Wanneer die leesstof praat van "die regte algoritme kies", beteken dit dat basies alle moontlike algoritmes reeds bestaan? Hoe weet ons dat 'n algoritme die "regte" is vir 'n spesifieke probleem?
Bekyk meer vrae en antwoorde in EITC/AI/GCML Google Cloud Machine Learning