Masjienleer, 'n subset van kunsmatige intelligensie, behels die gebruik van algoritmes en statistiese modelle om rekenaars in staat te stel om take sonder eksplisiete instruksies uit te voer deur eerder op patrone en afleidings te vertrou. Binne hierdie domein is talle algoritmes ontwikkel om verskeie tipes probleme aan te spreek, wat wissel van klassifikasie en regressie tot groepering en dimensionaliteitsvermindering. Hieronder sal ek 'n paar van die mees algemene en algemeen gebruikte algoritmes in masjienleer bespreek, en 'n omvattende verduideliking van elk verskaf.
1. Lineêre regressie
Lineêre regressie is een van die eenvoudigste en mees fundamentele algoritmes in masjienleer. Dit word gebruik vir voorspellende modellering en behels 'n lineêre benadering tot modellering van die verhouding tussen 'n afhanklike veranderlike en een of meer onafhanklike veranderlikes. Wanneer daar net een onafhanklike veranderlike is, word dit eenvoudige lineêre regressie genoem, en wanneer daar veelvuldige onafhanklike veranderlikes is, word dit na verwys as meervoudige lineêre regressie.
Die primêre doelwit van lineêre regressie is om die reguit lyn wat die beste pas deur die datapunte te vind. Hierdie lyn word voorgestel deur die vergelyking:
waar is die afhanklike veranderlike,
is die onafhanklike veranderlikes,
is die onderskepping,
is die koëffisiënte van die onafhanklike veranderlikes, en
is die foutterm.
Lineêre regressie word wyd gebruik as gevolg van die eenvoud en interpreteerbaarheid daarvan. Dit is veral nuttig in scenario's waar die verhouding tussen veranderlikes ongeveer lineêr is. Dit kan egter nie goed presteer met nie-lineêre data of wanneer daar komplekse verwantskappe tussen veranderlikes is nie.
2. Logistiese regressie
Ten spyte van sy naam, word logistiese regressie gebruik vir klassifikasie eerder as regressieprobleme. Dit is van toepassing wanneer die afhanklike veranderlike kategories is. Logistiese regressie voorspel die waarskynlikheid dat 'n gegewe inset tot 'n bepaalde kategorie behoort. Die algoritme gebruik die logistieke funksie, ook bekend as die sigmoid-funksie, om 'n binêre afhanklike veranderlike te modelleer:
waar is die waarskynlikheid dat die afhanklike veranderlike
is gelyk aan 1 gegewe die onafhanklike veranderlikes
.
Logistieke regressie word wyd gebruik in binêre klassifikasieprobleme, soos spam-opsporing, krediettelling en mediese diagnose. Dit kan uitgebrei word na multiklasklassifikasie deur tegnieke soos een-teen-almal of softmax-regressie.
3. Besluitbome
Besluitbome is 'n nie-parametriese leermetode wat onder toesig gebruik word vir klassifikasie en regressie. Die model is gekonstrueer in die vorm van 'n boomstruktuur, waar elke interne nodus 'n toets op 'n eienskap verteenwoordig, elke tak verteenwoordig die uitkoms van die toets, en elke blaarnodus verteenwoordig 'n klasetiket of 'n kontinue waarde.
Die proses om 'n besluitboom te bou behels die keuse van die beste kenmerk om die data by elke nodus te verdeel. Dit word tipies gedoen deur kriteria soos Gini-onreinheid of inligtingswins (entropie) te gebruik. Besluitbome is maklik om te interpreteer en kan beide numeriese en kategoriese data hanteer. Hulle is egter geneig om te oorpas, veral met komplekse bome.
4. Ondersteun vektormasjiene (SVM)
Ondersteuningsvektormasjiene is kragtige en veelsydige leermodelle wat onder toesig gebruik word vir beide klassifikasie- en regressietake. Hulle is veral effektief in hoë-dimensionele ruimtes en is bekend vir hul robuustheid in die hantering van lineêre en nie-lineêre data.
Die kerngedagte van SVM is om 'n hipervlak te vind wat die data die beste in verskillende klasse skei. In die geval van nie-lineêr skeibare data, gebruik SVM 'n tegniek genaamd die kerntruuk om die data te transformeer in 'n hoër-dimensionele ruimte waar dit lineêr skeibaar word. Algemene pitte sluit in lineêre, polinoom en radiale basisfunksie (RBF).
SVM's word wyd gebruik in toepassings soos beeldklassifikasie, bioinformatika en tekskategorisering.
5. K-Naaste Bure (KNN)
K-Nearest Neighbours is 'n eenvoudige, instansie-gebaseerde leeralgoritme wat gebruik word vir klassifikasie en regressie. Dit maak voorspellings gebaseer op die naaste opleiding voorbeelde in die kenmerk ruimte. Vir klassifikasie word die meerderheidsklas onder die naaste bure gekies, terwyl vir regressie die gemiddelde of mediaan van die naaste bure gebruik word.
KNN is nie-parametries en lui, wat beteken dat dit geen aannames maak oor die onderliggende dataverspreiding nie en nie opleiding benodig nie. Dit kan egter rekenaarmatig duur wees, veral met groot datastelle, aangesien dit die berekening van afstande tussen die toetsinstansie en alle opleidinggevalle vereis.
6. Naïef Bayes
Naive Bayes is 'n familie van waarskynlikheidsalgoritmes gebaseer op Bayes se stelling, met die aanname van onafhanklikheid tussen elke paar kenmerke wat die klasetiket gegee word. Ten spyte van hierdie "naïewe" aanname, was Naive Bayes-klassifiseerders suksesvol in verskeie toepassings, veral in teksklassifikasie en strooiposfiltrering.
Die algoritme bereken die posterior waarskynlikheid van elke klas gegewe die insetkenmerke en kies die klas met die hoogste waarskynlikheid. Naive Bayes is rekenaardoeltreffend en werk goed met hoë-dimensionele data, alhoewel die prestasie daarvan kan verswak as die onafhanklikheidsaanname geskend word.
7. Random Forest
Random Forest is 'n ensemble-leermetode wat verskeie besluitnemingsbome tydens opleiding konstrueer en die modus van die klasse (klassifikasie) of gemiddelde voorspelling (regressie) van die individuele bome uitstuur. Dit is 'n uitbreiding van bagging (bootstrap-aggregasie) en spreek die oorpasprobleem wat met besluitnemingsbome geassosieer word, aan.
Random Forest stel ewekansigheid bekend deur 'n ewekansige subset van kenmerke vir elke boom te kies, wat diversiteit verhoog en korrelasie tussen bome verminder. Dit lei tot 'n robuuste model wat goed presteer op verskeie tipes data en minder geneig is tot oorpas.
8. Gradiëntversterkingsmasjiene (GBM)
Gradient Boosting Machines is nog 'n ensemble tegniek wat modelle opeenvolgend bou. Anders as Random Forest, wat bome onafhanklik bou, bou GBM elke boom om die foute van die voorafgaande reg te stel. Dit word bereik deur die nuwe boom by die negatiewe gradiënt van die verliesfunksie te pas.
GBM is hoogs effektief in beide klassifikasie- en regressietake en was die grondslag vir baie wenoplossings in masjienleerkompetisies. Dit is egter sensitief vir parameterinstelling en kan berekeningsintensief wees.
9. Neurale netwerke
Neurale netwerke is 'n klas modelle wat deur die menslike brein geïnspireer is, wat bestaan uit onderling gekoppelde lae nodusse (neurone). Hulle is in staat om komplekse nie-lineêre verhoudings te modelleer en was aan die voorpunt van baie onlangse vooruitgang in masjienleer.
Die eenvoudigste vorm van 'n neurale netwerk is die voorwaartse neurale netwerk, waar data van die invoerlaag na die uitsetlaag deur een of meer versteekte lae vloei. Elke verbinding het 'n geassosieerde gewig, en die netwerk leer deur hierdie gewigte aan te pas om die fout in voorspellings te minimaliseer.
Neurale netwerke is die fondament van diep leer, met argitekture soos Convolutional Neural Networks (CNNs) en Recurrent Neural Networks (RNNs) wat onderskeidelik vir beeld- en volgordedata gebruik word.
10. Groeperingsalgoritmes
Groeperingsalgoritmes word gebruik in leer sonder toesig om soortgelyke datapunte saam te groepeer. Sommige van die mees algemene groeperingsalgoritmes sluit in:
- K-Beteken groepering: Hierdie algoritme verdeel data in clusters deur die variansie binne elke cluster te minimaliseer. Dit is eenvoudig en doeltreffend vir groot datastelle, maar vereis dat die aantal groepe vooraf gespesifiseer word.
- Hiërargiese groepering: Hierdie metode bou 'n hiërargie van groepe met behulp van óf 'n onder-na-bo (agglomeratiewe) óf bo-na onder (verdelende) benadering. Dit vereis nie dat die aantal groepe gespesifiseer word nie, maar is berekeningsgewys duurder.
- DBSCAN (digtheid-gebaseerde ruimtelike groepering van toepassings met geraas): Hierdie algoritme groepeer punte wat dig saamgepak is en merk punte in laedigtheidstreke as uitskieters. Dit is veral nuttig om trosse van verskillende vorms en groottes te identifiseer.
Die keuse van algoritme in masjienleer hang af van die aard van die probleem, die kenmerke van die data en die gewenste uitkoms. Elke algoritme het sy sterkpunte en beperkings, en om hierdie nuanses te verstaan is belangrik vir effektiewe modelbou. Soos die veld van masjienleer voortgaan om te ontwikkel, word nuwe algoritmes en tegnieke ontwikkel, wat die gereedskapstel wat beskikbaar is vir datawetenskaplikes en masjienleerpraktisyns verder uitbrei.
Ander onlangse vrae en antwoorde t.o.v EITC/AI/GCML Google Cloud Machine Learning:
- As ek 'n Google-model gebruik en dit op my eie instansie oplei, behou Google die verbeterings wat uit my opleidingsdata gemaak is?
- Hoe weet ek watter ML-model om te gebruik voordat ek dit oplei?
- Wat is 'n regressietaak?
- Hoe kan 'n mens oorskakel tussen Vertex AI en AutoML-tabelle?
- Is dit moontlik om Kaggle te gebruik om finansiële data op te laai en statistiese ontleding en vooruitskatting uit te voer deur ekonometriese modelle soos R-kwadraat, ARIMA of GARCH te gebruik?
- Kan masjienleer gebruik word om die risiko van koronêre hartsiekte te voorspel?
- Wat is die werklike veranderinge as gevolg van die hernaam van Google Cloud Machine Learning as Vertex AI?
- Wat is die prestasie-evalueringsmaatstawwe van 'n model?
- Wat is lineêre regressie?
- Is dit moontlik om verskillende ML-modelle te kombineer en 'n meester-KI te bou?
Bekyk meer vrae en antwoorde in EITC/AI/GCML Google Cloud Machine Learning