in mijn vorige artikel legde ik uit wat regressie was en liet ik zien hoe het in toepassing gebruikt kon worden. Deze week ga ik de meeste gangbare machine learning-modellen in de praktijk doornemen, zodat ik meer tijd kan besteden aan het bouwen en verbeteren van modellen in plaats van de theorie erachter uit te leggen. Laten we erin duiken.
Alle machine learning modellen worden gecategoriseerd als van toezicht of toezicht. Als het model een gecontroleerd model is, wordt het vervolgens gesubcategoriseerd als een regressie-of Classificatiemodel. We zullen gaan over wat deze termen betekenen en de bijbehorende modellen die vallen in elke categorie hieronder.
begeleid leren omvat het leren van een functie die een input aan een output koppelt op basis van bijvoorbeeld input-output paren .
bijvoorbeeld, als ik een dataset had met twee variabelen, leeftijd (input) en hoogte (output), kon ik een begeleid leermodel implementeren om de hoogte van een persoon te voorspellen op basis van hun leeftijd.
om Te herhalen, binnen begeleid leren, er zijn twee sub-categorieën: regressie en classificatie.
regressie
In regressiemodellen is de uitvoer continu. Hieronder staan enkele van de meest voorkomende soorten regressiemodellen.
Lineaire Regressie
Het idee van een lineaire regressie is gewoon het vinden van een lijn die het best past bij de gegevens. Uitbreidingen van lineaire regressie omvatten meerdere lineaire regressie (bijv. het vinden van een vlak van de beste pasvorm) en veelterm regressie (bijv. het vinden van een curve van best fit). U kunt meer te weten komen over lineaire regressie in mijn vorige artikel.
beslisboom
Besluit bomen zijn een populair model, gebruikt in operations research, de strategische planning en machine learning. Elk vierkant hierboven wordt een knooppunt genoemd, en hoe meer knooppunten je hebt, hoe nauwkeuriger je beslissingsboom zal zijn (over het algemeen). De laatste knooppunten van de beslissingsboom, waar een beslissing wordt genomen, worden de bladeren van de boom genoemd. Beslissingsbomen zijn intuïtief en eenvoudig te bouwen, maar schieten tekort als het gaat om nauwkeurigheid.
Random Forest
Random forests zijn een ensemble-leertechniek die voortbouwt op beslissingsbomen. Willekeurige forests omvatten het maken van meerdere beslissingsbomen met behulp van Bootstrap-datasets van de oorspronkelijke gegevens en het willekeurig selecteren van een subset van variabelen bij elke stap van de beslissingsboom. Het model selecteert vervolgens de modus van alle voorspellingen van elke beslissingsboom. Wat is het nut hiervan? Door te vertrouwen op een” majority wins ” – model, vermindert het het risico op fouten van een individuele boom.
bijvoorbeeld, als we een beslissing boom, de derde, het voorspellen van 0. Maar als we vertrouwden op de modus van alle 4 beslissingsbomen, zou de voorspelde waarde 1 zijn. Dit is de kracht van willekeurige bossen.
StatQuest doet geweldig werk door dit in meer detail te doorlopen. Kijk hier.
Neurale netwerken
Een Neuraal Netwerk is in feite een netwerk van wiskundige vergelijkingen. Het duurt een of meer input variabelen, en door te gaan door een netwerk van vergelijkingen, resulteert in een of meer output variabelen. Je kunt ook zeggen dat een neuraal netwerk een vector van inputs opneemt en een vector van outputs retourneert, maar Ik zal niet in matrices komen in dit artikel.
De blauwe cirkels staan voor de invoerlaag, de zwarte cirkels voor de verborgen lagen en de groene cirkels voor de uitvoerlaag. Elk knooppunt in de verborgen lagen vertegenwoordigt zowel een lineaire functie als een activeringsfunctie waar de knooppunten in de vorige laag doorheen gaan, wat uiteindelijk leidt tot een output in de groene cirkels.
- als je er meer over wilt weten, bekijk dan mijn beginnersvriendelijke uitleg op neurale netwerken.
classificatie
In classificatiemodellen is de output discreet. Hieronder vindt u enkele van de meest voorkomende soorten classificatiemodellen.
logistieke regressie
logistieke regressie is vergelijkbaar met lineaire regressie, maar wordt gebruikt om de waarschijnlijkheid van een eindig aantal uitkomsten te modelleren, meestal twee. Er zijn een aantal redenen waarom logistische regressie wordt gebruikt over lineaire regressie bij het modelleren van waarschijnlijkheden van uitkomsten (zie hier). In essentie wordt een logistische vergelijking zo gemaakt dat de uitgangswaarden alleen tussen 0 en 1 kunnen liggen (zie hieronder).
Support Vector Machine
Een Support Vector Machine is een supervised classificatie techniek die kan eigenlijk behoorlijk ingewikkeld, maar is vrij intuïtief op het meest fundamentele niveau.
laten we aannemen dat er twee klassen van gegevens zijn. Een support vector machine zal een hypervlak of een grens tussen de twee klassen van gegevens vinden die de marge tussen de twee klassen maximaliseert (zie hieronder). Er zijn veel vlakken die de twee klassen kunnen scheiden, maar slechts één vlak kan de marge of afstand tussen de klassen maximaliseren.