Machine Learning

Klassificering

Följande delkapitel exemplifierar hur övervakad inlärning, där vetskap om de sanna utfallen finns, fungerar i R med de tidigare presenterade paketen. Uppdelning av datamaterial För att motverka överanpassning vid övervakad inlärning används en datauppdelning som delar upp det insamlade materialet till en tränings-, validerings- och/eller testmängd.

Klustring

Klustringmetoder ämnar att hitta underliggande grupperingar av observationer (eller variabler) i datamaterialet som inte är angivna från början, ett exempel på oövervakad inlärning. I verkliga fall är det väldigt ovanligt att materialet kan visualiseras och man med blotta ögat kan identifiera dessa grupperingar, men i detta underlag kommer första steget av varje algoritm innehålla ett visualiseringssteg för att kunna påvisa vilka algoritmer som klarar av att hitta vilka sorters klustertyper.

Associations- och sekvensanalys

Det finns flertalet källor som samlar in data för andra ändamål än analys såsom olika register, kundkort vid företag, osv. Dessa datamängder brukar ofta vara väldigt stora och innehålla mycket information som är omöjlig för en vanlig människa att gå igenom.