Mašīnmācīšanās un lieldatu analīze
Studiju kursa īstenotājs
Baložu iela 14, A kurpuss, Rīga, +371 67060897, statistika@rsu.lv, www.rsu.lv/statlab
Par studiju kursu
Mērķis
Priekšzināšanas
Studiju rezultāti
Zināšanas
1.• Izvēlas atlases atkārtošanas veidošanas metodes un modeļa precizitātes novērtēšanas kritērijus. • Izskaidro svarīgākos regresijas un klasifikācijas algoritmus. • Identificē lielo datu jēdzienu.
Prasmes
1.• Prot patstāvīgi ieviest regresijas un klasifikācijas mašīnmācīšanās algoritmus „R”. • Analītiski izvērtē „R” skaitļošanas ierobežojumus un izvēlas stratēģijas to pārvarēšanai.
Kompetences
1.• Spēj kritiski salīdzināt dažādas mašīnmācīšanās stratēģijas un izvēlēties konkrētai problēmai atbilstošu algoritmu.
Vērtēšana
Patstāvīgais darbs
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Patstāvīgais darbs |
-
|
-
|
|
1. Obligātās un papildliteratūras izpēte, lekcijās un nodarbībās apgūto zināšanu paplašināšanai un nostiprināšanai.
2. Studentiem jānodod 4 programmā „R” balstīti veicami uzdevumi, kas saistīti ar kursa tēmām.
|
||
Pārbaudījums
|
Virsraksts
|
% no gala vērtējuma
|
Vērtējums
|
|---|---|---|
|
1.
Pārbaudījums |
-
|
-
|
|
Novērtējums 10 ballu skalā saskaņā ar RSU Studiju reglamentu:
• 4 iesniedzamie veicamie uzdevumi – 70%.
• Gala eksāmens – 30%.
|
||
Studiju kursa tēmu plāns
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.
|
-
Lekcija
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
1
|
Tēmas
|
Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.
|
-
Nodarbība/Seminārs
|
Modalitāte
|
Norises vieta
|
Kontaktstundas
|
|---|---|---|
|
Klātiene
|
Datorklase
|
2
|
Tēmas
|
„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.
|
Bibliogrāfija
Obligātā literatūra
Chollet, F., Allaire, J.J. (2018) Deep learning with R, Manning Publications, Shelter Island. Parts I, II and III.Piemērots angļu valodas plūsmai
Luraschi, J., Kuo, K., Ruiz E. (2019) Mastering Spark with R. O’Reilly. Chapters 1 – 4.Piemērots angļu valodas plūsmai
Papildu literatūra
James, G., Witten, D., Hastie, T. and Tibshirani (2013). An Introduction to Statistical Learning with Applications in R., R., Springer-VerlagPiemērots angļu valodas plūsmai
Hastie, T., Tibshirani, R. and Friedman, J. (2009) The Elements of Statistical Learning., Springer-VerlagPiemērots angļu valodas plūsmai
Simon Walkowiak (2016). Big data analytics with R. Utilize R to uncover hidden patterns in your Big Data. Packt Publishing, Birmingham, Chapters 3 - 7.Piemērots angļu valodas plūsmai
Torgo, J. (2017) Data mining with R: learning with Case Studies, Chapman & Hall/CRCPiemērots angļu valodas plūsmai