Veidlapa Nr. M-3 (8)
Studiju kursa apraksts

Mašīnmācīšanās un lieldatu analīze

Studiju kursa pamatinformācija

Kursa kods
SL_120
Zinātnes nozare
Matemātika; Varbūtību teorija un matemātiskā statistika
Kredītpunkti (ECTS)
3,00
Mērķauditorija
Dzīvās dabas zinātnes
LKI
7. līmenis
Studiju veids un forma
Pilna laika; Nepilna laika

Studiju kursa īstenotājs

Kursa vadītājs
Struktūrvienības vadītājs
Struktūrvienība
Statistikas mācību laboratorija
Kontaktinformācija

Baložu iela 14, A kurpuss, Rīga, +371 67060897, statistika@rsu.lv, www.rsu.lv/statlab

Par studiju kursu

Mērķis

Mašīnmācīšanās (ML) ir saistīta ar tādu algoritmu izpēti, kuri automātiski var iegūt informāciju un no datiem radīt jaunas zināšanas. ML uzdevumi bieži ir saistīti ar lielām datu kopām, kas rada problēmas datu glabāšanas, organizēšanas un apstrādes jomās. Šo problēmu risināšanai pievēršas lielo datu analītikas nozare. Kursa mērķis ir iepazīstināt studentus ar svarīgākajām mašīnmācīšanās metodēm: regresijas un klasifikācijas algoritmu variācijām, kā arī iepazīstināt ar mašīnu dziļās mācīšanās un lielo datu analītikas jēdzieniem. Metodes tiks pētītas gadījumu izpētē, kas īstenota „R” programmā.

Priekšzināšanas

Augstākā matemātika, varbūtība, statistika, pamatzināšanas par „R” programmēšanu.

Studiju rezultāti

Zināšanas

1.• Izvēlas atlases atkārtošanas veidošanas metodes un modeļa precizitātes novērtēšanas kritērijus. • Izskaidro svarīgākos regresijas un klasifikācijas algoritmus. • Identificē lielo datu jēdzienu.

Prasmes

1.• Prot patstāvīgi ieviest regresijas un klasifikācijas mašīnmācīšanās algoritmus „R”. • Analītiski izvērtē „R” skaitļošanas ierobežojumus un izvēlas stratēģijas to pārvarēšanai.

Kompetences

1.• Spēj kritiski salīdzināt dažādas mašīnmācīšanās stratēģijas un izvēlēties konkrētai problēmai atbilstošu algoritmu.

Vērtēšana

Patstāvīgais darbs

Virsraksts
% no gala vērtējuma
Vērtējums
1.

Patstāvīgais darbs

-
-
1. Obligātās un papildliteratūras izpēte, lekcijās un nodarbībās apgūto zināšanu paplašināšanai un nostiprināšanai. 2. Studentiem jānodod 4 programmā „R” balstīti veicami uzdevumi, kas saistīti ar kursa tēmām.

Pārbaudījums

Virsraksts
% no gala vērtējuma
Vērtējums
1.

Pārbaudījums

-
-
Novērtējums 10 ballu skalā saskaņā ar RSU Studiju reglamentu: • 4 iesniedzamie veicamie uzdevumi – 70%. • Gala eksāmens – 30%.

Studiju kursa tēmu plāns

PILNA LAIKA
1. daļa
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.
Kopā kredītpunkti (ECTS):
3,00
Kontaktstundas:
24 ak. st.
Gala pārbaudījums:
Eksāmens (Rakstisks)
NEPILNA LAIKA
1. daļa
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Ievads mašīnmācīšanās procesā. Modeļa precizitātes novērtēšana, bias-variance trade-off, atlases atkārtošanas veidošanas metodes (validācijas kopas pieeja, savstarpēja validācija un butstrapa metode).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

„R” gadījuma izpēte: bias-variance trade-off novērtēšana lineārajiem modeļiem. Modeļu izveide ar „R” caret bibliotēku.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Lineārā modeļa izvēle: apakškopu atlase un shrinkage metodes (Ridge, Lasso). Galveno komponentu regresija.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Regresijas metožu īstenošana „R”. Dažādu regresijas modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Klasifikācijas metodes I: KNN, klasifikācijas koka metode, gadījuma meži.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Vienkāršu klasifikācijas modeļu īstenošana „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Klasifikācijas metodes II: Apvienošanas metodes klasifikācijas kokiem („bagging”, „boosting”, „Xgboost”), atbalsta vektoru mašīnas (SVM).
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Klasifikācijas modeļu īstenošana ar apvienošanas metodēm un SVM „R”. Dažādu modeļu darbības rezultātu salīdzināšana.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Neironu tīklu un mašīnu dziļās mācīšanās principi. Datu attēlojums, izmantojot tenzorus, tenzora operācijas un gradientu. Slāņi, zaudējuma funkcijas un optimizētāji.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

Keras darbstacijas sagatavošana. Mašīnu dziļās mācīšanās pielietojums regresijas, teksta un attēlu klasifikācijai, izmantojot „R” keras bibliotēku.
  1. Lekcija

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
1

Tēmas

Lielo datu jēdziens un vēsture. „R” ierobežojumi un iespējamie risinājumi: paralēlā skaitļošana, data.table bibliotēka, „Spark” programmatūrai „R”.
  1. Nodarbība/Seminārs

Modalitāte
Norises vieta
Kontaktstundas
Klātiene
Datorklase
2

Tēmas

„Spark” iestatīšana „R”. Lielas datu kopas apstrādes analīze ar „R”: lietošanas vienkāršības un skaitļošanas laiku salīdzināšana starp bāzes, data.table, paralēlo un „Spark” pieeju.
Kopā kredītpunkti (ECTS):
3,00
Kontaktstundas:
18 ak. st.
Gala pārbaudījums:
Eksāmens (Rakstisks)

Bibliogrāfija

Obligātā literatūra

1.

Chollet, F., Allaire, J.J. (2018) Deep learning with R, Manning Publications, Shelter Island. Parts I, II and III.Piemērots angļu valodas plūsmai

2.

Luraschi, J., Kuo, K., Ruiz E. (2019) Mastering Spark with R. O’Reilly. Chapters 1 – 4.Piemērots angļu valodas plūsmai

Papildu literatūra

1.

James, G., Witten, D., Hastie, T. and Tibshirani (2013). An Introduction to Statistical Learning with Applications in R., R., Springer-VerlagPiemērots angļu valodas plūsmai

2.

Hastie, T., Tibshirani, R. and Friedman, J. (2009) The Elements of Statistical Learning., Springer-VerlagPiemērots angļu valodas plūsmai

3.

Simon Walkowiak (2016). Big data analytics with R. Utilize R to uncover hidden patterns in your Big Data. Packt Publishing, Birmingham, Chapters 3 - 7.Piemērots angļu valodas plūsmai

4.

Torgo, J. (2017) Data mining with R: learning with Case Studies, Chapman & Hall/CRCPiemērots angļu valodas plūsmai