Vypsáno: | 2016–17 | ||
Zadáno: | 23.10.2016 | ||
Obhájeno: | 13.9.2017 |
Výběrem proměnných v rámci statistické analýzy dat se typicky rozumí výběr regresorů z potenciálně velké množiny proměnných, které mají být zahrnuty v regresním modelu. Jedním ze základních postupů používaných v tomto kontextu a implementovaných ve většině statistických programových balíků je tzv. kroková regrese (stepwise regression). Tato však typicky nepřináší uspokojivé výsledky. V posledních přibližně 20-ti letech však byla vyvinuta celá řada sofistikovanějších a hlavně mnohem uspokojivějších metod, které obvykle úzce souvisejí s tzv. regularizací. Za všechny jmenujme (dnes již víceméně klasickou) metodu LASSO nebo další jako boosting, respektive LAR (least angle regression).
Posluchač nastuduje a vlastními slovy popíše obecné principy regularizace a výběru proměnných v kontextu regresních modelů. Následně se práce více zaměří na metodu boosting, případně další. Zvolené metody budou matematicky rigorózním způsobem popsány s podrobným odvozením alespoň některých základních vlastností. Práce se dále, dle zájmu studenta, bude věnovat buď aplikaci na reálných datech nebo numerickým studiím s cílem prozkoumat některé, teoreticky obtížněji odvoditelné aspekty studovaných metod.
Zápis této DP vyžaduje úspěšné ukončení předmětu Lineární regrese (NMSA407). V rámci práce na DP nutno absolvovat povinně volitelné předměty: