Podstránky

Regularizace a výběr proměnných v regresních modelech
Regularization and variable selection in regression models

Vypsáno:	2016–17
Zadáno:	23.10.2016
Obhájeno:	13.9.2017

Anotace

Výběrem proměnných v rámci statistické analýzy dat se typicky rozumí výběr regresorů z potenciálně velké množiny proměnných, které mají být zahrnuty v regresním modelu. Jedním ze základních postupů používaných v tomto kontextu a implementovaných ve většině statistických programových balíků je tzv. kroková regrese (stepwise regression). Tato však typicky nepřináší uspokojivé výsledky. V posledních přibližně 20-ti letech však byla vyvinuta celá řada sofistikovanějších a hlavně mnohem uspokojivějších metod, které obvykle úzce souvisejí s tzv. regularizací. Za všechny jmenujme (dnes již víceméně klasickou) metodu LASSO nebo další jako boosting, respektive LAR (least angle regression).

Zásady pro vypracování

Posluchač nastuduje a vlastními slovy popíše obecné principy regularizace a výběru proměnných v kontextu regresních modelů. Následně se práce více zaměří na metodu boosting, případně další. Zvolené metody budou matematicky rigorózním způsobem popsány s podrobným odvozením alespoň některých základních vlastností. Práce se dále, dle zájmu studenta, bude věnovat buď aplikaci na reálných datech nebo numerickým studiím s cílem prozkoumat některé, teoreticky obtížněji odvoditelné aspekty studovaných metod.

Zápis této DP vyžaduje úspěšné ukončení předmětu Lineární regrese (NMSA407). V rámci práce na DP nutno absolvovat povinně volitelné předměty:

Pokročilé regresní modely (NMST432);
Moderní statistické metody (NMST434).

Výchozí literatura

Fahrmeir, L., Kneib, T., Lang, S., and Marx, B. (2013). Regression: Models, Methods and Applications. Berlin: Springer-Verlag, ISBN: 978-3-642-34332-2, doi: 10.1007/978-3-642-34333-9.
Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. New York: Springer-Verlag, ISBN: 978-0-387-84857-0, doi: 10.1007/978-0-387-84858-7.
Miller, A. (2002). Subset Selection in Regression, Second Edition. Boca Raton: Chapman & Hall/CRC, ISBN: 1-58488-171-2.

Bühlmann, P. (2006). Boosting for high-dimensional linear models. The Annals of Statistics, 34(2), 559–583, doi: 10.1214/009053606000000092.
Bühlmann, P. and Hothorn, T. (2007). Boosting algorithms: Regularization, prediction and model fitting. Statistical Science, 22(4), 477–505, doi: 10.1214/07-STS242.
Bühlmann, P. and Yu, B. (2003). Boosting with the L2 loss: Regression and classification. Journal of the American Statistical Association, 98(462), 324–339, doi: 10.1198/016214503000125. JSTOR: pdf.
Efron, B., Hastie, T., Johnstone, I., and Tibshirani, R. (2000). Least angle regression. The Annals of Statistics, 32(2), 407–499. doi: 10.1214/009053604000000067.
Friedman, J., Hastie, T., and Tibshirani, R. (2000). Additive logistic regression: A statistical view of boosting. The Annals of Statistics, 28(2), 337–407. doi: 10.1214/aos/1016218223.
Tibshirani, R. (2011). Regression shrinkage and selection via the Lasso: A retrospective. Journal of the Royal Statistical Society, Series B, 73(3), 273–282, doi: 10.1111/j.1467-9868.2011.00771.x.
Tutz, G. and Binder, H. (2006). Generalized additive modelling with implicit variable selection by likelihood based boosting. Biometrics, 62(4), 961–971, doi: 10.1111/j.1541-0420.2006.00578.x.
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, Series B, 67(2), 301–320, doi: 10.1111/j.1467-9868.2005.00503.x.

Informace o diplomové práci

Arnošt Komárek

Podstránky

Anotace

Zásady pro vypracování

Výchozí literatura