- #数据科学
一个关于cross-validation的问题,求助~~~

1015926
对Introduction to statistical learning 这本书第6章lab部分对ridge regression, lasso, 和 Principal Components Regression的比较有个疑问,书里介绍的步骤如下:
1. 把整个dataset分成了training和test两部分
2. 用training部分做cross-validation来为ridge regression选取合适的lambda, 然后用test data 得到 test MSE
3. 用training部分做cross-validation来为lasso选取合适的lambda, 然后用test data 得到 test MSE
4. 用training部分做cross-validation来为PCR选取合适的变量个数, 然后用test data 得到 test MSE
5. 比较 2,3,4中 Ridge regression, lasso, PCR各自的test MSE
不明白为什么要先用cross-validation来选择tuning parameter,然后用 Validation Set Approach 的方法比较各个model的test MSE。为什么不能直接对整个数据做cross-validation,得到ridge regression, lasso, PCR各自的最小的test MSE直接进行比较呢?
1. 把整个dataset分成了training和test两部分
2. 用training部分做cross-validation来为ridge regression选取合适的lambda, 然后用test data 得到 test MSE
3. 用training部分做cross-validation来为lasso选取合适的lambda, 然后用test data 得到 test MSE
4. 用training部分做cross-validation来为PCR选取合适的变量个数, 然后用test data 得到 test MSE
5. 比较 2,3,4中 Ridge regression, lasso, PCR各自的test MSE
不明白为什么要先用cross-validation来选择tuning parameter,然后用 Validation Set Approach 的方法比较各个model的test MSE。为什么不能直接对整个数据做cross-validation,得到ridge regression, lasso, PCR各自的最小的test MSE直接进行比较呢?