Merge pull request #216 from Ziyu-Mu/regu_update

update regu
slds-lmu · Aug 6, 2024 · f449ede · f449ede
2 parents df36bcd + 1b1f615
commit f449ede
Show file tree

Hide file tree

Showing 161 changed files with 2,007 additions and 1,915 deletions.
diff --git a/slides/regularization/figure/avoid_overfitting_02.png b/slides/regularization/figure/avoid_overfitting_02.png
diff --git a/slides/regularization/figure/bias_var_decomp.png b/slides/regularization/figure/bias_var_decomp.png
diff --git a/slides/regularization/figure/classifi_nn_err_decay.png b/slides/regularization/figure/classifi_nn_err_decay.png
diff --git a/slides/regularization/figure/classifi_nn_err_size.png b/slides/regularization/figure/classifi_nn_err_size.png
diff --git a/slides/regularization/figure/classifi_nn_size_1.png b/slides/regularization/figure/classifi_nn_size_1.png
diff --git a/slides/regularization/figure/classifi_nn_size_2.png b/slides/regularization/figure/classifi_nn_size_2.png
diff --git a/slides/regularization/figure/classifi_nn_size_3.png b/slides/regularization/figure/classifi_nn_size_3.png
diff --git a/slides/regularization/figure/classifi_nn_size_4.png b/slides/regularization/figure/classifi_nn_size_4.png
diff --git a/slides/regularization/figure/classifi_nn_size_5.png b/slides/regularization/figure/classifi_nn_size_5.png
diff --git a/slides/regularization/figure/classifi_nn_size_6.png b/slides/regularization/figure/classifi_nn_size_6.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_1.png b/slides/regularization/figure/classifi_nn_w_size_1.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_2.png b/slides/regularization/figure/classifi_nn_w_size_2.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_3.png b/slides/regularization/figure/classifi_nn_w_size_3.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_4.png b/slides/regularization/figure/classifi_nn_w_size_4.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_5.png b/slides/regularization/figure/classifi_nn_w_size_5.png
diff --git a/slides/regularization/figure/classifi_nn_w_size_6.png b/slides/regularization/figure/classifi_nn_w_size_6.png
diff --git a/slides/regularization/figure/early_stopping.png b/slides/regularization/figure/early_stopping.png
diff --git a/slides/regularization/figure/eval_ofit_1a.pdf b/slides/regularization/figure/eval_ofit_1a.pdf
diff --git a/slides/regularization/figure/eval_ofit_1o.pdf b/slides/regularization/figure/eval_ofit_1o.pdf
diff --git a/slides/regularization/figure/fig-regu-nonlin-1.png b/slides/regularization/figure/fig-regu-nonlin-1.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-2.png b/slides/regularization/figure/fig-regu-nonlin-2.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-3.png b/slides/regularization/figure/fig-regu-nonlin-3.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-4.png b/slides/regularization/figure/fig-regu-nonlin-4.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-1.png b/slides/regularization/figure/fig-regu-nonlin-size-1.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-2.png b/slides/regularization/figure/fig-regu-nonlin-size-2.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-3.png b/slides/regularization/figure/fig-regu-nonlin-size-3.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-4.png b/slides/regularization/figure/fig-regu-nonlin-size-4.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-5.png b/slides/regularization/figure/fig-regu-nonlin-size-5.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-size-6.png b/slides/regularization/figure/fig-regu-nonlin-size-6.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-srm-1.png b/slides/regularization/figure/fig-regu-nonlin-srm-1.png
diff --git a/slides/regularization/figure/fig-regu-nonlin-srm-2.png b/slides/regularization/figure/fig-regu-nonlin-srm-2.png
diff --git a/slides/regularization/figure/graddes_vs_weightdecay.png b/slides/regularization/figure/graddes_vs_weightdecay.png
diff --git a/...larization/figure/l2_reg_hess_01_plot.png → .../regularization/figure/l2_reg_hess_01.png b/...larization/figure/l2_reg_hess_01_plot.png → .../regularization/figure/l2_reg_hess_01.png
diff --git a/...larization/figure/l2_reg_hess_02_plot.png → .../regularization/figure/l2_reg_hess_02.png b/...larization/figure/l2_reg_hess_02_plot.png → .../regularization/figure/l2_reg_hess_02.png
diff --git a/...larization/figure/l2_reg_hess_03_plot.png → .../regularization/figure/l2_reg_hess_03.png b/...larization/figure/l2_reg_hess_03_plot.png → .../regularization/figure/l2_reg_hess_03.png
diff --git a/...larization/figure/l2_reg_hess_04_plot.png → .../regularization/figure/l2_reg_hess_04.png b/...larization/figure/l2_reg_hess_04_plot.png → .../regularization/figure/l2_reg_hess_04.png
diff --git a/slides/regularization/figure/lasso_contour_cases.png b/slides/regularization/figure/lasso_contour_cases.png
diff --git a/slides/regularization/figure/lasso_contours.png b/slides/regularization/figure/lasso_contours.png
diff --git a/slides/regularization/figure/lasso_outside.png b/slides/regularization/figure/lasso_outside.png
diff --git a/slides/regularization/figure/lin_model_regu_01.png b/slides/regularization/figure/lin_model_regu_01.png
diff --git a/slides/regularization/figure/lin_model_regu_02.png b/slides/regularization/figure/lin_model_regu_02.png
diff --git a/slides/regularization/figure/lin_reg_l1.png b/slides/regularization/figure/lin_reg_l1.png
diff --git a/slides/regularization/figure/lin_reg_l2.png b/slides/regularization/figure/lin_reg_l2.png
diff --git a/slides/regularization/figure/model_eval_01.png b/slides/regularization/figure/model_eval_01.png
diff --git a/slides/regularization/figure/model_eval_02.png b/slides/regularization/figure/model_eval_02.png
diff --git a/slides/regularization/figure/model_eval_03.png b/slides/regularization/figure/model_eval_03.png
diff --git a/slides/regularization/figure/multicollinearity_example.png b/slides/regularization/figure/multicollinearity_example.png
diff --git a/slides/regularization/figure/ozone_mse_boxplot.png b/slides/regularization/figure/ozone_mse_boxplot.png
diff --git a/slides/regularization/figure/poly_ridge_01.png b/slides/regularization/figure/poly_ridge_01.png
diff --git a/slides/regularization/figure/poly_ridge_02.png b/slides/regularization/figure/poly_ridge_02.png
diff --git a/slides/regularization/figure/poly_ridge_1.png b/slides/regularization/figure/poly_ridge_1.png
diff --git a/slides/regularization/figure/poly_ridge_2.png b/slides/regularization/figure/poly_ridge_2.png
diff --git a/slides/regularization/figure/reg_contours_01.png b/slides/regularization/figure/reg_contours_01.png
diff --git a/slides/regularization/figure/reg_contours_02.png b/slides/regularization/figure/reg_contours_02.png
diff --git a/slides/regularization/figure/reg_surfaces.png b/slides/regularization/figure/reg_surfaces.png
diff --git a/slides/regularization/figure/reg_surfaces_l1_l2.png b/slides/regularization/figure/reg_surfaces_l1_l2.png
diff --git a/slides/regularization/figure/reg_surfaces_l1_lam0.png b/slides/regularization/figure/reg_surfaces_l1_lam0.png
diff --git a/slides/regularization/figure/reg_surfaces_l1_lam1.png b/slides/regularization/figure/reg_surfaces_l1_lam1.png
diff --git a/slides/regularization/figure/reg_surfaces_l1_lam10.png b/slides/regularization/figure/reg_surfaces_l1_lam10.png
diff --git a/slides/regularization/figure/reg_surfaces_l2_lam0.png b/slides/regularization/figure/reg_surfaces_l2_lam0.png
diff --git a/slides/regularization/figure/reg_surfaces_l2_lam1.png b/slides/regularization/figure/reg_surfaces_l2_lam1.png
diff --git a/slides/regularization/figure/reg_surfaces_l2_lam10.png b/slides/regularization/figure/reg_surfaces_l2_lam10.png
diff --git a/slides/regularization/figure/regu_example_multicollinearity.png b/slides/regularization/figure/regu_example_multicollinearity.png
diff --git a/slides/regularization/figure/ridge_constraints.png b/slides/regularization/figure/ridge_constraints.png
diff --git a/slides/regularization/figure/ridge_contours.png b/slides/regularization/figure/ridge_contours.png
diff --git a/slides/regularization/figure/ridge_hat.png b/slides/regularization/figure/ridge_hat.png
diff --git a/slides/regularization/figure/ridge_inside.png b/slides/regularization/figure/ridge_inside.png
diff --git a/slides/regularization/figure/ridge_outside.png b/slides/regularization/figure/ridge_outside.png
diff --git a/slides/regularization/figure/ridge_perspectives_01.png b/slides/regularization/figure/ridge_perspectives_01.png
diff --git a/slides/regularization/figure/ridge_perspectives_02.png b/slides/regularization/figure/ridge_perspectives_02.png
diff --git a/slides/regularization/figure/ridge_perspectives_03.png b/slides/regularization/figure/ridge_perspectives_03.png
diff --git a/slides/regularization/figure/ridge_perspectives_04.png b/slides/regularization/figure/ridge_perspectives_04.png
diff --git a/slides/regularization/figure/ridge_vs_sgd_path.png b/slides/regularization/figure/ridge_vs_sgd_path.png
diff --git a/slides/regularization/figure/shrinkage_01.png b/slides/regularization/figure/shrinkage_01.png
diff --git a/slides/regularization/figure/shrinkage_02.png b/slides/regularization/figure/shrinkage_02.png
diff --git a/slides/regularization/figure/shrinkage_1.png b/slides/regularization/figure/shrinkage_1.png
diff --git a/slides/regularization/figure/shrinkage_2.png b/slides/regularization/figure/shrinkage_2.png
diff --git a/slides/regularization/figure/soft_thresholding.png b/slides/regularization/figure/soft_thresholding.png
diff --git a/slides/regularization/figure/solution_paths_01.png b/slides/regularization/figure/solution_paths_01.png
diff --git a/slides/regularization/figure/solution_paths_02.png b/slides/regularization/figure/solution_paths_02.png
diff --git a/...ion/figure/weightdecay_lambda_plot_01.png → ...rization/figure/weightdecay_lambda_01.png b/...ion/figure/weightdecay_lambda_plot_01.png → ...rization/figure/weightdecay_lambda_01.png
diff --git a/...ion/figure/weightdecay_lambda_plot_02.png → ...rization/figure/weightdecay_lambda_02.png b/...ion/figure/weightdecay_lambda_plot_02.png → ...rization/figure/weightdecay_lambda_02.png
diff --git a/slides/regularization/figure/weightdecay_lambda_plot.png b/slides/regularization/figure/weightdecay_lambda_plot.png
diff --git a/slides/regularization/figure_man/bayes-plot-posterior.png b/slides/regularization/figure_man/bayes-plot-posterior.png
diff --git a/slides/regularization/figure_man/bias-variance-ridge.png b/slides/regularization/figure_man/bias-variance-ridge.png
diff --git a/slides/regularization/figure_man/lasso_contours_cases.png b/slides/regularization/figure_man/lasso_contours_cases.png
diff --git a/slides/regularization/figure_man/other-pen-MCP.png b/slides/regularization/figure_man/other-pen-MCP.png
diff --git a/slides/regularization/figure_man/other-pen-SCAD.png b/slides/regularization/figure_man/other-pen-SCAD.png
diff --git a/slides/regularization/figure_man/other-pen-lasso.png b/slides/regularization/figure_man/other-pen-lasso.png
diff --git a/slides/regularization/figure_man/ridge-vs-sgd-path.png b/slides/regularization/figure_man/ridge-vs-sgd-path.png
diff --git a/slides/regularization/figure_man/ridge_hat.png b/slides/regularization/figure_man/ridge_hat.png
diff --git a/slides/regularization/figure_man/soft-thresholding.pdf b/slides/regularization/figure_man/soft-thresholding.pdf
diff --git a/slides/regularization/figure_man/solution-path-ridge-lasso.png b/slides/regularization/figure_man/solution-path-ridge-lasso.png
diff --git a/slides/regularization/figure_man/solution-path-ridge-only.png b/slides/regularization/figure_man/solution-path-ridge-only.png
diff --git a/slides/regularization/figure_man/solution_path.png b/slides/regularization/figure_man/solution_path.png
diff --git a/slides/regularization/figure_man/solution_path_l2.png b/slides/regularization/figure_man/solution_path_l2.png
diff --git a/slides/regularization/figure_man/solution_paths_l1_l2.png b/slides/regularization/figure_man/solution_paths_l1_l2.png
diff --git a/slides/regularization/figure_man/wt_decay_hat.png b/slides/regularization/figure_man/wt_decay_hat.png
diff --git a/slides/regularization/rsrc/avoid_overfitting.R b/slides/regularization/rsrc/avoid_overfitting.R
@@ -0,0 +1,40 @@
+# ------------------------------------------------------------------------------
+# intro
+
+# FIG: how MSE for training and test data change with
+#      different feature numbers, and with different data sizes.
+
+# DATA: from data_ozone_example.RData
+# ------------------------------------------------------------------------------
+
+library(ggplot2)
+library(data.table)
+
+theme_set(theme_minimal())
+
+# DATA -------------------------------------------------------------------------
+
+load("data_ozone_example.RData")
+
+dfp <- setDT(df_incdata)[, .(mean.mse = median(value)), by = c("nobs", "variable")]
+
+# PLOTS ------------------------------------------------------------------------
+
+# data size
+p1 <- ggplot(data = dfp, aes(x = nobs, y = mean.mse, colour = variable)) +
+  geom_line(lwd = 1.2) + ylim(c(0, 100)) + labs(colour = " ") +
+  scale_colour_discrete(labels = c("Train error", "Test error")) +
+  xlab("Size of data set") + ylab("MSE") +
+  scale_color_brewer(palette="Dark2") 
+
+# feature number
+p2 <- ggplot(data = df_incfeatures, aes(x = type, y = mean.mse, colour = variable)) +
+  geom_line(lwd = 1.2) + labs(colour = " ") +
+  scale_colour_discrete(labels = c("Train error", "Test error")) +
+  xlab("Number of features") + ylab("MSE") +
+  ylim(c(0, 150)) +
+  scale_x_continuous(breaks = 0:12) +
+  scale_color_brewer(palette="Dark2")
+
+ggsave("../figure/avoid_overfitting_01.png", plot=p1, width=5, height=2.5)
+ggsave("../figure/avoid_overfitting_02.png", plot=p2, width=5, height=2.5)
diff --git a/slides/regularization/rsrc/bias-var-decomp-ridge.py b/slides/regularization/rsrc/bias-var-decomp-ridge.py
diff --git a/slides/regularization/rsrc/bias_var_decomp.R b/slides/regularization/rsrc/bias_var_decomp.R
@@ -0,0 +1,78 @@
+# ------------------------------------------------------------------------------
+# l2 nonlin
+
+# FIG: decompose MSE to bias_square and variance for ridge regression.
+#      plot lines to show how each part varies 
+#      with ln(lambda) (natural logarithm of regularization constant).
+
+# DATA: y = sin(x(100*1 ~Uniform)) + epi (100*1 ~Normal)
+#       X = (x^1,...,x^8) (100*8 design matrix)
+# ------------------------------------------------------------------------------
+
+library(ggplot2)
+library(dplyr)
+library(tidyr)
+library(glmnet)
+
+set.seed(0)
+
+# DATA -------------------------------------------------------------------------
+
+true_function <- function(x) sin(x)
+n_datasets <- 100
+n_samples <- 100
+n_test_samples <- 10000
+n_order <- 8
+lambdas <- exp(seq(-6, 7, length.out = 25))
+
+# Generate polynomial features
+poly_features <- function(x, degree) {
+  model.matrix(~ poly(x, degree, raw = TRUE) - 1)
+}
+
+# Initialize arrays to store the bias, variance, and error
+bias_square <- rep(0, length(lambdas))
+variance <- rep(0, length(lambdas))
+test_error <- rep(0, length(lambdas))
+
+# Generate shared x values for all datasets
+x_shared <- runif(n_samples)
+x_shared_poly <- poly_features(x_shared, n_order)
+
+# Generate test data
+x_test <- runif(n_test_samples)
+y_test <- true_function(x_test) + rnorm(n_test_samples)
+x_test_poly <- poly_features(x_test, n_order)
+
+for (i in 1:length(lambdas)) {
+  predictions <- matrix(0, nrow = n_datasets, ncol = n_samples)
+
+  for (j in 1:n_datasets) {
+    epsilon <- rnorm(n_samples)
+    y <- true_function(x_shared) + epsilon
+
+    model <- glmnet(x_shared_poly, y, alpha = 0, lambda = lambdas[i])
+    predictions[j, ] <- predict(model, newx = x_shared_poly)
+  }
+
+  average_prediction <- apply(predictions, 2, mean)
+
+  bias_square[i] <- mean((average_prediction - true_function(x_shared))^2)
+  variance[i] <- mean(apply(predictions, 2, var))
+}
+
+
+data <- data.frame(log_lambdas = log(lambdas),
+                   bias_square = bias_square,
+                   variance = variance,
+                   MSE = bias_square + variance) %>%
+  pivot_longer(cols = c(bias_square, variance, MSE), names_to = "component", values_to = "value")
+
+p <- ggplot(data, aes(x = log_lambdas, y = value, color = component, linetype = component)) +
+  geom_line(size = 1) +
+  scale_color_manual(values = c("red", "green", "blue")) +
+  scale_linetype_manual(values = c("solid", "solid", "solid")) +
+  labs(x = expression("ln("~λ~")"), y = "value", title = "Bias-Variance Tradeoff with L2 Regularization") +
+  theme_minimal()
+
+ggsave("bias_var_decomp.png", p, width = 12, height = 6)