Интерактивная простая линейная регрессия на плоскости: набор данных строится щелчками (добавить точку), перетаскиванием (сдвинуть) и Shift+щелчком (удалить ближайшую) — сразу видна геометрия рычага (leverage) и выбросов. Модель y = β₀ + β₁x со свободным членом и одним наклоном. МНК (OLS) минимизирует сумму квадратов вертикальных остатков. Ridge добавляет штраф L₂ только за наклон (свободный член не сжимается) — это соответствует нормальным уравнениям с диагональным регуляризатором на второй параметр: наклон притягивается к нулю, уменьшая дисперсию оценки ценой смещения. Lasso — штраф L₁ по наклону; здесь коэффициенты находятся коротким координатным спуском; при большом λ наклон может стать ровно нулём. Отдельный ползунок Δy добавляет смещение только к точке с наибольшим |x| (типичное положение сильного рычага для прямой), имитируя классический вертикальный выброс: МНК часто сильно наклоняет прямую, чтобы уменьшить квадратичную ошибку на этой точке, тогда как регуляризованные решения чаще остаются ближе к «основному» облаку. В панели — SSE и R² = 1 − SSE/SST, где SST считается относительно ȳ по текущим y (включая сдвиг выброса). В режимах Ridge/Lasso можно наложить бледную линию OLS для прямого сравнения наклонов.
Для кого: Вводные курсы статистики и машинного обучения: OLS vs гребень / Lasso, R², чувствительность к выбросам; хорошо сочетается с лекцией о нормальных уравнениях в матричной форме.
Ключевые понятия
МНК (OLS)
Регрессия Риджа
Lasso
Штрафы L₂ и L₁
Коэффициент детерминации R²
Сумма квадратов остатков (SSE)
Выбросы и рычаг
Координатный спуск
Как это работает
OLS, Ridge, Lasso для y = β₀ + β₁x: точки кликом и перетаскиванием; Δy на точке с max |x| — вертикальный выброс с сильным рычагом; SSE и R². Штраф только у наклона; опционально бледная линия OLS для сравнения с регуляризованной.
Часто задаваемые вопросы
Почему штрафуется только наклон, а не свободный член?
Штраф за β₀ сделал бы решение зависимым от произвольного сдвига шкалы y; в учебниках обычно либо центрируют отклик/признак, либо оставляют пересечение без штрафа, чтобы модель могла совпасть по уровню с данными. Здесь используется такая же педагогическая конвенция.
Больший λ у Ridge всегда «лучше»?
Нет: λ задаёт компромисс смещение–дисперсия. Слишком большой штраф сжимает наклон к нулю даже когда нужен крутой тренд — получается недообучение. На практике λ подбирают, например, кросс-валидацией (в симуляторе это не показано).
Почему у Lasso наклон иногда становится ровно нулём?
Штраф L₁ может обнулять коэффициенты (разреженное решение). В модели с одним наклоном при достаточно большом λ оптимальный β₁ равен 0, остаётся почти константная модель y ≈ β₀.