Почему штрафуется только наклон, а не свободный член?

Штраф за **β₀** сделал бы решение зависимым от произвольного сдвига шкалы **y**; в учебниках обычно либо **центрируют** отклик/признак, либо оставляют пересечение **без штрафа**, чтобы модель могла совпасть по уровню с данными. Здесь используется такая же педагогическая конвенция.

Больший λ у Ridge всегда «лучше»?

Нет: **λ** задаёт компромисс смещение–дисперсия. Слишком большой штраф сжимает наклон к нулю даже когда нужен крутой тренд — получается **недообучение**. На практике **λ** подбирают, например, кросс-валидацией (в симуляторе это не показано).

Почему у Lasso наклон иногда становится ровно нулём?

Штраф **L₁** может обнулять коэффициенты (**разреженное** решение). В модели с одним наклоном при достаточно большом **λ** оптимальный **β₁** равен **0**, остаётся почти константная модель **y ≈ β₀**.

Линейная регрессия: OLS, Ridge, Lasso и R²

Интерактивная простая линейная регрессия на плоскости: набор данных строится щелчками (добавить точку), перетаскиванием (сдвинуть) и Shift+щелчком (удалить ближайшую) — сразу видна геометрия рычага (leverage) и выбросов. Модель y = β₀ + β₁x со свободным членом и одним наклоном. МНК (OLS) минимизирует сумму квадратов вертикальных остатков. Ridge добавляет штраф L₂ только за наклон (свободный член не сжимается) — это соответствует нормальным уравнениям с диагональным регуляризатором на второй параметр: наклон притягивается к нулю, уменьшая дисперсию оценки ценой смещения. Lasso — штраф L₁ по наклону; здесь коэффициенты находятся коротким координатным спуском; при большом λ наклон может стать ровно нулём. Отдельный ползунок Δy добавляет смещение только к точке с наибольшим |x| (типичное положение сильного рычага для прямой), имитируя классический вертикальный выброс: МНК часто сильно наклоняет прямую, чтобы уменьшить квадратичную ошибку на этой точке, тогда как регуляризованные решения чаще остаются ближе к «основному» облаку. В панели — SSE и R² = 1 − SSE/SST, где SST считается относительно ȳ по текущим y (включая сдвиг выброса). В режимах Ridge/Lasso можно наложить бледную линию OLS для прямого сравнения наклонов.

Для кого: Вводные курсы статистики и машинного обучения: OLS vs гребень / Lasso, R², чувствительность к выбросам; хорошо сочетается с лекцией о нормальных уравнениях в матричной форме.

Ключевые понятия

МНК (OLS)
Регрессия Риджа
Lasso
Штрафы L₂ и L₁
Коэффициент детерминации R²
Сумма квадратов остатков (SSE)
Выбросы и рычаг
Координатный спуск

Модель

Оценка

λ (Ridge / Lasso)0.8

Выброс (сдвиг по y)

Δy добавляется только к точке с наибольшим |x| (золотая при Δy ≠ 0).

Δy у max |x|0

Демо-облако

Точек16

Шум0.38

Истинный наклон0.72

Истинный сдвиг0.15

Seed11

Редактирование снимает пунктирную «истинную» прямую, пока снова не загрузите демо.

Горячие клавиши

Щёлчок по полю — добавить точку (до 48)
Перетаскивание — сдвинуть ближайшую точку
Shift+щелчок — удалить ближайшую
R — новая демо-выборка (seed)

Измеренные величины

Точек16

Активная модель0.710·x + 0.148

SSE (активная)0.504

R² (активная)0.9882

R² (OLS на тех же данных)0.9882

Как это работает

OLS, Ridge, Lasso для y = β₀ + β₁x: точки кликом и перетаскиванием; Δy на точке с max |x| — вертикальный выброс с сильным рычагом; SSE и R². Штраф только у наклона; опционально бледная линия OLS для сравнения с регуляризованной.

Часто задаваемые вопросы

Почему штрафуется только наклон, а не свободный член?: Штраф за β₀ сделал бы решение зависимым от произвольного сдвига шкалы y; в учебниках обычно либо центрируют отклик/признак, либо оставляют пересечение без штрафа, чтобы модель могла совпасть по уровню с данными. Здесь используется такая же педагогическая конвенция.
Больший λ у Ridge всегда «лучше»?: Нет: λ задаёт компромисс смещение–дисперсия. Слишком большой штраф сжимает наклон к нулю даже когда нужен крутой тренд — получается недообучение. На практике λ подбирают, например, кросс-валидацией (в симуляторе это не показано).
Почему у Lasso наклон иногда становится ровно нулём?: Штраф L₁ может обнулять коэффициенты (разреженное решение). В модели с одним наклоном при достаточно большом λ оптимальный β₁ равен 0, остаётся почти константная модель y ≈ β₀.

Другие симуляторы в этой категории — или все 61.

Вся категория →

НовоеШкольные

Кластеризация K-средних (Ллойд)

Кликами добавляйте точки, выберите **k**, заново выберите **k** стартовых центроидов из точек, затем шагайте по **Ллойду** (назначение к ближайшему центроиду → центр тяжести кластера). Демо — смесь гауссиан; счётчик шагов и **SSE** внутри кластеров.

Запустить симулятор

НовоеШкольные

DBSCAN (плотностная кластеризация)

Ползунки **ε** и **minPts** на наборе точек с кликов: ядро / граница / **шум**, опционально окружности **ε** у ядер; демо с разбросанными выбросами.

Запустить симулятор

НовоеШкольные

PCA в 2D: главные компоненты и проекция на 1D

Облако точек с кликов: **ковариация 2×2**, собственные векторы как **PC1/PC2** от среднего, опционально перпендикуляры к прямой **PC1**, внизу полоска **координат на PC1** (стандартная ранговая проекция).

Запустить симулятор

НовоеШкольные

Дерево решений (2D игрушка)

Жадные **осевые** разбиения на плоскости с двумя классами: **Джини** или **энтропия**, глубина и минимум точек в листе; прямоугольники решений и пунктирные линии рекурсивных срезов.

Запустить симулятор

НовоеШкольные

Двухслойная сеть и обратное распространение (XOR / спираль)

Точки с метками на плоскости; **tanh** в скрытом слое и **логистика** на выходе; полный **батч**-градиент по **BCE**; теплокарта **P(класс 1)** и движение границы **~0.5** по эпохам.

Запустить симулятор

НовоеУниверситет / научные

Свёртка (импульсы)

Два прямоугольных импульса; длина перекрытия при τ = 0.

Запустить симулятор

Линейная регрессия: OLS, Ridge, Lasso и R²

Как это работает

Часто задаваемые вопросы

Ещё из «Визуализация математики»

Кластеризация K-средних (Ллойд)

DBSCAN (плотностная кластеризация)

PCA в 2D: главные компоненты и проекция на 1D

Дерево решений (2D игрушка)

Двухслойная сеть и обратное распространение (XOR / спираль)

Свёртка (импульсы)

Линейная регрессия: OLS, Ridge, Lasso и R²

Как это работает

Часто задаваемые вопросы