Почему стрелки крутятся, если сдвинуть одну далёкую точку?

PCA **глобален**: ковариация зависит от **всех** точек. Сильный выброс может «перекосить» эллипс инерции и изменить оба собственных направления. Существуют **робастные** варианты (здесь не показаны).

Здесь выборочная ковариация (делитель n−1) или «популяционная» (n)?

Используется делитель **n** — проще для малых выборок и учебных графиков; **порядок** главных компонент тот же, абсолютные λ отличаются от варианта **n−1** постоянным множителем.

Чем нижняя полоска отличается от `.transform(X)[:,0]` в sklearn?

После центрирования тем же **μ**, что в симуляторе, первый столбец sklearn — это **(X_centered) v₁**, то есть те же **scores**, что на полоске (с точностью до **знака**, который согласован со стрелкой).

PCA в 2D: главные компоненты и проекция на 1D

PCA (метод главных компонент) в двух координатах начинается с центрирования данных (вычитание средних по осям). Ковариационная матрица 2×2 центрированных точек симметрична и неотрицательно определена; её собственные векторы — взаимно перпендикулярные направления максимальной дисперсии, упорядоченные по собственным числам λ₁ ≥ λ₂ ≥ 0. Первый вектор PC1 — прямая через среднее, вдоль которой ортогональная проекция сохраняет наибольшую долю дисперсии; PC2 перпендикулярен и забирает остаток разброса. Счёт (score) точки на PC1 — скалярное произведение (p − μ)·v₁ с единичным собственным вектором — это и есть координата при проецировании облака на одномерное подпространство. Симулятор рисует среднее, стрелки, масштабированные примерно как √λ (ползунок длины), опционально перпендикуляры от каждой точки к её ранговой реконструкции на прямой PC1 и нижнюю полоску, где те же счета отображаются на горизонтальной оси — наглядная «1D картинка».

Для кого: Вводный курс линейной алгебры, статистики или ML: собственные разложения, максимизация дисперсии и геометрия ранговой-1 аппроксимации в плоскости.

Ключевые понятия

PCA
Ковариационная матрица
Собственный вектор
Собственное значение
Центрирование
Ортогональная проекция
Объяснённая дисперсия
Аппроксимация ранга 1

Отображение

Длина стрелок PC (√λ)2.35

Показать вторую главную компонентуПерпендикуляры точка → прямая PC1

Данные

Размер демо72

Seed демо42

Ковариация с делителем **n** (популяционная). PC1 максимизирует дисперсию проекции; полоска — координата **(p−μ)·v₁**.

Горячие клавиши

Щёлчок — добавить точку (до 220)
Перетаскивание — сдвинуть
Shift+щелчок — удалить ближайшую
R — новое демо-облако (seed)

Измеренные величины

Точек72

λ₁ (дисперсия вдоль PC1)0.8926

λ₂ (дисперсия вдоль PC2)0.7728

Доля дисперсии на PC10.536

Как это работает

PCA: центрирование, ковариация 2×2, собственные векторы — PC1 (макс. дисперсия) и PC2; счёт на PC1 — (p−μ)·v₁ = координата ортогональной проекции на прямую PC1; полоска внизу — те же значения на 1D оси.

Часто задаваемые вопросы

Почему стрелки крутятся, если сдвинуть одну далёкую точку?: PCA глобален: ковариация зависит от всех точек. Сильный выброс может «перекосить» эллипс инерции и изменить оба собственных направления. Существуют робастные варианты (здесь не показаны).
Здесь выборочная ковариация (делитель n−1) или «популяционная» (n)?: Используется делитель n — проще для малых выборок и учебных графиков; порядок главных компонент тот же, абсолютные λ отличаются от варианта n−1 постоянным множителем.
Чем нижняя полоска отличается от `.transform(X)[:,0]` в sklearn?: После центрирования тем же μ, что в симуляторе, первый столбец sklearn — это (X_centered) v₁, то есть те же scores, что на полоске (с точностью до знака, который согласован со стрелкой).

Другие симуляторы в этой категории — или все 84.

Вся категория →

НовоеШкольные

Дерево решений (2D игрушка)

Жадные **осевые** разбиения на плоскости с двумя классами: **Джини** или **энтропия**, глубина и минимум точек в листе; прямоугольники решений и пунктирные линии рекурсивных срезов.

Запустить симулятор

НовоеШкольные

Двухслойная сеть и обратное распространение (XOR / спираль)

Точки с метками на плоскости; **tanh** в скрытом слое и **логистика** на выходе; полный **батч**-градиент по **BCE**; теплокарта **P(класс 1)** и движение границы **~0.5** по эпохам.

Запустить симулятор

НовоеУниверситет / научные