PCA (метод главных компонент) в двух координатах начинается с центрирования данных (вычитание средних по осям). Ковариационная матрица 2×2 центрированных точек симметрична и неотрицательно определена; её собственные векторы — взаимно перпендикулярные направления максимальной дисперсии, упорядоченные по собственным числам λ₁ ≥ λ₂ ≥ 0. Первый вектор PC1 — прямая через среднее, вдоль которой ортогональная проекция сохраняет наибольшую долю дисперсии; PC2 перпендикулярен и забирает остаток разброса. Счёт (score) точки на PC1 — скалярное произведение (p − μ)·v₁ с единичным собственным вектором — это и есть координата при проецировании облака на одномерное подпространство. Симулятор рисует среднее, стрелки, масштабированные примерно как √λ (ползунок длины), опционально перпендикуляры от каждой точки к её ранговой реконструкции на прямой PC1 и нижнюю полоску, где те же счета отображаются на горизонтальной оси — наглядная «1D картинка».
Для кого: Вводный курс линейной алгебры, статистики или ML: собственные разложения, максимизация дисперсии и геометрия ранговой-1 аппроксимации в плоскости.
Ключевые понятия
PCA
Ковариационная матрица
Собственный вектор
Собственное значение
Центрирование
Ортогональная проекция
Объяснённая дисперсия
Аппроксимация ранга 1
Как это работает
PCA: центрирование, ковариация 2×2, собственные векторы — PC1 (макс. дисперсия) и PC2; счёт на PC1 — (p−μ)·v₁ = координата ортогональной проекции на прямую PC1; полоска внизу — те же значения на 1D оси.
Часто задаваемые вопросы
Почему стрелки крутятся, если сдвинуть одну далёкую точку?
PCA глобален: ковариация зависит от всех точек. Сильный выброс может «перекосить» эллипс инерции и изменить оба собственных направления. Существуют робастные варианты (здесь не показаны).
Здесь выборочная ковариация (делитель n−1) или «популяционная» (n)?
Используется делитель n — проще для малых выборок и учебных графиков; порядок главных компонент тот же, абсолютные λ отличаются от варианта n−1 постоянным множителем.
Чем нижняя полоска отличается от `.transform(X)[:,0]` в sklearn?
После центрирования тем же μ, что в симуляторе, первый столбец sklearn — это (X_centered) v₁, то есть те же scores, что на полоске (с точностью до знака, который согласован со стрелкой).