Почему разные случайные старты дают разные финальные кластеры?

Ллойд **монотонно** уменьшает целевую функцию, но лишь к **локальному** минимуму невыпуклой задачи k-means. Разные начальные центроиды попадают в разные «ловушки» — поэтому в индустрии часто делают **несколько перезапусков** или умную инициализацию (**k-means++**), здесь это не реализовано.

Гарантируется ли глобально оптимальное разбиение?

Нет — в худшем случае даже в плоскости точная глобальная оптимизация k-means **NP-трудна**. Итерации Ллойда — быстрый **эвристический** метод, который на «гладких» облаках обычно работает очень хорошо.

Что делать, если кластер опустел?

В строгом коде часто **переинициализируют** центроид (например, в самую далёкую точку). Здесь пустой кластер **оставляет старый центроид**, чтобы не «терять» метку кластера посреди урока; на следующем шаге назначения состав может измениться.

Кластеризация K-средних (Ллойд)

K-средних — метод кластеризации, который разбивает конечное множество точек на k групп, минимизируя сумму квадратов евклидовых расстояний до центроидов (WCSS). Здесь реализован классический алгоритм Ллойда: при фиксированных k центроидах чередуются шаг назначения (каждая точка → ближайший центроид, ячейки диаграммы Вороного по евклидовой метрике) и шаг обновления (центроид ← среднее своих точек). На полном шаге WCSS не возрастает: назначение оптимально при фиксированных центрах, среднее — оптимум при фиксированных метках. Случайность только там, где она нужна для иллюстрации: стартовые центроиды — k различных точек данных, выбранных перемешиванием с управляемым seed; кнопка демо даёт смесь гауссиан с несколькими «кучками». Пустой кластер в шаге средних сохраняет прежний центроид — простой учебный приём без полной логики k-means++.

Для кого: Вводные курсы по анализу данных, статистике или численным методам: обучение без учителя, интуиция Вороного и чередующейся минимизации.

Ключевые понятия

K-means
Алгоритм Ллойда
Центроид
Назначение по Вороному
Внутрикластерная сумма квадратов
Смесь распределений (демо)
Локальные минимумы
Пустой кластер

Кластеры

k (число кластеров)4

Seed инициализации / R1

Итерации Ллойда

Тонкие линии точка → центроид

Данные

Размер демо-смеси56

Seed демо42

Пустой кластер на шаге средних сохраняет прежний центроид (учебная упрощённая политика).

Горячие клавиши

Щёлчок по полю — добавить точку (до 90)
Перетаскивание — сдвинуть точку
Shift+щелчок — удалить ближайшую
Пробел — один шаг Ллойда
R — новый seed и заново k центроидов из точек

Измеренные величины

Точек56

Число кластеров k4

Шагов Ллойда (всего)0

SSE внутри кластеров102.47

Как это работает

K-средних (Ллойд): шаг назначения — каждая точка к ближайшему из k центроидов; шаг обновления — центроид в центр масс своих точек. Старт — k случайных точек данных по seed; демо — смесь гауссиан; SSE внутри кластеров не растёт на шаге.

Часто задаваемые вопросы

Почему разные случайные старты дают разные финальные кластеры?: Ллойд монотонно уменьшает целевую функцию, но лишь к локальному минимуму невыпуклой задачи k-means. Разные начальные центроиды попадают в разные «ловушки» — поэтому в индустрии часто делают несколько перезапусков или умную инициализацию (k-means++), здесь это не реализовано.
Гарантируется ли глобально оптимальное разбиение?: Нет — в худшем случае даже в плоскости точная глобальная оптимизация k-means NP-трудна. Итерации Ллойда — быстрый эвристический метод, который на «гладких» облаках обычно работает очень хорошо.
Что делать, если кластер опустел?: В строгом коде часто переинициализируют центроид (например, в самую далёкую точку). Здесь пустой кластер оставляет старый центроид, чтобы не «терять» метку кластера посреди урока; на следующем шаге назначения состав может измениться.

Другие симуляторы в этой категории — или все 84.

Вся категория →

НовоеШкольные

DBSCAN (плотностная кластеризация)

Ползунки **ε** и **minPts** на наборе точек с кликов: ядро / граница / **шум**, опционально окружности **ε** у ядер; демо с разбросанными выбросами.

Запустить симулятор

НовоеШкольные

PCA в 2D: главные компоненты и проекция на 1D

Облако точек с кликов: **ковариация 2×2**, собственные векторы как **PC1/PC2** от среднего, опционально перпендикуляры к прямой **PC1**, внизу полоска **координат на PC1** (стандартная ранговая проекция).

Запустить симулятор

НовоеШкольные

Дерево решений (2D игрушка)

Жадные **осевые** разбиения на плоскости с двумя классами: **Джини** или **энтропия**, глубина и минимум точек в листе; прямоугольники решений и пунктирные линии рекурсивных срезов.

Запустить симулятор

НовоеШкольные

Двухслойная сеть и обратное распространение (XOR / спираль)

Точки с метками на плоскости; **tanh** в скрытом слое и **логистика** на выходе; полный **батч**-градиент по **BCE**; теплокарта **P(класс 1)** и движение границы **~0.5** по эпохам.

Запустить симулятор

НовоеУниверситет / научные