Почему малое изменение ε резко меняет число кластеров?

Решения **пороговые**: считается число точек в фиксированном шаре. У критической плотности чуть больший ε может «протянуть мост» между двумя плотными областями и **склеить** кластеры; меньший ε — **разорвать**. Такая **негладкость** заложена в жёсткую плотностную модель.

Как выбрать minPts в 2D?

Часто берут **minPts ≈ 2·dim** для низкой размерности (в плоскости **4** как старт), затем подстраивают под допустимый уровень шума: больше **minPts** — жёстче требование к ядрам и больше точек уходит в **шум**.

Это точь-в-точь как sklearn DBSCAN?

Логика **ядро / граница / шум** и расширение по ε-окрестностям совпадает по сути, но без kd-деревьев и тонких политик библиотек. Цель — **наглядная корректность** для урока, не побитовая идентичность промышленному коду.

DBSCAN (плотностная кластеризация)

DBSCAN (плотностная кластеризация с выделением шума) находит кластеры произвольной формы без задания числа кластеров k. Два параметра задают «локальную плотность»: радиус ε окрестности и minPts — минимальное число точек (включая саму точку) в шаре радиуса ε, чтобы объект был ядром. Кластеры наращиваются от ядер: любая ещё не посещённая точка из ε-окрестности ядра попадает в тот же кластер; достигнутые неядра — граница; всё, что не поглощено, — шум. В отличие от k-means, DBSCAN может отбрасывать редкие выбросы и разделять близкие «кучки» при малом ε; большой ε наоборот склеивает области через разреженные «мосты». Симулятор мгновенно пересчитывает метки при изменении ε и minPts: цвет по кластеру, шум — серый с красным обводочным контуром; опционально рисуются окружности ε вокруг ядер в экранных координатах (учебная подсказка масштаба, не второй метрики). Демо смешивает четыре плотных гауссовых облака с равномерно разбросанным фоном, чтобы класс шума был хорошо виден.

Для кого: Вводные курсы ML или пространственного анализа: сравнение k-means (разбиение) и DBSCAN (плотность); хорошо сочетается с лабораторией Ллойда на сайте.

Ключевые понятия

DBSCAN
Окрестность ε
minPts
Ядро
Граница
Шум
Плотностная достижимость
Произвольная форма кластера

Параметры DBSCAN

ε (радиус окрестности)0.42

minPts5

Окружность ε вокруг ядер

Данные

Размер демо78

Seed демо51

Ядро, если |N_ε| ≥ minPts. Граница получает цвет кластера; шум — серый с красной обводкой.

Горячие клавиши

Щёлчок — добавить точку (до 220)
Перетаскивание — сдвинуть
Shift+щелчок — удалить ближайшую
R — новое демо-облако (seed)

Измеренные величины

Точек78

Найдено кластеров2

Ядерных точек10

Шумовых точек61

Как это работает

DBSCAN: ядро, если в шаре радиуса ε не меньше minPts соседей; кластер растёт из ядер по ε-связности; непоглощённые точки — шум. Маленькое ε «режет мосты» между кучками; большое ε их склеивает; демо — плотные облака + разреженный фон.

Часто задаваемые вопросы

Почему малое изменение ε резко меняет число кластеров?: Решения пороговые: считается число точек в фиксированном шаре. У критической плотности чуть больший ε может «протянуть мост» между двумя плотными областями и склеить кластеры; меньший ε — разорвать. Такая негладкость заложена в жёсткую плотностную модель.
Как выбрать minPts в 2D?: Часто берут minPts ≈ 2·dim для низкой размерности (в плоскости 4 как старт), затем подстраивают под допустимый уровень шума: больше minPts — жёстче требование к ядрам и больше точек уходит в шум.
Это точь-в-точь как sklearn DBSCAN?: Логика ядро / граница / шум и расширение по ε-окрестностям совпадает по сути, но без kd-деревьев и тонких политик библиотек. Цель — наглядная корректность для урока, не побитовая идентичность промышленному коду.

Другие симуляторы в этой категории — или все 84.

Вся категория →

НовоеШкольные

PCA в 2D: главные компоненты и проекция на 1D

Облако точек с кликов: **ковариация 2×2**, собственные векторы как **PC1/PC2** от среднего, опционально перпендикуляры к прямой **PC1**, внизу полоска **координат на PC1** (стандартная ранговая проекция).

Запустить симулятор

НовоеШкольные

Дерево решений (2D игрушка)

Жадные **осевые** разбиения на плоскости с двумя классами: **Джини** или **энтропия**, глубина и минимум точек в листе; прямоугольники решений и пунктирные линии рекурсивных срезов.

Запустить симулятор

НовоеШкольные

Двухслойная сеть и обратное распространение (XOR / спираль)

Точки с метками на плоскости; **tanh** в скрытом слое и **логистика** на выходе; полный **батч**-градиент по **BCE**; теплокарта **P(класс 1)** и движение границы **~0.5** по эпохам.

Запустить симулятор

НовоеУниверситет / научные