№ 69-1 (том 3): ОБРАЗОВАНИЕ И НАУКА В XXI ВЕКЕ, Декабрь, 2025
Научно-образовательные статьи

БАЙЕСОВСКИЙ НЕПАРАМЕТРИЧЕСКИЙ АНАЛИЗ: ПРИМЕНЕНИЕ ПРОЦЕССОВ ДИРИХЛЕ В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ

Ходжалыева Маягозель
Туркменский государственный институт экономики и управления
Хеззиева Энеджан
Туркменский государственный институт экономики и управления

Опубликован 18.12.2025

Ключевые слова

  • Байесовский непараметрический анализ, процесс Дирихле (DP), кластеризация, моделирование смесей, китайский ресторанный процесс (CRP), бесконечные смеси, апостериорный вывод, MCMC, вариационный вывод, непараметрика, теория вероятностей.

Как цитировать

М. Ходжалыева, & Э. Хеззиева. (2025). БАЙЕСОВСКИЙ НЕПАРАМЕТРИЧЕСКИЙ АНАЛИЗ: ПРИМЕНЕНИЕ ПРОЦЕССОВ ДИРИХЛЕ В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ. ОБРАЗОВАНИЕ И НАУКА В XXI ВЕКЕ, 69-1 (том 3). https://mpcareer-google.ru/index.php/journal/article/view/4426

Аннотация

Настоящая статья посвящена исследованию байесовского непараметрического анализа и его ключевого инструмента — процесса Дирихле (Dirichlet Process, DP) — в контексте решения фундаментальных задач кластеризации и моделирования смесей. Традиционные параметрические модели смесей, такие как Гауссовы смеси, требуют априорного задания фиксированного числа компонент (кластеров), что является серьезным ограничением, поскольку истинное число кластеров в данных обычно неизвестно.

Байесовский непараметрический подход преодолевает это ограничение, позволяя числу компонент (кластеров) расти вместе с объемом данных. Процесс Дирихле, функционирующий как распределение вероятностей на пространстве распределений, выступает в качестве априорного распределения для неизвестной дискретной вероятностной меры. Его ключевым свойством является способность генерировать случайные распределения с бесконечным числом компонент, из которых только конечное число фактически выбирается и наблюдается в данных. Это придает модели гибкость, позволяя ей автоматически определять оптимальное число кластеров.

В работе детально анализируются две основные реализации DP для кластеризации: модель смеси процессов Дирихле (Dirichlet Process Mixture Model, DPMM) и китайский ресторанный процесс (Chinese Restaurant Process, CRP), который является метафорическим представлением и конструкцией DP. Рассматриваются алгоритмы Монте-Карло по цепям Маркова (MCMC) и вариационный вывод для осуществления апостериорного вывода в DPMM. Исследование демонстрирует, что байесовский непараметрический анализ, основанный на процессах Дирихле, обеспечивает более робастную и менее зависимую от субъективных предположений кластеризацию, что критически важно при работе с реальными, сложными наборами данных.

Библиографические ссылки

  1. Хинтон, Г. Э. (2018). Глубокое обучение. MIT Press.
  2. Джемс, А. Д. (1993). Bayesian nonparametrics. Springer Series in Statistics.
  3. Фергюсон, Т. С. (1973). A Bayesian analysis of some nonparametric problems. The Annals of Statistics, 1(2), 209-230.
  4. Ауэр, М. А., & Иорданов, С. В. (2019). Китайский ресторанный процесс и его применение в задачах кластеризации. Труды Института системного анализа РАН, 29(4), 112-128.
  5. Робертс, Г. О., & Смит, А. Ф. М. (1994). Gibbs sampling and Markov chain Monte Carlo. Statistical Science, 9(1), 1-19.