학술논문

Bayesian Inference for Multivariate Poisson-Log Skew Elliptical Distributions / 다변량 포아송-로그 왜도 타원형 분포들에 대한 베이지안 추론
Document Type
Dissertation/ Thesis
Source
Subject
Language
English
Abstract
포아송 분포는 가산 자료(count data)를 모델링하기 위해 이용될 수 있지만, 과대산포(over-dispersion) 문제를 일으킬 수 있다. 이러한 추가 변동성은 포아송 분포의 평균 모수를 확률 변수로 모델링함으로써 허용될 수 있다. 그러나 다봉성(multimodality) 및 비대칭성(skewness)이 존재할 때, 평균 모수에 대해 정규성을 가정하는 것은 분포를 과도하게 단순화시킬 수 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 다변량 포아송-로그 왜도 타원형(multivariate Poisson-log skew elliptical) 분포들을 개발하였으며, 여기에는 다변량 포아송-로그 왜도 정규 분포와 다변량 포아송-로그 왜도 t 분포가 포함된다. 이 분포에서, d-차원 형상 모수는 포아송 분포의 평균 모수와 관련된 왜도를 제어하고, 자유도 모수는 꼬리의 두께를 제어한다. 여기서 주변 분포는 닫힌 형태로 유도되지 않기 때문에, 우리는 잠재 변수들 및 모수들을 공동으로 추정하는 방법을 이용한다. 우리의 접근법은 효율적인 추정량들과 알고리즘들을 제공하며, 이를 통해 모수들에 대한 실용적인 해석을 돕는다. 다변량 포아송-로그 왜도 타원형 분포들을 사용한 다변량 가산 자료 모델링에는 EM 유형 알고리즘들(EM-type algorithms)과 같은 비베이지안 방법들이 사용될 수 있지만, 여기에는 계산적인 어려움이 여전히 남아 있다. 베이지안 접근은 매력적인 특성들을 지니고 있으며, 잠재 변수와 같은 문제들을 극복할 수 있다. 본 논문에서는 ECM과 PX-EM같은 EM 유형 알고리즘들 뿐만 아니라, 경험적 베이즈(empirical Bayes)와 계층적 베이즈(hierarchical Bayes), 비모수적 베이즈(nonparametric Bayes) 기법들을 이용한 세 가지 베이지안 모형들도 제시하고 활용한다. 이 모형들은 직관적이고 의미 있는 결과를 제공하며, 다양한 모수화와 분포 형태, 사전 정보를 고려하여 확장될 수 있다. 다변량 포아송-로그 왜도 타원형 분포의 효과성과 적용성은 교통사고 및 LED 패키징 공정과 관련된 두 가지 데이터셋의 분석을 통해 입증된다. 우리의 분석 결과는 정규성 가정이 제한적이고 검증하기 어려운 특성이 있으며, 자료를 더 유연하게 모델링하기 위해 다변량 포아송-로그 왜도 타원형 분포들이 사용될 수 있음을 보여준다.
The Poisson distribution can be used to model count data, but it cannot represent over-dispersion. Such additional variability can be captured by modeling the mean parameter of the Poisson distribution as a random variable. However, assuming normality for the mean parameter may oversimplify the distribution, especially in the presence of multimodality and skewness. To resolve this, we developed multivariate Poisson-log skew elliptical (MPLSE) distributions, including multivariate Poisson-log skew normal and multivariate Poisson-log skew t distributions. In these distributions, the d-dimensional shape parameter controls skewness, and the degrees of freedom parameter controls the heaviness of tails, both related to the mean parameter of the Poisson distribution. Since the marginal distribution is not derived in a closed form, we jointly estimate latent variables and model parameters. Our approach provides efficient estimators, algorithms, and practical interpretation of model parameters. While non-Bayesian methods like EM-type algorithms can be used for modeling multivariate count data with these distributions, computational challenges persist. The Bayesian approach, with its attractive features over frequentist statistics, can overcome issues such as latent variables. This paper presents and employs not only EM-type algorithms like ECM and PX-EM but also three Bayesian models─empirical, hierarchical, and non parametric─providing intuitive and meaningful results. These models can be extended to include different parameterizations, distributional forms, and prior information. The effectiveness and practical application of MPLSE distributions are demonstrated through the analysis of two distinct datasets: one related to traffic accidents and another associated with the LED packaging process. Our analysis results indicate that the assumption of normality is too restrictive and difficult to verify, and MPLSE distributions can be utilized to model the data more flexibly.