KOR

e-Article

Evaluation of Gini coefficient in spatial scan statistic for detecting irregular-shaped clusters / 비정형 군집 탐색을 위한 공간검색통계량의 지니계수 평가
Document Type
Dissertation/ Thesis
Author
Source
Subject
Spatial scan statistics; cluster detection; irregular shape; maximum scanning window size; Gini coefficient / 공간검색통계량
군집 탐색
비정형 모양
최대 후보 군집 크기
지니계수
Language
English
Abstract
Spatial scan statistics proposed by Kulldorff are widely used to detect geographical disease clusters. This scan statistic requires the users to choose a parameter as a maximum scanning window size, and the 50% of the total population is commonly used. With this value, however, it can possibly detect much larger than the true cluster by absorbing neighboring regions. Especially for irregular shaped clusters, choosing a large value for the maximum cluster size may particularly more inappropriate. Recently, Han et al. (2011) proposed applying the Gini coefficient to spatial scan statistics to decide the optimal maximum scanning window size. The Gini coefficient in spatial scan statistics can be used analogous to R-square as a parameter for scan statistic. Tango and Takahashi (2008), meanwhile, developed spatial scan statistics with a restricted likelihood ratio to deal with the over-detection of circular spatial scan statistic, and they showed it detects true cluster properly. In this paper, we evaluate the performance of Gini coefficient for scan statistics comparing with other methods in various cluster scenarios. Maximum scanning window size determined by Gini coefficient is usually less than 50% of total population, and we expect that scan statistics using Gini coefficient could detect the irregular shaped cluster well by detecting with several small clusters. A simulation study shows that spatial scan statistics using Gini coefficient have reasonable performance comparable to flexible scan statistics with restricted likelihood ratio. Circular and elliptic scan statistics with 50% of population for parameter has low performance, which demonstrates the necessity of optimizing the maximum window size. The different methods are illustrated with 2014 mortality data for liver cancer in Korea.
공간검색통계량(spatial scan statistic)은 특정 사건에 대한 분포가 다른 지역의 분포와 통계적으로 유의하게 다른 공간 군집(spatial cluster)을 탐색하는 방법으로 여러 분야에서 널리 이용되고 있다. 이 방법은 각 지역의 중심점을 기준으로 형성되는 모든 가능한 후보 군집 (scanning window)에 대해 우도비 검정통계량을 계산하게 되고, 연구자는 scanning window의 모양과 최대 군집 크기를 지정해 주어야 한다. 정확한 탐색을 위해 적절한 최대 군집 크기의 선택은 중요하나, 현재 대부분의 연구에서 전체 인구의 50%로 설정하여 분석하고 있다. 최근 Han 등(2011)이 최적의 최대 후보 군집 크기(optimal maximum scanning window size)를 결정하기 위한 방법으로 경제학에서 쓰이는 지니계수 (Gini coefficient)를 적용할 것을 제안하였다. 지니계수를 사용하면 optimal maximum scanning window size는 전체 인구의 50%보다 작은 범위에서 결정되고, 따라서 실제 군집이 비정형 모양이더라도 여러개의 작은 군집으로 탐색하게 됨으로써 실제 군집을 비교적 정확히 찾아 낼 것이라고 예상된다. 따라서 본 연구에서는 실제 군집이 비정형 모양일 경우 지니계수를 사용하여 분석한 spatial scan statistic을 평가해 보고자 한다. 평가를 위해 Tango (2008)가 제안한 제한된 우도비를 이용한 공간검색 통계량을 포함하여 기존의 공간 검색 통계량의 방법들을 함께 비교해 본다. 그 결과, 지니계수를 이용한 spatial scan statistic은 비정형 모형의 군집을 여러 개의 작은 군집들로 찾아 냄으로써 제한된 우도비를 이용한 공간검색 통계량 방법과 함께 좋은 평가를 보였다. 반면 전체 인구의 50%를 최대 군집 크기로 설정한 기존의 방법은 수행 능력이 매우 떨어짐을 알수 있었다. Maximum scanning window size는 공간검색통계량에서 실제 군집을 정확하게 찾아내기 위한 중요한 모수이며 주의 깊은 설정이 필요할 것이라 생각된다.