clustering
در نشریات گروه آمار-
The performance of judiciary branches is evaluated based on specific indicators determined by the Statistics and Information Technology Center of Judiciary. These indicators, which are usually documents recorded in court cases, have a specific administrative or judicial score for the branch, and by calculating the total scores, the performance of the branches is evaluated. However, with the expansion of these indicators, ranking and evaluating branch performance has become more complex. In this article, clustering is used as one of the most important data mining tools to evaluate branch performance. By identifying similar branches, examining branches, and facing upcoming challenges more effectively, more effective decisions can be made in the judiciary system. Here, to organize 19 law branches based on 49 different administrative and judicial indicators, the K-means clustering algorithm is applied based on two criteria of Euclidean dissimilarity distance and random forests. In addition, the Dunn index is used to evaluate clustering. The value of this index is calculated as 0.82 by applying the dissimilarity of random forests, indicating the successful performance of the algorithm used in determining similar branches.Keywords: Administrative Score, Branch Performance Evaluation, Clustering, Judicial Score
-
تحلیل سری های زمانی - مکانی در علوم مختلف حائز اهمیت اما در عین حال چالش برانگیز است. دقت تحلیل های سری های زمانی - مکانی به نحوه تبیین صحیح ارتباط در بعد زمان و مکان آنها بستگی دارد. در این مقاله، مولفه های اصلی دینامیکی یکطرفه جهت مدل سازی ساختار مشترک سری های زمانی - مکانی معرفی و مورد استفاده قرار می گیرد. این مولفه های اصلی با مجموعه داده هایی که شامل تعداد زیادی از سری های زمانی - مکانی است، قابل استفاده است. مولفه های اصلی دینامیکی علاوه بر ارتباط مکانی، تشخیص روند و روند فصلی، انعکاس دهنده سایر عوامل مشترک زمانی و مکانی در مجموعه ای از سری های زمانی - مکانی هستند. جهت بررسی کارایی مولفه های اصلی دینامیکی یکطرفه، از آنها برای خوشه بندی و پیش بینی در سری های زمانی - مکانی استفاده می شود.بر اساس سری های زمانی - مکانی بارندگی در ایستگاه های مختلف استان گلستان، کارایی مولفه های اصلی در خوشه بندی ایستگاه های هیدرومتری، مورد بررسی قرار می گیرد. همچنین پیش بینی بر اساس مولفه های اصلی دینامیکی یکطرفه برای مقادیر شاخص بارش استاندارد که یک شاخص مهم در بیان خشکسالی می باشد، انجام می گیرد.
کلید واژگان: مولفه های اصلی دینامیکی یکطرفه، همبستگی متقابل تعمیم یافته، سری زمانی-مکانی، خوشه بندی، شاخص بارش استانداردThe analysis of spatio-temporal series is crucial but a challenge in different sciences. Accurate analyses of spatio-temporal series depend on how to measure their spatial and temporal relation simultaneously. In this article, one-sided dynamic principal components (ODPC) for spatio-temporal series are introduced and used to model the common structure of their relation. These principal components can be used in the data set, including many spatio-temporal series. In addition to spatial relations, trends, and seasonal trends, the dynamic principal components reflect other common temporal and spatial factors in spatio-temporal series. In order to evaluate the capability of one-sided dynamic principal components, they are used for clustering and forecasting in spatio-temporal series. Based on the precipitation time series in different stations of Golestan province, the efficiency of the principal components in the clustering of hydrometric stations is investigated. Moreover, forecasting for the SPI index, an essential indicator for detecting drought, is conducted based on the one-sided principal components.
Keywords: One-Sided Dynamic Principal Components, Generalized Cross Correlation, Space-Time Series, Clustering, Standardized Precipitation Index -
مدل های آمیخته گرافی، ابزاری قدرتمند برای نمایش دیداری روابط استقلال شرطی بین داده های ناهمگن بالابعد فراهم کرده است. در مطالعه این مدل ها، اغلب توزیع مولفه های آمیخته، نرمال چندمتغیره با ماتریس های کواریانس متفاوت در نظر گرفته شده که مدل حاصل، به مدل آمیخته گرافی گاوسی معروف است. با جای گزین کردن فرض محدودکننده نرمال با یک مفصل نیمه پارامتری نرمال، مدل آمیخته گرافی نرمال ناپارامتری معرفی شده که هم مدل گرافی نرمال ناپارامتری و هم مدل های آمیخته را تعمیم داده است. در این مطالعه، خوشه بندی مبتنی بر مدل آمیخته گرافی نرمال ناپارامتری با دو فرم تابع تاوان $ell_1$ (متعارف و نامتعارف) پیشنهاد شده است و عملکرد آن با روش خوشه بندی مبتنی بر مدل آمیخته گرافی گاوسی مقایسه شده است. نتایج مطالعه شبیه سازی روی داده های نرمال و غیرنرمال، در حضور و عدم حضور داده های دورافتاده و همچنین نتایج کاربردی روی داده های سرطان سینه نشان داد که ترکیب مدل آمیخته گرافی نرمال ناپارامتری با تابع تاوان وابسته به نسبت های آمیخته، از نظر بازسازی خوشه ها و برآورد پارامترهای مدل، نسبت به سایر روش های خوشه بندی مبتنی بر مدل از دقت بالاتری برخوردار است.
کلید واژگان: توزیع نرمال ناپارامتری، خوشه بندی، لگاریتم درستنمایی تاوانیده، مدل های آمیخته گرافیGraphical mixture models provide a powerful tool to visually depict the conditional independence relationships between high-dimensional heterogeneous data. In the study of these models, the distribution of the mixture components is mostly considered multivariate normal with different covariance matrices. The resulting model is known as the Gaussian graphical mixture model. The nonparanormal graphical mixture model has been introduced by replacing the limiting normal assumption with a semiparametric Gaussian copula, which extends the nonparanormal graphical model and mixture models. This study proposes clustering based on the nonparanormal graphical mixture model with two forms of $ell_1$ penalty function (conventional and unconventional), and its performance is compared with the clustering method based on the Gaussian graphical mixture model. The results of the simulation study on normal and nonparanormal datasets in ideal and noisy settings, as well as the application to breast cancer data set, showed that the combination of the nonparanormal graphical mixture model and the penalty term depending on the mixing proportions, both in terms of cluster reconstruction and parameters estimation, is more accurate than the other model-based clustering methods.
Keywords: Clustering, Graphical Mixture Models, Nonparanormal Distribution, Penalized Log-Likelihood -
The two main goals in model selection are firstly introducing an approach to test homogeneity of several rival models and secondly selecting a set of reasonable models or estimating the best rival model to the true one. In this paper we extend Vuong's method for several models to cluster them. Based on the working paper of Katayama $(2008)$, we propose an approach to test whether rival models have expected relations. The multivariate extension of Vuong's test gives the opportunity to examine some hypotheses about the rival models and their relations with respect to the unknown true model. On the other hand, the standard method of model selection provides an implementation of Occam's razor, in which parsimony or simplicity is balanced against goodness of fit. Therefore, we are interested in clustering the rival models based on their divergence from the true model to select a suitable set of rival models. In this paper we have introduced two approaches to select suitable sets of rival models based on the multivariate extension of Vuong's test and quasi clustering approach.
Keywords: Akaike Information Criterion, Clustering, Kullback-Leibler Divergence, Mis-specified Models, Non-nested Models -
امروزه داده ها در حجم وسیعی تولید می شوند و از چندین منبع مختلف در خدمات شهری ممکن است متناسب با سرعت و دقت در ارایه خدمات اضطراری بسیاری از مشکلات ایجاد شود. از این رو، دسترسی به منابع و بانک های اطلاعاتی مختلف، تحلیل الگوهای داده کاوی و استخراج اطلاعات برای ارزیابی و تحلیل داده ها و ارایه ی راه حل مناسب و بهبود خدمات برای شهروندان اجتناب ناپذیر است. در این مقاله از آمار Getis-ord Gi و آمار I آنسلین محلی موران برای ارزیابی خوشه ها برای افزونگی بیشتر استفاده شده است. از آمارهای مورون برای شناسایی و کشف وقایع و نشان دادن نحوه ی رفتار حوادث از نظر الگوهای توزیع مکانی استفاده شد، با ایجاد نقشه های Hotspot، الگوی توزیع زیاد و کم حوادث تصادفی در هر سال به دست آمد و با بررسی نقشه ی توزیع حوادث، مقایسه ی سالانه و ارزیابی انجام شده است. نقشه ی خوشه بندی نقاط مهم با آمار Gi نمایانگر ارتباط فضایی مثبت و منفی از وقایع است، در الگوی توزیع آن ها، خوشه هایی با ارزش زیاد به نام نقطه های داغ و خوشه های کم ارزش به نام نقطه ی سرد قرار دارند. به طور مشابه، نقشه های خوشه ای رویدادهای تصادفی هر 5 سال یکبار ارزیابی می شوند، و سپس برای هر دو سال شاخص Gi برای هر خوشه مقایسه و ارزیابی می کند. نتایج ارزیابی نشان می دهد الگوی توزیع پراکندگی مکانی در هر سال مشابه است و درصد تشابه به میانگین 93 درصد می رسد. سپس با ایجاد نقشه های خوشه ای نقطه های داغ / سرد از حوادث 5 ساله ی تصادفی با شاخص کلی موران نیز ایجاد و ارزیابی شد، بررسی نقشه های خوشه ای دو ساله از حوادث تصادفی با شاخص موران نشان داد بیش از 96 درصد از شباهت رفتاری الگوی پراکندگی توزیع در هر دو سال وجود دارد. برای ارزیابی نهایی نقشه خوشه راستر، هر سال، آمار G General و Local Moran مورد بررسی قرار گرفت، با نرخ تشابه بیش از 95 درصد در سال، که نشان می دهد الگوی توزیع رویدادها در هر 5 سال یکسان است. تعداد حوادث تصادفی طی مدت 5 ساله کاهش یافته است، مناطق حادثه ای شهر همچنان پابرجاست و با اطمینان متوسط 95 درصد می توان گفت نقطه های داغ نشانگر چگالی بالای حوادث تصادفی در آن منطقه و بیشترین تصادفات در بزرگراه ها و آزادراه های اصلی شهر و تقاطع های آن ها رخ داده است.
کلید واژگان: خوشه بندی، همبستگی مکانی، رویداد تصادفی، آمار Getis-ord Gi، آمارAnselin Morans IToday, data is produced in large volumes, and from multiple sources, so this has caused problems in service. These problems can also affect the speed and accuracy of emergency services. Therefore, access to various resources and databases, information extraction to evaluate and analyze data and provide appropriate solutions for citizens is inevitable. In this paper evaluation of clusters is used for Getis-ord Gi* statistics and Anselin Local Moranchr('39')s I statistics to identify the behavioral pattern of data. The data used in this article is a large free dataset of Spatio-temporal emergency call events from the United States. Accidental call events in five years are evaluated from this dataset. Moran statistics are used to identify and detect the events which have the pattern of spatial distribution. A high/low distribution pattern of accidental events was obtained through Hotspot maps, an annual comparison and evaluation are made by survey the distribution map of events. Clustering Hotspots Map with Gi* statistics represents the spatial correlation between positive and negative events. In these distribution patterns, clusters with high value are called Hot-spots, and low-value clusters are called Cold-spots. Similarly, clustering maps of accidental events get evaluated every five years; then the Gi indicator evaluates each cluster for every two years. A positive z-score and G-index indicate that the data have a positive spatial correlation; its results show that the distribution pattern is similar in each year with an average of 93 percent. Then, hot/cold spot clustering maps of 5-year accidental events are also created with the general Moran indicator. Moreover, a confidence level is created after calculating the p-value and z-score. In all 5-year data calculations, the Moran coefficient of accidental events is greater than the expected coefficient. Evaluation of biennial clustering maps with Moran index showed that there is more than 96percent behavioral similarity of dispersion pattern in both years. Raster clustering maps are also created to evaluate the clustering of Moran and Gi indicates. The similarity of raster clusters is more than 95percent per year. The results show that the pattern of accident distribution is the same in 5 years. Although the number of accidents has decreased during this period, the hotspots of accidents have not changed significantly in the city. Furthermore, hotspots indicate a high density of accidental events with 95percent confidence in the study area, and most accidents occur on the South Claiborne and New Orleans highways and at intersections with major streets.
Keywords: Clustering, spatial autocorrelation, accidental event, Getis-ord Gi* statistics, Anselin Morans I statistics -
در موضوع رگرسیون فازی (به سخن دقیق تر: رگرسیون در محیط فازی) دو رویکرد اصلی وجود دارد: رویکرد مبتنی بر کمترین مجموع فاصله ها (شامل دو شیوه کلی: کمترین مجموع مربعات و کمترین مجموع انحرافات) و رویکرد امکانی (رویکرد کمترین ابهام کل تحت برخی قیود). در کنار این دو رویکرد اصلی، روش هاای ابتکاری متعددی در موضوع رگرسیون فازی پیشنهاد شده ااند. برخی از این روش ها بر پایه ترکیب دو رویکرد بالا هستند. برخی از روش های ابتکاری بر اساس الگوریتم هاای محاسباتی خاص می باشند. برخی دیگر، از سیستم های استنتاج فازی استفاده می کنند.
در برخی از روش ها، مساله رگرسیون فازی به چند زیر مساله تقسیم می شود که با حل آنها مساله اصلی حل و فصل می گردد.
برخی روش ها نیز بر اساس خوشه بندی است. به کارگیری شبکه های عصبی مصنوعی، الگوریتم های تکاملی و یا شیوه های ناپارامتری از دیگر رویکردهای مورد استفاده است. در این مقاله، ضمن اشاره به تاریخچه و مبانی دو رویکرد کلاسیک به رگرسیون فازی (رویکرد کمترین مجموع فاصله ها و رویکرد امکانی)، برخی روش های ابتکاری در رگرسیون فازی، معرفی و بررسی کوتاه می شوند. نیز، ده ملاک (/ معیار) برای ارزیابی مدل های رگرسیون فازی مطرح می گردد که طبق آن ها بتوان روش ها و مدل های مختلف را ارزیابی و مقایسه نمود.کلید واژگان: کمترین مجموع خطاها، رگرسیون امکانی، روش های ابتکاری، خوشه بندی، پهناهای متغیرThere are two main approches to the fuzzy regression (more precisely: regression in fuzzy environment): the least of sum of distances (including two methods of least squared errors and least absolute errors) and the possibilistic method (the method of least whole vaguness under some restrictions). Beside, some heuristic methods have been proposed to deal with fuzzy regression. Some of them are based on a combination of two mentioned approaches. Some of them are based on computational algorithmes. A few of heuristic methods use the fuzzy inference systems. Also, there are some methods based on clustering, artificial neural networks, evolutionary algorithms, and nonparametric procedures.
In this paper, a history and basic ideas of the two main approaches to fuzzy regression are reveiwed, and some heuristic methods in this topic are investigated. Moreover, 10 criterion are proposed by which one can evaluate and compare fuzzy regression models.Keywords: least of sum of errors, possibilistic regression, heuristic methods, clustering, variable spreads -
اخیرا به کارگیری ابزارهای آمار چندمتغیره برای تحلیل داده هایی که به صورت هندسی تصادفی هستند مورد اقبال محققین علوم کاربردی قرار گرفته است. آمارشکل به عنوان شاخه جدیدی از هندسه تصادفی شامل مجموعه ای از چنین داده هایی است. با این حال، چون چنین داده هایی ماهیت غیراقلیدسی دارند نحوه تطبیق ابزارهای مرسوم چندمتغیره برای تحلیل آماری مناسب آنها تا حدودی واضح نیست. در این مقاله نحوه خوشه بندی داده های آمارشکل مطالعه شده، سپس عملکرد آن با رویکرد مرسوم آمار چندمتغیره به این موضوع در قالب تحلیل مثال کاربردی مرتبط با استخوان فمور ران مورد مقایسه قرار می گیردکلید واژگان: خوشه بندی، هندسه تصادفی، تحلیل آماری شکل، فواصل آماری، استخوان فمور رانRecently، employing multivariate statistical techniques for data، that are geometrically random، made more attention by the researchers from applied disciplines. Shape statistics، as a new branch of stochastic geometry، constitute batch of such data. However، due to non-Euclidean feature of such data، adopting usual tools from the multivariate statistics to proper statistical analysis of them is not somewhat clear. How to cluster the shape data is studied in this paper and then its performance is compared with the traditional view of multivariate statistics to this subject via applying these methods to analysis the distal femur.Keywords: Clustering, Stochastic geometry, Statistical shape analysis, Statistical distances, Distal femur
-
در این مقاله سعی شده است ضمن معرفی مختصری از مفاهیم، روش ها و الگوریتم های داده کاوی، داده کاوی در نرم افزار آماری R با استفاده از بسنه Rattle را ارائه نماییم. بسته Rattle فضای گرافیکی مناسب را برای انجام برخی از روش ها و الگوریتم ها، بدون نیاز به برنامه نویسی فراهم می کند. برخی از بخش های آن ضمن مثال شرح داده خواهد شد.
کلید واژگان: داده کاوی، خوشه بندی، درخت تصمیم، قواعد پیوند، ماشین بردار پشتیبان، R، RattleThis paper is a brief introduction to the concepts، methods and algorithms for data mining in statistical software R using a package named Rattle. Rattle provides a good graphical environment to perform some of the procedures and algorithms without the need for programming. Some parts of the package will be explained by a number of examples. Keywords: Data Mining, Clustering, Decision tree, Association Rules, Support Vector Machine, R Statistical Software, Rattle -
دادهکاوی ابزاری است که ما را قادر به بررسی حجم گسترده ای از داده ها، یافتن ارتباط آن ها، تحلیل روابط، پیش بینی نتایج و ایجاد مدل های کاربردی می سازد. از آنجا که گسترش اینترنت در زندگی امروزی به ابزاری برای رشد و توسعه ی کشورها تبدیل شده و میزان نفوذ آن در حوزه های مختلف شاخصی برای رشد و توسعه ی کشورها در نظر گرفته می شود، لذا می توان از فن های داده کاوی در تحلیل نفوذ اینترنت در زندگی اجتماعی استفاده نمود. سند چشم اندازه بیست ساله، توسعه ی ارتباطات و زیرساخت های ارتباطی و فن آوری اطلاعات متناسب با پیشرفت های جهانی را هدف قرار داده است. از این رو دولت موظف به گسترش ارایه ی خدمات الکترونیکی است. این مقاله به مطالعه ی الگوهای رفتاری کاربران و ویژگی های آن ها پرداخته است و به علت این که روابط و پارامترهای بدست آمده بر حسب شرایط اجتماعی هر جامعه متفاوت خواهند بود، ضرورت انجام این مطالعه حائز اهمیت است. سپس داده های طرح آمارگیری از کاربران اینترنت در سطح استان تهران برای سال 1389 مورد بررسی قرار گرفته و با کمک فن های داده کاوی، کاربران خوشه بندی شده، و با استفاده از قواعد انجمنی روابطی میان ویژگی های مختلف کاربران بدست آمد که نتایج آن می تواند برای برنامه ریزی در خصوص گسترش استفاده از اینترنت در حوزه های مختلف مورد استفاده قرار گیرد.
کلید واژگان: داده کاوی، اینترنت، کاربر اینترنت، خوشه بندی، قواعد انجمنیData mining is a practical tool that enables us to investigate the large data set, summarize their relations or correlation, analyze these relations, forecast the results, and create the practical models. In recent years, data mining techniques and algorithms help researchers of different sciences to reach their goals. Since the access to the internet and its penetration in different areas becomes as a criterion for evaluating the development of countries, data mining techniques can be used for studying the expansion of internet in today's life. The aim Iran’s 20-year vision plan is developing communication, information and infrastructure of telecommunication according to world improvement. According to the importance of this subject the survey of internet user was implemented. In this paper, characteristics of internet users were studied. These characteristics can be different with regard to social conditions. Next, the data of internet user survey in Tehran province have been used and some features were considered. Clustering algorithms and association rules were applied to study the features of internet users in Tehran. The results can help experts in expanding the use of internet in different areas.
Keywords: Data mining, internet, internet user, clustering, association rule -
کاربست مدل های آمیخته برای خوشه بندی و رده بندی به زیرشاخه ای مهم از تحلیل چندمتغیره تکوین یافته است. این رویکردها حدود نیم سده حضور داشته اند، اما فعالیت معنی دار در این زمینه طی دهه ی گذشته بوده است. تاکید اولیه این مقاله مروری بر کارهای انجام شده در خوشه بندی، رده بندی و تحلیل تشخیصی، با توجه خاص معطوف به دو فن است که می توانند با استفاده از بسته های R مربوط به اجرا درآیند. برآورد پارامتر و مدل گزینی نیز مورد بحث قرار می گیرند. مقاله با خلاصه، بحث و برخی تأملات درباره کارهای آینده پایان می یابد.
The use of mixture models for clustering and classification has burgeoned into an important subfield of multivariate analysis. These approaches have been around for a half-century or so, with significant activity in the area over the past decade. The primary focus of this paper is to review work in model-based clustering, classification, and discriminant analysis, with particular attention being paid to two techniques that can be implemented using respective R packages. Parameter estimation and model selection are also discussed. The paper concludes with a summary, discussion, and some thoughts on future work.Keywords: Classification, clustering, discriminant analysis, mclust, mixture models, model, based clustering, model selection, parameter estimation, pgmm
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.