hierarchical clustering
در نشریات گروه علوم پایه-
ظرفیت مالیاتی، قابلیت های اقتصادی، سیاستی، نهادی و فنی برای جمع آوری درآمد مالیاتی -است و تلاش مالیاتی نسبت درآمدهای مالیاتی جمع آوری شده نسبت به ظرفیت موجود مالیاتی می باشد که برای دستیابی به اهداف توسعه پایدار ضروری است. در این مطالعه ظرفیت اقتصادی مالیاتی و تلاش مالیاتی برای 149 کشور محاسبه شده و کشورها بر اساس میزان تلاش مالیاتی رتبه بندی شده اند. در این مطالعه بین تلاش مالیاتی و درآمدهای مالیاتی تمایز قایل شده ایم و نیز با توجه به این موضوع که کشورهای مورد مطالعه شامل کشورهای توسعه یافته و در حال توسعه بوده و بنابراین از نظر اقتصادی و شاخص های مورد استفاده دارای شرایط بسیار متفاوت می باشند، لذا به منظور اینکه مقایسه کشورها در شرایط تقریبا مشابه صورت بگیرد و هر کشور بتواند ازظرفیت مالیاتی و تلاش مالیاتی موفق کشورهای مشابه خود به عنوان الگو بهره ببرد، قبل از تخمین تلاش مالیاتی و رتبه بندی، کشورها با استفاده از روش خوشه بندی سلسله مراتبی به هفت خوشه تقسیم شده اند و تلاش مالیاتی کشورها در خوشه هایی که به آن تعلق دارند محاسبه شده است و از نتایج حاصل این است که برخی از کشورها علیرغم سطح توسعه یافتگی پایین و ظرفیت اقتصادی پایین دارای تلاش مالیاتی مناسبی بوده اند. بدین منظور روند مورد استفاده در این مطالعه به چهار گام تقسیم شده است: در گام اول نوع مطلوب یا نامطلوب بودن شاخص ها مشخص شده، در گام دوم شاخص های نامطلوب تبدیل به شاخص های مطلوب شده، در گام سوم تلاش مالیاتی کشورها محاسبه شده و در گام چهارم کشورها بر مبنای تلاش مالیاتی رتبه بندی می شوند.
کلید واژگان: ظرفیت اقتصادی مالیاتی، تلاش مالیاتی، تحلیل پوششی داده ها، خوشه بندی سلسله مراتبی، ورودی های نامطلوبThise study examines the tax capacity and tax effort of 149 countries, utilizing data envelopment analysis (DEA) combined with hierarchical clustering for differentiation.Tax capacity refers to the maximum potential tax revenue a country can achieve. While tax effort indicates the actual tax revenue collected relative to this potential. By categorizing countries into clusters, we uncover diverse levels of development and highlight strategies for improvement. Our methodology follows a four-step process involving correlation analysis, transformation of undesirable indicators, efficiency calculation, and rankings through the Anderson-Petersen method. Results reveal that economic indicators like GDP per capita influence tax capacities differently across nations. Some countries like Nepal and Mozambique outperform expectations in tax effort despite lower economic indicators, while others need significant policy reforms to optimize tax collection.
Keywords: Tax Economic Capacity, Tax Effort, Data Envelopment Analysis, Hierarchical Clustering, Undesirable Inputs -
Given the widespread increase in classical and emerging models for asset allocation in investment portfolios available in the capital market, investors find it challenging to easily compare classical methods and machine learning techniques to identify the optimal investment combination. The aim of this research is to compare asset allocation based on the Nested Clustering Algorithm (NCO) with classical portfolios. This study has been conducted in a practical and descriptive-analytical manner, with the statistical population consisting of all companies listed on the Tehran Stock Exchange and the Iran Farabourse from 2013 to 2022. After screening, adjusted daily data from 88 companies were selected as the final sample for statistical analysis. In this context, the Kruskal-Wallis test was used to examine the hypotheses, and Python, SPSS, and Excel software were utilized. Based on the overall performance evaluation criteria for portfolios (Sharpe ratio, Sortino ratio, maximum drawdown, value at risk, and expected shortfall), the results of the hypothesis tests in this research indicate that the methods based on the Nested Clustering Optimization Algorithm outperform their classical counterparts significantly. Therefore, it can be concluded that portfolios based on machine learning algorithms perform better than classical portfolios.Keywords: Asset Allocation, Hierarchical Clustering, Risk Management, Machine Learning
-
Pollution, Volume:8 Issue: 3, Summer 2022, PP 729 -739New Delhi Metallo-β-lactamase-1(NDM-1) is an enzyme that hydrolyzes a wide range of β-lactams antibiotics, including carbapenems. The presence of the NDM-1 inhibits the potential of β–lactam antibiotics in treating infections caused by bacterial strains carrying such resistances, thus leaving minimal treatment options available. Due to this, the rapid distribution of NDM-1 harboring bacteria accounts for a significant public health menace worldwide. These bacteria have been detected in clinical specimens and environmental compartments where bacterial infections are ubiquitous. In this study, identification and absolute quantification of NDM-1 in sixteen lake sediment samples collected in and around Hyderabad, India, was carried out using a real-time quantitative polymerase chain reaction (qPCR), and the results were expressed in gene copy number/ng (nanogram) of template DNA. Thirteen samples (out of sixteen) displayed a positive signal for NDM-1 during the qPCR analysis with the highest gene copy number/ng of template DNA (71.8) being observed in the Amberpet STP. Three samples, samples from Durgamcheru lake, Kandi lake, and Singur dam, were negative for the NDM-1 during the qPCR analysis. Hierarchical clustering analysis was performed to categorize the sampling location into different clusters based on pollution sources and the observed results were expressed in the form of a dendrogram.Keywords: Antibiotics resistance gene (ARG), NDM-1, Sediment, qPCR, hierarchical clustering
-
Journal of Statistical Modelling: Theory and Applications, Volume:2 Issue: 2, Summer and Autumn 2021, PP 143 -158
The performance of justice systems is measured by empirical indicators in both developing and developed countries. The findings of existing indicator initiatives have historically been based on surveys of experts, document reviews, administrative data, or public surveys. In this paper, Principal Component Analysis (PCA) and Cluster Analysis (CA) methods were combined to resolve the problem of evaluating multiple indicators. Using PCA, this method standardizes, reduces dimensions, and decorrelates multiple indicators of evaluation of justice systems and abstracts the principal components. Then, CA is used to assign individuals (observations) to homogeneous clusters (classes). Typically, hierarchical clustering on principal components (HCPC) is employed to classify civil branches of a trial court in Iran to create a comprehensive evaluation. By applying the multivariate statistical method to data, three principal components are identified and interpreted. A hierarchical clustering algorithm is then applied, which divides the data into three clusters based on dissimilarity. These groups of the civil branches were identified based on nine judicial performance indicators. It allows policymakers and reformers to measure the performance of each branch individually, and track their progress in reducing backlogs and delays separately. As shown by the practical example, these methods are effective across justice units
Keywords: Court performance indicators, Hierarchical clustering, K-means, Principal components -
Graphs have so many applications in real world problems. When we deal with huge volume of data, analyzing data is difficult or sometimes impossible. In big data problems, clustering data is a useful tool for data analysis. Singular value decomposition(SVD) is one of the best algorithms for clustering graph but we do not have any choice to select the number of clusters and the number of members in each cluster. In this paper, we use hierarchical SVD to cluster graphs with itchr('39')s adjacency matrix. In this algorithm, users can select a range for the number of members in each cluster. The results show in hierarchical SVD algorithm, clustering measurement parameters are more desirable and clusters are as dense as possible. The complexity of this algorithm is less than the complexity of SVD clustering method.
Keywords: Graph Clustering, Singular Value Decomposition, Hierarchical Clustering, Selectable Clusters Number -
The important approaches to statistical and fuzzy clustering are reviewed and compared, and their applications to an agricultural problem based on a real-world data are investigated. The methods employed in this study includes some hierarchical clustering and non-hierarchical clustering methods and Fuzzy C-Means method. As a case study, these methods are then applied to cluster 15 provinces of Iraq based on some agricultural crops. Finally, a comparative and evaluation study of different statistical and fuzzy clustering methods is performed. The obtained results showed that, based on the Silhouette criterion and Xie-Beni index, fuzzy c-means method is the best one among all reviewed methodsKeywords: Hierarchical Clustering, Non-Hierarchical Clustering, Fuzzy C-Means Clustering
-
امروزه، اکتشاف ذخایر عناصر نادر خاکی به عنوان منابع و اولویت های راهبردی مورد تاکید قرار گرفته است که از جایگاهی ویژه در صنایع پیشرفته و هوشمند برخوردار است. پژوهش های اخیر، به شناسایی توانایی های امیدبخش این عناصر در ایران منجر شده است که از جمله می توان به بی هنجاری های پلاسر مونازیت مروست یزد در محدوده خاوری و باختری اشاره کرد. در این پژوهش، از داده ها و نمونه های تجزیه شده از 53 چاهک در محدوده خاوری این بی هنجاری در جنوب شهرستان یزد به منظور مدل سازی و پتانسیل یابی عناصر نادرخاکی استفاده شد. در منطقه مروست، سنگ منشا مونازیت شیل های سیاه است که به صورت متناوب با ماسه سنگ های آهکی، آهک و کنگلومرا و به شکل گرهک های پراکنده در شیل ها دیده می شود. بررسی الگوی توزیع عناصر نادر خاکی استاندارد شده به مقادیر کندریت، بیانگر مطابقت بالا با الگوی استاندارد مونازیت است. برای بررسی توزیع و تمرکز ژئوشیمیایی در منطقه، نقشه درون یابی توزیع این عناصر ترسیم شد که بیشترین تمرکز به ترتیب مرتبط با عناصر سبک، حد واسط و سنگین بود و بی هنجاری در قسمت جنوب و جنوب باختری محدوده واقع شده است. محدوده بی هنجاری ژئوشیمیایی از طریق ضریب شدت بخشی از جمله نسبت غلظت عناصر نادر خاکی سبک به سنگین نیز به اثبات رسید. در مرحله بعد، خوشه بندی داده ها در دو سطح عناصر و نمونه ها انجام شد که نشانگر چهار گروه بندی عناصر بر اساس سبک و سنگینی (ساختار اتمی و شیمیایی) و چهار پهنه فضایی بر اساس مناطق امیدبخش تعیین شد که مناطق دارای برچسب خوشه چهارم، منطبق بر منطقه بی هنجاری است. در نهایت، از روش آماری چند متغیره تحلیل مولفه های اصلی در راستای مدل سازی بی هنجاری استفاده شد که نقشه توزیع بار فاکتوری مولفه اول، منطبق بر منطقه بی هنجاری جنوبی محدوده است.کلید واژگان: عناصر نادر خاکی، خوشه بندی سلسله مراتبی، پهنه بندی، تحلیل مولفه اصلی، مونازیت، پلاسر مروست، یزدIntroductionNowadays, exploration of rare earth element (REE) resources is considered as one of the strategic priorities, which has a special position in the advanced and intelligent industries (Castor and Hedrick, 2006). Significant resources of REEs are found in a wide range of geological settings, including primary deposits associated with igneous and hydrothermal processes (e.g. carbonatite, (per) alkaline-igneous rocks, iron-oxide breccia complexes, scarns, fluorapatite veins and pegmatites), and secondary deposits concentrated by sedimentary processes and weathering (e.g. heavy-mineral sand deposits, fluviatile sandstones, unconformity-related uranium deposits, and lignites) (Jaireth et al., 2014). Recent studies on various parts of Iran led to the identification of promising potential of these elements, including Central Iran, alkaline rocks in the Eslami Peninsula, iron and apatite in the Hormuz Island, Kahnouj titanium deposit, granitoid bodies in Yazd, Azerbaijan, and Mashhad and associated dikes, and finally placers related to the Shemshak formation in Marvast, Kharanagh, and Ardekan indicate high concentration of REE in magmatogenic ironapatite deposits in Central Iran and placers in Marvast area in Yazd (Ghorbani, 2013).
Materials and methodsIn the present study, the geochemical behavior of rare earth elements is modeled by using multivariate statistical methods in the eastern part of the Marvast placer. Marvast is located 185 km south of the city of Yazd in central Iran between Yazd and Mehriz. This area lies within the southeastern part of the Sanandaj-Sirjan Zone (Alipour-Asll et al., 2012). The samples of 53 wells were analyzed for Whole-rock trace-element concentrations (including REE) by inductively coupled plasma-mass spectrometry (ICP-MS) (GSI, 2004).
The clustering techniques such as multivariate statistical analysis technique can be employed to find appropriate groups in data sets. One of the main objectives of data clustering is to maximize both the similarity within each cluster and the difference between clusters, and finally find the structure in the data. Nowadays, cluster analysis is applied in many disciplines: biology, botany, medicine, psychology, geography, marketing, image processing, psychiatry, archaeology, etc. (Everitt et al., 2011). To execute a partitioning algorithm, the principal components analysis (PCA) algorithm is applied for feature selection, feature extraction and dimension reduction. Hierarchical clustering can be utilized to provide a nested sequence of partitions with bottom-up or top-down methods based on similarity. The single linkage and complete linkage are the most popular hierarchical algorithms (Jain et al., 1999; Ji et al., 2007).
Results and discussionThe REE chondrite-normalized pattern for the eastern area in the Marvast placer represents a high match to the standard pattern of monazite. This pattern shows the positive anomaly of Ce and the negative anomaly of Eu. To determine the distribution of REEs concentration, 2D interpolation maps were plotted in three groups of light, middle, and heavy REEs (LREE, MREE, and HREE), which were indicated in the geochemical anomaly at the south and south-west of the area. The relative ratios of (LREE/HREE) and (Ce/Eu) exposed the high proportion of LREEs to HREEs. In the next section, the hierarchical clustering algorithm was employed to partition the data in the feature and sample levels. The elements portioning demonstrated four separated groups, which can be related to atomic and chemical structures. The studied region was divided into four zones by the clustering approach. The fourth zone confine coincided with the REE anomaly area. Finally, PCA was applied as the multivariate statistical tool to this dataset. Hence three principal components modeled over 90% of the variance. For the first component, the distribution map of load factor has a good agreement with anomaly area.Keywords: Rare earth elements, Hierarchical clustering, Zonation, Principal component analysis, Monazite, Marvast placer, Yaz -
تفکیک گونه های سنگی با روش های مختلف یکی از مفیدترین مطالعات به منظور تحلیل کیفیت مخزنی و گاهی زون بندی یک مخزن است. به دلیل ارتباط موثر بین ویژگی های زمین شناسی و پتروفیزیکی در هر واحد جریانی هیدرولیکی (Hydraulic Flow unit) شناخت چگونگی توزیع واحدهای جریانی در یک مخزن می تواند در تفکیک مخزن به واحدهای متنوع با شرایط مخزنی متفاوت مفید باشد. در این مطالعه با استفاده از روش نشانگر زون جریانی (Flow Zone Indicator) شش واحد جریانی بر اساس داده های تخلخل و تراوایی در دو چاه A و Bمخزن بنگستان در میدان منصوری تعیین شده است. مهم ترین پارامترهای آماری داده های تخلخل و تراوایی برای هر کدام از واحدهای جریانی (HFU) نشان می دهد، HFU3، HFU1 بهترین و HFU5، HFU6 بدترین کیفیت مخزنی را دارند. به منظور ارزیابی مطالعه واحدهای جریانی، با مقایسه روش های خوشه بندی سلسله مراتبی (Hierarchical Clustering) و روش k-means با استفاده از روش اعتبارسنجی silhouette روش خوشه بندی سلسله مراتبی به عنوان روش بهینه انتخاب شد و داده های تخلخل و تراوایی هر دو چاه در شش خوشه (Rock Type) قرار گرفتند. مقایسه گونه های سنگی تعیین شده به روش خوشه بندی سلسله مراتبی با واحدهای جریانی و نیز رخساره های میکروسکوپی مخزن نتایج قابل قبول هر دو روش را برای تعیین گونه های سنگی نشان می دهد.
کلید واژگان: واحد جریانی هیدرولیکی (HFU)، نشانگر زون جریانی (FZI)، خوشه بندی سلسله مراتبی، گونه سنگی، مخزن بنگستان، روش اعتبار سنجی SilhouetteRock typing by different techniques is useful to interpret the zoning of reservoir. As the hydraulic flow unit has an effective connectionbetween the geological and petrophysical conditions, recognition of distribution quality of flow units in a reservoir can be useful for separation of reservoir into different units with different reservoir conditions. In this study, by using of flow zone indicator (FZI), six flow units has been determined based on the porosity and permeability data in both wells A and B of the Bangestan reservoir in the MansouriOil Field. The main statistical parameters of Porosity and permeability data for each of flow units (HFU) shows HFU3andHFU1 have the highest and HFU5 and HFU6 have the lowest reservoir quality in the oil field. In order to cluster validity, silhouette approach was used to hierarchical and K-means clustering methods and finally hierarchical clustering was selected as the best method and the porosity and permeability data for both wells were included in the six clusters (RT). Comparison between Hierarchical clustering method with the flow units and microfacies indicated acceptable results for both methods.Keywords: Hydraulic Flow Units (HFU), Flow Zone Indicator (FZI), Hierarchical Clustering, Rock Type, BangestanReservoir, Silhouette Method -
نشریه بررسی های آمار رسمی ایران، سال بیست و چهارم شماره 2 (پیاپی 83، پاییز و زمستان 1392)، صص 227 -240
خوشه بندی سلسله مراتبی و خوشه بندی -Kمیانگین، با توجه به توانایی هایی که در برطرف کردن نیازها و مشکلات پژوهشی در علوم مختلف دارند، کاربرد وسیع و گسترده ای در بین پژوهشگران پیدا کرده اند. کاربردهای وسیع خوشه بندی در زمینه های مختلف بهداشت و درمان، فنی و مهندسی، علوم اجتماعی و انسانی سبب رشد علم در این زمینه ها شده است. نرم افزارهای R، SAS و MATLAB به دلیل قابلیت های برنامه نویسی ای که دارند، از پر کاربردترین نرم افزارها در تجزیه و تحلیل خوشه بندی هستند. ولی با این وجود هر کدام از این نرم افزارها قابلیت و محدودیت های خاصی برای خوشه بندی دارند. به همین دلیل آشنایی پژوهشگران با نحوه ی خوشه بندی در هر یک از این نرم افزارها این امکان را به آن ها می دهد تا با توجه به نوع داده هایی که در اختیار دارند و نیازهایشان از نرم افزاری که راحت تر و سریع تر نیازهای آن ها را برطرف می کند، برای اجرای خوشه بندی سلسله مراتبی و K-میانگین استفاده کنند.
کلید واژگان: خوشه بندی سلسله مراتبی، خوشه بندی K، میانگین، نرم افزارهای R، SAS و MATLABHierarchical and K-mean clustering, according to their ability to meet the needs and problems of research in several scientific disciplines, are widely used among researchers. Extensive use of clustering in different contexts of health, engineering, social sciences and humanities, lead to growth of knowledge in these sciences. R, SAS and MATLAB software are the most widely used software in the analysis of clustering because of their ability in programming. However, each of this software has particular ability and limitations to clustering. So the familiarity of researcher with clustering method in each of this software allows them to use software which meets their needs for performing hierarchical clustering and K-means.
Keywords: Hierarchical clustering, K, mean clustering, R, SAS, MATLAB software
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.