k-means algorithm
در نشریات گروه علوم انسانی-
امروزه پدیده پول شویی به تهدیدی جدی برای اقتصاد جهانی تبدیل شده است. روش های سنتی مقابله با پول شویی هزینه بر و ناکارآمد هستند. اخیرا تکنیک های داده کاوی گسترش پیدا کرده اند و به عنوان روش های مناسب برای کشف فعالیت های پول شویی مورد توجه قرار گرفته اند. هدف این تحقیق، استفاده از الگوریتم های داده کاوی در کشف موارد مشکوک به پول شویی با استفاده از داده های واقعی تراکنش های بانکی است که ممکن است نیاز به بررسی های بیشتر داشته باشند. تحلیل داده ها با استفاده از فرآیند CRISP-DM انجام شده است. جامعه آماری تراکنش های بانک و نمونه آماری تراکنش های مربوط به یکی از شعب بانک است. داده ها از بانک اطلاعاتی بانک مورد مطالعه جمع آوری شده است. برای انجام این کار از دو رویکرد استفاده شده است. در رویکرد اول با استفاده از الگوریتم k-میانگین ابتدا تراکنش های بانکی افراد خوشه بندی شده اند، سپس با استفاده از به کارگیری الگوریتم های کشف موارد مشکوک، تراکنش هایی که ممکن است مشکوک به پول شویی باشند مشخص گردیده اند. در رویکرد دوم، روشی نوین با به کارگیری قانون بنفورد و روش GANs برای کشف حساب هایی که در تراکنش های آن ها از ارقام ساختگی استفاده شده است و ممکن است مشکوک به پول شویی باشند معرفی شده است. رویکرد اول می تواند حساب هایی که در تراکنش های آن ها موارد پرت وجود دارد را با دقتی حدود 93٪ درصد، و رویکرد دوم می تواند حساب های مشکوکی که در پنهان نمودن ارقام ساختگی در تراکنش های آن ها، از روش های حرفه ای استفاده نشده است را با دقتی حدود 60٪ به درستی تشخیص دهد.کلید واژگان: پول شویی، داده کاوی، الگوریتم k میانگین، الگوریتم GANs، قانون بنفوردNowadays, money laundering has become a serious threat to the world economy. Traditional methods of Anti Money Laundering (AML) are costly and inefficient. Recently, data mining techniques have been developed and have been considered as appropriate methods to detect money laundering activities. The purpose of this research is to detect money laundering suspicious cases which might need more detailed scrutiny using data mining algorithms with real banking transaction datasets. CRISP-DM would be used as the research methodology, the statistical population would be the banking transactions and samples would be the transactions of one of the bank branches. For this purpose, two main approaches are used. In the first approach, using the k-means algorithm, financial transactions of banking accounts are clustered. Then, using anomaly detection techniques, abnormal transactions that might be suspicious of money laundering and need to be scrutinized in more detail have been detected. In the second approach, a novel technique using Benford’s law and GANs algorithm has been introduced. It can detect financial accounts that used concocted amounts in their transactions and might be suspicious of financial fraud and money laundering. The first approach can identify accounts with outliers in their transactions with an accuracy of about 93%, and the second approach can identify suspicious accounts that do not use professional methods to hide fake figures in their transactions with an accuracy of about 60%. to recognize correctly.Keywords: Money Laundering, Data mining, k-means algorithm, GANs algorithm, Benford’s law
-
خوشه بندی به عنوان یک فرایند جهت شناخت ماهیت و ساختار داده ها در بسیاری از حوزه های علوم و فناوری های مرتبط با آن نقش مهمی در سازماندهی داده ها دارد. یکی از الگوریتم های پرکاربرد و ساده خوشه بندی، کا-میانه است. پژوهش حاضر با هدف مرور نظام مند تحقیقات در زمینه بهبود الگوریتم کا-میانه برای خوشه بندی داده ها صورت گرفته است. این پژوهش با یک راهبرد جدید بر مبنای کاستی های الگوریتم کا-میانه به بررسی تحقیقات انجام شده در این زمینه و نقش آن در سازماندهی داده ها در محدوده سال های 2010 تا 2020 می پردازد. برای این منظور میزان توجه پژوهشگران به رفع هر یک از کاستی های این الگوریتم برای بهبود طی سال های مزبور در قالب پرسش های پژوهش تدوین شده است. در این پژوهش با استفاده از استراتژی جست وجو، پالایش، و استخراج مقاله ها در نهایت، 47 منبع مرتبط شناسایی و مورد بررسی قرار گرفت. یافته ها نشان داد که بیشترین تحقیقات صورت گرفته با غلبه بر کاستی حساس به مراکز خوشه اولیه در جهت بهبود الگوریتم کا-میانه انجام شده است. همچنین، از 47 تحقیق مورد بررسی، الگوریتم بهبودیافته کا-میانه در 35 تحقیق بر روی داده های غیرمتنی و در 12 تحقیق بر روی داده های متنی اعمال شده است. سرانجام، نتیجه حاصل از بررسی 6 تحقیق از تحقیقات صورت گرفته نشان داد که حجم داده ها رابطه ای مستقیم با عملکرد الگوریتم بهبودیافته کا-میانه دارد. به عبارت دیگر، این الگوریتم باید به نوعی اصلاح شود که با اعمال بر روی حجم متفاوت داده ها خوشه بندی کارآمد و دقیقی انجام دهد.
کلید واژگان: خوشه بندی داده، بهبود الگوریتم کا-میانه، خوشه بندی، مرور نظام مندClustering as a process to understand the nature and structure of data plays an important role in organizing data in many areas of science and technology. One of the most widely used and simple algorithms for clustering is K-means. The present study was conducted to systematically reviewing research on improving K-means algorithm on data clustering. This research examines the researches conducted in this field and its role in organizing data in the range of 2010 to 2020 with a new strategy based on the shortcomings of the K-means algorithm. For this purpose, the amount of attention of researchers to eliminate any of the shortcomings of this algorithm in order to improve it in recent years has been compiled in the form of research questions. In this study, with the use of a search strategy for refining and extracting articles, 47 related sources were identified and examined. Findings showed that most researches have been done by overcoming the sensitive shortcomings to initial cluster centers to improve the K-means algorithm. Also, out of a total of 47 studies, the improved K-means algorithm has been applied in 35 studies on non-textual data and in 12 studies on textual data. Finally, the results of a review of six studies showed that the amount of data is directly related to the performance of improved K-means algorithm. In other words, this algorithm must be modified in such a way as to perform efficient and accurate clustering by applying it to different amounts of data.
Keywords: Data Clustering, K-means Algorithm, Clustering Improvement, Systematic Review -
در صنعت بیمه شناخت و دسته بندی نظام مند مشتریان نه تنها برای بازاریابان، بلکه برای کل سازمان یک دغدغه اساسی است. هدف این پژوهش به عنوان یک تحقیق کاربردی، توصیفی و کمی، خوشه بندی مشتریان با رویکرد داده کاوی (کی میانگین) می باشد. جامعه آماری پژوهش مشتریان بیمه پاسارگاد در شهر شیراز بوده که 800 نفر به صورت تصادفی انتخاب و با رعایت اصول اخلاق پژوهشی، داده های چهار عامل مدت ارتباط، تازگی، تعداد تراکنش ها و حجم خرید نمونه آماری، از سامانه استخراج و با روش کی-میانگین به چهار خوشه کلیدی، دست و دل باز، متناوب و نامطمین تقسیم شدند. در نهایت ارزش وزنی طول عمر آنها تعیین شد. یافته ها نشان می دهد 2/24 درصد از مشتریان در گروه مشتریان کلیدی با بالاترین ارزش طول عمر قرار دارند که حفظ و نگهداری از آن ها برای شرکت بیمه بسیار ضروری به نظر می رسد. مشتریان متناوب با بیشترین سهم از کل مشتریان بیمه با 4/33 درصد، در رتبه دوم ارزش طول عمر قرار گرفتند که شرکت های بیمه برای بالابردن ارزش مالی مبادلات این گروه نیازمند برنامه ریزی است. مشتریان دست و دل باز با 8/25درصد و مشتریان نامطمین با 6/16 درصد به ترتیب در رده های بعدی گروه فراوانی مشتریان در خوشه ها قرار دارند. تعیین سهم و اهمیت خوشه های مشتریان بر اساس ارزش وزنی طول عمر مشتری از نتایج این پژوهش است که ضمن نگهداشت مشتریان دست و دل باز، توجه خاص به دو گروه مشتریان کلیدی و متناوب را به مدیران و برنامه ریزان بازاریابی صنعت بیمه توصیه می کند.کلید واژگان: بیمه، ارزش طول عمر مشتریان، مدل ال ار اف ام، الگوریتم کی-میانگین (K-Means)، داده کاویIntroductionIn the insurance industry, customers’ systematic identification and clustering is a major concern not only for marketers but for the entire organization, for this reason, Customer segmentation helps target organizations to customize their services and prioritize products based on their profitability.MethodologyThis research is an applied, descriptive and quantitative study aiming to cluster customers by using k-means clustering. The data were collected from 800 customers of Pasargad insurance company in the city of Shiraz using the random sampling technique. The data on length, recency, frequency and monetary issues were collected by considering research ethics principles. Customers were clustered into four groups including key, prodigal, intermittent and uncertain by using the K-means method. Eventually, the customers’ lifetime value was determinedResults and DiscussionClustering has been carried out in four categories, including key clients whose contribution to a sample of 800 insurance customers is 24.2%. This group of customers has high financial value characteristics and high purchase frequencies. They are ranked first in terms of lifetime value. Based on the findings, the indicator of the volume of financial exchange is an index that graduates the other indices placing a client in the position of key a customer. Prodigal customers featured with high financial characteristics, low shopping frequencies and a 25.8% share of insurance customers are in the second category and ranked second in terms of lifetime value. The third group of customers, having a share of 33.4% of the insurance customers, low purchasing value characteristics and high purchase frequency, are frequent customers who are in the third rank of life value. The last group of customers is uncertain ones who account for a significant 16.6% share of customers. They have monetary value characteristics and low purchasing frequency and are ranked last in terms of lifetime value. They are among the customers who have no significant trade volumes and the lowest value of the purchasing iteration index, regardless of the time indicators associated with these customers. This puts them in the cluster of uncertain customers with a 16.6% share in the selected statistical sample. This is because they have different and irregular financial behaviors during a certain period. So, it may not be profitable to give them services.ConclusionDetermining the share and importance of customer groups based on customer lifetime value is one of the results of this study. While keeping prodigal customers, it is recommended to managers and marketing planners of the insurance industry to pay special attention to key and intermittent customers. From a managerial perspective, customer segmentation is a very important issue in the insurance industry. It can be a subject for studies and applied planning in every sector. Also, the specialization of insurance industry services in proportion to the customers' lifetime value, expectations and preferences based on scientific segmentation and customer data is one of the managerial recommendations. Another aspect that can be suggested to the managers of the insurance industry based on the results of this study is paying attention to the characteristics of customers in each cluster. Among these four groups, the cluster of key customers has a significant volume of transactions and length of the period of communication and repetition of insurance transactions. It also requires insurance companies to pay special attention to these customers. Next to this group are prodigal customers who have mostly low repetition of their insurance transactions, while the volume of turnover of this group is significant for the insurance industry. The importance of this group increases when these people have the lowest share in the overhead costs of insurance services for insurance companies, and, at the same time, their premiums are relatively higher than other groups. This makes managers pay more attention to this group. However, due to the low contact of these people with the employees of insurance companies, it is possible that they will receive less attention in relational marketing issues and promotional measures of this group. Accordingly, it is necessary for the managers of the insurance company to recognize generous customers and make special plans for them, especially in relationship marketing. In addition, given that a good number of the insurance company customers are uncertain clients, special planning is necessary to maintain and increase their loyalty. Another group identified in this study is that of the intermittent customers. This group of customers receive a relatively large amount of insurance services, while the premiums received from this group are not significant compared to the other groups. Identifying this type of customers and defining ways to retain them while reducing referrals to this group of customers is essential.Keywords: Insurance, Customer lifetime value, LRFM model, K-Means algorithm, Data mining
-
در دنیای پر رقابت امروز، بکارگیری تکنیک های جدید در پیشرفت کسب و کار تاثیر به سزایی دارد. صنعت رستوران نیز از این قاعده مستثنی نمی باشد. از این رو، در این پژوهش، با استفاده از روش های نوین کشف دانش و داده کاوی به بررسی داده های مشتریان رستوران زنجیره ای پرداخته شده است. هدف از این تحقیق، کشف الگوهای رفتاری مشتریان با استفاده از روش های داده کاوی بوده است. در این تحقیق، تعداد یک میلیون و پانصد هزار رکورد از سوابق مشتریان در 5 شعبه یک رستوران زنجیره ای مورد بررسی قرار گرفته اند و دو مرحله مدلسازی خوشه بندی با استفاده از متد RFM و سپس مدلسازی دسته بندی بر روی داده ها اجرا گردید و قواعد رفتاری مشتریان رستوران زنجیره ای استخراج گردید. نتایج به دست آمده از این تحقیق، به شناخت مشتریان وفادار و سودآور رستوران زنجیره ای کمک کرده است که نهایتا منجر به بهبود سودآوری رستوران زنجیره ای گردیده است. برقراری ارتباط بین نتایج به دست آمده از خوشه بندی و دسته بندی از جمله نوآوری های این تحقیق بوده است.
کلید واژگان: داده کاوی، مدیریت ارتباط با مشتری، الگوریتم k-means، متد RFM، وفاداریIn today's competitive world, applying new techniques to business development has a great impact. The restaurant industry is no exception. Therefore, in this research, using new methods of knowledge discovery and data mining, customer data of chain restaurant is investigated. The purpose of this study was to explore customer behavior patterns using data mining methods.In this study, one million and five hundred thousand customer records were reviewed in five branches of a chain restaurant and two stages of clustering modeling using RFM method and then classification modeling were performed on the data and the behavior rules chain restaurant customers were extracted. The results of this study have helped to identify the loyal and profitable customers of the chain restaurant which has led to the improvement of the profitability of the chain restaurant. One of the innovations of this research has been the communication between clustering and classification results.
Keywords: Data mining, Customer Relationship Management, K-means Algorithm, RFM, Loyalty -
اقتصاد دانش بنیان، جدیدترین الگوی تولید در عصر حاضر بوده و تاکنون، دستاوردهای کم نظیری برای طیف گسترده ای از کشورهای مختلف به همراه داشته است. هدف این مقاله، طبقه بندی استان های ایران از منظر اقتصاد دانش بنیان می باشد. طبقه بندی استان ها بر اساس میزان تشابه آنها در دستیابی به الگوی تولید دانش بنیان، نخستین گام برای یک برنامه ریزی صحیح و واقع بینانه است. از نسخه یکسانی برای استان های با وضعیت متفاوت، نمی توان استفاده کرد. شاخص اقتصاد دانش بنیان منطقه ای در سه محور اصلی آموزش، نوآوری و فناوری اطلاعات و ارتباطات و بر اساس 15 زیرشاخص، تعریف، و طبقه بندی، بر اساس تکنیک خوشه بندی- یکی از شاخه های یادگیری بدون نظارت- انجام، و برای این منظور، دو الگوریتم k-means و c-means فازی به طور همزمان به کار گرفته شده است تا مقایسه نتایج آنها امکان پذیر شود. تعداد خوشه بهینه نیز از طریق ضریب سیلوییت[1] محاسبه شده است. این ضریب، همچنین میزان درستی نتایج خوشه بندی را نشان می دهد. خوشه بندی بر اساس الگوریتم c-means فازی و در حالت 6 خوشه با ضریب سیلوییت 77/0 مناسب ترین طبقه بندی برای هدف پژوهش است. نتایج نشان می دهد، ناهمگونی مشهودی بین استان های مختلف از نظر اقتصاد دانش بنیان وجود دارد. تهران و البرز در خوشه های جداگانه و جزء طبقات پیشرو نسبت به سایرین قرار دارند؛ در حالی که بیش از نیمی از استان ها در خوشه انتهایی طبقه بندی می شوند.
کلید واژگان: اقتصاد دانش بنیان، شاخص اقتصاد دانش بنیان منطقه ای، خوشه بندی، الگوریتمc-means فازی، الگوریتم k-meansThe Economic Reseach, Volume:21 Issue: 1, 2021, PP 117 -146The knowledge-based economy is the newest pattern of production in the current era. So far, this pattern has resulted in unique achievements for a wide range of countries. This study aims to classify the provinces of Iran in terms of Knowledge-based economy. The classification of provinces based on their similarity in achieving the knowledge-based production pattern is the first step for correct and realistic planning. The same version cannot be used for different provinces. The regional knowledge-based economy index is defined in three dimensions: education, innovation, and information and communication technology, based on 15 sub-indices. The classification is based on the clustering technique, which is one of the branches of unsupervised learning. To do this, k-means and fuzzy c-means algorithms are used simultaneously to compare their results. The optimal number of clusters is calculated through the Silhouette coefficient. This coefficient also indicates the accuracy of the clustering results. Clustering based on the fuzzy c-means algorithm in 6-cluster case with a Silhouette coefficient of 0.77 is the most appropriate classification for research purposes. The results show that there is a clear discrepancy between different provinces in the context of knowledge-based economy. Tehran and Alborz are in separate clusters and are among the leading classes compared to others, while more than half of the provinces belong to backward cluster.
Keywords: Knowledge-based economy, regional Knowledge-based economy index, Clustering, fuzzy c-means algorithm, k-means algorithm -
در سال های اخیر مسئله جدیدی با عنوان «خوشه بندی چند معیاره» ظهور کرده که هدف آن، دسته بندی گزینه ها در گروه های همگنی به نام خوشه با توجه به معیارهای ارزیابی متفاوت است. در ادامه پژوهش های انجام گرفته در مبانی نظری، پژوهش حاضر با ترکیب الگوریتم K- میانگین و تکنیک پرامتی، به دنبال توسعه یک روش جدید خوشه بندی چندمعیاره است. پارامترهای مسئله، پروفایل های جدا کننده خوشه ها هستند که برای بهینه سازی آن ها از الگوریتم ژنتیک استفاده شده است. برای تنظیم پارامترهای ژنتیک نیز از روش تاگوچی استفاده می شود. در این مدل سازی، متغیرها در هر مرحله از به روزرسانی جواب ها، با توجه به فاصله امتیاز جریان خالص خود از پروفایل ها به نزدیک ترین خوشه تخصیص می یابند. عملگر جهش نیز صرفا زمانی اعمال می شود که میزان شباهت کروموزوم ها در هر جمعیت به حد خاصی برسد که این هوشمند سازی موجب کاهش زمان محاسباتی شده است. درنهایت با اجرای روش پیشنهادی بر روی چند نمونه مسائل تصادفی مالی، عملکرد آن با سایر الگوریتم های شناخته شده خوشه بندی مقایسه شده است. نتایج نشان می دهد که روش پیشنهادی ضمن تعیین تعداد بهینه خوشه ها، در مقایسه با سایر الگوریتم ها، جواب های دقیق تری ارائه می دهد.کلید واژگان: خوشه بندی چندمعیاره، الگوریتم ژنتیک، الگوریتم K-میانگین، شاخص سیلوئت، پرامتیIn recent years, a new issue called "multi-criteria clustering" has emerged that aims at grouping alternatives into homogeneous classes called clusters according to different evaluation criteria. Following the related studies in literature, by combining K-means algorithm and PROMETHEE technique, this paper aims to present a new multi-criteria clustering method. The parameters of the problem are the cluster separator profiles which genetic algorithm (GA) is used to optimize them. In the modeling process in each stage of updating responses, alternatives allocate to the nearest cluster according to the distance of their pure flow of privileges from the profiles. The mutation operator is only applied when the chromosomes’ similarity level in each population reaches to a certain level which this intelligence reduces the computation time. Finally, by simulating the proposed algorithm and some well-known clustering algorithms based on the several financial databases the efficiency of the algorithm compared to other algorithms. The results show the algorithm, in addition to determine the optimal number of clusters in comparison to other algorithms, also provides better results.Keywords: Multi-Criteria Clustering, Genetic algorithm, K-Means Algorithm, Silhouette Index, PROMETHEE
-
با رشد روز افزون منابع و مقالات در سطح وب، بکارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری می یابد. برای رسیدن به این هدف، به کارگیری تکنیک های متن کاوی، گامی ارزشمند در جهت کشف دانش از مستندات متنی به شمار می رود. هدف اصلی این پژوهش خوشه بندی پایگاه پژوهشگاه علوم و فناوری اطلاعات ایران(ایرانداک) براساس فنون متن کاوی می باشد. تا مقالات موجود به چند خوشه تقسیم شوند بطوریکه مقالات خوشه های مختلف حداکثر تفاوت ممکن و مقالات موجود در هر خوشه بیشترین شباهت را با هم داشته باشند. مقالات حوزه های مرتبط با فن آوری اطلاعات انتخاب شدند. بدین منظور ابتدا تمام کلید واژه های حوزه های فن آوری اطلاعات بر اساس دفعات بسامد آنها در مقالات پایگاه انتخاب و سپس مقالات هر کلیدواژه از پایگاه ایران داک استخراج گردید. سپس با استفاده از نرم افزار notepad++ مجموعه داده موردنظر ایجاد گردید. در این پژوهش برای انجام خوشه بندی از الگوریتم k_means و از معیار تابع فاصله اقلیدسی[1] برای اندازه گیری تشابه خوشه ها استفاده گردید. سپس نتایج حاصل از خوشه بندی مورد تجزیه و تحلیل قرار گرفت تا میزان شباهت و الگوی مناسب میان مقالات کشف شد. الگوی مورد نظر نشان داد که بیشترین میزان مشابهت میان مقالات دو خوشه داده کاوی و شبکه عصبی با فاصله اقلیدسی 365/1 وجود دارد و کمترین میزان شباهت میان مقالات دو خوشه بهینه سازی و پردازش تصویر با فاصله 387/1 گزارش شده است. دانش حاصل از پژوهش، خوشه بندی مقالات مرتبط با بیشترین وکمترین میزان مشابهت با یکدیگر، یافتن الگوی جدید جهت دسترسی سریع و آسان به مقالات مشابه و کشف ارتباط پنهان میان موضوعات مختلف می باشند.این دانش به پژوهشگران کمک می کند تا بتوانند مقالات موضوعی مرتبط با تخصص خود و مشابه با موضوع مورد مطالعه را به نحوی مطلوب تر شناسایی کنند. [1] -Euclidean distanceکلید واژگان: متن کاوی، خوشه بندی، الگوریتم k-means، معیار تابع فاصله اقلیدسی، پایگاه ایران داکWith the increasing growth of Web-based resources and articles, the use of quick and inexpensive ways to access the texts is important from the vast collection of these documents. The main objective of this research is to cluster the base of Iranian Research Institute for information Science and Technology (IranDoc) based on text mining techniques. So that the articles are ivided into several clusters so that the articles of the different clusters have the maximum possible difference and the articles in each cluster have the most similarity. Articles on information technology related fields were selected. For this purpose, first all the keywords of information technology fields were selected based on their frequencies in base articles and then the articles of each keyword were extracted from the Iran Doc database. Then, using the notepad ++ software, the dataset was created. In this research, clustering of k_means algorithm and Euclidean distance function criterion were used to measure the similarity of clusters. Then the results of the clustering were analyzed to find the similarity and pattern among the papers. The pattern showed that the greatest similarity is found between articles in the two data mining clusters and the neural network with an Euclidean distance of 1.365, and the least similarity between the two cluster articles is optimization and image processing with a distance of 1.387. Research knowledge, clustering of articles related to the highest and the least degree of similarity with each other, finding a new pattern for quick and easy access to similar articles, and discovering hidden relationships among different subjects. This knowledge helps researchers to access topic-related articles related to specialization Identify themselves and the subject of the study in a more desirable way.Keywords: text mining, clustering, k-means algorithm, Euclidean distance function criterion, Iran doc database
-
پژوهشنامه اقتصادی، پیاپی 71 (زمستان 1397)، صص 185 -223
هدف این مقاله ارائه مدلی ترکیبی است تا ضمن ارزیابی عملکرد تسهیلات سیستم بانکی از منظر بازپرداخت بدهی تسهیلات، امکان پیش بینی وضعیت اعتباری متقاضیان تسهیلات را فراهم اورد.در این راستا در ابتدا با اتخاذ رویکرد مدیریت اعطای تسهیلات توسط بانک ها به خوشه بندی و رتبه بندی 100224 فقره از تسهیلات صندوق کارآفرینی امید پرداخته شده است. تمامی اطلاعات مربوط به تسهیلات اعطایی به مشتریان فوق از نرم افزار بانکداری متمرکز صندوق استخراج شده است و با اتکا به این مجموعه داده کمی ارزشمند و دارای روایی بالا از روش های کیفی برای گردآوری داده ها استفاده نشده است. در این مقاله از روش تحلیل عاملی «رب پی سی ای» برای طبقه بندی و از الگوریتم دو مرحله ای «کی-مینز» برای خوشه بندی استفاده می شود. همچنین غیر از روش های خوشه بندی اشاره شده از روش «سی سی ار» نیز برای ارزیابی عملکرد تسهیلات صندوق استفاده شده است. در ادامه با هدف ایجاد زمینه پیش بینی وضعیت اعتباری متقاضیان پیش از اعطای تسهیلات به ارائه مدلی برای پیش بینی اعتبار با استفاده از دو الگوریتم ماشین بردار پشتیبان و الگوریتم ترکیبی فراابتکاری شبکه عصبی-ژنتیک پرداخته شده است. نتایج به دست آمده از پیش بینی وضعیت اعتباری متقاضیان تسهیلات نشان می دهد که مدل به دست آمده از روش ترکیبی شبکه عصبی-ژنتیک با میانگین مربعات خطا 23/0 و ضریب تعیین 78 درصد از صحت پیش بینی بیشتری در مقایسه با مدل ماشین بردار پشتیبان برخوردار است. بنابراین، مدل ارائه شده برای پیش بینی وضعیت اعتباری در این مقاله، می تواند پیش بینی به نسبت مناسبی از عملکرد متقاضیان تسهیلات داشته باشد. روشی جدید که در قالب یک نرم افزار داده کاوی امکان پیش بینی اعتبار متقاضیان از منظر بازپرداخت بدهی تسهیلات را برای موسسات مالی-اعتباری فراهم می آورد.
کلید واژگان: خوشه بندی مشتریان، رتبه بندی مشتریان، پیش بینی وضعیت اعتباری متقاضیان تسهیلات، صندوق کارآفرینی امید، تحلیل عاملی رب پی سی ای، الگوریتم دو مرحله ای کی-مینزEconomic Research, Volume:18 Issue: 71, 2018, PP 185 -223The aim of this paper is to present a hybrid model to evaluate performance of loan portfolio of banking system regarding loan repayment status and to forecast credit status of loan applicants. At first stage, we have taken credit granting management approach in order to cluster and rank 100,224 loans granted by Karafarini Omid Fund. All the data on the loans granted to clients was extracted from core banking software of the Fund. Because of having access to this valuable and valid dataset, qualitative data collection methods are not used. In the first section of paper, a type of robust principal component analysis (ROBPCA) was utilized to classify the clients. Then, the eigenvector derived from ROBPCA was used as input to a two-step K-means clustering algorithm. Then, to propose a model to forecast credit status of applicants prior to granting loans, support vector machine (SVM) and artificial genetic neural networks were used. The results obtained from the applicants’ credit status forecasting showed that the model based on the artificial genetic neural networks with the mean-square error of 0.23 and %78 coefficient of determination leads to more accurate forecasting than support vector machine. Therefore, the proposed model for forecasting the applicants’ credit status can predict their performance with relative accurately. A new method in the form of data mining software provides credit institutions with the possibility of predicting applicants’ credit regarding loan repayments.
Keywords: Clustering, Ranking, Forecasting Credit Status of Loan Applicants, Karafarini Omid Fund, ROBPCA Principal Component Analysis, K-means Algorithm -
هدف این پژوهش، استخراج الگوی برندسازی رسانه ورزشی بود. این پژوهش به صورت کمی و با استفاده از روش داده کاوی انجام شده است و به لحاظ هدف، کاربردی بود. پرسش نامه پژوهش براساس مطالعات پیشین استخراج شد و شامل ابعاد محتوا، مخاطب، بستر رسانه و محیط بود. پرسش نامه پژوهشگرساخته، پس از محاسبه روایی و پایایی دراختیار مخاطبانی که بیش از 10 بار درطول یک ماه به سایت ورزش سه مراجعه کردند، قرار گرفت. جامعه آماری پژوهش شامل 800 هزار نفر مخاطب روزانه بود و با استفاده از روش نمونه گیری تصادفی نظام مند با فاصله 100 نفر، پرسش نامه دراختیار حجم نمونه (هشت هزار نفر) قرار گرفت. حدود 50 درصد از آن ها؛ یعنی 4056 نفر به پرسش نامه پاسخ دادند. پاسخ مخاطبان با استفاده از الگوریتم کی مینز پردازش شد و الگوی برندسازی استخراج شد. نتایج حاکی از آن است که برای افزایش عمر مخاطبان لازم است مولفه های حرفه ای رسانه شامل مرجعیت، جانبداری نکردن، صحت خبر و سرعت انتشار خبر، به عنوان «کیفیت درک شده برند» موردتوجه قرار گیرند. همچنین، رفتار وفادارانه مخاطبان ناشی از مولفه های جمعیت شناختی است. خوشه بندی مخاطبان وفادار با مرکزیت سن نشان می دهد که بزرگ ترین خوشه با حجم 44 درصد، مردان با تحصیلات کارشناسی در طیف سنی 26 تا 35 ساله هستند. نتایج زنده و جداول لیگ، در ورزش سه «هویت برند» هستند. پیشنهاد می شود این رسانه توجه بیشتری به ایجاد «هویت برند» در حوزه زنان و مخاطبان زیر 15 سال کند.کلید واژگان: الگوریتم کی مینز، برندسازی، رسانه برخط ورزشی، مخاطب سنجی، ورزش سهThis paper wants to extract online media branding. The method of this research is datamining and in terms of it’s applicable. The research questionnaire was extracted from previous studies and included content, audience, media context and environment dimensions. The researcher-made questionnaire, after calculating its validity and reliability, was provided to audiences who visited the Varzesh3 more than 10 times a month. The statistical population of the study consisted of 800 thousand people per day. Using a systematic random sampling, 100 questionnaires were included in the sample size (8 thousand people). About 50 percent of them 4056 responded to the questionnaire. The response of the audience is extracted using the K-means algorithm processing and branding model. The results suggest that in order to increase the life of the audience, the professional components of the media, including reference, bias, newsworthiness and the speed of the publication of the news as "brand perceived quality" should be considered. The loyal behavior of the audience is also due to demographic factors. The clustering of a loyal audience with a center of age indicates that the largest cluster with 44% of men with Bachelor education and ranges from 26 to 35 old. “Live scores” and “league standing” are the varzesh3 of brand identity. It is suggested that this media pay more attention to the creation of Brand Identity for women and audiences under the age of 15.Keywords: Audience, Branding, Online Media, K-Means Algorithm, Varzesh3
-
نواحی ترافیکی که برای نمایش مکان های تولید و جذب سفر به کار گرفته می شوند در بسیاری از برنامه ریزی های حمل ونقل کاربرد گسترده ای دارند. از آنجا که نحوه تعیین این نواحی روی نتایج حاصل از تحلیل و مدل سازی های حمل ونقل تاثیر فراوانی دارد، طراحی مناسب آن بسیار مهم است. در این مقاله با استفاده از سامانه اطلاعات مکانی روشی کارآمد برای طراحی مناسب این نواحی ارائه شده است. با استفاده از روش ارائه شده می توان معیارهای مختلفی را برای ایجاد نواحی ترافیکی همگن در نظر گرفت و تعداد و اندازه شان را کنترل کرد. در روش پیشنهادی این مقاله از تکنیک k-means برای خوشه بندی واحدهای مکانی پایه و ایجاد نواحی ترافیکی همگن استفاده شده است. برای جلوگیری از ایجاد فضای خالی و همپوشانی میان نواحی و نیز ممانعت از تشکیل نواحی با اندازه های خیلی بزرگ یا کوچک، قیدهایی به تکنیک k-means افزوده شده است. اما ایجاد نواحی همگن بدون درنظرگرفتن فشردگی شکل هندسی، سبب پیچیدگی شکل هندسی نواحی می گردد. به منظور برطرف ساختن این مشکل یک الگوریتم هندسی برای ایجاد نواحی با شکل هندسی فشرده شرح و بسط داده شده است. در نهایت از روش پیشنهادی برای طراحی مجدد نواحی ترافیکی شهر تهران و مقایسه نتایج آن با نواحی ترافیکی موجود استفاده شده است. نتایج حاصل نشان می دهد که نواحی طراحی شده در این مقاله بسیار همگن تر از نواحی موجود است. اگرچه با اعمال الگوریتم فشردگی شکل هندسی، از میزان همگنی نواحی ایجادشده کاسته می شود، اما باز هم از نواحی موجود همگن ترند.کلید واژگان: نواحی ترافیکی، ناحیه بندی، فشردگی شکل هندسی، الگوریتم k، meansTraffic analysis zones represent locations of trip generation and attraction. These zones are widely used in many urban transportation planning activities. Proper design of the mentioned zones is very important, because they cause considerable effects on the results of different transportation modeling and analyses. In this paper an efficient method is proposed to design these zones using geospatial information system. By using this method, various criteria can be considered to determine homogeneous traffic analysis zones whereas the number and size of the zones can be controlled as well. In the proposed method, the k-means technique is used for clustering basic areal units to homogeneous traffic analysis zones. To prevent overlaps and gaps between the zones and creation of the zones with too large or small sizes, some constraints are added to the k-means technique. However, definition of homogeneous zones without considering their geometric compactness results in generation of zones with complex shapes. For solving this problem, a geometric algorithm is developed to create continuous and compact zones. Efficiency of the proposed approach has been tested through to redesign the existing traffic analysis zones of Tehran city and its comparison with the existing traffic analysis zones. Results showed that the redesigned traffic analysis zones with the proposed method have been more homogeneous than the existing zones. Also, by using the shape compactness algorithm, compactness of the resulting zones increases whereas their homogeneity decreases. However the redesigned zones are more homogeneous than the existing ones.Keywords: Traffic Analysis Zones (TAZs), Zoning, Shape compactness, k-means algorithm
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.