big data clustering
در نشریات گروه فنی و مهندسی-
یک راه حل منطقی برای لحاظکردن هم پوشانی خوشه ها، انتساب مجموعه ای از درجه عضویت به هر داده است. بهدلیل کمشدن افرازها و کوچکشدن فضای جستجو، خوشه بندی فازی عموما دارای سربار محاسباتی کمتری بوده، تشخیص و مدیریت داده های مبهم، نویزدار و داده های پرت نیز در آن به سهولت انجام می گیرد. ازاین رو خوشه بندی فازی از نوع پیشرفته روش های خوشه بندی به شمار میرود. اما روش های خوشه بندی فازی در مواجه با روابط غیرخطی داده ها ناتوانند. روش پیشنهادی این مقاله می کوشد تا مبتنی بر ایده های امکان پذیری، از یادگیری چندهسته ای در چارچوب نگاشت کاهش هدوپ برای تشخیص خوشه های خطی جدایی ناپذیر با ساختار کلان داده های پیچیده، استفاده کند. مدل یادگیری چندهسته ای قادر به کشف روابط پیچیده بین دادهای بوده و در عین حال هدوپ ما را قادر خواهد ساخت تا به جای تعامل با سیستم عامل و پردازنده، با یک کلاستر منطقی از پردازش ها و گره های انباره داده تعامل داشته باشیم و عمده کار را بر عهده فریمورک بیندازیم. به طور خلاصه مدلسازی روابط غیرخطی داده ها با استفاده از مدل یادگیری چند هسته ای، تعیین مقادیر مناسب برای پارامترهای فازی سازی و امکان پذیری، و ارایه الگوریتم در مدل نگاشت کاهش هدوپ از دستاوردهای کلیدی مقاله حاضر میباشد. آزمایش ها برروی یکی از مجموعه داده های پر استفاده مخزن یادگیری UCI و همچنین برروی دیتاست شبیه ساز CloudSim پیاده سازی شده است و نتایج قابل قبولی به دست آمده است. طبق مطالعات منتشر شده، مخزن یادگیری UCI برای مقاصد رگرسیون و خوشه بندی کلان داده، و مجموعه داده CloudSim برای شبیه سازی موارد مربوط به رایانش ابری، محاسبه تاخیرهای زمانی و زمانبندی انجام وظایف معرفی شده اند.
کلید واژگان: داده های کلان، خوشه بندی، منطق فازی، یادگیری چندهسته ای، هدوپ، نگاشت کاهشA logical solution to consider the overlap of clusters is assigning a set of membership degrees to each data point. Fuzzy clustering, due to its reduced partitions and decreased search space, generally incurs lower computational overhead and easily handles ambiguous, noisy, and outlier data. Thus, fuzzy clustering is considered an advanced clustering method. However, fuzzy clustering methods often struggle with non-linear data relationships. This paper proposes a method based on feasible ideas that utilizes multicore learning within the Hadoop map reduce framework to identify inseparable linear clusters in complex big data structures. The multicore learning model is capable of capturing complex relationships among data, while Hadoop enables us to interact with a logical cluster of processing and data storage nodes instead of interacting with individual operating systems and processors. In summary, the paper presents the modeling of non-linear data relationships using multicore learning, determination of appropriate values for fuzzy parameterization and feasibility, and the provision of an algorithm within the Hadoop map reduce model. The experiments were conducted on one of the commonly used datasets from the UCI Machine Learning Repository, as well as on the implemented CloudSim dataset simulator, and satisfactory results were obtained.According to published studies, the UCI Machine Learning Repository is suitable for regression and clustering purposes in analyzing large-scale datasets, while the CloudSim dataset is specifically designed for simulating cloud computing scenarios, calculating time delays, and task scheduling.
Keywords: Big Data Clustering, Fuzzy Multicore Learning, Hadoop Map Reduce, Task Scheduling, Cloud Computing, Pattern Recognition -
Human life today is intertwined with abundant trade and economic exchanges, and life would not be possible without trade and commerce. One of the main pillars of financial exchanges are banks and financial and credit institutions, which, as the vital arteries of the economy, are responsible for transferring funds and keeping the economy alive. In the world of economic competition between organizations, profitability and proper performance for stakeholders are the basic principles of the organization's survival. To increase profitability, banks must take measures that, in addition to reducing costs, increase the level of service and customer satisfaction. The best way to do this is to use new technologies and orient the bank's policies to provide services in person and independent of time and place. The use of new technologies in the banking system sometimes leads to customers' distrust and distrust of the bank. Therefore, solutions to detect fraud in banking transactions should be provided. This article aims to discover a model for face-to-face transactions and to establish a system to block fraudulently issued transactions. Therefore, a big data clustering method is designed to timely identify bribery in banking transactions. The results show that using the big data clustering method in the fastest time can detect and stop possible fraud in customers' banking transactions.Keywords: Big Data Clustering, Financial Transaction Fraud, Fictitious Transaction, Open Banking
-
Journal of Electrical and Computer Engineering Innovations, Volume:6 Issue: 2, Summer-Autumn 2018, PP 243 -262
Big data referred to huge datasets with high number of objects and high number of dimensions. Mining and extracting big datasets is beyond the capability of conventional data mining algorithms including clustering algorithms, classification algorithms, feature selection methods and etc. Clustering, which is the process of dividing the data points of a dataset into different groups (clusters) based on their similarities and dissimilarities, is an unsupervised learning method discovers useful information and hidden patterns from raw data. K-means yet is an efficient clustering algorithm but it suffers from some drawbacks. It has a tendency to converge to a local optimum point, its output result depends on its initial value of cluster centers and it is unable in finding the number of clusters. In this research a new clustering method for big datasets is introduced based on Particle Swarm Optimization (PSO) algorithm. PSO is a heuristic algorithm with high ability in searching the solution space and finding the global optimum point. The proposed method is a two-stage algorithm which first searches the solution space for proper number of clusters and then searches to find the position of the centroids. Its performance is evaluated on 13 synthetics and a biological microarray dataset. Finally, 2 real big mobility datasets, are investigated and analyzed using the proposed clustering method.
Keywords: Big data clustering, Bobility dataset, K-means, Swarm intelligence, Particle swarm optimization
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.