automatic clustering
در نشریات گروه برق-
Journal of Electrical and Computer Engineering Innovations, Volume:8 Issue: 1, Winter-Spring 2020, PP 31 -40Background and Objectives
Stock price prediction has become one of the interesting and also challenging topics for researchers in the past few years. Due to the non-linear nature of the time-series data of the stock prices, mathematical modeling approaches usually fail to yield acceptable results. Therefore, machine learning methods can be a promising solution to this problem.
MethodsIn this paper, a novel machine learning approach, which works in two phases, is introduced to predict the price of a stock in the next day based on the information extracted from the past 26 days. In the first phase of the method, an automatic clustering algorithm clusters the data points into different clusters, and in the second phase a hybrid regression model, which is a combination of particle swarm optimization and support vector regression, is trained for each cluster. In this hybrid method, particle swarm optimization algorithm is used for parameter tuning and feature selection.
ResultsThe accuracy of the proposed method has been measured by 5 companies’ datasets, which are active in the Tehran Stock Exchange market, through 5 different metrics. On average, the proposed method has shown 82.6% accuracy in predicting stock price in 1-day ahead.
ConclusionThe achieved results demonstrate the capability of the method in detecting the sudden jumps in the price of a stock. The author(s). This is an open access article distributed under the terms of the Creative Commons Attribution (CC BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, as long as the original authors and source are cited. No permission is required from the authors or the publishers.
Keywords: Tehran Stock Exchange market, Automatic clustering, Feature selection, Particle swarm optimization, Support Vector Regression -
امروزه حجم بسیار زیادی از اطلاعات و داده ها از منابع مختلف نظیر گوشی های هوشمند، شبکه های اجتماعی، تکنولوژی های عکاسی و سایر منابع تولید می شود. بررسی و پردازش این حجم عظیم از اطلاعات چالش دهه های اخیر است که به آن کلان داده گفته می شود. یکی از روش های پرکاربرد استخراج اطلاعات، خوشه یابی است. خوشه یابی کلان داده ها چالش بزرگی است که توجه بسیاری از محققین را به خود جلب کرده است. در این پژوهش ابتدا یک روش خوشه یابی غیر خودکار (برای حالتی که تعداد خوشه ها از قبل مشخص است) و سپس یک روش خوشه یابی خودکار (قادر به یافتن تعداد خوشه ها) با استفاده از الگوریتم بهینه سازی گرگ خاکستری برای خوشه یابی کلان داده ها ارایه شده است. روش خوشه یابی خودکار یک روش دو مرحله ایست که در مرحله ی اول یک ساختار درخت گونه از الگوریتم مورد نظر برای یافتن تعداد خوشه ها اجرا می شود و در مرحله ی دوم الگوریتم اصلی فضا را برای یافتن موقعیت مراکز خوشه ها جست وجو می کند. عملکرد روش ارایه شده بر روی 13 مجموعه داده ی مصنوعی و 2 مجموعه کلان داده ی واقعی مربوط به مسیرهای طی شده توسط خودروها در سطح شهر پیزا مورد ارزیابی قرار گرفته و نتایج آن بررسی شده است. نتایج به دست آمده نشان از دقت بالای این الگوریتم در خوشه یابی داده های بزرگ و حجیم دارد.کلید واژگان: کلان داده، خوشه یابی خودکار، روش های هوش جمعی، الگوریتم بهینه سازی گرگ خاکستریThe huge amount of data created constantly with increasing rate from different sources such as smart phones, social media, imaging technologies and etc. becomes difficult to be analyzed by conventional data analytic tools. For this reason a new field of research called Big Data Analytics is growing faster in the research and industrial communities. Clustering big datasets is one of the important challenges which attracts more and more attentions among researchers. In this paper first a method for non-automatic big data clustering (when the number of clusters is known) and then a two-stage method for big data automatic clustering (able in finding the number of clusters) based on grey wolf optimization algorithm are introduced. In the first stage the algorithm tries to find the number of clusters using a tree structure and in the second stage the main algorithm searches the solution space to find the position of centroids. The methodology is tested on 13 synthetics and 2 real big mobility datasets. The achieved results show its effectiveness in big data clustering.Keywords: Big data, Automatic clustering, Swarm intelligence methods, Grey wolf optimization algorithm
-
یکی از مهمترین چالشهای رایانش ابری، مدیریت منابع و بهینهسازی تخصیص منابع در مراکز دادهی ابری در لایهی زیر ساخت است. در این مقاله به بررسی موضوع تخمین تعداد مناسب ماشینهای مجازی در مراکز دادهای ابری پرداخته شده است. از جمله ایرادات رویکردهای پیشین، در نظر گرفتن مستقل ماشینهای مجازی و بیتوجهی به رفتارهای مشابه ماشینها است. بهرهجویی از الگوریتمهای یادگیری ماشین و سری زمانی و راهکار خوشهبندی رفتاری و خودکار ماشینهای مجازی به عنوان عناصر زمینهساز تامین بهینهی منابع درنظر گرفته شده است. پیشبینی سری زمانی و استفاده از گذشته، برای تخمین آینده به هدف جلوگیری از نقض توافق سطح خدمات از یک سو و جلوگیری از صرف هزینه های تامین، نگهداری و مجازیسازی ماشینهای مجازی که در آینده مورد استفاده قرار نخواهند گرفت از سوی دیگر موجب افزایش کیفیت خدمات ابری شده است. هر میزانی که پیشبینی انجام شده دقیقتر باشد، یعنی منابع ماشینهای مجازی آماده شده، با نیاز واقعی مشتریان در آینده سازگارتر باشد، فراهمکنندگان خدمات ابری کمتر متضرر میشوند. نوآوری انجام شده اعمال خوشهبندی رفتاری و خودکار ماشینهای مجازی است که موجب کاهش تعداد سری های زمانی شبیه، که در نهایت منجر به دریافت یک نوع ماشین مجازی میشود، دقت در پیشبینی سری زمانی ماشینهای مجازی، کاهش بار پردازشی و سهولت در اعمال راهبردهای مدیریتی شده است. به کارگیری روش پیشنهادی، موجب افزایش دقت پیشبینیکننده ها و کاهش خطا به میزان 1.93 برابر شده است.کلید واژگان: رایانش ابری، تامین منابع، ماشین مجازی، پیش بینی سری زمانی، خوشه بندی خودکار
-
الگوریتم رقابت استعماری (ICA)، یکی از کاراترین الگوریتم های فرا ابتکاری برای پیدا کردن جواب بهینه سراسری در مسائل بهینه سازی می باشد. در این مقاله از الگوریتم رقابت استعماری برای خوشه بندی خودکار مجموعه داده های بزرگ و واقعی بدون برچسب استفاده شده است. با بهره گیری از ساختار مناسب برای هر یک از کروموزم ها و استفاده از الگوریتم رقابت استعماری، در زمان اجرا تعداد بهینه خوشه ها هم زمان با خوشه بندی بهینه داده ها به دست می آید. همچنین برای افزایش دقت و افزایش سرعت همگرایی، ساختار الگوریتم رقابت استعماری با تغییراتی همراه است. روش پیشنهادی (ACICA) نیاز به هیچ گونه دانش قبلی برای خوشه بندی داده ها ندارد. علاوه بر آن روش پیشنهادی در مقایسه با سایر روش های خوشه بندی مبتنی بر الگوریتم های تکاملی، دقت بیشتری را دارد. از معیارهای ارزیابی خوشه بندی DB و CS به عنوان تابع هدف استفاده شده است. برای نشان دادن برتری روش پیشنهادی، میانگین مقدار بهینه تابع هدف و تعداد خوشه های تعیین شده توسط روش پیشنهادی با سه الگوریتم خوشه بندی خودکار مبتنی بر الگوریتم های تکاملی مقایسه می شود.کلید واژگان: خوشه بندی تفکیکی، خوشه بندی خودکار، الگوریتم رقابت استعماریImperialist Competitive Algorithm (ICA) is considered as prime meta-heuristic algorithm to find the general optimal solution in optimization problems. This paper presents a use of ICA for automatic clustering of huge unlabeled data sets. By using proper structure for each of the chromosomes and the ICA, at run time, the suggested method (ACICA) finds the optimum number of clusters while optimal clustering of the data simultaneously .To increase the accuracy and speed of convergence, the structure of ICA changes. The proposed algorithm requires no background knowledge to classify the data. In addition, the proposed method is more accurate in comparison with other clustering methods based on evolutionary algorithms. DB and CS cluster validity measurements are used as the objective function. To demonstrate the superiority of the proposed method, the average of fitness function and the number of clusters determined by the proposed method is compared with three automatic clustering algorithms based on evolutionary algorithms.Keywords: Partitional Clustering, Automatic Clustering, Imperialist Competitive Algorithm (ICA)
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.