javad hamidzadeh
-
سیستم های توصیه گر زیرمجموعه ای از سیستم های هوشمند پالایش اطلاعات هستند که در فضای اینترنت علایق کاربر را شناسایی نموده و توصیه های مرتبط با سلیقه ی کاربر را ارائه می دهند. پالایش مشارکتی مبتنی بر کاربر، از مهم ترین انواع سیستم های توصیه گر است. از مهم ترین چالش ها در این سیستم ها پراکندگی و حجم زیاد داده ها است که بر کارایی آن ها اثرگذار است. در روش پیشنهادی، برای اولین بار از الگوریتم خوشه بندی فازی C-میانگین مرتب شده و الگوریتم تکاملی ازدحام ذرات تطبیقی آشوبی برای خوشه بندی کاربران استفاده شده است. هدف روش پیشنهادی بهبود میزان خطای پیش بینی در مجموعه داده های حجیم با پراکندگی زیاد و کاهش تاثیر داده های پرت و نویز است. به منظور ارزیابی و اثبات کارایی روش پیشنهادی، آزمایش هایی روی پایگاه داده های واقعی اجرا شده است. نتایج آزمایش ها نشان دهنده ی برتری روش پیشنهادی نسبت به روش های مرز دانش بر اساس معیارهای میانگین خطای مطلق، جذر میانگین مربعات خطا، نرخ صحت و زمان محاسباتی است.
کلید واژگان: سیستم توصیه گر، پالایش مشارکتی، خوشه بندی فازی، الگوریتم تکاملی، الگوریتم ازدحام ذرات تطبیقی آشوبیRecommender systems are a subset of intelligent information filtering systems that discovers user interests and provide user-friendly recommendations. User-based collaborative filtering recommender systems is one of the most important types of recommender systems. However, they are faced with voluminous data and sparsity problems that have negative effects on the performance of the systems. In the proposed method, fuzzy C-ordered means clustering algorithm is integrated with a chaotic self-adaptive particle swarm evolutionary algorithm for clustering users. The proposed method aims to improve the rating prediction in large sparse datasets and reduce the negative impact of outliers and noisy data. Experiments have been conducted on real-world datasets to evaluate and prove the efficiency of the proposed method. Experimental results show the superiority of the proposed method that the state-of-the-art methods based on prediction error criteria, accuracy rates, and the computational time.
Keywords: Recommender Systems, Collaborative Filtering, Fuzzy Clustering, Evolutionary Algorithm, Chaotic Self-Adaptive Particle Swarm Optimization Algorithm -
با ظهور شبکه های ارتباطی و اتصال گسترده رایانه ها و وسایل همراه، همواره امنیت کاربران و امنیت ارتباط آنان موردتوجه است. در حوزه شبکه های اجتماعی، اعتماد کاربران از اصلی ترین مسائل ارتباط کاربران است و مدیریت اعتماد، نقش اساسی در این زمینه ایفا می کند. روش های مختلفی برای ارزیابی مدیریت اعتماد بین کاربران در شبکه های اجتماعی ارائه شده است. تشخیص فردی و ذهنی در ارزیابی اعتماد کمتر موردتوجه قرار گرفته و اغلب مدلی کلی و عمومی برای همه کاربران ارائه شده است. ارزیابی اعتماد بدون درنظرگرفتن خصوصیت های فردی و ذهنی کاربران کارایی لازم را ندارد. در روش پیشنهادی این پژوهش، ویژگی های کاربران محاسبه می شود و با استفاده از نظریه مجموعه خشن فازی میزان اهمیت آنها تعیین می گردد. ویژگی های کاربران با درنظرگرفتن میزان اهمیت آنها و با استفاده از نظریه شواهد دمپستر شفر، ترکیب و تجمیع می شوند. مجموعه های مقادیر اعتماد و بی اعتمادی و ابهام برای تعیین درجه اعتماد ارزیابی می شوند. مقادیر نهایی به منظور تصمیم اعتماد و ایجاد ارتباط امن مورداستفاده قرار می گیرند. میزان اعتماد کاربر در کل شبکه توسط همه کاربران تعیین می گردد. عملکرد جامع روش پیشنهادی و الگوریتم های RTARS ، ABC ، DSL-STM و AUTOMATA در چهار شاخص ارزیابی و در 10 اجرای مستقل مقایسه شده اند. نتایج به دست آمده نشان دهنده بهبود تصمیم اعتماد و ایجاد ارتباط امن در شبکه های اجتماعی است. الگوریتم پیشنهادی توانسته است بادقت 92.54 % در مورداعتماد کاربران در شبکه های اجتماعی به درستی تصمیم بگیرد. نتایج تجربی نشان دهنده آن است که روش پیشنهادی قادر به استنتاج اعتماد بادقت بالاتری نسبت به روش های قبلی است.کلید واژگان: مدیریت اعتماد، نظریه شواهد دمپستر شفر، تابع باور، ویژگی کاربر، شبکه های اجتماعیVarious methods have been presented to evaluate trust management between users in social networks. Individual and subjective diagnosis is less considered in the evaluation of trust and often a general and general model is presented for all users. trust evaluation without considering the personal and mental characteristics of users is not effective. in the proposed method of this research, users' characteristics are calculated and their importance is determined using fuzzy rough set theory. users' characteristics are combined and aggregated by considering their importance and using Dempster Shafer theory of evidence. the sets of trust and distrust values and ambiguity are evaluated to determine the degree of trust. the final values are used to make a trust decision and create a secure connection. the level of user trust in the entire network is determined by all users. the comprehensive performance of the proposed method and RTARS, ABC, DSL-STM and AUTOMATA algorithms have been compared in four evaluation indices and in 10 independent implementations. the obtained results show the improvement of the trust decision and the creation of safe communication in social networks. the proposed algorithm has been able to correctly decide the trust of users in social networks with 92.54% accuracy. the experimental results show that the proposed method is able to infer trust more accurately than the previous methods.Keywords: Trust Management, Dempster Shafer Evidence Theory, Belief Function, User Feature, Social Networks
-
در گذر زمان خصوصیات داده های جریانی ناپایدار بوده و توزیع طبقات متحمل تغییرات می گردند بنابراین مدل های یادگیری غالبا نیاز به تطبیق با رانش مفاهیم دارند. در این مقاله، با هدف حل دو چالش عدم توازن میان طبقات مشاهده شده و وقوع رانش مفهوم، طبقه بند داده های جریانی نامتوازن دارای رانش مفهوم ارائه شده است. روش پیشنهادی سعی در حذف داده های جریانی مرزی و نویزی با کمک خوشه بندی دارد. داده ها با کمک تابع باور وزن دهی شده و با در نظر گرفتن برچسب داده ها، نمونه افزایی در نواحی کم تراکم طبقه اقلیت و با رویکرد آشوبی انجام می گیرد. سپس، با تعریف حد آستانه، رانش مفهوم شناسایی می شود. پیش بینی برچسب توسط طبقه بند ترکیبی و رای گیری وزن دار اکثریت انجام می پذیرد. عملکرد روش پیشنهادی بر روی مجموعه داده های پایگاه داده UCI توسط روش LOO ارزیابی و با طبقه بندهای مرز دانش مقایسه شده است. نتایج آزمایش ها نشان دهنده برتری روش پیشنهادی از نظر معیارهای ارزیابی است.
کلید واژگان: تغییر مفهوم، داده جریانی، داده نامتوازن، طبقه بندی برخط، نظریه باورOnline Learning for Imbalanced Data Streams with Concept Drift by Belief Theory and Chaotic FunctionContinual learning from data streams is a pivotal aspect of machine learning, requiring the development of algorithms capable of adapting to incoming data. However, the ongoing evolution of data streams presents a formidable challenge as previously acquired knowledge may become outdated. This challenge, known as concept drift, demands timely detection for the effective adaptation of learning models. While various drift detectors have been proposed, they often assume a relatively balanced class distribution. In scenarios with imbalanced data streams, these detectors may exhibit bias toward majority classes, overlooking shifts in minority classes. Moreover, the imbalance among classes can change over time, with roles shifting between majority and minority classes, especially when relationships among classes become complex due to overlapping regions. In this paper, a novel classification method is introduced for imbalanced streaming data affected by concept drift. The proposed method continuously monitors arriving streams to detect and adapt to both imbalances and concept drift. Upon receiving a new block of data, the proposed method employs the k-means clustering approach to identify non-dense regions and performs oversampling for minority classes. Cluster centers are selected using the belief function to address overlapping issues between majority and minority classes. Utilizing a chaotic approach, the new sample is added based on its neighborhood and the size of that neighborhood. Subsequently, concept drift detection is conducted using three pre-defined thresholds that cover time intervals and classification errors. Finally, the label prediction process is done by ensemble learning and weighted majority voting. Experiments conducted on benchmark datasets from the UCI database evaluate the performance of the proposed method using Leave-One-Out (LOO) validation and comparisons with state-of-the-art methods. The results demonstrate the superiority of the proposed method across various evaluation criteria, highlighting its effectiveness in addressing imbalanced streaming data with concept drift.
Keywords: Belief Theory, Concept Drift, Data Stream, Imbalanced Data, Online Classification -
Embedding learning is an essential issue in Natural Language Processing (NLP) applications. Most existing methods measure the similarity between text chunks in a context using pre-trained word embedding. However, providing labeled data for model training is costly and time-consuming. So, these methods face downward performance when limited amounts of training data are available. This paper presents an unsupervised sentence embedding method that effectively integrates semantic hashing into the Kernel Principal Component Analysis (KPCA) to construct embeddings of lower dimensions that can be applied to any domain. The experiments conducted on benchmark datasets highlighted that the generated embeddings are general-purpose and can capture semantic meanings from both small and large corpora.Keywords: Kernel Principal Component Analysis, Natural Language Processing, Semantic Hashing, Sentence Embedding
-
تحلیل تفکیک کننده خطی یکی از روش های پرکاربرد در حوزه کاهش ابعاد فضای ویژگی و طبقه بندی داده ها به وسیله بیشینه سازی نسبت پراکندگی بین طبقه ها به پراکندگی درون طبقه ها است. این روش مبتنی بر معیار فیشر بوده و از تحلیل واریانس برای بیان تفکیک پذیری طبقه ها استفاده می کند. مهم ترین محدودیت این معیار در مواجهه با داده های ناهمگن است. برای رفع این محدودیت، استفاده از فواصل توزیعی نظیر معیار چیرنف پیشنهاد شده است. معیار چیرنف با در نظر گرفتن فاصله چیرنف میان دو توزیع داده، قادر به اندازه گیری فواصل میان توابع چگالی احتمال و استخراج ویژگی هایی با بیش ترین قابلیت تفکیک کنندگی است؛ اما ایراد این روش آن است که چنانچه دو توزیع طبقه داده های ناهمگن از یکدیگر فاصله کمی داشته باشند، موجب هم پوشانی طبقه ها در فضای نگاشت شده و باعث افزایش خطای طبقه بندی می شود. این مقاله، با معرفی روش انتخاب نمونه با نام حاشیه بیشینه ای به شناسایی نمونه های مرزی و غیرمرزی پرداخته و با بهره گیری از نمونه های مرزی، ماتریس پراکندگی مطلوبی برای افزایش کارایی تحلیل تفکیک کننده خطی ایجاد می کند. در روش پیشنهادی، فرایند انتخاب نمونه همانند یک مساله بهینه سازی مقید دودویی در نظر گرفته شده و جواب های مساله با استفاده از تابع پرکننده به دست می آیند. عملکرد روش پیشنهادی بر روی داده های برگرفته شده از پایگاه داده UCI به وسیله روش اعتبارسنجی ضرب دری ده تایی ارزیابی و با طبقه بندهای سنتی و مرز دانش مقایسه شده است. آزمایش ها نشان دهنده برتری روش پیشنهادی از نظر صحت طبقه بندی و زمان محاسبه است.
کلید واژگان: طبقه بندی داده ها، معیار چیرنف، حاشیه حداکثری، تابع پرکنندهLinear discriminant analysis is a well-known matrix-based dimensionality reduction method. It is a supervised feature extraction method used in two-class classification problems. However, it is incapable of dealing with data in which classes have unequal covariance matrices. Taking this issue, the Chernoff distance is an appropriate criterion to measure distances between distributions. In the proposed method, for data classification, LDA is used to extract most discriminative features but instead of its Fisher criterion, the Chernoff distance is employed to preserve the discriminatory information for the several classes with heteroscedastic data. However, the Chernoff distance cannot handle the situations where the component means of distributions are close and leads to the component distribution overlap and underperforming classification. To overcome this issue, the proposed method designs an instance selection method that provides the appropriate covariance matrices. Aiming to improve LDA-based feature selection, the proposed method includes two phases: (1) it removes non-border instances and keeps border ones by introducing a maximum margin sampling method. The basic idea of this phase is based on keeping the hyperplane that separates a two-class data and provides large margin separation. In this way, the most representative instances are selected. (2) It extracts features on selected instances by the proposed extension of LDA which generates a desirable scatter matrix to increase the efficiency of LDA. In the proposed method, the instance selection process is considered a constrained binary optimization problem with two contradicting objects, and the problem solutions are obtained by using a heuristic method named filled function. This optimization method does not easily get stuck in local minima; meanwhile, it is not affected by improper initial points. The performance of the proposed method on data collected from the UCI database is evaluated by 10-fold validation. The results of experiments are compared to several competing methods, which show the superiority of the proposed method in terms of classification accuracy percentage and computational time.
Keywords: Chernoff criterion, Data classification, Instance selection, Filled function, Maximum margin -
داده های جریانی متشکل از داده هایی است که به ترتیب و با سرعت و حجم زیاد به سیستم وارد می شوند. توزیع این داده ها ناپایدار بوده و در طول زمان ممکن است تغییر کنند. با توجه به اهمیت این نوع داده ها در حوزه هایی مهم نظیر اینترنت اشیا، تسریع عملکرد و افزایش توان عملیاتی تحلیل داده های بزرگ جریانی به عنوان موضوعی مهم، مورد توجه محققین است. در روش پیشنهادی، از مفهوم یادگیری ترکیبی برخط در مدل بهبودیافته ماشین یادگیر مفرط به منظور طبقه بندی داده های جریانی استفاده شده است. به دلیل استفاده از رویکرد افزایشی، در هر لحظه تنها یک بلوک داده بدون نیاز به دسترسی به داده های پیشین یاد گرفته می شود. همچنین با بهره گیری از رویکرد آدابوست، وزن دهی به طبقه بندی کننده های پایه و تصمیم گیری در مورد حفظ و یا حذف آنها بر اساس کیفیت پیش بینی ها انجام می شود. مزیت دیگر روش پیشنهادی، بهره گیری از رویکرد مبتنی بر صحت طبقه بندی کننده جهت شناسایی رانش مفهوم است که منجر به تسهیل انطباق مدل و افزایش کارایی آن می شود. آزمایش ها بر روی مجموعه داده های استاندارد انجام گردید و روش پیشنهادی به طور میانگین با کسب 90/0% خاص بودن، 69/0% حساسیت و 87/0% صحت توانست اختلاف معناداری با دو روش رقیب داشته باشد.
کلید واژگان: داده های جریانی، رانش مفهوم، ماشین یادگیری مفرط، یادگیری افزایشیStreaming data refers to data that is continuously generated in the form of fast streams with high volumes. This kind of data often runs into evolving environments where a change may affect the data distribution. Because of a wide range of real-world applications of data streams, performance improvement of streaming analytics has become a hot topic for researchers. The proposed method integrates online ensemble learning into extreme machine learning to improve the data stream classification performance. The proposed incremental method does not need to access the samples of previous blocks. Also, regarding the AdaBoost approach, it can react to concept drift by the component weighting mechanism and component update mechanism. The proposed method can adapt to the changes, and its performance is leveraged to retain high-accurate classifiers. The experiments have been done on benchmark datasets. The proposed method can achieve 0.90% average specificity, 0.69% average sensitivity, and 0.87% average accuracy, indicating its superiority compared to two competing methods.
Keywords: Concept drift, data stream, extreme machine learning, incremental learning -
شبکه های حسگر بی سیم متشکل از تعداد زیادی گره حسگر می باشند که در یک منطقه محدود جغرافیایی پراکنده شده اند. چالش اصلی این شبکه ها محدودیت انرژی است. خوشه بندی، یک راه حل شناخته شده برای صرفه جویی در مصرف انرژی و افزایش طول عمر شبکه است. در اکثر روش های ارایه شده در هر دوره، آرایش خوشه ها و سرخوشه ها جهت افزایش طول عمر شبکه تغییر می یابد که باعث تحمیل مصرف انرژی بالا به سرخوشه ها می شود. همچنین برخی از روش های خوشه بندی منجر به انتخاب سرخوشه های مجزا برای خوشه های نزدیک به یکدیگر می شوند که مصرف انرژی بیشتری در پی دارند. مسئله اساسی دیگر، انتخاب گره های نامعتبر و نامطمین به عنوان سرخوشه است زیرا منجر به عدم اطمینان در تعامل میان گره ها و کاهش امنیت کل شبکه می شود. هدف از روش پیشنهادی، ارایه یک روش خوشه بندی کارا است که علاوه بر برخورداری از مزایای مدیریت مصرف انرژی از طریق راهکارهایی نظیر عدم تغییر آرایش خوشه ها و سرخوشه ها در هر دور از اجرا و عدم انتخاب سرخوشه های مجزا برای خوشه های نزدیک، بتواند با تشخیص گره های مخرب و عدم انتخاب آن ها به عنوان سرخوشه، مسیری امن برای تعامل و ارتباط میان گره ها فراهم نماید. در روش پیشنهادی، شانس سرخوشه گی هر گره با استفاده از رویکرد فازی محاسبه شده و گره های با شانس بیشتر، به عنوان گره مجاز و معتبر برای برقراری ارتباط شناخته می شوند. همچنین فرایند تشکیل خوشه به روش فازی و با تعریف تابع هدف متشکل از پارامترهای انرژی باقی مانده، فاصله تا ایستگاه پایه و میانگین فاصله گره های درون یک خوشه تا سرخوشه انجام می شود. کارایی روش پیشنهادی با روش های پایه و مرز دانش مقایسه شده است. نتایج آزمایش ها نشان میدهند روش پیشنهادی به طور میانگین 59.83% افزایش طول عمر و 14.75% کاهش مصرف انرژی را در پی دارد.کلید واژگان: شبکه حسگر بی سیم، خوشه بندی، طول عمر شبکه، مدیریت اعتماد، امنیت، درجه مرکزیت، منطق فازیWireless sensor networks consist of a large number of sensor nodes scattered over a limited geographical area. The main challenge of these networks is energy consumption. Clustering is a well-known way to save energy and extend network's lifetime. Many studies iteratively change the cluster formation to increase the network's lifetime; however, this issue imposes high energy consumption on clusters. Also, some clustering methods select individual cluster heads for near clusters, which leads to more energy consumption. Another major issue is selecting untrusted and unreliable nodes as headers because it leads to unreliable interactions between nodes and reduces the security of the network. The proposed method aims to provide an efficient clustering method that, in addition to having the benefits of energy consumption management, can provide a secure path for interaction and communication between nodes by identifying malicious nodes and not selecting them as headers. For this purpose, each node's chance is calculated using the fuzzy approach, and nodes that have the highest chances are considered cluster heads. The efficiency of the proposed method is compared with state-of-the-art methods. Also, the process of cluster formation is done by fuzzy logic and by defining the objective function consisting of residual energy, distance to the base station, and the average intra-cluster distance. The statistical analysis indicates that the proposed method on average provides better results than other competitors and the results demonstrate how this method at least improves life time and residual energy by 59.83% and 14.75%, respectively.Keywords: Wireless Sensor Network, Clustering, Network Lifetime, Trust management, Security, Centrality Degree, Fuzzy logic
-
در دنیای امروز، محافظت از داده ها در مقابل نفوذ از طریق اینترنت یا شبکه ، امری ضروری است و ابزارهای مختلفی در این زمینه ارایه شده است. سامانه تشخیص نفوذ با بررسی ترافیک شبکه وظیفه شناسایی و تشخیص هرگونه استفاده غیر مجاز از داده ها را دارد. در این سامانه ها از روش های متعددی به ویژه الگوریتم های یادگیری ماشین بهره گیری می شود و رویکردهای مختلفی ازجمله کاهش هشدارهای غلط، کاهش ابعاد، کاهش نمونه ها، روش های ترکیبی، به سازی دادگان آموزشی و آزمون، به کارگیری روش های چند سطحی و غیره به منظور بهبود این الگوریتم ها در فرآیند تشخیص نفوذ ارایه شده است. برخی از روش های ترکیبی ارایه شده توسط محققان کلیه جنبه های حمله را موردنظر قرار نمی دهد. بعضی از آن ها نیز از معیار صحت استفاده می کنند که این معیار در داده های حجیم و نامتوازن باعث ضعف در تشخیص حمله های با تعداد نمونه های بسیار کم می گردد. یکی از چالش ها در تشخیص نفوذ، دقت پایین طبقه بندها در شناسایی نوع حملات شبکه است. هدف از این تحقیق، پیشنهاد یک سامانه برای بهبود دقت در تشخیص نفوذ با استفاده از نظریه مجموعه فازی ناهموار و ترکیب وزن دار طبقه بندها است. درروش پیشنهادی ما، پس از کاهش ویژگی ها توسط نظریه مجموعه فازی ناهموار، از ترکیب طبقه بندها برای بهبود دقت در تشخیص حملات استفاده شده است. دقت روش پیشنهادی در شناسایی رفتار حمله به طور میانگین به 93/98 رسید و همچنین به طور میانگین میزان شناسایی رفتارعادی 14/98، حمله های منع سرویس 85/96 و حمله های پویش 20/93 حمله های دسترسی از راه دور 31/91 و حمله های کاربر به ریشه 100 به دست آمد. نتایج حاصل از انجام آزمایش ها نشان دهنده برتری روش پیشنهادی نسبت به سایر روش های موجود است.
کلید واژگان: سامانه تشخیص نفوذ، کاهش ویژگی، ترکیب طبقه بندها، معیار دقت، مجموعه فازی ناهموارIn today's world, protecting data against intrusion through the Internet or network is necessary, and various tools have been proposed in this field. Intrusion Detection System has the task of identifying and detecting any unauthorized use of data by investigating network traffic. In these systems, many different methods, especially machine learning algorithms, is used. Various approaches have been proposed to improve these algorithms in the intrusion detection process. Some of these approaches include reducing false alarms, reducing dimensionality, reducing samples, ensemble methods, improving training and test dataset, applying multilevel methods, etc. Some of the ensemble methods proposed by researchers do not consider all aspects of the attack. Some other methods use accuracy metric, which in large and unbalanced data, this criterion makes the detection of low-number attacks difficult. One of the challenges in intrusion detection is the low precision of classifiers in identifying the type of network attacks. The purpose of this paper is to propose an intrusion detection system to improve the precision by using fuzzy rough set theory and weighted classifiers ensemble. In our proposed method, after reducing the features by the fuzzy rough set theory, the classifiers ensemble is used to improve the precision of attack detection. The precision of the proposed method in detecting intrusion behavior assaults was 98.93 on average. Also, on average, the detection rate of DoS, probe, R2L, U2R attacks and normal behavior was 96.85, 93.20, 91.31, 100% and 98.14 respectively. The results of the experiments show that the proposed method has more precision than other methods.
Keywords: Intrusion Detection System, Feature reduction, Ensemble Classifiers, Precision Measure, Fuzzy Rough Set -
امروزه یکی از مهم ترین چالش های افزایش اطلاعات، یافتن اطلاعات مورد علاقه از بین انبوه داده هاست. به این موضوع در طراحی سایت های تعاملی همواره توجه شده است. سیستم های پیشنهاددهنده برای حل این مسئله به وجود آمده اند تا به کاربران برای رسیدن به اطلاعات مورد نظرشان کمک کنند؛ اما این سیستم ها محدویت هایی دارند. یکی از مهم ترین چالش های پیش روی سیستم های پیشنهاددهنده، مشکل شروع سرد است. این مشکل زمانی به وجود می آید که یک کاربر (قلم داده) جدید وارد سیستم می شود. عدم وجود اطلاعات قبلی از این کاربر (قلم داده) باعث می شود سیستم نتواند به طور عادی پیشنهادها را تولید کند. در این مقاله برای حل مشکل شروع سرد کاربر، روش جدیدی به کمک ترکیب مدل های مبتنی برمحتوا و فیلترمشارکتی ارایه شده است. در این روش لیست پیشنهادی، دارای ویژگی هایی مانند کیفیت بالای قلم داده های پیشنهادی و تنوع آن ها است که دامنه ی اطلاعات دریافتی از کاربر را به سرعت گسترش می دهد، به همین دلیل کاربران را سریع تر از حالت شروع سرد خارج می کند. همچنین با استفاده از اطلاعات دموگرافیک کاربر، سعی شده قلم داده های لیست پیشنهادی به نحوی انتخاب شوند که به علایق کاربر نزدیک تر باشند تا دقت بیشتر شود. نتایج ارزیابی روش پیشنهادی نشان می دهد میزان خطای MAE و RMSE نسبت به روش های موجود تا حد مطلوبی کاهش یافته است.
کلید واژگان: سیستم پیشنهاددهنده، مشکل شروع سرد، روش مبتنی بر محتوا، روش فیلتر مشارکتی، تنوعOne of the main challenges of increasing information in the new era, is to find information of interest in the mass of data. This important matter has been considered in the design of many sites that interact with users. Recommender systems have been considered to resolve this issue and have tried to help users to achieve their desired information; however, they face limitations. One of the most important challenges that they face is cold-start problem, which is raised when a new user/item entered into the system, while no previous information is available for it. The lack of previous knowledge of the new user/item, will causes the system fails generating its suggestions normally. In this paper, to solve the problem of cold-start user/item a new method is presented using combining content-based models and collaborative filtering. Moreover, demographic data is used to recommend the nearest items to cold-start users/items' interests. Compared to existing methods, the evaluation results show that the proposed method reduces the MAE and RMSE error.
Keywords: Recommender Systems, Cold-Start Problem, Content-Based Method, Collaborative Filtering Method, Quality, Diversity -
Today world''s dependence on the Internet and the emerging of Web 2.0 applications significantly increased the requirement of web robots crawling the sites to support services and technologies. Regardless of the advantages of robots, they may occupy the bandwidth and reduce the performance of web servers. Despite a variety of researches, there is no accurate method for classifying huge data sets of web visitors in a reasonable amount of time. Moreover, this technique should be insensitive to the ordering of instances and produce deterministic accurate results. Therefore, this paper presents a density-based clustering approach using Density-Based Spatial Clustering of Applications with Noises (DBSCAN), to classify web visitors of two real large data sets. We propose two new features based on the behavioral patterns of visitors to describe them. What''s more, we consider 12 common features and use the significance of the difference test (T-test) to reduce the dimensions and overcome one of the disadvantages of DBSCAN. Based on the supervised evaluation metrics, the proposed algorithm has the 95% of Jaccard metric and produces two clusters having the entropy and purity rates of 0.024 and 0.97, respectively. Furthermore, from the standpoint of clustering quality and accuracy, the proposed method performs better than state-of the-art algorithms. Finally, it can be concluded that some known web robots through imitating human users make it difficult to be identified.
- در این صفحه نام مورد نظر در اسامی نویسندگان مقالات جستجو میشود. ممکن است نتایج شامل مطالب نویسندگان هم نام و حتی در رشتههای مختلف باشد.
- همه مقالات ترجمه فارسی یا انگلیسی ندارند پس ممکن است مقالاتی باشند که نام نویسنده مورد نظر شما به صورت معادل فارسی یا انگلیسی آن درج شده باشد. در صفحه جستجوی پیشرفته میتوانید همزمان نام فارسی و انگلیسی نویسنده را درج نمایید.
- در صورتی که میخواهید جستجو را با شرایط متفاوت تکرار کنید به صفحه جستجوی پیشرفته مطالب نشریات مراجعه کنید.