جستجوی مقالات مرتبط با کلیدواژه « Dataset » در نشریات گروه « برق »
تکرار جستجوی کلیدواژه « Dataset » در نشریات گروه « فنی و مهندسی »-
Providing a dataset with a suitable volume and high accuracy for training deep neural networks is considered to be one of the basic requirements in that a suitable dataset in terms of the number and quality of images and labeling accuracy can have a great impact on the output accuracy of the trained network. The dataset presented in this article contains 3000 images downloaded from online Iranian car sales companies, including Divar and Bama sites, which are manually labeled in three classes: car, truck, and bus. The labels are in the form of 5765 bounding boxes, which characterize the vehicles in the image with high accuracy, ultimately resulting in a unique dataset that is made available for public use.The YOLOv8s algorithm, trained on this dataset, achieves an impressive final precision of 91.7% for validation images. The Mean Average Precision (mAP) at a 50% threshold is recorded at 92.6%. This precision is considered suitable for city vehicle detection networks. Notably, when comparing the YOLOv8s algorithm trained with this dataset to YOLOv8s trained with the COCO dataset, there is a remarkable 10% increase in mAP at 50% and an approximately 22% improvement in the mAP range of 50% to 95%.
Keywords: Dataset, Object Detection, YoloV8s, Vehicle Dataset, Deep Neural Network} -
This paper aims to study the appropriate data mining method to extract the rules from a data set and examining the benefits of using the cuckoo algorithm to extract association rules and compare the execution time of the cuckoo algorithm and genetic algorithm (GA). Therefore, an algorithm is proposed that includes two parts: preprocessing and mining. The first part presents the procedures related to the calculation of cuckoo fit values and in the second part of the algorithm, which is the main achievement of this research. Support and confidence The best position can show the least confidence and support.These mining results can be used to continue mining the association rules. The proposed algorithm is based on the cuckoo search. It hides the sensitive relationship rules with a lower time cost and, at the same time, controls the peripheral effects of non-sensitive rules in a better way. This aim is achieved using recurring to the objective function. The GA is set to be the evaluation criterion to show the prominence of the proposed method. In this method, we compare the speed of the cuckoo algorithm with the genetic algorithm, which uses genetic evolution as a problem-solving model. In general, it is an algorithm based on repetition, most of its parts are selected as random processes, and these algorithms are part of the fitting function. It was chosen as a criterion and we paid .It is scientifically proven that the cuckoo algorithm outperforms the GA in the execution time.Keywords: Association rules mining, Genetic Algorithm (GA), cuckoo algorithm, sensitive relationship, non-sensitive relationship, Data mining, Association rules, Dataset, time complexity, Performance Improvement}
-
The purpose of stance detection is to identify the author's stance toward a particular topic or claim. Stance detection has become a key component in applications such as fake news detection, claim validation, argument searching, and author profiling. Although significant progress has been made in stance detection in languages such as English, little attention has been paid in some other languages, including Persian. One of the main problems of research in Persian stance detection is the shortage of appropriate datasets. In this article, to address this problem, we consider data augmentation, the artificial creation of training data, which is used to conquer the shortage of datasets. In this research, we studied several methods of data augmentation such as EDA, back-translation, and merging source dataset with similar one in English language. The experimental results indicate that combining the primary data set with the translation of another dataset with similar content in another language (for example English) result in a significant improvement in the performance of the model.
Keywords: stance detection, data augmentation. fake news, dataset} -
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه میکند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دستهبندی و عدم رعایت استاندارد ذخیرهسازی از نمونه مشکلات مجموعه دادگان موجود میباشد که هرکدام از این موارد میتواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایشها تاثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمعآوری و تهیه مجموعه دادگانی باشیم که تمام اینگونه مشکلات را پوشش و میزان خطا هنگام بهکارگیری دادهها در مدلهای مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاه های خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. داده های متنی به کمک یکی از کتابخانههای مخصوص زبان فارسی در زبان برنامهنویسی پایتون، نرمالسازی شده و در دو فرمت csv و xml ذخیرهسازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بینالملل، اقتصادی و استانها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دستهبندی متن، استخراج متن، خلاصهسازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد دادههای مناسب، وجود ویژگیهای مفید، دارا بودن ویژگیهای منحصربهفرد و همچنین ذخیرهسازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) میباشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده میباشد.
کلید واژگان: مجموعه داده, اخبار فارسی, پردازش زبان طبیعی, مجموعه داده اخبار فارسی, یادگیری ماشین, دسته بندی متن, استخراج متن, خلاصه سازی متن, تشخیص عنوان}Journal of New Achievements in Electrical, Computer and Technology, Volume:2 Issue: 3, 2022, PP 103 -121Although the lack of data is one of the important challenges for research in the field of natural language processing, but this challenge is more acute in the Persian language, so finding a high-quality and comprehensive dataset in the Persian language is a difficult task. In addition to that, having some problems such as the ability to categorize and not complying with the storage standard are among the problems of the existing datasets, each of which can affect the learning rate of the model, the results, and the error rate in the experiments. For this reason, all these reasons made us seek to collect and prepare a dataset that covers all such problems and reduces the amount of error when using data in different models. In this research, we have designed and used a crawler to collect textual data. By crawling on one of the news bases, it has been able to collect data sets in five columns: title, summary, text, tag, and publication date. The textual data has been normalized with the help of one of the Persian language libraries in the Python programming language and stored in csv and xml formats and made available to fellow researchers. The tags in this dataset include 13 main tags of sports, art and media, culture, science and progress, political, foreign policy, life, family, society, education and training, international, economic and provinces. Among the tasks that can be done on this data set are text classification, text extraction, text summarization and title recognition. Also, one of the prominent features of this data set is its comprehensiveness, the amount of suitable data, the existence of useful features, having unique features, as well as storage in a standard format. This dataset is a product of the Language Processing Department of Imam Hossein Comprehensive University and can be downloaded and used through the link mentioned in the footnote of the next page and with respect to copyright.
Keywords: dataset, Persian news, natural language processing, Persian news dataset, machinelearning, text classification, text extraction, text summarization, title recognition} -
اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز توانایی در کار کردن و تخمین مقدار داده گمشده در مجموعه داده ها، به طور مکرر مورد استفاده قرار گرفته است. پژوهشگران و محققان روش ها و الگوهای متعددی جهت برخورد با مقادیر داده گمشده و تخمین مقدار آن در مجموعه داده های الگوریتم C4.5 ارائه داده اند که هر یک از روش ها به نحوی موجب افزایش دقت درخت تصمیم و در نتیجه تولید یک درخت تصمیم موثر و کاراتر شده است. لذا در مقاله حاضر ابتدا به بررسی و مرور روش ها و راهکارهای ارائه شده پیشین و سپس به ارائه روش پیشنهادی با عنوان روش جابجایی خصوصیت ها جهت تخمین مقادیر گمشده در مجموعه داده پرداخته خواهد شد و سپس در پایان به مقایسه و ارزیابی دقت حاصل شده روش پیشنهادی با روش های حذف و میانگین خواهیم پرداخت.
کلید واژگان: داده کاوی, داده گمشده, الگوریتم C4, 5, مجموعه داده, درخت تصمیم}Most Datasets related to data mining and machine learning contain data with missing values. How to deal with missing values and to provide solutions based on estimating missing values lead to a very important issue in the field of machine learning and data mining. Among data mining algorithm, the C4.5 algorithm has been used repeatedly because of performance being used in various applications and also ability in working and estimating missing values in data sets. Researchers have presented various methods for deal with missing values and estimating it’s amount in a C4.5 data sets which any of their method causes an increase in accuracy of decision tree and there for produce a more effective and efficient decision. In this paper, for estimating missing values in data sets, at the first, we review the previous methods then the proposed approach as a displacement properties method and in the end the accuracy of proposed methods for deletion and average will be comparing.
Keywords: Data Mining, Missing Values, C4.5 Algorithm, Dataset, Decision Tree} -
Data clustering is a popular analysis tool for data statistics in several fields, including includes pattern recognition, data mining, machine learning, image analysis and bioinformatics, in which the information to be analyzed can be of any distribution in size and shape. Clustering is effective as a technique for discerning the structure of and unraveling the complex relationship between massive amounts of data. See-See partridge chicks optimization (SSPCO) algorithm is a new optimization algorithm that is inspired by the behavior of a type of bird called see-see partridge. We propose chaotic map SSPCO optimization method for clustering, which uses a chaotic map to adopt a random sequence with a random starting point as a parameter, the method relies on this parameter to update the positions and velocities of the chicks. In the study, twelve different clustering algorithms were extensively compared on thirteen test data sets. The results indicate that the performance of the Chaotic SSPCO method is significantly better than the performance of other algorithms for data clustering problems.Keywords: SSPCO Algorithm, Chaotic, Clustering, Clustering Error, Dataset}
-
در بازشناسی دست نوشته ها به صورت برخط (یا برون خط)، آگاهی از انواع نوشتن حروف در کلمه ها ضروری است. در این مقاله، پایگاه داده برخط دانشگاه تربیت مدرس را انتخاب کرده ایم -که شامل حدود 10،000 نمونه از 1،000 زیرکلمه پرکاربرد فارسی است- و گروه بندی های متفاوت را از نظر بدنه اصلی و اجزای کوچک زیرکلمه ها معرفی کرده ایم. در بخش دیگر مقاله، به بررسی انواع دستخط می پردازیم و مهم ترین شکل های متفاوت نوشتن حروف را پیدا می کنیم. سپس با توجه به آن ها، زیرکلمه ها را گروه بندی می نماییم. بررسی فراوانی حروفی که به چند شکل نوشته می شوند و تحلیل آن ها از مباحث نهایی این مقاله است. نتایج اولیه بهبود موثر دقت بازشناسی را با انجام گروه بندی بر اساس انواع نوشتن حروف، نشان می دهد.
کلید واژگان: پایگاه داده, دست نوشته برخط, دستخط, فارسی, بازشناسی}Knowledge of the styles of writing letters in the word is necessary in recognition of online (or offline) handwriting. In this paper, we have chosen Tarbiat Modarres University (TMU) dataset which includes about 10,000 samples from the 1000 Farsi useful subwords. Different grouping based on the main body and the small signs of the subwords have been introduced. Diverse styles of Farsi handwriting were investigated and the most important forms of letters writing were found. Then, the subwords were classified according to their styles. Frequency of letters that are written in different forms was discussed and analyzed. The results showed effective improvement in recognition rate using grouping based on the writing styles of letters.
Keywords: Dataset, Online handwriting, Writing styles, Farsi, Recognition}
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.