deep neural networks
در نشریات گروه فناوری اطلاعات-
بهبود کیفیت تصاویر در حوزه بینایی کامپیوتری به عنوان یکی از چالش های کلیدی مطرح شده است. در این مقاله، یک مدل جدید شبکه عصبی مولد متخاصم وضوح فوق العاده مبتنی بر توجه معرفی شده است که با ترکیب مدل های شبکه بهبود وضوح تصویر واقعی و شبکه توجه کانال محور رسوبی برای بهبود بازسازی تصاویر با وضوح بالا و کاهش اعوجاج ها و نویزهای پیچیده توسعه داده شده است. اعوجاج های تصویر شامل تحریفات هندسی، تاری و از بین رفتن جزئیات هستند که در تصاویر با وضوح پایین یا فشرده شده معمولا مشاهده می شوند.در این مدل، قابلیت های شبکه بهبود وضوح تصویر واقعی برای کاهش نویز و افزایش وضوح به همراه توانایی شبکه توجه کانال محور رسوبی در حفظ جزئیات دقیق به کار گرفته شده اند. نتایج تجربی بر روی چند نمونه از مجموعه داده های شناخته شده در این حوزه نشان داده است که مدل پیشنهادی بهبود عملکردی حدود 5 درصد به طور متوسط در معیار PIQEو... را نسبت به روش های موجود مانند شبکه بهبود وضوح تصویر با تقویت توجه و شبکه بهبود وضوح تصویر واقعی در معیارهای شناخته شده بازسازی کور تصویر ارائه داده است. این بهبودها، مدل را قادر ساخته اند تا تصاویر را با وضوح بالا و حداقل اعوجاج و نویز بازسازی کند.
کلید واژگان: بهبود کیفیت تصاویر، شبکه های مولد متخاصم، مکانیزم توجه کانالی، بازسازی تصاویر با وضوح بالا، اعوجاج تصویر، شبکه های ترکیبی، شبکه های عصبی عمیقImproving the quality of images in the field of computer vision has been raised as one of the keychallenges. In this paper, a new attention-based super-resolution adversarial generative neuralnetwork model is introduced, which is developed by combining real image resolution enhancementnetwork models and residual channel-based attention network to improve reconstruction of highresolutionimages and reduce complex distortions and noises. Image distortions include geometricdistortions, blurring, and loss of detail commonly seen in low-resolution or compressed images. Inthis model, the capabilities of the real-world image enhancement network to reduce noise andenhance clarity along with the ability of the residual channel-oriented attention network to preserveFine details are used. Experimental results on several examples of well-known data sets in this fieldhave shown that the proposed model improves the performance by about 5% on average in PIQEand . compared to existing methods such as attention enhancement network and real imageresolution enhancement network in well-known measures of blind image reconstruction. Theseimprovements have enabled the model to reconstruct images with high resolution and minimaldistortion and noise.
Keywords: Image Quality Improvement, Adversarial Generative Networks, Channel Attention Mechanism, High Resolution Image Reconstruction, Image Distortion, Deep Neural Networks -
With the appearance of deep neural networks, and at the head of it, convolutional neural networks, a great revolution in machine vision was created. Also, the growth of video data and the need for automated processing of this data type have made deep neural network usage increasingly important. There are several methods to recognize the type of movement in the videos. One of the methods is using LSTM and a convolutional neural network in order to extract the time dependencies from video images more accurately. In this study, we present an extended version of the LSTM that can learn longer temporal dependencies. Besides the convolutional neural network, our extended version of the LSTM forms a strong structure to recognize human activity. The results of this study on data set UCF 101 and HMDB51 show that the presented architecture, with a performance accuracy of 96.28 on data set UCF101 and 78.02 on data set HMDB51, performs better than the most similar methods.
Keywords: Action Recognition, Deep Neural Networks, LSTM, CNN -
شبکه های عصبی عمیق به دلیل موفقیت در کاربردهای مختلف، به جذابیت فوق العاده ای دست یافته اند. اما پیچیدگی محاسبات و حجم حافظه از موانع اصلی برای پیاده سازی آن ها در بسیاری از دستگاه های نهفته تلقی می شود. از مهم ترین روش های بهینه سازی که در سال های اخیر برای برطرف نمودن این موانع ارائه شده، می توان به کوانتیزاسیون و هرس کردن اشاره کرد. یکی از روش های معروف کوانتیزاسیون، استفاده از نمایش اعداد چندرقمی باینری است که علاوه بر بهره بردن از محاسبات بیتی، افت صحت شبکه های باینری را در مقایسه با شبکه های دقت کامل کاهش می دهد. اما به دلیل نداشتن قابلیت نمایش عدد صفر در آن ها، مزایای تنکی داده ها را از دست می دهند. از طرفی، شبکه های عصبی عمیق به صورت ذاتی تنک هستند و با تنک کردن پارامترهای شبکه عصبی عمیق، حجم داده ها در حافظه کاهش می یابد و همچنین به کمک روش هایی می توان انجام محاسبات را تسریع کرد.در این مقاله می خواهیم هم از مزایای کوانتیزاسیون چند رقمی و هم از تنکی داده ها بهره ببریم. برای این منظور کوانتیزاسیون چند رقمی ترنری برای نمایش اعداد ارائه می دهیم که علاوه بر افزایش صحت شبکه نسبت به شبکه چندرقمی باینری، قابلیت هرس کردن را به شبکه می دهد. سپس میزان تنکی در شبکه کوانتیزه شده را با استفاده از هرس کردن افزایش می دهیم. نتایج نشان می دهد که تسریع بالقوه شبکه ما در سطح بیت و کلمه می تواند به ترتیب 15 و 45 برابر نسبت به شبکه چند رقمی باینری پایه افزایش یابد.
کلید واژگان: شبکه های عصبی عمیق، کوانتیزاسیون چند رقمی ترنری، شبکه عصبی تنک، هرس کردن، دستگاه های نهفتهDeep neural networks (DNNs) have achieved great interest due to their success in various applications. However, the computation complexity and memory size are considered to be the main obstacles for implementing such models on embedded devices with limited memory and computational resources. Network compression techniques can overcome these challenges. Quantization and pruning methods are the most important compression techniques among them. One of the famous quantization methods in DNNs is the multi-level binary quantization, which not only exploits simple bit-wise logical operations, but also reduces the accuracy gap between binary neural networks and full precision DNNs. Since, multi-level binary can’t represent the zero value, this quantization does’nt take advantage of sparsity. On the other hand, it has been shown that DNNs are sparse, and by pruning the parameters of the DNNs, the amount of data storage in memory is reduced while computation speedup is also achieved.
In this paper, we propose a pruning and quantization-aware training method for multi-level ternary quantization that takes advantage of both multi-level quantization and data sparsity. In addition to increasing the accuracy of the network compared to the binary multi-level networks, it gives the network the ability to be sparse. To save memory size and computation complexity, we increase the sparsity in the quantized network by pruning until the accuracy loss is negligible. The results show that the potential speedup of computation for our model at the bit and word-level sparsity can be increased by 15x and 45x compared to the basic multi-level binary networks.Keywords: Deep Neural Networks, Multi-Level Ternary Quantization, Sparse Neural Network, Pruning, Embedded Devices -
Video Quality Assessment (VQA) is a critical component of various technologies, including automated video broadcasting through displaying technologies. Moreover, determining visual quality necessitates a balanced examination of visual features and functionality. Previous research has also shown that features derived from pre-trained models of Convolutional Neural Networks (CNNs) are extremely useful in various image analysis and computer vision activities. Based on characteristics collected from pre-trained models of deep neural networks, transfer learning, periodic pooling, and regression, we created a unique architecture for No Reference Video Quality Assessment (NR-VQA) in this research. We were able to get results by solely employing dynamically pooled deep features and avoiding the use of manually produced features. This study describes a novel, deep learning-based strategy for NR-VQA that uses several pre-trained deep neural networks to characterize probable image and video distortions across parallel. A set of pre-trained CNNs extract spatially pooling and intensity-adjusted video-level feature representations, which are then individually mapped onto subjective peer assessments. Ultimately, the perceived quality of a video series is calculated by combining the quality standards from the various regressors. Numerous researches demonstrate that the suggested approach on two large baseline video quality analysis datasets with realistic aberrations sets a new state-of-the-art. Furthermore, the findings show that combining the decisions of different deep networks can greatly improve NR-VQA.Keywords: Video quality assessment, No reference video quality assessment, deep neural networks
-
یکی از مهمترین موضوعات در پردازش تصویر حذف نویز می باشد تا بتوان کیفیت تصویر را بهبود بخشید. از آنجاییکه شبکه های عصبی عمیق به تنهایی با افزایش عمق شبکه با مشکلاتی مانند محو گرادیان مواجه می شوند و نمی توانستند جزییات را به خوبی برای یک وظیفه خاص پوشش دهند در این مقاله، با کاهش عمق شبکه و افزایش پهنای آن، امکان استخراج ویژگی های متنوع از کانال های مختلف فراهم می شود، که این امر منجر به افزایش دقت شبکه می گردد. با افزایش پهنای شبکه به دو انشعاب، اطلاعات متفاوتی از تصویر نویزی استخراج می شود که این عمل برای تفکیک داده های نویزی از تصویر بسیار موثر است. اثر توجه به ویژگی ها در هر کانال و وزن دهی آنها در عملیات حذف نویز نیز در نظر گرفته می شود. در نهایت برای بررسی کارامدی روش پیشنهادی، نتایج با آخرین دستاوردهای این حوزه مقایسه می شوند. نتایج شبیه سازی با بررسی دو معیار PSNR و SSIM و هم از نگاه بصری نشان می دهد این روش در مقابله با انواع نویز ترکیبی و کور جهت انجام کارهای پردازشی در حد قابل قبولی می باشد و از طرفی استفاده از اثر توجه و شبکه های موازی می تواند در مواجهه با نویز حقیقی بسیار موثر باشد و توانسته است به میانگین PSNR=36.34db دست یابدکلید واژگان: حذف نویز، شبکه های عصبی عمیق، شبکه های کانولوشنی موازی، مکانیزم توجه، استخراج ویژگیNoise reduction of digital images using attention effect and depth reduction of deep neural networksNoise removal is one of the important topics in image processing to improve image quality. Since deep neural networks alone face problems such as vanishing gradient by increasing the depth of the network and could not cover the details well for a specific task, in this paper, by reducing the depth of the network and increasing its width, it is possible to obtain diverse features from different channels, which increases the accuracy of the network. By increasing the width of the network into two branches, different information is extracted from the noisy image, which is very accurate for separating noisy data from the image. The effect of attention to the features in each channel and their weighting in the noise removal operation is also considered. Finally, to check the effectiveness of the proposed method, the results are compared with the state of the art results in this field. The simulation results by examining both PSNR and SSIM and from a visual point of view show that this method is acceptable in dealing with various types of synthetic and blind noises for performing processing, and on the other hand, using the effect of attention and parallel networks can be achieved with PSNR=36.34db, which is very effective in real noise.Keywords: Denoising, deep neural networks, parallel convolutional networks, attention mechanism, Feature Extraction
-
در دهه های اخیر، تکنیک های مختلفی در حوزه بینایی کامپیوتر، برای طبقه بندی و شناسایی صحنه ها در فضاهای مختلف، بر روی تصاویر طیف مریی ارایه شده است. در این مقاله، ابتدا یک پایگاه داده تصویری چند طیفی، شامل زوج تصاویر طیف مریی رنگی و فروسرخ ایجاد می شود. سپس با تجزیه تصاویر طیف مریی و فروسرخ، به وسیله تبدیل موجک و استفاده از یک روش وزن دهی مبتنی بر آموزش شبکه های عصبی پیچشی ژرف، همجوشی تصاویر انجام می شود. همچنین این رویکرد، با چندین روش همجوشی دیگر و با استفاده از معیارهای ارزیابی کمی، مقایسه می شود. در نهایت، با استفاده از معماری های مبتنی بر شبکه های عصبی پیچشی ژرف آموزش دیده ، تصاویر صحنه های مختلف، طبقه بندی می شوند. برای آموزش این شبکه ها بر روی مجموع تصاویر این پایگاه داده کوچک، از رویکرد یادگیری انتقالی، استفاده می شود تا طبقه بندی صحنه، با کمترین هزینه محاسباتی انجام گیرد. نتایج تجربی نشان می دهند که روش پیشنهادی، در طبقه بندی صحنه، که به صورت همجوشی تصاویر چهارکاناله (RGB-IR) صورت گرفته است، کارآمد بوده و ضمن داشتن معیارهای کمی همجوشی بالاتر، منجر به عملکرد بهتر، در مقایسه با سایر رویکردهای همجوشی تصاویر چندطیفی و با دقت طبقه بندی 96.67% می شود.
کلید واژگان: شناسایی صحنه، تصاویر چندطیفی، همجوشی، شبکه های عصبی پیچشی ژرف، یادگیری انتقالی، تبدیل موجکIn recent decades, various techniques in the field of computer vision have been proposed to classify and identify scenes in different spaces on visible spectrum images. Recently, improvements in various areas of machine vision using complementary features in visible and infrared images have been reported by researchers. This approach can also work for the subject of scene recognition. In this paper, we first create a multispectral image database, including pairs of color-visible and infrared spectrum images. Then, the images are fused by wavelet transform and using a weighting method based on training the deep convolutional neural networks. This approach is also compared with several other fusion methods using quantitative evaluation criteria. Finally, images of different scenes are classified using architectures based on deeply trained convolutional neural networks. Transfer learning approach is also used to classify the scene with the least computational cost. Experimental results show that the proposed method has been effective in scene classification, which is done by fusion of four-channel images (RGB-IR) with a classification accuracy of 96.67%. This method also shows better quantitative fusion criteria than other multispectral image fusion approaches.
Keywords: Scene Recognition, multi-spectral images, Fusion, deep neural networks, Transfer learning, wavelet transform -
Q&A forums are designed to help users in finding useful information and accessing high-quality content posted by other users in text forums. Automatically identifying high-quality replies posted in response to the initial posts not only provides users with appropriate content, but also saves their time. Existing methods for classifying user replies based on their quality, try to extract quality features from both the textual content and metadata of the replies. This feature engineering step is a time and labor-intensive task. The current study addresses this problem by proposing new model based on deep learning for detecting quality user replies using only raw textual content. Specifically, we propose a long short-term memory (LSTM) model that exploits the embeddings from language models (ELMo) for representing words as contextual numerical vectors. We compared the effectiveness of the proposed model with four traditional machine learning models on the TripAdvisor for New York City (NYC) and the Ubuntu Linux distribution online forums datasets. Experimental results indicated that the proposed model significantly outperformed the four traditional algorithms on both datasets. Moreover, the proposed model achieved about 16% higher accuracy compared to that obtained by the traditional algorithms trained on both textual and quality dimension features.
Keywords: Text Classification, deep neural networks, Social Media Text Processing, Machine Learning
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.