به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

parallel processing

در نشریات گروه فنی و مهندسی
  • H. Roodaki *
    Background and Objectives
    From the multiview recorded video, free viewpoint video provides flexible viewpoint navigation. Thus, a lot of views need to be sent to the receivers in an encoded format. The scalable nature of the coded bitstream is one method of lowering the volume of data. However, adhering to the limitations of the free viewpoint application heavily relies on the kind of scalable modality chosen. The perceptual quality of the received sequences and the efficiency of the compression technique are significantly impacted by the scalable modality that was chosen.
    Methods
    In order to address the primary issues with free-viewpoint video, such as high bandwidth requirements and computational complexity, this paper suggests a scalable framework. The two components of the suggested framework are as follows: 1) introducing appropriate scalable modality and data assignment to the base and enhancement layers; and 2) bit budget allocation to the base and enhancement layers using a rate control algorithm. In our novel scalable modality, termed Tile-based scalability, the idea of Region of Interest (ROI) is employed, and the region of interest is extracted using the tile coding concept first presented in the MV-HEVC.
    Results
    When compared to the state-of-the-art techniques, our approach's computational complexity can be reduced by an average of 44% thanks to the concept of tile-coding with parallel processing capabilities. Furthermore, in comparison to standard MV-HEVC, our suggested rate control achieves an average 17.7 reduction in bandwidth and 1.2 improvement in video quality in the Bjøntegaard-Bitrate and Bjøntegaard-PSNR scales.
    Conclusion
    Using new tile-based scalability, a novel scalable framework for free-viewpoint video applications is proposed. It assigns appropriate regions to the base and enhancement layers based on the unique features of free viewpoint scalability. Next, a rate control strategy is put forth to allocate a suitable bitrate to both the base and enhancement layers. According to experimental results, the suggested method can achieve a good coding efficiency with significantly less computational complexity than state-of-the-art techniques that used the λ-domain rate control method.
    Keywords: Tile-based Scalability, Region of Interest, λ-domain rate control algorithm, MV-HEVC, Parallel processing
  • حسین محمودی داریان*

    در مقاله حاضر یک بررسی بر موازی سازی چند حلگر تکراری دستگاه معادلات خطی حاصل از گسسته سازی معادله پواسون به روش تفاضل محدود انجام می شود. به طور خاص روش های تکراری فوق تخفیف گاوس سایدل نقطه ای و خطی و همچنین روش های گرادیان مزدوج و گرادیان دومزدوج پایدار شده بررسی می گردد. برای روش های فوق تخفیف از ضریب فوق تخفیف بهینه استفاده می شود. موازی سازی ابتدا برای یک پردازنده مرکزی چند هسته ای با زبان برنامه نویسی سی پلاس پلاس و کتابخانه اپن ام پی و سپس برای یک پردازنده گرافیکی با زبان برنامه نویسی کودا صورت می گیرد. نتایج حاصل از حل معادله دو بعدی و همچنین معادله سه بعدی نشان می دهد روش های گرادیان مزدوج در بیشتر موارد به علت تعداد تکرار کمتر زمان اجرای کمتری دارند. بررسی زمان اجرای روش های مختلف نشان می دهد در یک پردازش 8 هسته ای نسبت به حالت تک هسته ای، افزایش سرعتی تا حدود 10 و 5 برابر به ترتیب در حل معادلات دو بعدی و سه بعدی حاصل می گردد. علاوه بر آن، استفاده از پردازنده گرافیکی نسبت به حالت 8 هسته ای موجب افزایش سرعت بین 5 تا 10 برابر می شود.

    کلید واژگان: پردازش موازی، کودا، فوق تخفیف، روش گرادیان مزدوج، معادله پواسون
    Hossein Mahmoodi Darian *

    In the present article, a survey is carried out on the parallelization of several iterative solvers of the system of linear equations resulting from the discretization of the Poisson equation using the finite difference method. In particular, the point and line Gauss-Seidel successive over-relaxation methods, as well as the conjugate gradient and stabilized biconjugate gradient methods are investigated. For the over-relaxation methods, the optimum over-relaxation coefficient is used. The parallelization is first carried out on a multi-core central processor using C++ programming language and the OpenMP library, and then for a graphics processing unit using CUDA programming language. The results show, for both the two-dimensional and three-dimensional equations, the conjugate gradient methods due to a smaller number of iterations, have less computation time. Comparing the execution time of the different methods shows that for an 8-core processing, speedups of about 10 and 5 are achieved for the two- and three-dimensional equations, respectively. Furthermore, using a graphics processing unit leads to speedups between 5 and 10 in comparison to the 8-core processing.

    Keywords: Parallel Processing, CUDA, Underrelaxation, Conjugate Gradient Method, Poisson Equation
  • شهریار افندیزاده*، نفیسه دوستی فرد، حمید میرزاحسین

    باتوجه به اینکه مساله انتخاب مسیر مسافر و پارامترهای دخیل در آن در دهه ها مورد توجه و مطالعه برنامه ریزان و سیاست گذاران حمل ونقل بوده است؛ در این مقاله سعی شده است تا با بررسی و بهبود مدل ریاضی انتخاب مسیر مسافران در مطالعات پیشین، افزایش کارایی محاسباتی و کاهش زمان پردازش داده ها مد نظر قرارگیرد. این موضوع از طریق چندهسته ای نمودن شیوه پردازش داده ها (پردازش موازی) برپایه اصلاح مدل های ریاضی ارایه شده در مطالعات پیشین، در قالب مدل تخصیص پویای حمل ونقل همگانی با الگوریتم کوتاه ترین مسیر مبتنی بر برنامه زمانی و زیرالگوریتم حذف سفر، انجام شده است. نتایج با خروجی های یک مدل غیرپویا مبتنی بر الگوریتم کوتاه ترین مسیر کمان-مبنا مقایسه گردید تا تاثیر در نظر گرفتن محدودیت ظرفیت و پویایی الگوریتم در زمان محاسبات و میزان دقت خروجی مورد سنجش قرار گیرد. نتایج نشان داد که با وجود افزایش میزان محاسبات به میزان 7/13 درصد نسبت به مدل پایه، اما به دلیل استفاده از پردازش موازی زمان حل مساله 20 درصد کاهش پیدا کرده است.

    کلید واژگان: شبکه حمل ونقل همگانی، تخصیص پویا، محدودیت ظرفیت، الگوریتم کوتاه ترین مسیر، پردازش موازی
    Shahriar Afandizadeh *, Nafiseh Doostifard, Hamid Mirzahossein

    Considering that the issue of choosing the passenger's route and the parameters involved in it has been the focus and study of transportation planners and policymakers for decades, in this article it has been tried to increase the computational efficiency and reduce the data processing time by examining and improving the mathematical model of passenger route selection in previous studies. This issue has been addressed through multi-core data processing (parallel processing) based on the modification of mathematical models presented in previous studies in the form of a public transport dynamic assignment model with the shortest path algorithm based on the schedule and the travel elimination sub-algorithm. The results were compared with the outputs of a non-dynamic model based on the shortest link-based algorithm to measure the effect of considering the capacity constraint and dynamics of the algorithm on the calculation time and the accuracy of the output. Even though the number of calculations went up by 13.7% compared to the basic model, the time it took to solve the problem went down by 20% because of parallel processing.

    Keywords: Public Transport Network, Dynamic Assignment, Capacity Constraint, Shortest Path Algorithm, ., Parallel Processing
  • احسان ایمانی فر، امیر اخوان*، علی اصغر آبنیکی

    جهت یابی منابع صوت به کمک روش های مبتنی بر آرایه فازی، اهمیت فراوانی در حوزه های مختلف از جمله سونار، بینایی ربات و تشخیص عیوب مکانیکی دارد. روش های شکل دهی پرتو وفقی، از جمله الگوریتم کمینه واریانس بدون اعوجاج از قدرت تفکیک بالایی نسبت به روش های غیروفقی برخوردار هستند؛ اما این برتری در ازای پیچیدگی محاسباتی این الگوریتم ها بدست آمده است. این مسئله باعث می شود در کاربردهایی که نیاز به جهت یابی زمان حقیقی منبع صوت دارند، به ندرت از این الگوریتم ها استفاده شود. از سوی دیگر، یک ویژگی مهم روش های شکل دهی پرتو وفقی از جمله کمینه واریانس، پتانسیل بالای این الگوریتم ها برای موازی سازی می باشد. هدف این مقاله، پیاده سازی موازی الگوریتم کمینه واریانس با به کارگیری واحد پردازنده گرافیکی (GPU)، به جای واحد پردازنده مرکزی (CPU) به منظور افزایش سرعت اجرا و رسیدن به حالت زمان حقیقی می باشد. برای دست یابی به این هدف از مدل برنامه نویسی کودا  برای پیاده سازی الگوریتم بر روی پردازنده گرافیکی استفاده شده است. به منظور بررسی عملکرد پیاده سازی موازی الگوریتم کمینه واریانس، دو مدل GPU متفاوت و همچنین CPU بکاربرده شده است. صحت عملکرد پیاده سازی های مختلف در این مقاله توسط داده های واقعی سونار و همچنین داده های شبیه سازی تایید گردید. نتایج نشان می دهد که می توان با استفاده از یک آرایه 64 حسگره، جهت منابع صوت زیر آب را با استفاده از الگوریتم کمینه واریانس به صورت زمان حقیقی و با قدرت تفکیک بالا تخمین زد.

    کلید واژگان: جهت یابی منابع صوت، الگوریتم کمینه واریانس، پردازش موازی، واحد پردازنده گرافیکی، مدل برنامه نویسی کودا
    Ehsan Imani Far, Amir Akhavan*, Ali Asghar Abniki

    Direction of Arrival (DOA) estimation of sound sources using phased array-based methods has a lot of importance in various fields, including sonar, robot vision and mechanical defect detection. Adaptive beamforming methods, such as the MVDR (Minimum Variance Distortionless Response) algorithm, have high resolution compared to non-adaptive methods; but this advantage is achieved in return for the computational complexity of these algorithms. This makes it hard to use these algorithms in applications that require real-time sound source DOA estimation. On the other hand, an important feature of the adaptive beamforming methods including MVDR is the high potential of these algorithms for parallelization. The purpose of this paper is the parallel implementation of the MVDR algorithm by employing GPU instead of CPU to increase the execution speed and achieve real-time mode. To achieve this purpose, the CUDA programming model has been used to implement the algorithm on the GPU. In order to investigate the performance of parallel implementation of the MVDR algorithm, two different GPUs, as well as CPUs, have been used. The performance validity of various implementations in this paper was confirmed by real sonar data as well as simulation data. The results show that using an array of 64 sensors, it is possible to estimate the DOA of underwater sound sources in real-time and with high resolution using the MVDR algorithm.

    Keywords: DOA estimation of sound sources, MVDR algorithm, Parallel processing, GPU, CUDA
  • R. Javanmardi, B. Ahmadi-Nedushan*

    In this research, the optimization problem of the steel-concrete composite I-girder bridges is investigated. The optimization process is performed using the pattern search algorithm, and a parallel processing-based approach is introduced to improve the performance of this algorithm. In addition, using the open application programming interface (OAPI), the SM toolbox is developed. In this toolbox, the OAPI commands are implemented as MATLAB functions. The design variables represent the number and dimension of the longitudinal beam and the thickness of the concrete slab. The constraints of this problem are presented in three steps. The first step includes the constraints on the web-plate and flange-plate proportion limits and those on the operating conditions. The second step consists of considering strength constraints, while the concrete slab is not yet hardened. In the third step, strength and deflection constraints are considered when the concrete slab is hardened. The AASHTO LRFD code (2007) for steel beam design and AASHTO LRFD (2014) for concrete slab design are used. The numerical examples of a sloping bridge with a skew angle are presented. Results show that active constraints are those on the operating conditions and component strength and that in terms of CPU time, a 19.6% improvement is achieved using parallel processing.

    Keywords: optimization, CSI OAPI, SM toolbox, steel-concrete composite I-girder bridges, parallel processing, pattern search algorithm
  • علی فوادالدینی، سید علیرضا ذوالفقاری*، حسین محمودی داریان

    در تحقیق حاضر، رویکرد جدید ADI-CEIDD با ترکیب روش ضمنی جهت متغیر و روش تقسیم دامنه صریح-ضمنی برای حل معادله انتقال حرارت هدایت دو بعدی روی پردازنده گرافیکی ارایه شده است. در این روش تخمین مقادیر مرزی با یک طرح عددی صریح صورت گرفته و برای حل درون زیردامنه ها از یک طرح ضمنی برمبنای روش ADI استفاده می شود. سپس از یک طرح ضمنی برای تصحیح مقادیر روی مرز استفاده می شود. در این روش تعداد دستگاه معادلات مستقل افزایش یافته و نخ های بیشتری برای پنهان کردن تاخیر حافظه فعال می شوند. همچنین، آزمایش عددی برای تحلیل دقت و سرعت روش به انجام رسیده است. نتایج تحقیق نشان می دهد که با تقسیم دامنه در روش ADI-CEIDD می توان سرعت حل را بین 3/1 تا 6/2 برابر در مقایسه با روش ADI افزایش داد. در روش ارایه شده با افزایش تعداد تقسیمات دامنه از 2 به 32 سرعت روش ارایه شده تا 6/1 برابر افزایش و دقت پاسخ کاهش می یابد. خطای روش ارایه شده از روش ADI بیشتر است با این حال آزمایش های عددی نشان دهنده پایداری بالای روش ارایه شده است. همچنین نتایج نشان می دهد که مزیت روش ADI-CEIDD در اندازه شبکه های کوچک بیشتر از اندازه شبکه های بزرگ است بگونه ای که با افزایش اندازه شبکه از 256*256 به 512*512 مقدار پارامتر افزایش سرعت از 4/2 به 7/1 کاهش می یابد.

    کلید واژگان: دینامیک سیالات محاسباتی، پردازش موازی، پردازنده گرافیکی، حلگر ضمنی جهت متغیر، تقسیم دامنه صریح-ضمنی
    Ali Foadaddini, Alireza Zolfaghari *, Hossein Mahmoodi Darian

    In the present study, the new ADI-CEIDD approach is proposed by combining the ADI method with the explicit-implicit domain decomposition method. The method is used for solving the two-dimensional conduction heat transfer equation on GPU .In this method, an explicit numerical scheme is used to predict values at inner boundaries and an implicit scheme based on the ADI method is used to solve the sub-domains. Then, an implicit scheme is used to correct the values on the inner boundary. The present method increases the number of independent sets of equations and enables more threads to occupy the device. Numerical experiments are done to investigate the accuracy and speed of the method. The results show that the ADI-CEIDD can achieve a speedup of 1.3 to 2.6 times compared to the ADI method. By increasing the number of subdomains from 2 to 32, the speed of the proposed method is increased up to 1.6 times and the accuracy decreases. Although the error of the presented method is higher than the ADI method, numerical experiments show high stability of the ADI-CEIDD. Furthermore, the results show that the ADI-CEIDD method is more advantageous to problems with coarse grid. By increasing the grid size from 256 * 256 to 512 * 512, the value of the Sp decreases from 2.4 to 1.7.

    Keywords: CFD, Parallel Processing, GPU, ADI Method, CEIDD
  • S. Shadravan, H. Naji *, V. Khatibi

    The SailFish Optimizer (SFO) is a metaheuristic algorithm inspired by a group of hunting sailfish that alternates their attacks on group of prey. The SFO algorithm takes advantage of using a simple method for providing the dynamic balance between exploration and exploitation phases, creating the swarm diversity, avoiding local optima, and guaranteeing high convergence speed. Nowadays, multi agent systems and metaheuristic algorithms can provide high performance solutions for solving combinatorial optimization problems. These methods provide a prominent approach to reduce the execution time and improve of the solution quality. In this paper, we elaborate a multi agent based and distributed method for sailfish optimizer (DSFO), which improves the execution time and speedup of the algorithm while maintaining the results of optimization in high quality. The Graphics Processing Units (GPUs) using Compute Unified Device Architecture (CUDA) are used for the massive computation requirements in this approach. In depth of the study, we present the implementation details and performance observations of DSFO algorithm. Also, a comparative study of distributed and sequential SFO is performed on a set of standard benchmark optimization functions. Moreover, the execution time of distributed SFO is compared with other parallel algorithms to show the speed of the proposed algorithm for solving unconstrained optimization problems. The final results indicate that the proposed method is executed about maximum 14 times faster than other parallel algorithms and shows the ability of DSFO for solving non-separable, non-convex and scalable optimization problems.

    Keywords: SailFish Optimizer (SFO), Multi agent system, parallel processing, shared memory, Graphic processing units
  • S. Asil Gharebaghi*, N. Niknam

    In this article, a parallel computer program is implemented, based on Finite Element Method, to speed up the analysis of hollow circular cylinders, made from Functionally Graded Materials (FGMs). FGMs are inhomogeneous materials, which their composition gradually varies over volume. In parallel processing, an algorithm is first divided to independent tasks, which may use individual or shared data. Such tasks could be simultaneously executed. In this paper, a parallel Finite Element software is developed to perform the analysis on a multiprocessor system. The software parallelizes every time-consuming task of the algorithm, if possible. As an application, the analysis of a thick hollow cylinder, made from FGM, is performed to evaluate the capability of the software. The results show not only the software is authoritative of analyzing large-scale problems, but also it is 2.4 times faster than the serial version. Although such speedup is achieved using eight processors, the number of processors could be increased utilizing computer networks. According to the results, it could be concluded that the speedup increases when the number of processors increases. However, because of some technical limits and overheads such as data traffic among the processors, the speedup approaches its maximum for a certain number of processors.

    Keywords: Finite Element Method, Parallel Processing, Functionally Graded Material, Speed up
  • عبدالبصیر تیباش، اسدالله شاه بهرامی*

    تبدیل موجک گسسته دوبعدی (2D-DWT) به صورت گسترده ای در کاربردهای مختلف پردازش داده های چندرسانه ای ازجمله استانداردهای فشرده سازی تصاویر و ویدیو مورداستفاده قرار می گیرد. بااین وجود، این تبدیل دارای پیچیدگی محاسباتی بالاتری نسبت به تبدیل های مرسوم مانند تبدیل گسسته کسینوسی و دیگر توابع موجود در استانداردهای فشرده سازی است و بیشترین درصد از زمان اجرا را به خود اختصاص می دهد. در این مقاله، برای بهبود کارایی 2D-DWT از مجموع دستورات فناوری های توسعه برداری پیشرفته AVX/AVX2 و جمع ضرب ترکیبی (FMA) که قابلیت پردازش 256 بیت داده با استفاده از معماری یک دستورالعمل و چندین داده (SIMD) که توسط اکثر پردازشگرهای همه منظوره (GPP) پشتیبانی می گردد، پیشنهادشده است. با استفاده از این فناوری ها قابلیت پردازش هشت داده 32 بیتی برای اعداد اعشاری و شانزده داده 16 بیتی برای اعداد صحیح شانزده بیتی در ثبات های SIMD یک GPP فراهم می گردد. بعلاوه نحوی نگاشت تبدیل های مختلف موجک به روش پردازش های سطری-ستونی که پردازش های سطری و ستونی را جداگانه انجام می دهد و مبتنی بر خط که هر دو، سطرها و ستون های تصویر را در یک حلقه پردازش می کند، استفاده شده است. نتایج پیاده سازی موازی سازی تبدیل های مختلف بر روی یک پلتفرم GPP نشان داد که کارایی، 2D-DWT به ازای اندازه تصاویر مختلف را می توان تا 28.8 برابر نسبت به پیاده سازی سریال بالا برد. همچنین نگاشت مبتنی بر خط که باعث استفاده بهتر از ساختار سلسله مراتبی حافظه می گردد، کارایی را نسبت به نگاشت سطری – ستونی بیشتر بهبود می دهد.

    کلید واژگان: پردازشگرهای همه منظوره، پردازش موازی، تبدیل موجک گسسته دو بعدی، موازی سازی سطح داده، یک دستورالعمل چندین داده
    A. Tibash, A. Shahbahrami *

    The two-Dimensional Discrete Wavelet Transform (2D-DWT) is widely used in various applications for multimedia data processing, including image and video compression standards. However, this transform is computational intensive than conventional conversions, such as the discrete cosine transform. In this paper, in order to improve the performance of 2D-DWT,  we use Single Instruction, Multiple Data (SIMD) set instructions including Advanced Vector Extensions (AVX), Fused Multiply-Add (FMA), and AVX2 supported by most General-Purpose Processors (GPP). These technologies capable to process 256-bit data located in SIMD registers. The AVX technology can process eight 32-bit floating point numbers, while AVX2 processes sixteen 16-bit fixed-point numbers. In other words, it is possible to exploit 8- and 16-way data-level parallelism. In addition, two different way of parallelism, Row Column Wavelet Transform (RCWT) which processes rows and columns separately and Line-Based Wavelet Transform (LBWT) that processes both rows and columns in a single loop are used. Experimental results of different wavelet transform with different image sizes on a GPP show that the speedups of up to 28.8x yield. Furthermore, LBWT approach improves performance more than RCWT. This is because it uses memory hierarchy structure more efficiently than RCWT approach.

    Keywords: Data-Level Parallelism, Discrete Wavelet Transform, General-Purpose Processor, Parallel processing, Single Instruction, Multiple Data
  • علی ناصری*، روزبه جزپیری

    معماری سیستولیکی یکی از پرکاربردترین معماری های پردازش موازی به حساب می آید. درآرایه سیستولیکی واحدهای ALU بصورت آرایه کنار هم قرار می گیرند. آرایه سیستولیکی به صورت سنکرون عمل می کند بصورتی که با نگاشت مناسب ورودی ها به آن قادر است محاسبات دارای معادله بازگشتی را بطور موازی انجام دهد. در این مقاله آرایه سیستولیکی برای یکی از الگوریتم های استفاده شده در نمایش (تجزیه) تنک بنام الگوریتم SL0 طراحی شده و با شبیه سازی نرم افزاری مورد ارزیابی واقع گردید. نتایج حاکی از آن است اجرای الگوریتم مذکور با تک پردازنده با فرض 4 کلاک برای انجام هر بار معادله بازگشتی کلاکی معادل 4N^3+9.7N^2+3.2N+18لازم دارد در حالیکه انجام آن با آرایه سیستولیکی به دلیل انجام محاسبات به صورت موازی و پایپ لاین، کلاکی معادل 48N+32 لازم دارد. در این مقاله آرایه سیستولیکی برای یکی از الگوریتم های استفاده شده در نمایش (تجزیه) تنک بنام الگوریتم SL0 طراحی شده و با شبیه سازی نرم افزاری مورد ارزیابی واقع گردید. نتایج حاکی از آن است اجرای الگوریتم مذکور با تک پردازنده با فرض 4 کلاک برای انجام هر بار معادله بازگشتی کلاکی معادل 4N^3+9.7N^2+3.2N+18لازم دارد در حالیکه انجام آن با آرایه سیستولیکی به دلیل انجام محاسبات به صورت موازی و پایپ لاین، کلاکی معادل 48N+32 لازم دارد.

    کلید واژگان: آرایه سیستولیکی، پردازش موازی، الگوریتم SL0، شبیه سازی، ضرب ماتریس
    A. Naseri*, R. Jozpiri

    Systolic architecture is one of most important parallel processing architectures.In the systolic array, ALU units are arranged as an array. This array acts synchronously and executes the recursive equations in parallel by applying the proper input. In this paper, the systolic array for the SL0 is designed and simulated. Simulation results showed that the implementation of this algorithm with a single processor, assuming 4 clocks for executing each recursive equation, requires 4N ^ 3 + 9.7N ^ 2 + 3.2N + 18 clocks, while doing it with a systolic array requires 48n + 32 clocks due to parallel computing and pipelines.

    Keywords: Systolic array, parallel processing, SL0 algorithm, Simulation, matrix multiplication
  • Shiva Taghipour *
    Residue Number System is a kind of numerical systems that uses the remainder of division in several different moduli. Conversion of a number to smaller ones and carrying out parallel calculations on these numbers will increase the speed of the arithmetic operations in this system. However, the main factor that affects performance of system is hardware complexity of reverse converter. Reverse converters convert the resulted remainders to the conventional number system. In this paper an area efficient reverse converter is proposed for moduli set {2^n+1,2^n-1,2^n} based on two-part RNS and mixed radix conversion algorithm. Selecting appropriate order of modulus and using well-known lemmas, leads to reduce the complexity of the proposed converter comparing to previous designs. To have an accurate comparison, both unit gate model and simulation in Xilinx 13.1 FPGA are used in this paper. The results of comparison indicate that the novel proposed reverse converter has improved the time complexity and area, while having almost same delay.
    Keywords: Computer Architecture, High-Speed Arithmetic operations, Parallel Processing, R, B converter, VLSI
  • کامبیز طباطبایی اردکانی*، کمال میرزایی

    با توجه به محبوبیت و استفاده روز افزون از وسایل دیجیتال در زندگی روزمره بشر و همچنین گسترش به اشتراک گذاری تصاویر در شبکه های اجتماعی همچون فیس بوک، فلیکر، اینستاگرام و غیره و همچنین بارگذاری فیلم های مختلف در این شبکه ها، استفاده از تصاویر دیجیتال مخصوصا در دهه اخیر رشد قابل توجهی داشته است که در میان این تصاویر، درصد بالایی مربوط به تصاویر چهره انسان است و در مواردی از قبیل پایش تصویر برخط، تعامل انسان و ماشین، ردیابی شخص در ویدئو، بازیابی تصویر چهره افراد مجرم، کنترل تردد کارکنان سازمان و تفکیک دوست از دشمن در پایگاه های نظامی (از قبیل نیروی دریایی و...) کاربردهای فراوانی دارد. بنابراین دقت و سرعت بازیابی در این مسئله حائز اهمیت است. در این مقاله دو روش برپایه الگوی دودوئی محلی ارائه شده است که در نهایت با تشخیص لبه ترکیب می شود. برای افزایش سرعت روش ترکیبی پیشنهادی بصورت موازی در محیط CUDA C++ اجرا شده است. در این مقاله میزان دقت و سرعت بر روی مجموعه داده های مختلف ارزیابی شد و بطور متوسط زمان پردازش در GPU تا حدود 19 برابر در مجموعه دادهی با 1024 عکس در مقایسه با CPU کاهش یافت. نتیجه حاکی از این تحقیق بدین صورت بود که هرچه حجم مجموعه داده بزرگتر شود تاثیر موازی سازی بهتر است. بنابراین متغیرهایی که برای این مسئله ذکر می شود عبارتند از:1- دقت کار 2- زمان اجرا 3-مقیاس پذیر بودن سیستم

    کلید واژگان: پردازش موازی، پردازنده گرافیکی، بستر CUDA، بازیابی تصویر چهره
    Kambiz Tabatabaei Ardakani *, Kamal Mirzaie

    Given the growing popularity and use of digital devices in human daily life; an increase in image sharing on social networks such as Facebook , Flicker, Instagram as well as loading various clips on such networks , the utilization of digital images has sharply increased, particularly in the last decade, among them, a high percentage belongs to human face images(approximately above 60%) what matters here is face image retrieval using high accuracy feature extraction methods. The more precise method, the more time it requires to be processed. in this paper we plan to execute numerous high accuracy feature extraction methods in face image retrieval like LBP and its variants, HOG, SIFT, SURF and in some case the combination of above mentioned methods by suitable coding on GPU in order to examine the impact of processing speed and its accuracy compared to the CPU and propose the best method for it

    Keywords: parallel processing, GPU, CUDA, Face Image Retrieval
  • حسن اکبری*، علی ساسانی

    بالاروی موج یکی از عوامل مهم در طراحی سازه های ساحلی است و تخمین مناسب آن در تعیین تراز طراحی سازه های دریایی تاثیر دارد. بالاروی و شکست موج، باعث تغییرات و بهم ریختگی زیاد سطح آب می شود که با توجه به قابلیت روش هیدرودینامیک ذرات هموار در شبیه سازی این پدیده، از این روش در پژوهش حاضر استفاده شده است. یکی از عوامل تاثیرگذار بر بالاروی، تنش بستر است که اعمال آن می تواند باعث بهبود نتایج گردد. در این راستا، در این پژوهش با معرفی دو رویکرد جدید، مدل عددی SPH بگونه ای توسعه یافت که نیروی اصطکاک با دو رویکرد متفاوت به ذرات مجاور مرز اعمال گردد. نتایج این مدل با روابط تحلیلی-تجربی معتبر مقایسه و مشاهده گردید که با تصحیح مدل، دقت افزایش یافته و میزان بالاروی با مقدار خطای کم تری ارزیابی می گردد. بر اساس نتایج به دست آمده، اعمال نیروی اصطکاک تاثیر بسزایی بر پاسخ ها دارد و میزان بهبود نتایج وابسته به هندسه و شرایط موج است. اگر بالاروی همراه با لغزش موج روی سطح بستر باشد، تاثیر اعمال نیروی اصطکاک بر بهبود نتایج افزایش می یابد به نحوی که در بعضی از مدل ها خطای 90 درصدی را به 6 درصد کاهش می دهد. با توجه به هزینه محاسباتی بالای روش SPH نسبت به سایر روش های مرسوم عددی، از قابلیت پردازش موازی و استفاده از ظرفیت کارت گرافیک به منظور کاهش زمان محاسبات استفاده شد. همچنین، برای ارزیابی عملکرد این مدل، هزینه محاسباتی گام های مختلف روش توسعه یافته در هر دو شرایط استفاده و عدم استفاده از پردازش موازی با یکدیگر مقایسه گردید.

    کلید واژگان: شرایط مرزی، اصطکاک بستر، بالاروی موج، پردازش موازی
    Hassan Akbari*, Ali Sasani

    Wave run up and overtopping are two important processes in design of coastal structures and in definition of their crest elevation. Wave run up in contribution with wave breaking generates local turbulences as well as large deformations around free surface profile. Smoothed Particle Hydrodynamic (SPH) method as a powerful Lagrangian method in modeling free surface flows is modified and applied in this study to estimate wave run up properly. Two modifications i.e. stepped and smoothed approaches are introduced to implement bed shear stress in SPH models. The results are compared with reliable predictions based on experimental and analytical studies. It is concluded that neglecting bed shear stress as a common practice in SPH methods can generate significant errors in estimating wave run up, while these errors are diminished efficiently by means of the introduced methods. The rate of this improvement, however, depends on slope geometry as well as wave condition and it is more sensible in simulating sliding waves over the bed slope during run up phenomenon. In this case, 90% error of the unmodified methods has been decreased to 6% using the modified SPH method. In addition, parallel processing using graphical processing units (GPU) are utilized to increase the efficiency of the modified model. The efficiency of GPU in comparison with CPU is evaluated and computational costs of different numerical steps are analyzed. It is observed that calculation of forces is the main time consuming step and using GPU can speed up the modified model significantly.

    Keywords: Boundary condition, Bed Roughness, Wave Runup, Parallel processing
  • مهرنوش تارمیغ، مرتضی بهبهانی نژاد، عزیز عظیمی*
    یکی از مسائل مطرح و مورد توجه در صنعت گازرسانی، تحلیل جریان گذرای گاز طبیعی درون خطوط لوله انتقال می باشد. با وجود مطالعات صورت گرفته، هنوز دقت و زمان محاسبات به عنوان دو چالش مهم در این زمینه مطرح هستند. در این مقاله، طراحی یک الگوریتم موازی جهت شبیه سازی عددی جریان هم دما و غیرهم دمای گاز مطرح شده است. تحلیل عددی جریان با استفاده از روش اختلاف محدود ضمنی تجزیه بردار شار استیگر- وارمینگ صورت پذیرفته است. موازی سازی مسئله نیز به روش انتقال پیام با کتابخانه MPI انجام شده است. به منظور نشان دادن قابلیت های برنامه کامپیوتری توسعه داده شده، دو مسئله شامل جریان درون دو خط لوله با شرایط متفاوت تحلیل و صحت سنجی شده است. در انتها، پس از صحت سنجی نتایج، معیارهای عملکرد روش پیشنهادی مثل زمان محاسبات، کاهش زمان به دست آمده و میزان افزایش سرعت از نتایج شبیه سازی استخراج شده اند. بررسی نتایج به دست آمده نشان می دهد که با استفاده از پردازش موازی می توان تا حد زیادی زمان محاسبات جریان درون خطوط لوله انتقال گاز طویل را کاهش داد. علاوه بر این، با به کارگیری این روش در شبکه های محاسباتی ریز نسبت به شبکه های درشت، کارایی الگوریتم موازی افزایش می یابد.
    کلید واژگان: خط لوله گاز، جریان گذرا، پردازش موازی، کتابخانه ‏MPI
    M. Tarmigh, M. Behbahani, nejad, A. Azimi *
    Analysis of natural gas transient flow in transmission pipelines is one of the most important issues in the gas industry. Despite the previous studies, the accuracy and the computational time have yet considered as two important challenges in this field. In this paper, a parallel algorithm for numerical simulation of isothermal and non-isothermal gas flows is presented. Numerical analysis of the flow is performed using the implicit Steger-Warming flux vector splitting method. For parallelization, the computer program has been parallelized using Message Passing Interface library. In order to demonstrate the capabilities of the developed computer program, the flow inside two pipelines with different conditions is solved, and the results are validated. Then, some factors such as the computational time, reduction of the time, and the speed up criteria are obtained to demonstrate the computational efficiency of the proposed method. The results show that parallel processing method can significantly reduce computational time of natural gas flow in long transmission pipelines. Moreover, it is shown that application of this approach on the fine computational grids is more efficient than on the coarse grids.
    Keywords: Gas Pipeline, Transient Flow, Parallel Processing, Message Passing Interface Library
  • فاطمه سیر، سعید مظفری *
    روش حذف درز یکی از روش های تغییر ابعاد مبتنی بر محتوا است. در این روش، مسیر پیوسته ای از پیکسل های کم ارزش که از بالا تا پایین و یا از چپ تا راست تصویر امتداد دارند و درز نامیده می شوند، استخراج می گردند. با حذف درزها از تصویر و یا اضافه کردن آنها به تصویر، می توان ابعاد تصویر را به ترتیب کاهش و یا افزایش داد. روش حذف درز را از دو منظر سرعت و کیفیت می توان مورد مطالعه قرار داد. در این مقاله یک روش موازی سازی برای افزایش سرعت این الگوریتم ارائه شده که در آن تصویر اصلی به دو زیرتصویر زوج و فرد تجزیه می شود و عمل جستجو به طور مستقل روی این دو تصویر انجام می گردد. در مقایسه با روش حذف درز، روش پیشنهادی با حفظ نسبی کیفیت تصویر، سرعت را به حداقل دو برابر افزایش می دهد. می توان هر یک از روش های جستجوی درز پیشین را در روش پیشنهادی به کار برد و یا آن را با سایر روش های موازی ادغام نمود. در ادامه به اصلاح روش پیشنهادی با هدف افزایش کیفیت پرداخته شده است.
    کلید واژگان: حذف درز، تغییر ابعاد آگاه بر محتوا، پردازش موازی، تجزیه تصویر
    F. Siar, S. Mozaffari *
    Seam carving is one of content aware image retargeting techniques. In this method, a path of pixels with lowest energy, called seam, crossing from top to bottom or from left to right in an image is extracted. By removing or inserting seams, size of the image can be changed. Speed and quality are two main parameters in seam carving. In this paper a new method for speed enhancement of seam carving is proposed. The input image is decomposed into odd and even subimages and searching for seams is performed in parallel in these subimages. Compared to the original seam carving, the proposed method improves the speed at least by two times while maintain image’s quality unchanged. Previous seam searching algorithms can be utilized in our method or it can be combined with other parallel processing schemes. Finally, image quality of the proposed seam carving is improved.
    Keywords: Seam carving, content aware image retargeting, parallel processing, image decomposition
  • حامد صادقی، امیر اخوان
    الگوریتم فیشر، یکی از معروف ترین و پرکاربردترین روش های آشکارسازی آرایه ای سیگنال های صوتی بسامد پایین در شبکه های حس گری دارای زیرساخت است؛ اما یکی از مشکلات عمده در به کارگیری این الگوریتم، زمان طولانی انجام پردازش در آن است که در عمل، پیاده سازی بلادرنگ آشکارساز را با مشکل مواجه می سازد. در این مقاله، چگونگی پیاده سازی الگوریتم فیشر را با استفاده از واحد پردازش گرافیک (جی پی یو) به منظور تحقق محاسبات سریع و انجام پردازش های نزدیک به زمان واقعی، ارائه می کنیم. به خصوص به منظور بهبود هرچه بیشتر سرعت محاسبات، الگوریتم آشکارسازی با استفاده از روش پردازش موازی (مبتنی بر جی پی یو) پیاده سازی شده است. نتایج شبیه سازی ها، ارتقای قابل ملاحظه سرعت آشکارساز فیشر را نشان می دهند که باعث بهبود کارآیی شبکه حس گری صوتی خواهد شد.
    کلید واژگان: شبکه حس گری، پردازش آرایه ای، شکل دهی پرتو، پردازش موازی، جی پی یو
    Amir Akhavan Bitaghsir Dr
    Nowadays, several infrastructure-based low-frequency acoustical sensor networks are employed in different applications to monitor the activity of diverse natural and man-made phenomena, such as avalanches, earthquakes, volcanic eruptions, severe storms, super-sonic aircraft flights, etc. Two signal detection methods are usually implemented in these networks for the purpose of event occurrence identification, which are the progressive multi-channel correlator (PMCC) and the so-called Fisher detector. But, the Fisher method is more important and applicable in low signal-to-noise (SNR) ratio conditions, which is of a special interest in acoustical monitoring networks. Unfortunately, an important disadvantage of this algorithm is its relative high detection-time; which limits its application for real-time detection scenarios. This disadvantage is fundamentally due to a beam forming process in Fisher algorithm, which requires doing complete search in a slowness-network, constructed from possible incoming wave front directions and speeds. To address this issue, we propose a method for implementation of this beam forming on a graphics processing unit (GPU), in order to realize a fast-computing and/or near real-time signal processing technique. In addition, we also propose a parallel-processing algorithm for further enhancement of the performance of this GPU-based Fisher detector. Simulation results confirm the performance improvement of Fisher detector, in terms of required processing time for acoustical signal detection applications.
    Keywords: Sensor network, array processing, beamforming, parallel processing, GPU
  • Soroush Heydari, Saeed Asil Gharebaghi *
    Modal analysis is the process of determination of the natural frequencies and mode shapes of structures. In practical problems, modal analysis may be repeated many times, which results in a huge amount of computations. Although parallel processing technique can reduce the analysis time, it is rarely implemented by civil engineers because it requires more programming skills as well as designing parallel algorithms. In the present paper, the Davidson algorithm is adapted for parallel modal analysis of two-dimensional beams. More precisely, the parallel version of the Davidson algorithm is implemented from scratch. A new proposed method, which is called "Modified Checkered Method" (MCM), is introduced, and four versions of the algorithm, are implemented. Two out of four versions use Row-wise and MCM in combination with Compressed Sparse Row algorithm, while the others utilize the aforesaid methods without matrix compression. It is shown that the speedup increases when the main matrix of the standard form of eigenvalue problem is not compressed. Moreover, the speedup will increase in comparison to the Row-wise division method when MCM is used. It is notable that the implemented Parallel Finite Element source code is capable of being used in companion with a wide variety of finite elements.
    Keywords: Eigenvalue problem, Parallel processing, FEM, CSR matrix compression, Davidson algorithm, Modified Checkered Method
  • رامین کمالی مقدم
    هدف اصلی مقاله حاضر، توسعه مدلسازی جریان آشفته ناپایا با استفاده از رهیافت آشفتگی URANS در عین حفظ راندمان عددی و ارزیابی این روش نسبت به رویکرد RANS در شبیه سازی عددی یک جت صوتی در جریان جانبی مافوق صوت می باشد. مدل آشفتگی استفاده شده در هر دو رهیافت، مدل آشفتگی اسپالارت آلماراس می باشد. برای بهبود دقت محاسبات از شبکه بندی چندبلوکی باسازمان و برای تسریع محاسبات از روش پردازش موازی به روش OMP استفاده شده است. در این مقاله، ابتدا روابط حاکم بر هر دو رهیافت URANS و RANS تشریح می شود و سپس کد توسعه یافته، برای تحلیل جریان یک جت سه بعدی در جریان جانبی مورد استفاده قرار گرفته و نتایج آنها در تشکیل ساختار جریان و توزیع فشار و سرعت با نتایج تجربی مقایسه می گردد. نتایج بدست آمده، بیانگر دقت مناسبتر رهیافت URANS در مدلسازی پدیده جت صوتی در جریان عرضی نسبت به مدلسازی آشفته RANS می باشد.
    کلید واژگان: شبیه سازی عددی جریان ناپایا، مدل آشفتگی URANS و RANS، جت در جریان عرضی، روش چندبلوکی، پردازش موازی
    Ramin Kamali Mighadam
    The main goal of the present paper is development of the unsteady turbulence modeling using the URANS algorithm and preservation of numerical performance and assessment of this method respect to the RANS model in numerical simulation of a sonic jet in supersonic cross flow. The turbulence modeling used in both algorithms is the Spalart Almaras model. To improve accuracy of the computations, the structured multi block grid is used and to decrease the computational cost, the OMP parallel processing is applied. In this paper, firstly, the governing equations of both the RANS and URANS are described and then the developed code is used to analyze a 3D jet in cross flow. The results including flow structure, distribution of the pressure and velocity profile are compared with experimental data. The URANS method show more accurate results than the RANS model in numerical simulation of the sonic jet in supersonic cross flow.
    Keywords: Numerical simulation of turbulence flow, URANS, RANS turbulence models, Jet in cross flow, Multi block method, parallel processing
  • Shiva Taghipoureivazi
    Residue Number System is a numerical system which arithmetic operations are performed parallelly. One of the main factors that affects the system’s performance is the complexity of reverse converter. It should be noted that the complexity of this part should not affect the earned speed of parallelly performed arithmetic unit. Therefore in this paper a high speed converter for moduli set {2n-1, 2n -1, 2n} is proposed which is based on Two-Part RNS and Chinese Reminder Theorem. Using this method has increased the speed of reverse converter. To have an accurate comparison both unit gate model and synthesized silicon tools are used and their parameters are compared in terms of delay and area. Converters are implemented in hardware description language and correctness for various n values are verified by simulation and execution on Cadence. As the results show, the proposed circuit has lower delay by around 21% in comparison to previous presented converter.
    Keywords: Chinese Remainder Theorem (CRT), Computer Arithmetic, parallel processing, Residue Number System (RNS), R, B Converter, VLSI Architectures
  • B. Khalili, M. Rahnama*, S. Jafari, F. Gharibi, E. Jahanshahi Javaran
    Three-dimensional particulate flow has been simulated using Lattice Boltzmann Method (LBM). Solid-fluid interaction was modeled based on Smoothed Profile Method (SPM) (Jafari et. al, Lattice Boltzmann method combined with smoothed-profile method for particulate suspensions, Phys. Rev. E, 2011). In this paper a GPU code based on three-dimensional lattice Boltzmann method and smoothed profile method has been prepared due to the ability of SPM-LBM to perform locally and in parallel mode. Results obtained for sedimentation of one and two spherical particles as well as their behavior in shear flow showed excellent correspondence with previous published works. Computations for a large number of particles sedimentation showed that combination of LBM and SPM on a GPU platform can be considered as an efficient and promising computational frame work in particulate flow simulations.
    Keywords: Particulate flow, Parallel processing, Lattice boltzmann method, Smoothed profile method, GPU programming
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال