sparse coding
در نشریات گروه برق-
به دلیل افزایش حجم تصاویر تولیدشده توسط دوربین ها و دستگاه های مختلف، پردازش تصویر در بسیاری از کاربردها ازجمله پزشکی، امنیتی و رانندگی اهمیت و جایگاه بالایی یافته است. بااین حال بیشتر مدل های ایجادشده در حوزه پردازش تصویر کارایی چندانی نداشته و میزان خطای آن ها در برخی کاربردها تاثیرگذار است. علت اصلی ناکامی بیشتر مدل های ساخته شده، اختلاف توزیع بین داده های آموزشی (دامنه منبع) و داده های تست (دامنه هدف) می باشد. درواقع، مدل ساخته شده، قابلیت تعمیم دهی به داده هایی با خصوصیات و توزیع های متفاوت از داده های آموزشی را ندارد، به همین دلیل در مواجهه با داده های جدید دچار افت شدیدی می شود. در این مقاله ما یک روش جدید با نام کدگذاری تنک و طبقه بندی انطباقی (SADA) پیشنهاد می دهیم که یک مدل پردازش تصویری ایجاد می کند که در مقابل تغییرات داده ای مقاوم می باشد. مدل پیشنهادی با ایجاد یک زیر فضای مشترک بین دامنه های منبع و هدف اختلاف توزیع آن ها را به حداقل رسانده و موجب بهبود کارایی می شود. همچنین SADA با انتخاب نمونه هایی از دامنه منبع که با دامنه هدف مرتبط می باشند اختلاف توزیع بین دامنه ها را کاهش می دهد. علاوه بر آن، SADA با تطبیق پارامترهای مدل ایجادشده، یک مدل تطبیق پذیر برای مواجهه با شیفت داده ها ایجاد می کند. نتایج به دست آمده از آزمایش های متنوع، نشان می دهد که روش پیشنهادی ما، برتری قابل ملاحظه ای نسبت به تمام روش های تطبیق دامنه جدید دارد.
کلید واژگان: پردازش تصویر، تطبیق دامنه های بصری، کدگذاری تنک، وزن دهی مجدد نمونه، طبقه بندی انطباقیDue to the growing increase of generated images via cameras and various instruments, image processing has found an important role in most of practical usages including medical, security and driving. However, most of the available models has no considerable performance and in some usages the amount of error is very effective. The main cause of this failure in most of available models is the distribution mismatch across the source and target domains. In fact, the made model has no generalization to test data with different properties and distribution compared to the source data, and its performance degrades dramatically to face with new data. In this paper, we propose a novel approach entitled Sparse coding and ADAptive classification (SADA) which is robust against data drift across domains. The proposed model reduces the distribution difference across domains via generating a common subspace between the source and target domains and increases the performance of model. Also, SADA reduces the distribution mismatch across domains via the selection of the source samples which are related to target samples. Moreover, SADA adapts the model parameters to build an adaptive model to encounter with data drift. Our variety of experiments demonstrate that the proposed approach outperforms all stat-of-the-art domain adaptation methods.
Keywords: Image processing, visual domains adaptation, sparse coding, sample reweighting, adaptive classification -
رشد فناوری و افزایش تصاعدی اطلاعات نیاز به حجم ذخیرهسازی بیشتر دادههای اطلاعاتی گوناگون را افزایش داده است. در این راستا فشردهسازی تصویر به عنوان ابزاری کارآمد جهت کاهش افزونگی و صرفهجویی در حجم ذخیرهسازی و کاهش پهنای باند انتقالی دادههای تصویری به کار میآید. هنگامیکه فشردهسازی یک دسته یا خانواده از تصاویر، مانند پایگاه داده تصاویر چهره یک سازمان یا موسسه یا پایگاه داده MRI یک بیمارستان بزرگ یا پایگاه داده اثر انگشت مدنظر باشد افزونگی اطلاعات افزایش یافته و فشردهسازی اهمیت و الزام بیشتری پیدا میکند. در این میان تصاویر چهره با توجه به کاربرد وسیعی که به عنوان رایجترین تصاویر پایگاه داده سازمان های و نهادهای مختلف مانند ادارههای پلیس، نهادهای نظامی، دانشگاهها و شرکتهای بزرگ دارند مورد توجه بیشتری قرار دارند. به همین خاطر ارایه الگوریتمی که بتواند این دسته از تصاویر را با کیفیت بیشتر و نرخ بالاتری فشرده کند اهمیت بسیاری دارد. در این مقاله با استفاده از حوزه جدیدی از پردازش سیگنال به نام نمایش تنک و روش یادگیری دیکشنری RLS-DLA الگوریتم جدیدی برای فشردهسازی تصویر ارایه شده است که میتواند برای فشردهسازی پایگاه داده تصاویر به کار رود. در این الگوریتم تصاویر با به کارگیری چند دیکشنری به نحو وفقی بر اساس کیفیت بازسازی مورد نیاز آن ها فشرده میشوند. نتایج به دست آمده از الگوریتم پیشنهادی نشان دهنده عملکرد موثر و برتری معنیدار آن نسبت به روش های پیشرفته و مطرحی همچون JPEG2000 است به طوری که به افزایش کیفیتی در حدود 0.5 dB تا 1.2 dB در نرخ بیت یکسان دست مییابد.
کلید واژگان: نمایش تنک، کدگذاری تنک، فشرده سازی تصویر، یادگیری دیکشنری، RLS-DLA، JPEG2000Due to the rapid growth of information technology and exponential increasing of information the need for more and more storage capacity and efficiency has increased. Image compression is an important tool to reduce the redundancy of images data in order to be able to store or transmit them in an efficient manner. When images are limited to a specific and limited family of images like MRI databases of a hospital or facial image database of a university or an organization or fingerprint image databases, this limitation increases the total spatial redundancy. Thus, efficient storage of such images is beneficial, and their compression becomes an appealing application, and this urges algorithms specially tailored for the task of content base image compression to surpass general purpose compression algorithms. The facial images, due to their wide application as the most common images in the organizations and companies are more considerable for image compression. In this paper a new image compression scheme using sparse coding and RLS-DLA redundant dictionary learning is proposed that can be used for compressing of face image databases. In the proposed method, several dictionaries are exploited adaptively based on the required image quality to enhance the overall rate-distortion. The simulation results show that this scheme outperforms the state-of-art algorithms like JPEG2000 by about 0.5 to 1.2 dB for reconstructed images PSNR.
Keywords: sparse representation, sparse coding, Image compression, dictionary learning, JPEG2000 -
تطبیق دامنه می تواند دانش را از یک مجموعه آموزشی (دامنه منبع) به یک مجموعه آزمایشی (دامنه هدف) انتقال دهد تا بازدهی مدل یادگرفته شده از داده های آموزشی افزایش یابد. علاوه بر این، استفاده از کدگذاری تنک، مدل یادگرفته شده را بسیار مختصر نموده و کنترل آن را ساده می نماید. با این حال، اختلاف توزیع بین دامنه های منبع و هدف بازدهی مدل را کاهش می دهد. در این مقاله، ما یک مدل تطبیق دامنه بدون نظارت پیشنهاد می دهیم تا خطای پیش بینی مدل های طبقه بندی تصاویر را کاهش دهیم. از وزن دهی مجدد نمونه ها برای مدیریت داده های اضافه و اطلاعات بلااستفاده داده های منبع در نمایش جدید استفاده می شود. همچنین، اختلاف توزیع شرطی بین دامنه های منبع و هدف با استفاده از روی هم گذاری زیرفضاها کاهش داده می شود. روش پیشنهادی ما یک طبقه بند مستقل از دامنه تنک در زیرفضای به دست آمده می باشد که ساختار داده های ورودی را حفظ می کند. آزمایشات گسترده نشان می دهد که روش پیشنهادی ما بر روی پایگاه داده های واقعی در مقایسه با روش های به روز در حوزه یادگیری ماشین و تطبیق دامنه، 49/4% بهبود در صحت طبقه بندی دارد.
کلید واژگان: پردازش تصویر، تطبیق دامنه، کدگذاری تنک، اختلاف توزیع شرطی، تطبیق زیرفضاPrediction Error Minimization of Image Classification Models via Sparse Coding and Domain AdaptationDomain adaptation can transfer knowledge from a training set (source domain) to a test set (target domain), promoting the performance of the model learned from the training set. In addition, sparse coding makes the learned model more succinct and easy to manipulate. However, the existence of the distribution mismatch across the source and target domains reduce the performance of model. In this paper, we propose an unsupervised domain adaptation model to minimize the prediction error of image classification. Sample reweighting is utilized to handle redundant and useless information of source data in the new representation. Moreover, the difference of the conditional distributions across the source and target domains is reduced along with the subspace alignment. Our proposed approach learns a sparse domain-invariant classifier in a latent subspace with preserving the structure of the input data. Extensive experiments demonstrate that our proposed approach shows 4.49% improvement in classification accuracy on real-world datasets compared to state-of-the-art machine learning and domain adaptation methods.
Keywords: Image processing, domain adaptation, sparse coding, conditional distribution difference, subspace alignment -
A new single channel singing voice separation algorithm is presented in this paper. This field of signal processing provides important capability in various areas dealing with singer identification, voice recognition, data retrieval. This separation procedure is done using a decomposition model based on the spectrogram of singing voice signals. The novelty of the proposed separation algorithm is related to different issues listed in the following: 1) The decomposition scheme employs the vocal and music models learned using sparse non-negative matrix factorization algorithm. The vocal signal and music accompaniment can be considered as sparse and low-rank components of a singing voice segment, respectively. 2) An alternating factorization algorithm is used to decompose input data based on the modeled structures of the vocal and musical components. 3) A voice activity detection algorithm is introduced based on the energy of coding coefficients matrix in the training step to learn the basis vectors that are related to instrumental parts. 4) In the separation phase, these non-vocal atoms are updated to the new test conditions using the domain transfer approach to result in a proper separation procedure with low reconstruction error. The performance evaluation of the proposed algorithm is done using different measures and leads to significantly better results in comparison with the earlier methods in this context and the traditional procedures. The average improvement values of the proposed separation algorithm for PESQ, fwSegSNR, SDI, and GNSDR measures in comparison with previous separation methods in two defined test scenario and three mentioned SMR levels are 0.53, 0.84, 0.39, and 2.19, respectively.Keywords: Singing Voice Separation, Dictionary Learning, Incoherence, Sparse Coding, Voice Activity Detector.
-
مخاطب یک تصویر مایل است که در کوتاه ترین زمان، پیام اصلی تصویر را دریافت کند. از این رو سیستم بینایی انسان توجه بصری را ناخودآگاه به سمت نواحی برجسته، با فرض وجود اطلاعات مفید در آنها هدایت می کند. عملا این فرض همواره صادق نبوده و در مواردی، نواحی برجسته صرفا موجب مزاحمت بصری می گردند. از این رو در کاربردهای مختلف نیاز به ساز و کاری جهت تشخیص این نواحی می باشد تا با حذف این نواحی، حواس مخاطب از سوژه اصلی تصویر پرت نشود. همچنین نادیده گرفتن این نواحی، کمک شایانی است به روش هایی که بر پایه تشخیص نواحی برجسته و مهم عمل می کنند. بدین منظور در این مقاله، بر اساس روش های منطبق بر چالش عدم توازن دسته ها، هر قطعه از تصاویر آموزشی با توجه به ماسک آنها به 9 دسته افراز می شود که شماره هر دسته متناسب با شدت مزاحمت است. سپس ویژگی های مبتنی بر قطعه استخراج و دسته هر قطعه بر اساس روش نمایش تنک دومرحله ای و وزن دار نمونه آزمون که بر مبنای سیستم کدگذاری و بازنمایی تنک است، تعیین می شود. به منظور ارزیابی دقیق روش پیشنهادی و مقایسه آن با سایر روش ها، 4 معیار ارزیابی با رویکردهای مختلف معرفی و پیشنهاد می شود. با ارزیابی و سنجش نتایج نشان داده می شود که روش پیشنهادی علی رغم زمان بر بودن، نسبت به کارهای پیشین دارای دقت بیشتری است.کلید واژگان: سیستم بینایی انسان، توجه بصری، نواحی برجسته، مزاحمت بصری، سیستم کدگذاری و بازنمایی تنکThe image observer usually wants to receive the message and the main subject of the image in the shortest time. Hence, assuming there is useful information in the salient regions, the human vision system unconsciously guides visual attention towards them. This assumption is not always correct in practice, and in some cases, salient regions merely cause visual distractions. Therefore, in different applications, a mechanism is needed to identify these regions. To prevent from distracting observer’s attention from the main subject, these regions are eliminated. Furthermore, neglecting these regions could be of considerable assistance to the methods that function base on salient regions recognition. So, in this paper, Based on the methods of the class imbalance challenge each segment of training images in the dataset is a partition to 9 classes according to the relevant mask in the dataset, that the number of each class is proportional to its disturbance intensity. Then, segment-based features are extracted and determining the class of each segment is determined according to WTPTSSR method, which is based on the Sparse Coding and Representation system.Finally, in order to precisely analyzing the proposed method and comparing it to other approaches, four analysis criteria with different performances are presented. According to results, despite being time-consuming, the proposed method has a higher accuracy than the previous ones.Keywords: Human vision system, visual attention, salient regions, visual distractor, sparse coding, representation
-
Journal of Artificial Intelligence and Data Mining, Volume:5 Issue: 2, Summer-Autumn 2017, PP 223 -234Sparse coding is an unsupervised method which learns a set of over-complete bases to represent data such as image and video. Sparse coding has increasing attraction for image classification applications in recent years. But in the cases where we have some similar images from different classes, such as face recognition applications, different images may be classified into the same class, and hence the classification performance may be decreased. In this paper, we propose an Affine Graph Regularized Sparse Coding approach for face recognition problem. Experiments on several well-known face datasets show that the proposed method can significantly improve the face classification accuracy. In addition, some experiments have been done to illustrate the robustness of the proposed method to noise. The results show the superiority of the proposed method in comparison to some other methods in face classification.Keywords: Sparse coding, Manifold Learning, Face recognition, Graph Regularization
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.