فهرست مطالب

اندیشه آماری - سال بیست و یکم شماره 1 (پیاپی 41، بهار و تابستان 1395)

نشریه اندیشه آماری
سال بیست و یکم شماره 1 (پیاپی 41، بهار و تابستان 1395)

  • تاریخ انتشار: 1395/06/24
  • تعداد عناوین: 10
|
  • وحید رضایی تبار، سلوا سلیمی صفحات 1-12
    شبکه های بیزی‏، مدل های گرافیکی احتمالی هستند که رابطه علت و معلولی بین متغیرها را تعیین می کنند و شامل یادگیری ساختاری و یادگیری پارامتری می باشند. الگوریتم K2 یکی از بهترین روش های یادگیری ساختار در شبکه های بیزی برای متغیرهای گسسته است. کارایی الگوریتم K2 ، به شدت تحت تاثیر ترتیب متغیرهای ورودی است. بنا بر این برای رسیدن به گراف دقیقی که توصیف کننده داده ها باشد، یافتن الگوریتمی که ترتیب دقیق تری از عناصر به عنوان ورودی 2 K ارائه کند‏، مورد نیاز است. در این مقاله، نخست با استفاده از روش افزایشی-کاهشی، پوشش مارکوفی هر متغیر را یافته‏، سپس بر اساس فراوانی های شرطی و استفاده از تابع چگالی احتمال دیریکله، از بین پوشش مارکوفی هر متغیر، والدین احتمالی آن متغیر انتخاب می شوند. مجموعه والدین انتخابی هر راس به عنوان ورودی الگوریتم K2 مورد استفاده قرار می گیرد و شبکه بیزی به دست می آید. نتایج حاصل از اعمال الگوریتم پیشنهادی بر روی چند مجموعه داده معیار و مقایسه آن با روش های دیگر، نشان می دهد که الگوریتم پیشنهادی بسیار کاراتر از سایر روش ها است.
    کلیدواژگان: شبکه بیزی، الگوریتم K2، پوشش مارکوفی، الگوریتم افزایشی، کاهشی
  • غلامرضا محتشمی برزادران، فائزه شکیبا صفحات 13-21
    در این مقاله نخست مسئله هم خطی در مدل رگرسیونی معرفی می شود و شیوه تشخیص هم خطی و راه های برطرف کردن هم خطی مطرح می شوند. در ادامه تعاریف مقدماتی از نظریه اطلاع عنوان می شوند که در نهایت با استفاده از نظریه اطلاع، هم خطی در مدل رگرسیونی شناسایی می شود و راه حلی برای برطرف کردن آن پیشنهاد می شود.
    کلیدواژگان: رگرسیون، هم خطی، نظریه اطلاع، توزیع پسین
  • فرزاد اسکندری، ایمانه خدایاری صمغ آبادی صفحات 23-33
    رده بندی داده های دقیق تا کنون با روش های مختلف و در ابعاد وسیعی مورد بررسی و تحلیل قرار گرفته است، اما داده هایی که برای رده بندی مورد استفاده قرار می گیرند همیشه مقدار مشخص و دقیقی ندارند. از آن جا که نوع مقیاس داده ها متفاوت است، مقدار داده ممکن است در یک بازه قرار گیرد که در این صورت‏، مسئله رده بندی داده های نادقیق مطرح می شود. در سال های اخیر با فرض نرمال بودن توزیع حاکم بر داده های نادقیق، برآوردهای مختلفی برای میانگین و واریانس این توزیع ارائه شده است. در این مقاله با فرض این که توزیع حاکم بر داده های نادقیق توزیع نرمال دو متغیره باشد، با روش ماکسیمم درست نمایی بر روی مقادیر دو سر بازه داده های نادقیق، میانگین و واریانس این توزیع را برآورد کرده ایم. سپس با استفاده از رده بندی ساده بیزی، یک مدل آمیخته بیزی برای رده بندی داده های دقیق و نادقیق ارائه ‏کرده ایم. همچنین دقت و کارایی مدل ارائه شده بررسی شده است.
    کلیدواژگان: رده بندی داده ها، رده بندی ساده بیزی، صفت عددی نادقیق، برآورد ماکسیمم درست نمایی، دقت
  • مهران نقی زاده قمی، آزیتا نوروزی فیروز صفحات 35-39
    فاصله تحمل‏، یک فاصله تصادفی است که با یک سطح اطمینان مشخص، نسبتی از جامعه مورد بررسی را در برمی گیرد و در بسیاری از زمینه های کاربردی از جمله قابلیت اعتماد و کنترل کیفیت‏، مورد استفاده قرار می گیرد. در این مقاله آموزشی، روش های مختلف محاسبه فاصله تحمل برای متغیر تصادفی دوجمله ای را با استفاده از بسته tolerance در نرم افزار آماری R مورد بررسی قرار می دهیم.
    کلیدواژگان: توزیع دوجمله ای، فاصله اطمینان، فاصله تحمل
  • علیرضا شیروانی صفحات 41-47
    توزیع پوآسون یک مدل استاندارد برای تحلیل داده های شمارشی است و برآورد پارامتر میانگین این توزیع در عمل کاربرد زیادی دارد. تا به حال بازه های اطمینان متعددی برای میانگین توزیع پوآسون ارائه شده که همگی مجانبی هستند و مقایسه دقیق آن ها اهمیت دارد. احتمال پوشش بازه اطمینان (L(X)،U(X)) برای میانگین متغیر تصادفی پوآسون X با پارامتر نامعلوم تتا، تابعی نسبت به تتا است. از آن جا که توزیع پوآسون گسسته است، تابع احتمال پوشش شکل بسته ای ندارد و با تغییر تتا در فضای پارامتری تغییر می کند. بنا بر این محاسبه بیشینه، کمینه و میانگین احتمالات پوشش به صورت دقیق برای بازه های اطمینان پارامتر تتا کار بسیار مشکلی است.
    روش محاسبه کمینه و میانگین دقیق احتمالات پوشش بازه های اطمینان با کران های صعودی برای پارامتر تتا توسط وانگ [11] ارائه شده است. در این مقاله روش محاسبه دقیق بیشینه احتمالات پوشش بازه های اطمینان با کران های صعودی برای پارامتر نامعلوم تتا در توزیع پوآسون ارائه می شود. اگر تصمیم گیری با مقایسه همزمان بازه های اطمینان بر اساس بیشینه، کمینه و میانگین احتمالات پوشش آن ها انجام شود، مطمئن تر خواهد بود.
    کلیدواژگان: توزیع پواسن، بازه اطمینان، احتمال پوشش، ضریب اطمینان، میانگین احتمال پوشش، بیشینه احتمالات پوشش
  • فهیمه برومندی، محمود خراتی، جواد بهبودیان صفحات 49-55
    چنانچه در مدل تحلیل واریانس دوطرفه فرض برابری واریانس ها برقرار باشد‏، برای بررسی اثر دو عامل روی متغیر پاسخ، از آزمون F کلاسیک استفاده می شود. اما در اکثر مسائل کاربردی، فرض برابری واریانس ها برقرار نیست. در سال های اخیر، برای بررسی اثر عامل ها در حالت نابرابری واریانس ها، آزمون های مختلفی پیشنهاد شده است. در این مقاله ضمن معرفی دو آزمون درجه آزادی تقریبی و بوت استرپ پارامتری، با مطالعه شبیه سازی‏، عملکرد این دو آزمون را از نظر توان و خطای نوع اول مورد ارزیابی قرار می دهیم. نتایج شبیه سازی نشان می دهد که هر دو آزمون در کنترل خطای نوع اول عملکرد خوبی دارند و از نظر توان آزمون‏، اختلاف ناچیزی با یکدیگر دارند. از لحاظ محاسبات، روش بوت استرپ پارامتری بر اساس شبیه سازی بوده‏، زمان بر ماست؛ در حالی که روش درجه آزادی تقریبی از لحاظ استفاده در عمل ساده تر است.
    کلیدواژگان: تحلیل واریانس دوطرفه ناهمگن، بوت استرپ پارامتری، درجه آزادی تقریبی، توزیع T^2 -هتلینگ
  • آمنه آبیار، محسن محمدزاده*، کیومرث مترجم صفحات 57-64

    در تحلیل داده های بقا به علت وجود سانسور و چولگی از مدل هایی مانند وایبول برای تحلیل استفاده می شود. به علاوه از طریق تابع خطر پایه در مدل کاکس می توان مدل های پارامتری و نیمه پارامتری را نیز به داده های بقا برازش داد.
    هرچند این مدل ها به واسطه سادگی در محاسبات مورد توجه کاربران هستند، به سبب در نظر نگرفتن عوامل خطر ناشناخته لزوما بهترین مدل را به داده ها برازش نمی دهند. در این مقاله برای منظور کردن عوامل خطر ناشناخته با در نظر گرفتن اثرهای تصادفی ضربی در مدل کاکس، مدل شکنندگی معرفی می شود. سپس با استفاده از مدل های ارائه شده داده های سرطان مری در استان گلستان مدل بندی می شود و مدل های برازنده شده بر اساس ملاک ضریب تعیین تعمیم یافته مورد ارزیابی و مقایسه قرار می گیرند.

    کلیدواژگان: داده های بقا، مدل مخاطرات متناسب کاکس، مدل شکنندگی، ملاک ضریب تعیین تعمیم یافته
  • علیرضا عربپور، زینب محمدی صفحات 65-80
    رگرسیون خطی فاصله ای‏، تعمیمی از رگرسیون معمولی است که از آن برای محاسبه رابطه بین متغیرهای مستقل و متغیر وابسته در یک محیط فازی استفاده می شود. هنگامی که پارامترهای مدل رگرسیونی خطی به جای توابع احتمالی با توابع عضویت فازی بیان شوند، این مدل، مدل رگرسیونی خطی فاصله ای نامیده می شود.
    در این مقاله نخست روش های تحلیل رگرسیون خطی فاصله ای را مطرح می کنیم و سپس برای بهبود این روش ها، روشی پیشنهاد می کنیم که ابهام مدل را کاهش می دهد. در نهایت با چند مثال عددی‏، کارایی روش پیشنهادی را بررسی می کنیم. محاسبات انجام شده در مثال ها با استفاده از بسته آلاباما به وسیله نرم افزار R انجام شده است
    کلیدواژگان: رگرسیون خطی فاصله ای، فاصله های فازی، شمول کل، تشخیص مدل، برنامه ریزی خطی
  • حسین نادب، حمزه ترابی صفحات 81-87
    نمونه های سانسور شده در آزمایش های مربوط به آزمون های طول عمر مطرح می شوند؛ یعنی هنگامی که آزمایشگر، زمان های از کار افتادگی تمام واحد های موجود در آزمون طول عمر را مشاهده نمی کند. در سال های اخیر، استنباط بر پایه نمونه های سانسور شده بسیار مورد توجه قرار گرفته است‏‏، به طوری که در مورد پارامتر های توزیع های مختلفی مانند نرمال، نمایی، گاما، رایلی، وایبول، لگ نرمال، گوسی معکوس، لوژستیک، لاپلاس و پارتو بر اساس نمونه های سانسور شده استنباط صورت گرفته است.
    در این مقاله، روشی برای انجام آزمون فرضیه و یافتن بازه اطمینان دقیق برای میانگین توزیع نمایی تحت سانسور دورگه پیش رونده نوع اول پیشنهاد می شود. سپس با استفاده از شبیه سازی، عملکرد بازه اطمینان پیشنهادی مورد ارزیابی قرار می گیرد. سرانجام روش های پیشنهادی، روی یک مجموعه از داده های واقعی اجرا می شود.
    کلیدواژگان: توزیع نمایی، سانسور دورگه پیش رونده نوع اول، آزمون فرضیه، بازه اطمینان، احتمال پوشش
  • مهدی شمس صفحات 89-99
    قضیه باسو یکی از نتایج زیبا در آمار کلاسیک است. به طور مختصر این قضیه بیان می کند که اگر آماره T برای یک خانواده از اندازه های احتمال بسنده باشد و V یک آماره کمکی باشد، T و V مستقل هستند. یکی از کاربردهای جدید قضیه باسو در اثبات تقسیم پذیر نامتناهی بودن آماره های مشخص است. علاوه بر این قضیه، برای به کارگیری این کاربرد یک نسخه از قانون گلدی-استیوتل مورد نیاز است. با استفاده از قضیه باسو یک رده بزرگ توابعی از متغیرهای تصادفی که دو تا از آن ها نرمال استاندارد هستند، تقسیم پذیر نامتناهی اند. نتیجه دوم یک نمایش از متغیرهای تصادفی نرمال فراهم می کند که به صورت حاصل ضرب دو متغیر تصادفی مستقل اند که یکی تقسیم پذیر نامتناهی است و دیگری نیست.
    کلیدواژگان: توزیع های تقسیم پذیر نامتناهی، قانون گلدی، استیوتل، تابع هم وردای مقیاسی، تابع ناوردای مقیاسی
|
  • Dr Vahid Rezaeitabar, Selva Salimi Pages 1-12
    ýA Bayesian network is a graphical model that represents a set of random variables and their causal relationship via a Directed Acyclic Graph (DAG)ý. ýThere are basically two methods used for learning Bayesian networký: ýparameter-learning and structure-learningý. ýOne of the most effective structure-learning methods is K2 algorithmý. ýBecause the performance of the K2 algorithm depends on node orderingý, ýmore effective node ordering inference methods are neededý. ýIn this paperý, ýbased on the fact that the parent and child variables are identified by estimated Markov Blanket (MB)ý, ýwe first estimate the MB of a variable using Grow-Shrink algorithmý, ýthen determine the candidate parents of a variable by evaluating the conditional frequencies using Dirichlet probability density functioný. ýThen the candidate parents are used as input for the K2 algorithmý. ýExperimental results for most of the datasets indicate that our proposed method significantly outperforms previous methodý.
    Keywords: bayesian network, markov blanket, K2 algorithm, Grow-Shrink algorithm
  • Gholamreza Mohtashami Barzadaran, Faeze Shakiba Pages 13-21
    ýIn this paperý, ýcollinearity in regression models is introduced and then the procedures on how toý " ýremove itý" ýare studiedý. ýMoreover preliminary definitions have been givený. ýAnd the end of this paperý, ýcollinearity in regression model will be recognition and a solution will be introduced for remove itý.
    Keywords: Regression, collinearity, Information Theory, Posterior Distribution
  • Dr Ýfarzad EskandariÝ, Ýimaneh Khodayari SamghabadiÝ Pages 23-33
    ýThere are different types of classification methods for classifying the certain dataý. ýAll the time the value of the variables is not certain and they may belong to the interval that is called uncertain dataý. ýIn recent yearsý, ýby assuming the distribution of the uncertain data is normalý, ýthere are several estimation for the mean and variance of this distributioný. ýIn this paperý, ýwe consider the mean and variance for each of the start and end of intervalsý. ýThus we assume that the distribution of uncertain data is bivariate normal distributioný. ýWe used the maximum likelihood to estimate the means and variances of the bivariate normal distributioný. ýFinallyý, ýBased on the Naive Bayesian classificationý, ýwe propose a Bayesian mixture algorithm for classifying the certain and uncertain dataý. ýThe experimental results show that the proposed algorithm has high accuracy.
    Keywords: ýData classificationý, ýNaive Bayesian classificationý, ýUncertain numerical attributeý, ýMaximum likelihood estimationý, ýAccuracyý
  • Mehran Naghizadeh Qomi, Azita Norozi Firoz Pages 35-39
    Tolerance interval is a random interval that contains a proportion of the population with a determined confidence level and is applied in many application fields such as reliability and quality control. In this educational paper, we investigate different methods for computing tolerance interval for the binomial random variable using the package Tolerance in statistical software R.
    Keywords: Binomial distribution, confidence interval, tolerance interval
  • Alireza Shirvani Pages 41-47
    ýA Poisson distribution is well used as a standard model for analyzing count dataý. ýSo the Poisson distribution parameter estimation is widely applied in practiceý. ýProviding accurate confidence intervals for the discrete distribution parameters is very difficultý. ýSo farý, ýmany asymptotic confidence intervals for the mean of Poisson distribution is providedý. ýIt is known that the coverage probability of the confidence interval (L(X),U(X)) is a function of distribution parameterý. ýSince Poisson distribution is discreteý, ýcoverage probability of confidence intervals for Poisson mean has no closed form and the exact calculation of confidence coefficientý, ýaverage coverage probability and maximum coverage probabilities for this intervalsý, ýis very difficultý. ýMethodologies for computing the exact average coverage probabilities as well as the exact confidence coefficients of confidence intervals for one-parameter discrete distributions with increasing bounds are proposed by Wang (2009)ý. ýIn this paperý, ýwe consider a situation that the both lower and upper bounds of the confidence interval is increasingý. ýIn such situationsý, ýwe explore the problem of finding an exact maximum coverage probabilities for confidence intervals of Poisson meaný. ýDecision about confidence intervals optimalityý, ýbased on simultaneous evaluation of confidence coefficientý, ýaverage coverage probability and maximum coverage probabilitiesý, ýwill be more reliableý.
    Keywords: ýPoisson distributioný, ýConfidence intervalý, ýCoverage probabilityý, ýConfidence coefficientý, ýAverage coverage probabilityý, ýMaximum coverage probabilitiesý
  • Fahimeh Boroomandi, Dr Mahmood Kharrati, Dr Javad Behboodian Pages 49-55
    ýThe classic F-test is usually used for testing the effects of factors in homoscedastic two-way ANOVA modelsý. ýHoweverý, ýthe assumption of equal cell variances is usually violated in practiceý. ýIn recent yearsý, ýseveral test procedures have been proposed for testing the effects of factorsý. ýIn this paperý, ýthe two methods that are approximate degree of freedom (ADF) and parametric bootstrap (PB) approaches are evaluated in terms of type one error and powerý. ýThe simulation results show that these two methods have satisfactory performance in terms of type one error and their power is very close to each other approximatelyý. ýHoweverý, ýthe ADF method is very easy to implement in comparison with PB appreach which is simulation-based method and consequently time consumingý.
    Keywords: ýHeteroscedatic two, way ANOVAý, ýParametric bootstrapý, ýApproximate degree of freedomý, T^2-Hotelling distributioný
  • Ameneh Abyar, Mohsen Mohammadzadeh*, Kiomars Motarjem Pages 57-64

    ýBy existing censor and skewness in survival dataý, ýsome models such as weibull are used to analyzing survival dataý.
    ýIn addition, parametric and semiparametric models can be obtained from baseline hazard function of Cox model to fit to survival dataý. ýHowever these models are popular because of their simple usage but do not consider unknown risk factorsý, ýthat's why cannot introduce the best fit to the data necessarilyý.
    ýIn this paper by considering multiple random effects in Cox modelý, ýfrailty models are introducedý. ýThen using presented modelsý, ýesophageal cancer data in Golestan were modeled and fitted models were evaluated and compared based on generalized coefficient of determination criterioný.

    Keywords: ýSurvival dataý, ýCox proportional hazards modelý, ýFrailty modelý, ýGeneralized coefficient of determination criterioný
  • Alireza Arabpuor, Zeinab Mohammadi Pages 65-80
    ýIn this paperý, ýwe have studied the analysis an interval linear regression model for fuzzy dataý.
    ýIn section oneý, ýwe have introduced the concepts required in this thesis and then we illustrated linear regression fuzzy sets and some primary definitionsý. ýIn section twoý, ýwe have introduced various methods of interval linear regression analysisý. ýIn section threeý, ýwe have implemented numerical examples of the chapter twoý. ýFinallyý, ýwe have improved some methods of interval linear regression analysis that considered in section fourý. ýWe will showed performance of three methods by several examplesý. ýAll computations of examples are done by alabama package by R softwareý.
    Keywords: ýInterval linear regressioný, ýFuzzy intervalsý, ýTotal inclusioný, ýModel identificationý, ýLinear programmingý
  • Hossein Nadeb, Hamzeh Torabi Pages 81-87
    ýCensored samples are discussed in experiments of life-testing; i.eý. ýwhenever the experimenter does not observe the failure times of all units placed on a life testý. ýIn recent yearsý, ýinference based on censored sampling is consideredý, ýso that about the parameters of various distributions such as ýnormalý, ýexponentialý, ýgammaý, ýRayleighý, ýWeibullý, ýlog normalý, ýinverse Gaussianý, ýlogisticý, ýLaplaceý, ýand Paretoý, ýhas been inferred based on censored samplingý.
    In this paperý, ýa procedure for exact hypothesis testing and obtaining confidence interval for mean of the exponential distribution under Type-I progressive hybrid censoring is proposedý. ýThený, ýperformance of the proposed confidence interval is evaluated using simulationý. ýFinallyý, ýthe proposed procedures are performed on a data setý.
    Keywords: ýExponential distributioný, ýType, I progressive hybrid censoringý, ýHypothesis testingý, ýConfidence intervalý, ýCoverage Probabilityý
  • Mehdi Shams Pages 89-99
    ýBasu’s theorem is one of the most elegant results of classical statisticsý. ýSuccinctly putý, ýthe theorem saysý: ýif T is a complete sufficient statistic for a family of probability measuresý, ýand V is an ancillary statisticý, ýthen T and V are independentý. ýA very novel application of Basu’s theorem appears recently in proving the infinite divisibility of certain statisticsý. ýIn addition to Basu’s theoremý, ýthis application requires a version of the Goldie-Steutel lawý. ýBy using Basu’s theorem that a large class of functions of random variablesý, ýtwo of which are independent standard normalý, ýis infinitely divisibleý. ýThe next result provides a representation of functions of normal variables as the product of two random variablesý, ýwhere one is infinitely divisibleý, ýwhile the other is notý, ýand the two are independently distributedý.
    Keywords: infinite divisible distributionsý, goldie, Steutel lawý, scale equivariant functioný, scale invariant functioný