Title
|
ارائه یک روش کارآمد برای تشخیص داده های پرت محلی در جریان داده ها توام با کاهش مصرف حافظه
|
Type of Research
|
Thesis
|
Keywords
|
داده کاوی، جریان داده، تشخیص داده پرت، الگوریتم محلی، الگوریتم افزایشی، کاهش حافظه
|
Abstract
|
با روند روزافزون بهره گیری از علم داده کاوی، شناسایی داده های پرت (Outlier) نیز به یکی از موضوعات پر اهمیت تبدیل شده است. داده های پرت به داده هایی اطلاق می شوند که نسبت به داده های دیگر در مجموعه داده، انحراف زیادی دارند. این داده ها، ممکن است حاکی از یک تغییر منفی در سیستم باشد، مانند نوسان در فرکانس چرخش توربین موتور جت، که احتمالاً نشان دهنده یک نقص حتمی در سیستم است. داده های پرت یا ناهنجار می توانند جنبه مثبتی نیز داشته باشند. مثلا تعداد زیاد کلیک در صفحه یک محصول جدید در وب، نشان دهنده تقاضای بیشتر آن محصول نسبت به دیگر محصولات است. تشخیص داده پرت، یکی از مهم ترین کاربردهای داده کاوی است و بر روی داده های مختلفی انجام می شود که یکی از این نوع داده ها، داده های جریانی (Data stream) هستند. با توجه به نیاز روزافزون به تجزیه و تحلیل جریان داده ها، تشخیص داده پرت در آنها نیز چالش برانگیزتر می شود. زیرا آن ها نرخ تولید داده بسیار بالایی دارند و همچنین مانند تکنیک های سنتی تشخیص داده پرت دیگر نمی توان تمام مجموعه داده را برای پردازش ذخیره کرد. از این رو، نیاز به الگوریتمی است که از تکنیک های تحلیل تک گذر (One pass) برای بررسی جریان داده ها استفاده کند که بتواند عمل تشخیص را به محض ورود داده، با در نظر گرفتن محدودیت منابع حافظه انجام دهد. برای این کار،علاوه بر مرحله تشخیص، به مرحله خلاصه سازی داده ها نیز نیاز داریم. خلاصه سازی باید به گونه ای باشد که با حذف داده ها توزیع داده تغییری نکند.
|
Researchers
|
(Student)، Mahdi Hashemzadeh (Primary Advisor)، Nacer Farajzadeh (Advisor)
|