• بازدید : 67 views
  • بدون نظر
این فایل در ۴۰اسلاید قابل ویرایش تهیه شده وشامل موارد زیر است:

بسیاری از برنامه های کاربردی نوع داده جدیدی به نام جریان داده را تولید و تحلیل می کنند که در آن داده ها به صورت پویا به یک بستر (یا پنجره) وارد و یا از آن خارج می شوند .
■خواص جریان داده:
■حجم زیاد و گاه نامحدود
■تغییرپویا
■جریان به درون و خارج با یک ترتیب مشخص
■پیمایش یکبار یا تعدا د محدود
■نیازمند زمان پاسخ سریع (اغلب بلادرنگ)
■ممکن است دارای چندین منبع باشند 
در جريان داده تعدادی يا همه داده های ورودی که بايد روی آنها عمليات انجام شود روی ديسک يا حافظه اصلی قرار ندارند و بيشتر به صورت جريان داده پيوسته می رسند .    


جريان داده ها از داده‌‌ های ذخيره شده در موارد زير متفاوت اند :
عناصر داده ها به صورت بر خط می رسند .
سيستم هيچ گونه کنترلی روی ترتيب عناصر داده‌ای ( روی عناصر جريان يا جريانهای داده‌ای ) ، که جهت پردازش می‌رسند ، ندارد .
جريانهای داده ای به صورت ذاتی از نظر اندازه نامحدود هستند .
يک عنصر از جريان داده پس از پردازش يا ناديده در نظر گرفته می شود يا آرشيو می شود 
داده‌کاوی استخراج اطلاعات مفيد و دانش از حجم زياد داده‌ ها است . 
تکنيک هايی داده‌کاوی :
تحليل قواعد وابستگی : کشف قواعد وابستگی است که هر قاعده وابستگی به صورت جفت صفت-‌ مقدار هايی است که اغلب با هم در يک مجموعه داده اتفاق می افتند . 

کلاسه‌بندی : فرايند يافتن مجموعه مدلهايی است که کلاس های داده را توصيف و مشخص می‌کنند تا بدين وسيله بتوان کلاس اشيايی را که نامشخص است مشخص کرد .

تحليل خوشه ها : اشيا بر اساس قاعده ” زياد کردن شباهت بين عناصر کلاس و کم کردن شباهت بين کلاس ها ” ، اشيا را به خوشه هايی تقسيم می کند . اشيا داده ای موجود در يک خوشه بيشترين شباهت را با هم دارند و با اشيا ساير خوشه ها بسيار متفاوت هستند . 
داده‌کاوی جريان داده ها يک فرايند بلادرنگ استخراج الگوهای جالب توجه از جريان داده ها است . 
برای مثال ممکن است بخواهيم ورود به حريم شبکه کامپيوتری را بر اساس جريان غير عادی پيام ها شناسايی بکنيم که از طريق مقايسه الگوهای تکرارشونده فعلی با يک زمان قبلی ، قابل کشف است .
تکنيک های ذکر شده در داده‌کاوي بطور مستقيم بر جريان داده ها قابل اعمال نيستند زيرا الگوريتم های موجود برای اين تکنيک ها روی داده های مقيم در ديسک اعمال می شوند و می توانند داده ها را چند بار پيمايش کنند .

چالش های موجود در داده‌کاوی جريان داده عبارتند از :
به دليل خصوصيت پيوستگی عناصر داده ورودی ، نياز به حافظه نامحدود دارند .
الگوريتم های داده‌کاوی نياز به چندين پيمايش روی جريان داده دارند ولی به دليل سرعت بالای جريان داده اين امر امکان پذير نيست . 

عتیقه زیرخاکی گنج