• بازدید : 63 views
  • بدون نظر
این فایل در ۴۰اسلاید قابل ویرایش تهیه شده وشامل موارد زیر است:

بسیاری از برنامه های کاربردی نوع داده جدیدی به نام جریان داده را تولید و تحلیل می کنند که در آن داده ها به صورت پویا به یک بستر (یا پنجره) وارد و یا از آن خارج می شوند .
■خواص جریان داده:
■حجم زیاد و گاه نامحدود
■تغییرپویا
■جریان به درون و خارج با یک ترتیب مشخص
■پیمایش یکبار یا تعدا د محدود
■نیازمند زمان پاسخ سریع (اغلب بلادرنگ)
■ممکن است دارای چندین منبع باشند 
در جريان داده تعدادی يا همه داده های ورودی که بايد روی آنها عمليات انجام شود روی ديسک يا حافظه اصلی قرار ندارند و بيشتر به صورت جريان داده پيوسته می رسند .    


جريان داده ها از داده‌‌ های ذخيره شده در موارد زير متفاوت اند :
عناصر داده ها به صورت بر خط می رسند .
سيستم هيچ گونه کنترلی روی ترتيب عناصر داده‌ای ( روی عناصر جريان يا جريانهای داده‌ای ) ، که جهت پردازش می‌رسند ، ندارد .
جريانهای داده ای به صورت ذاتی از نظر اندازه نامحدود هستند .
يک عنصر از جريان داده پس از پردازش يا ناديده در نظر گرفته می شود يا آرشيو می شود 
داده‌کاوی استخراج اطلاعات مفيد و دانش از حجم زياد داده‌ ها است . 
تکنيک هايی داده‌کاوی :
تحليل قواعد وابستگی : کشف قواعد وابستگی است که هر قاعده وابستگی به صورت جفت صفت-‌ مقدار هايی است که اغلب با هم در يک مجموعه داده اتفاق می افتند . 

کلاسه‌بندی : فرايند يافتن مجموعه مدلهايی است که کلاس های داده را توصيف و مشخص می‌کنند تا بدين وسيله بتوان کلاس اشيايی را که نامشخص است مشخص کرد .

تحليل خوشه ها : اشيا بر اساس قاعده ” زياد کردن شباهت بين عناصر کلاس و کم کردن شباهت بين کلاس ها ” ، اشيا را به خوشه هايی تقسيم می کند . اشيا داده ای موجود در يک خوشه بيشترين شباهت را با هم دارند و با اشيا ساير خوشه ها بسيار متفاوت هستند . 
داده‌کاوی جريان داده ها يک فرايند بلادرنگ استخراج الگوهای جالب توجه از جريان داده ها است . 
برای مثال ممکن است بخواهيم ورود به حريم شبکه کامپيوتری را بر اساس جريان غير عادی پيام ها شناسايی بکنيم که از طريق مقايسه الگوهای تکرارشونده فعلی با يک زمان قبلی ، قابل کشف است .
تکنيک های ذکر شده در داده‌کاوي بطور مستقيم بر جريان داده ها قابل اعمال نيستند زيرا الگوريتم های موجود برای اين تکنيک ها روی داده های مقيم در ديسک اعمال می شوند و می توانند داده ها را چند بار پيمايش کنند .

چالش های موجود در داده‌کاوی جريان داده عبارتند از :
به دليل خصوصيت پيوستگی عناصر داده ورودی ، نياز به حافظه نامحدود دارند .
الگوريتم های داده‌کاوی نياز به چندين پيمايش روی جريان داده دارند ولی به دليل سرعت بالای جريان داده اين امر امکان پذير نيست . 
  • بازدید : 46 views
  • بدون نظر
این فایل در ۱۸اسلاید قابل ویرایش تهیه شده وشامل موارد زیر است:

تحلیل یک مجموعه آموزشی که مجموعه‌ای از تاپل‌های پایگاه است و مشخص کردن برچسب کلاس‌های مربوط به این تاپل‌ها . 
یک تاپل X با یک بردار صفت X= (x1,x2,…,xn) نمایش داده می‌شود . فرض می شود که هر تاپل به یک کلاس از پیش تعریف شده متعلق است . 
هرکلاس با یک صفت که به آن صفت برچسب کلاس می‌گوییم مشخص می‌شود .
مجموعه آموزشی به صورت تصادفی از پایگاه انتخاب می شود . 
به این مرحله، مرحله یادگیری نیز می گویند . 
استفاده از مدل: 
از طریق یک تابع y=f (X) برچسب کلاس هر تاپل X از پایگاه را پیش بینی می شود . 
این تابع به صورت قواعد کلاسه‌بندی، درخت‌های تصمیم گیری یا فرمول‌های ریاضی است .
 فرايندی دو مرحله ای است :
ساخت مدل : 
تحليل يک مجموعه آموزشی که مجموعه‌ای از تاپل‌های پايگاه است و مشخص کردن برچسب کلاس‌های مربوط به اين تاپل‌ها .
 يک تاپل X با يک بردار صفت X=(x1,x2,…,xn) نمايش داده می‌شود . فرض می شود که هر تاپل به يک کلاس از پيش تعريف شده متعلق است .
هرکلاس با يک صفت که به آن صفت برچسب کلاس می‌گوييم مشخص می‌شود .
 مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود . 
به اين مرحله ، مرحله يادگيری نيز می گويند .
استفاده از مدل :
از طريق يک تابع y=f(X) برچسب  کلاس هر تاپل X از پايگاه را پيش بينی می شود . 
اين تابع به صورت قواعد کلاسه‌بندی ، درخت‌های تصميم گيری يا فرمول‌های رياضی است . 
يکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .
مدل حاصل از اين روش به صورت درختهای تصميم گيری است :
هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است .
هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است .
هر برگ نشان دهنده يک برچسب کلاس است .
نحوه استفاده از درخت تصميم گيری :
اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کلاس را دارد ايجاد می شود .
الگوريتم پايه 
درخت به صورت بالا-پايين بازگشتی ساخته می شود .
در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .
فرض می کنيم صفات مقادير گسسته دارند .
صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .
صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطلاعاتی ، شاخص جينی يا نسبت بهره انتخاب می شوند .
شرايط توقف الگوريتم 
تمام نمونه های مربوط به يک نود متعلق به يک کلاس باشند .
صفتی برای بخش بندی بيشتر باقی نمانده باشد .
نمونه ای باقی نمانده باشد .
  • بازدید : 54 views
  • بدون نظر
این فایل در ۳۲ اسلاید قابل ویرایش تهیه شده وشامل موارد زیر است:

امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده هاي ذخيره شده را پردازش کردواطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد . 
با استفاده ار پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي ، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است .
مفاهيم پايه در داده کاوي
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .

تعريف داده کاوي
در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده است . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم. 
اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود 
داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها . 
داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .

تاريخچه داده کاوي
اخيرا داده کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله ها ي عملي شده است ، اما اين واژه تا اوايل دهه نود مفهومي نداشت وبه کار برده نمي شد .
در دهه شصت و پيش از آن زمينه هايي براي ايجاد سيستم ها ي جمع آوري و مديريت داده ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم هاي مديريت پايگاه داده ها گرديد .
ايجاد و توسعه مدلهاي داده اي براي پايگاه سلسله مراتبي ، شبکه اي و بخصوص رابطه اي در دهه هفتاد ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده ها و در نهايت ايجاد زبان پرسش SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرمهاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي شي گرا ، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردي شدن اين سيستم ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، … ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها (KDD) دانست بطوري که در بسياري موارد DM و KDD بصورت مترادف مورد استفاده قرار مي گيرند . 
براي اولين بار مفهوم داده کاوي در کارگاه IJCAI در زمينه KDD توسط Shapir مطرح گرديد . به دنبال آن در سالهاي ۱۹۹۱ تا ۱۹۹۴ ، کارگاههاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط گرديدند.
برخي از کاربردهاي داده کاوي در محيطهاي واقعي عبارتند از : 
۱٫ خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد :  
تعيين الگوهاي خريد مشتريان 
تجزيه و تحليل سبد خريد بازار
پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي) 
۲٫ بانکداري :
پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري 
تشخيص مشتريان ثابت 
تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي 
۳٫ بيمه :
تجزيه و تحليل دعاوي 
پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان 
۴٫ پزشکي :
تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي 
تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت
 
مراحل فرايند کشف دانش از پايگاه داده ها 
فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از :
۱٫ انبارش داده ها 
۲٫ انتخاب داده ها 
۳٫ تبديل داده ها 
۴٫ کاوش در داده ها 
۵٫ تفسير نتيجه 
همانگونه که مشاهده مي شود داده کاوي يکي از مراحل اين فرايند است که به عنوان بخش چهارم آن نقش مهمي در کشف دانش از داده ها ايفا مي کند .انبارش داده ها 
وجود اطلاعات صحيح و منسجم يکي از ملزوماتي است که در داده کاوي به آن نيازمنديم . اشتباه و عدم وجود اطلاعات صحيح باعث نتيجه گيري غلط و در نتيجه اخذ تصميمات ناصحيح در سازمانها مي گردد و منتج به نتايج خطرناکي خواهد گرديد که نمونه هاي آن کم نيستند .
اکثر سازمانها دچار يک خلا اطلاعاتي هستند . در اينگونه سازمانها معمولا سيستم هاي اطلاعاتي در طول زمان و با معماري و مديريت هاي گوناگون ساخته شده اند ، به طوري که سازمان اطلاعاتي يکپارچه و مشخصي مشاهده نمي گردد . علاوه بر اين براي فرايند داده کاوي به اطلاعات خلاصه و مهم در زمينه تصميم گيريهاي حياتي نيازمنديم .
هدف از فرايند انبارش داده ها فراهم کردن يک محيط يکپارچه جهت پردازش اطلاعات است . در اين فرايند ، اطلاعات تحليلي و موجز در دوره هاي مناسب زماني سازماندهي و ذخيره مي شود تا بتوان از آنها در فرايند هاي تصميم گيري که از ملزومات آن داده کاوي است ، استفاده شود . به طور کلي تعريف زير براي انبار داده ها ارائه مي گردد : 
انبار داده ها ، مجموعه اي است موضوعي، مجتمع ، متغير در زمان و پايدار از داده ها که به منظور پشتيباني از فرايند مديريت تصميم گيري مورد استفاده قرار مي گيرد . 
انبارش داده ها خود موضوع مفصلي است که مقاله ها و رساله ها ي گوناگوني در مورد آن نگاشته شده اند . در اين فصل به منظور آشنايي با اين فرايند به آن اشاره اي شد .

انتخاب داده ها 
انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است که همه آنها در داده کاوي مورد نياز نيستند . براي فرايند داده کاوي بايد داده ها ي مورد نياز انتخاب شوند . به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي ، اطلاعاتي در مورد خريد مشتريان ، خصوصيات آماري آنها ، تامين کنندگان ، خريد ، حسابداري و … وجود دارند . براي تعيين نحوه چيدن قفسه ها تنها به داده ها يي در مورد خريد مشتريان و خصوصيات آماري آنها نياز است . حتي در مواردي نياز به کاوش در تمام محتويات پايگاه نيست بلکه ممکن است به منظور کاهش هزينه عمليات ، نمونه هايي از عناصر انتخاب و کاوش شوند .
 
تبديل داده ها
هنگامي که داده هاي مورد نياز انتخاب شدند و داده ها ي مورد کاوش مشخص گرديدند ، معمولا به تبديلات خاصي روي داده ها نياز است . نوع تبديل به عمليات و تکنيک داده کاوي مورد استفاده بستگي دارد : تبديلاتي ساده همچون تبديل نوع داده اي به نوع ديگر تا تبديلات پيچيده تر همچون تعريف صفات جديد با انجام عملياتهاي رياضي و منطقي روي صفات موجود .
 
کاوش در داده ها 
داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند .
 
تفسير نتيجه 
اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل و بهترين نتايج معين مي گردند . هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست ، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .

عملياتهاي داده کاوي 
در داده کاوي ، چهار عمل اصلي انجام مي شود که عبارتند از 
۱٫ مدلسازي پيشگويي کننده
۲٫ تقطيع پايگاه داده ها 
۳٫ تحليل پيوند 
۴٫ تشخيص انحراف
از عملياتهاي اصلي مذکور ، يک يا بيش از يکي از آنها در پياده سازي کاربرد هاي گوناگون داده کاوي استفاده مي شوند . به عنوان مثال براي کاربرد هاي خرده فروشي معمولا از عمليات تقطيع و تحليل پيوند استفاده مي شود در حالي که براي تشخيص کلاهبرداري ، مي توان از هر يک از چهار عمليات مذکور استفاده نمود . علاوه برا ين مي توان از دنباله اي از عملياتها براي يک منظور خاص استفاده کرد . مثلا براي شناسايي مشتريان ، ابتدا پايگاه تقطيع مي شود و سپس مدلسازي پيشگويي کننده در قطعات ايجاد شده اعمال مي گردد .
تکنيکها ، روشها و الگوريتمهاي داده کاوي ، راههاي پياده سازي عملياتهاي داده کاوي هستند . اگر چه هر عمليات نقاط ضعف و قوت خود را دارد ، ابزارهاي گوناگون داده کاوي عملياتها را بر اساس معيارهاي خاصي ، انتخاب مي کنند . اين معيارها عبارتند از :
تناسب با نوع داده هاي ورودي 
شفافيت خروجي داده کاوي 
مقاومت در مقابل اشتباه در مقادير داده ها 
ميزان صحت خروجي
توانايي کار کردن با حجم بالاي داده ها 
  • بازدید : 49 views
  • بدون نظر
این فایل در ۴۰صفحه قابل ویرایش تهیه شده وشامل موارد زیر است:

سياری از برنامه های کاربردی نوع داده جديدی به نام جريان داده را توليد و تحليل می کنند که در آن داده ها به صورت پويا به يک بستر ( يا پنجره ) وارد و يا از آن خارج می شوند . 
خواص جريان داده : 
حجم زياد و گاه نامحدود 
تغييرپويا 
جريان به درون و خارج با يک ترتيب مشخص 
پيمايش يکبار يا تعدا د محدود 
نيازمند زمان پاسخ سريع ( اغلب بلادرنگ ) 
ممکن است دارای چندين منبع باشند .
در ادامه برای آشنایی بیشتر شما توضیحات مفصلی می دهیم
در جريان داده تعدادی يا همه داده های ورودی که بايد روی آنها عمليات انجام شود روی ديسک يا حافظه اصلی قرار ندارند و بيشتر به صورت جريان داده پيوسته می رسند .    


جريان داده ها از داده‌‌ های ذخيره شده در موارد زير متفاوت اند :
عناصر داده ها به صورت بر خط می رسند .
سيستم هيچ گونه کنترلی روی ترتيب عناصر داده‌ای ( روی عناصر جريان يا جريانهای داده‌ای ) ، که جهت پردازش می‌رسند ، ندارد .
جريانهای داده ای به صورت ذاتی از نظر اندازه نامحدود هستند .
يک عنصر از جريان داده پس از پردازش يا ناديده در نظر گرفته می شود يا آرشيو می شود 
داده‌کاوی استخراج اطلاعات مفيد و دانش از حجم زياد داده‌ ها است . 
تکنيک هايی داده‌کاوی :
تحليل قواعد وابستگی : کشف قواعد وابستگی است که هر قاعده وابستگی به صورت جفت صفت-‌ مقدار هايی است که اغلب با هم در يک مجموعه داده اتفاق می افتند . 

کلاسه‌بندی : فرايند يافتن مجموعه مدلهايی است که کلاس های داده را توصيف و مشخص می‌کنند تا بدين وسيله بتوان کلاس اشيايی را که نامشخص است مشخص کرد .

تحليل خوشه ها : اشيا بر اساس قاعده ” زياد کردن شباهت بين عناصر کلاس و کم کردن شباهت بين کلاس ها ” ، اشيا را به خوشه هايی تقسيم می کند . اشيا داده ای موجود در يک خوشه بيشترين شباهت را با هم دارند و با اشيا ساير خوشه ها بسيار متفاوت هستند . 
داده‌کاوی جريان داده ها يک فرايند بلادرنگ استخراج الگوهای جالب توجه از جريان داده ها است . 
برای مثال ممکن است بخواهيم ورود به حريم شبکه کامپيوتری را بر اساس جريان غير عادی پيام ها شناسايی بکنيم که از طريق مقايسه الگوهای تکرارشونده فعلی با يک زمان قبلی ، قابل کشف است 
تکنيک های ذکر شده در داده‌کاوي بطور مستقيم بر جريان داده ها قابل اعمال نيستند زيرا الگوريتم های موجود برای اين تکنيک ها روی داده های مقيم در ديسک اعمال می شوند و می توانند داده ها را چند بار پيمايش کنند .

چالش های موجود در داده‌کاوی جريان داده عبارتند از :
به دليل خصوصيت پيوستگی عناصر داده ورودی ، نياز به حافظه نامحدود دارند .
الگوريتم های داده‌کاوی نياز به چندين پيمايش روی جريان داده دارند ولی به دليل سرعت بالای جريان داده اين امر امکان پذير نيست . 
بدست آوردن مجموعه‌های تکرارشونده به صورت تقريبی .
فرض کنيد t0, …, tn پنجره‌های زمانی شيب‌دار هستند که t0 قديميترين آنهاست 
ورودی : 
حداقل پشتيبانی : s
کران خطا ε
T = t k U t k+1 U … U t k’
خروجی :
تمام مجموعه‌های تکرارشونده در T با پشتيبانی بزرگتر يا مساوی  s * W 
تعدادی مجموعه‌های زيرتکرارشونده در T با پشتيبانی بزرگتر يا مساوی(s-ε) * W ممکن است در خروجی ظاهر شوند (W  تعداد تراکنش‌های موجود در T است ) .
فرض کنيد t0, …, tn پنجره‌های زمانی هستند که t0 قديميترين آنهاست 
ورودی : 
حداقل پشتيبانی : s
T = t k U t k+1 U … U t k’

 خروجی :
     تمام مجموعه‌های تکرارشونده در T با پشتيبانی بزرگتر يا مساوی s * W   که در آن W تعداد تراکنش‌های موجود در T است . 
اين مساله غيرقابل حل است مگر اينکه اطلاعات تمام مجموعه‌های ممکن نگهداری شود که نمايی از تعداد عناصر است .
عناصری که هم اکنون غيرتکرارشونده هستند با پيشرفت جريان داده ممکن است تکرارشونده شوند . 

  • بازدید : 48 views
  • بدون نظر

با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده‌ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس‌هاي وب مي پردازد.

 

چکيده

با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده‌ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس‌هاي وب مي پردازد. در واقع وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد. روش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسيم می شوند.  طي اين گزارش پس از معرفی وب کاوي و بررسی مراحل آن، ارتباط وب کاوي با ساير زمينه هاي تحقيقاتي بررسي شده و به چالش ها، مشکلات و کاربردهای اين زمينه تحقيقاتي اشاره مي شود. همچنين هر يک از انواع وب کاوي به تفصيل مورد بررسي قرار مي گيرند که در این پروژه بیشتر به وب کاوی در صنعت می پردازم. براي اين منظور مدل ها، الگوريتم ها و کاربردهاي هر طبقه معرفي مي شوند.




فهرست مطالب


عنوان                                                                                                                شماره صفحه


فصل اول:مقدمه


مقدمه ۱


فصل دوم:داده کاوی


۲- ۱ مقدمه ای بر داده کاوی ۶


۲-۱-۱ چه چيزی سبب پيدايش داده کاوی شده است؟ ۷


۲-۲ مراحل کشف دانش ۹


۲- ۳ جایگاه داده کاوی در میان علوم مختلف ۱۲


۲-۴ داده کاوی چه کارهایی نمی تواند انجام دهد؟ ۱۴


۲-۵ داده کاوی و انبار داده ها ۱۴


۲-۶ داده کاوی و OLAP 15


۲-۷ کاربرد یادگیری ماشین و آمار در داده کاوی ۱۶


۲-۸ توصیف داده ها در داده کاوی ۱۶


۲-۸-۱ خلاصه سازی و به تصویر در آوردن داده ها ۱۶


۲-۸-۲ خوشه بندی ۱۷


۲-۸-۳ تحلیل لینک ۱۸


۲-۹ مدل های پیش بینی داده ها ۱۸


۲-۹-۱ دسته بندی ۱۸


۲-۹-۲ رگرسیون ۱۸


۲-۹-۳ سری های زمانی ۱۹


۲-۱۰ مدل ها و الگوریتم های داده کاوی ۱۹


۲-۱۰-۱ شبکه های عصبی ۱۹


۲-۱۰-۲ درخت تصمیم ۲۲


۲-۱۰-۳ Multivariate Adaptive Regression Splines(MARS) 24


۲-۱۰-۴ Rule induction 25


۲-۱۰-۵ K-nearest neibour and memory-based reansoning(MBR) 25


۲-۱۰-۶ رگرسیون منطقی ۲۶


۲-۱۰-۷ تحلیل تفکیکی ۲۷


۲-۱۰-۸ مدل افزودنی کلی (GAM) 28


۲-۱۰-۹ Boosting 28


۲-۱۱ سلسله مراتب انتخابها ۲۸


۲-۱۲داده کاوی و مدیریت بهینه وب سایت ها ۳۰


۲-۱۳داده‌كاوي و مديريت دانش ۳۱


فصل سوم: وب کاوی


۳-۱ تعریف وب کاوی ۳۳


۳-۲ مراحل وب کاوي ۳۳


۳-۳ وب کاوي و زمينه هاي تحقيقاتي مرتبط ۳۴


۳-۳-۱ وب کاوي و داده کاوي ۳۴


۳-۳-۲ وب کاوي و بازيابي اطلاعات ۳۵


۳-۳-۳ وب کاوي و استخراج اطلاعات ۳۶


۳-۳-۴ وب کاوي و يادگيري ماشين ۳۷


۳-۴ انواع وب کاوي ۳۷


۳-۵ چالش هاي وب کاوي ۳۸


۳-۶مشكلات ومحدوديت هاي وب كاوي در سايت هاي فارسي زبان ۳۹


۳-۷ محتوا کاوی وب ۴۰


 


 


 


 


فصل چهارم: وب کاوی در صنعت


۴-۱ انواع وب کاوی در صنعت ۴۳


۴-۱-۱وب کاوی در صنعت نفت، گاز و پتروشیمی ۴۳


۴-۱-۱-۱ مهندسی مخازن/ اکتشاف ۴۳


۴-۱-۱-۲مهندسی بهره برداری ۴۴


۴-۱-۱- ۳مهندسی حفاری ۴۴


۴-۱-۱-۴بخشهای مدیریتی ۴۴


۴-۱-۲ کاربرد های دانش داده کاوی در صنعت بیمه ۴۵


۴-۱-۳کاربردهای دانش داده کاوی در مدیریت شهری ۴۶


۴-۱-۴کاربردهای داده کاوی در صنعت بانکداری ۴۷


۴-۱-۴-۱بخش بندی مشتریان ۴۷


۴-۲ پژوهش های کاربردی ۴۸


نتيجه گيري ۵۰


منابع و ماخذ فارسی ۵۱


مراجع و ماخذ لاتین و سایتهای اینترنتی ۵۲


 


 


 


 


 


 


 


 


 


 


 


 


 


 


 


  • بازدید : 52 views
  • بدون نظر
این فایل در ۱۸صفحه قابل ویرایش تهیه شده وشامل موارد زیر است:

فرايندی دو مرحله ای است :
ساخت مدل : 
تحليل يک مجموعه آموزشی که مجموعه‌ای از تاپل‌های پايگاه است و مشخص کردن برچسب کلاس‌های مربوط به اين تاپل‌ها .
 يک تاپل X با يک بردار صفت X=(x1,x2,…,xn) نمايش داده می‌شود . فرض می شود که هر تاپل به يک کلاس از پيش تعريف شده متعلق است .
هرکلاس با يک صفت که به آن صفت برچسب کلاس می‌گوييم مشخص می‌شود .
 مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود . 
به اين مرحله ، مرحله يادگيری نيز می گويند .
استفاده از مدل :
از طريق يک تابع y=f(X) برچسب  کلاس هر تاپل X از پايگاه را پيش بينی می شود . 
اين تابع به صورت قواعد کلاسه‌بندی ، درخت‌های تصميم گيری يا فرمول‌های رياضی است . 
يکی از روش های کارآمد و با کاربرد گسترده کلاسه بندی است .
مدل حاصل از اين روش به صورت درختهای تصميم گيری است :
هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است .
هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است .
هر برگ نشان دهنده يک برچسب کلاس است .
نحوه استفاده از درخت تصميم گيری :
اگر تاپلی چون X که برچسب کلاس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کلاس را دارد ايجاد می شود .
الگوريتم پايه 
درخت به صورت بالا-پايين بازگشتی ساخته می شود .
در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .
فرض می کنيم صفات مقادير گسسته دارند .
صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند .
صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطلاعاتی ، شاخص جينی يا نسبت بهره انتخاب می شوند .
شرايط توقف الگوريتم 
تمام نمونه های مربوط به يک نود متعلق به يک کلاس باشند .
صفتی برای بخش بندی بيشتر باقی نمانده باشد .
نمونه ای باقی نمانده باشد .
روش های ساختن درختان تصميم گيری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در ديسک ذخيره شود .
روش های مذکور بصورت پياپی مجموعه آموزشی را از ديسک می خوانند .
هدف : طراحی درخت های تصميم گيری که هر نمونه آموزشی را فقط يکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند .
برای يافتن بهترين صفت در هر گره ، در نظر گرفتن يک زيرمجموعه کوچک از نمونه های آموزشی که از آن گره عبور می کنند کافی است .
با در دست داشتن جريانی از نمونه ها ، اولين نمونه ها برای انتخاب صفت ريشه استفاده می شوند . 
با تعيين شدن صفت ريشه ، نمونه های بعدی به سمت پايين و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند .
اين عمل به صورت بازگشتی تکرار می شود . 
چه تعداد نمونه در هر گره لازم است ؟ 
از يک نتيجه آماری به نام Hoeffding bound  استفاده می کنيم .
 حافظه :
بسياری از برنامه های کاربردی RAM محدودی برای يادگيری مدلهای پيچيده دارند .
حافظه مورد استفاده VFDT همان حافظه مورد نياز برای نگهداری شمارنده‌ها در برگهای در حال رشد است . 
اگر به حداکثر حافظه برسيم VFDT برگهايی را که احتمال شکاف در آنها کم است غيرفعال می کند تا حافظه برای برگهای جديد فراهم شود .   
هنگامی که احتمال شکاف يک برگ غيرفعال از برگهای موجود  بيشتر شود آن برگ دوباره می‌تواند فعال شود .  
برابری‌‌ها :
وقتی که دو يا بيشتر صفت در G بسيار شبيه هستند نمونه‌های زيادی برای تصميم‌گيری بين آنها ، با اطمينان بالا نياز است . 
در اين مورد ، اينکه چه صفتی انتخاب می شود اختلاف اندکی را بوجود می‌آورد .VFDT  بصورت انتخابی تصميم می‌گيرد که يک برابری وجود دارد و شکاف را روی يکی از بهترين صفت‌های جاری انجام می‌دهد . 
محاسبه G  : 
بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه G صرف می شود . 
محاسبه دوباره G برای هر نمونه جديد ناکارا است ، چون احتمال تصميم برای شکاف در آن نقطه مشخص غير محتمل است . 
 بنابراين VFDT به کاربر اجازه می‌دهد تا يک حداقل تعداد برای نمونه های جديد يا nmin  را مشخص کند که بايد در هر برگ انباشته شود قبل از اينکه G دوباره محاسبه شود
  • بازدید : 77 views
  • بدون نظر

دانلود پروژه پایان نامه ورد نگاهی بر داده کاوی و کشف قوانین وابستگی رو براتون گذاشتم.

دانلود این فایل می تواند کمک ویژه ای به شما در تکمیل یک پایان نامه ی کامل و قابل قبول و ارایه و دفاع از آن در سمینار مربوطه باشد.

برخی از عناوین موجود در این مقاله :
۱- Data mining(داده كاوي)
۲-  الگوريتم هاي MaxEclat,Eclat
۳- الگوريتم با ساختار trie
۴- الگوريتم partition   
و بسیاری موارد دیگر
امیدوارم این  مقاله مورد استفاده شما دوستان عزیز قرار بگیره.

چکیده:

امروزه داده کاوی به عنوان یکی از مهمترین مسائل هوش مصنوعی و پایگاه داده، محققان یسیاری را به خود جذب کرده است. در این تحقیق ابتدا نگاه کلی بر داده کاوی، استراتژیهای داده کاوی و… داریم، سپس مسأله کشف قوانین وابستگی در پایگاه داده را به تفضیل بررسی کردیم و نگاهی به الگوریتمهای موجود برای آن داشتیم. سپس مسأله کشف قوانین وابستگی در پایگاه داده های پویا را مورد بحث قرار دادیم و الگوریتم های ارائه شده مربوطه را مطرح کردیم.

  • بازدید : 58 views
  • بدون نظر

با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز به روش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده‌ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس‌هاي وب مي پردازد.

  • بازدید : 52 views
  • بدون نظر

دانلود رایگان تحقیق بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005-خرید اینترنتی تحقیق بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005-دانلود رایگان پایان نامه بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005-پایان نامه بررسی ومطالعه ی کامل داده کاوی و داده کاوی با SQL SERVER2005

این فایل در ۲۱۷صفحه قابل ویرایش تهیه شده وشامل موارد زیر است:
عامل مسبب پيدايش داده کاوی 
    اصلی ترين دليلی که باعث شده داده کاوی کانون توجهات در صنعت اطلاعات قرار بگيرد، مساله در دسترس بودن حجم وسيعی از داده ها و نياز شديد به اينکه از اين داده ها, اطلاعات و دانش سودمند استخراج کنيم. اطلاعات و دانش بدست آمده در کاربردهای وسيعی مورد استفاده قرار می گيرد.
    داده کاوی را می توان حاصل سير تکاملی طبيعی تکنولوژی اطلاعات دانست، که اين سير تکاملی ناشی از يک سير تکاملی در صنعت پايگاه داده می باشد، نظير عمليات جمع آوری داده ها وايجاد پايگاه داده، مديريت داده و تحليل و فهم داده ها. 
   تکامل تکنولوژی پايگاه داده و استفاده فراوان آن در کاربردهای مختلف سبب جمع آوری حجم فراوانی داده شده است. اين داده های فراوان باعث ايجاد نياز برای ابزارهای قدرتمند برای تحليل داده ها گشته، زيرا در حال حاضر به لحاظ داده ثروتمند هستيم ولی دچار کمبود اطلاعات می باشيم. 
   ابزارهای داده کاوی داده ها را آناليز می کنند و الگوهای داده ها را کشف می کنند که می توان از آن در کاربردهايی نظير تعيين استراتژی برای کسب و کار، پايگاه دانش  و تحقيقات علمی و پزشکی، استفاده کرد. شکاف موجود بين داده ها و اطلاعات سبب ايجاد نياز برای ابزارهای داده کاوی شده است تا داده های بی ارزش را به دانشی ارزشمند تبديل کنيم . 



۱
-۳-داده كاوي و مفهوم  اكتشاف دانش    (K.D.D)  
   با حجم عظيم داده هاي ذخيره شده در فايلها، بانكهاي اطلاعاتي و ساير بانك هاي داده اي، توسعه ي ابزارهايي براي تحليل و شايد تفسير چنين داده هايي و براي استخراج علوم شگفت انگيزي كه مي توانند در تصميم گيري مفيد باشند، امري بسيار مهم و ضروري است. داده كاوي با عنوان كشف دانش در پايگاه هاي داده (KDD) شناخته مي‌شود. كشف علومي كه قبلا ناشناخته بوده‌اند و اطلاعاتي كه در بانكهاي اطلاعاتي موجود بوده و ذاتا بالقوه و مفيد هستند.
   با وجود آنكه داده كاوي و كشف دانش در پايگاه‌هاي داده مترادف همديگر هستند، ولي در اصل، داده كاوي ذاتاً بخشي و تنها قسمتي جزئي از فرآيند كشف دانش است. فرآيند كشف دانش در بر گيرنده ي چندين مرحله مي باشد كه از اطلاعات خام، گونه هايي از علوم جديد را بدست مي دهد. مراحل كشف دانش به قرار زير است:
۱- پاكسازي داده ها  : در اين فاز داده هاي اضافي و نامربوط از مجموعه داده ها حذف مي شوند.(داده های ناکامل) [۲]
 2-يکپارچه سازی داده ها  : چندين منبع داده ترکيب می شوند،
   3-انتخاب داده ها : انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است که همه آنها در داده کاوي مورد نياز نيستند . براي فرايند داده کاوي بايد داده ها ي مورد نياز انتخاب شوند . به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي ، اطلاعاتي در مورد خريد مشتريان ، خصوصيات آماري آنها ، تامين کنندگان ، خريد ، حسابداري و … وجود دارند . براي تعيين نحوه چيدن قفسه ها تنها به داده ها يي در مورد خريد مشتريان و خصوصيات آماري آنها نياز است . حتي در مواردي نياز به کاوش در تمام محتويات پايگاه نيست بلکه ممکن است به منظور کاهش هزينه عمليات ، نمونه هايي از عناصر انتخاب و کاوش شوند . 
   4-تبديل داده ها : هنگامي که داده هاي مورد نياز انتخاب شدند و داده هاي مورد کاوش مشخص گرديدند، معمولا به تبديلات خاصي روي داده ها نياز است. نوع تبديل به عمليات و تکنيک داده کاوي مورد استفاده بستگي دارد، تبديلاتي ساده همچون تبديل نوع داده اي به نوع ديگر تا تبديلات پيچيده تر همچون تعريف صفات جديد با انجام عملياتهاي رياضي و منطقي روي صفات موجود.
 5-داده کاوی : بخش اصلی فرايند ، که در آن با استفاده از روش ها و تکنيک های خاص ، استخراج الگو های مفید ،  دانش استخراج می شود. 
 6-زيابی الگو   : مشخص کردن الگوهای صحيح و مورد نظر به وسيله معيارهای اندازه گيری.
 7-زنمايی دانش :  در اين  بخش به منظور ارائه دانش استخراج شده به کاربر ، از يک سری ابزارهای بصری سازی استفاده می گردد.

۱-۳-۱-تعریف داده کاوی  
   در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود. برخي از اين تعاريف عبارتند از :
داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته  قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ که شامل بهره گيري از بزارهاي آناليز داده ها، براي كشف الگوهاي موجود و روابط ناشناخته‌ي ميان داده ها در حجمي وسيع مي باشد. و استفاده از آن درتصميم گيري فعاليتهاي تجاري مهم.   
اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود [۳]. 
داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها [۴].
داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
   همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .
  • بازدید : 56 views
  • بدون نظر
این فایل در ۱۴۵صفحه قابل ویرایش تهیه شده وشامل موارد زیر است:

بسياري از فروشگاهها پس از گذشت يك ربع قرن از آغاز فعاليت، هنوز مشتري وفادار خود را دارند. اين وفاداري تصادفي نيست. اداره كنندگان اين فروشگاهها به سلايق و نيازهاي مشتريان خويش واقف شده اند و توان مالي خريد آنها را مي شناسند. وقتي كسي از آنها راهنمايي بخواهد پاسخ آنها براساس دانش اندوخته شان در مورد ذائقه و بودجه آن مشتري و همچنين دانش شان در باره محصولات خودشان خواهد بود.
افرادي كه به اين فروشگاه رفت و آمد دارند در مورد كالاهاي آن فروشگاه چيزهاي زيادي مي دانند. هر چند اين دانش يكي از دلايل آنها براي ايجاد خريد از آنجاست و به همين دليل به فروشگاه هاي ديگر نمي روند ولي داشتن اطلاعات خودماني و صميمانه در باره هر شخص آنها را مشتري دائمي آنجا مي كند و به يك مغازه مشابه ديگر در آنطرف خيابان و روبروي همين فروشگاه نمي روند و برخوردار بودن اين فروشگاه از اطلاعات خودماني و صميمانه در باره هر شخص آنها را مشتري دائمي آنجام مي كند 
مديريت روابط تحليلي با مشتريان
شكي نيست كه لازم است موسسات بزرگ نيز مانند تجارتهاي خدمات مدار و كوچك از منافع برقراري روابط يك به يك با مشتريانشان بهره مند گردند. مديريت روابط با مشتري موضوع گسترده اي است كه در كتابها و كنفرانسهاي زيادي در مورد آن بحث شده است. تمركز اين كتاب بر نقشي است كه داده كاوي مي تواند در بهبود مديريت روابط با مشتري از طريق افزايش توان موسسات براي برقراري روابط با مشتريانشان ايفا كند.
در تمامي صنايع، شركتهاي آينده نگر به سمت اين هدف حركت مي كنند كه تمام مشتريان را به صورت فردي درك نمايند و از اين شناخت براي تسهيل تجارتي استفاده نمايند كه مشتري مي خواهد با آنها انجام دهد به جاي اينكه با رقبايشان همين تجارت را برقرار نمايد. اين موسسات ياد مي گيرند كه ارزش هر مشتري را در نظر بگيرند تا تشخيص دهند كه كدام يك از مشتريان ارزش سرمايه گذاري و صرف تلاش مداوم را دارند و دور كدام يك را بايد خط كشيد. اين تغيير نگرش و تمركز بر مشتريان فردي بجاي تمركز بر بخشهاي وسيع بازار نيازمند تغيير در كل شركت است و مطمئناً به بخشهاي بازاريابي، فروش و پشتيباني مشتريان هم سرايت مي نمايد.
براي بيشتر شركتها استقرار يك تجارت حول روابط با مشتريان تغييري بنيادين است. بانكها همواره به حفظ تعادل بين هزينه اي كه به سرمايه گذاران در بانك مي پردازند و سود حاصل از وامهاي پرداختي به وام گيرندگان توجه مي كنند. شركتهاي مخابرات بر نوع و چگونگي ارتباطات تلفني مشتريان توجه دارند. شركتاي بيمه بر تعادل پرداخت خسارات بيمه گذاران و مديريت سرمايه گذاريهاي انجام يافته با پول حال از دريافت حق بيمه ها متمركز شده اند. داده كاوي كمك مي كند تا نهادي محصول مدار به نهادي مشتري مدار تبديل شود. داده كاوي به تعبيري دقيق تر به مجموعه اي از ابزارها و تكنيكها اطلاق مي شود و يكي از چند تكنولوژي لازم براي حمايت از شركتي مشتري مدار مي باشد. از منظري وسيعتر داده كاوي ديدگاهي است كه مطابق آن اعمال تجاري بايد براساس يادگيري باشند، ديدگاهي كه در آن تصميمات آگاهانه بهتر از تصميمات بدون آگاهي هستند. داده كاوي ، موثر واقع شود بايد ساير نيازمنديهاي مديريت ارتباط با مشتريان نيز برآورده شود. يك شركت به منظور ايجاد رابطه اي يادگيرنده با مشتريان خود بايد قادر باشد: 
۱٫ متوجه آنچه مشتريانش انجام مي دهند باشد.
۲٫ عملكرد شركت و مشتريان شركت در طول دورانهاي مختلف را هميشه به ياد داشته باشد. 
۳٫ از آنچه به ياد مي آورد درس بگيرد.
۴٫ براساس آنجه ياد گرفته عمل كند تا مشتريانش سودآورتر باشند.
اگرچه تمركز اين كتاب بر گزينه سوم يعني درس گرفتن از آنچه در گذشته رخ داده مي باشد ولي بايد گفت يادگيري در خلا اتفاق نمي افتد. بايد سيستمهاي پردازش تعاملات براي پي بردن به تعاملات مشتريان، انبار داده ها براي ذخيره اطلاعات در مورد رفتارهاي گذشته مشتريان و يك استراتژي براي رابطه با مشتري وجود داشته باشد تا آن برنامه ها را به مرحله عمل در آورد.
نقش سيستمهاي پردازش تعاملات
يك تجارت كوچك با مشتريان خود روابطي را از طريق توجه به نيازهايشان، به ياد داشتن ترجيحاتشان و درس گرفتن از تعاملات گذشته برقرار مي كند تا در آينده به آنها بهتر ارائه خدمات نمايد. چگونه يك شركت عظيم مي تواند مشابه اين كار را انجام دهد. وقتي اين امكان هست كه اغلب كارمندان آن شركت هرگز به صورت شخصي با مشتريان رابطه نداشته باشند؟ حتي اگر تعامل با مشتري هم وجود داشته باشد ممكن است اين روابط هر بار با فروشنده يا كارمند متفاوتي در مركز تلفن برقرار شود. پس چگونه شركت مي تواند به اين تعاملات توجه كند. آنها را به ياد آورد و از آنها درس بگيرد؟ چه چيزي مي تواند جايگزين حس خلاق يك فروشنده شود كه مشتريانش را با اسم و از روي چهره و صدا مي شناسد و عادتها و ترجيحات آنها را به ياد مي آورد؟ پاسخ اين است كه هيچ چيز نمي تواند جايگزين شود ولي اين مسئله بدان معني نيست كه نمي توان سعي و تلاش كرد. از طريق به كارگيري هوشمندانه تكنولوژيهاي اطلاعات حتي بزرگترين شركتها هم مي توانند به نتايج شگفت انگيزي برسند. در شركتهاي تجاري عظيم، اولين گام يعني توجه به آنچه مشتري انجام مي دهد از قبل و به صورت خودكار در آمده است. سيستمهاي پردازش تعاملات همه جا هستند و ظاهراً داده هايي را در مورد همه چيز جمع آوري مي كنند. نتايج ثبت شده توسط دستگاههاي اتوماتيك سخن گو، سرورهاي وب، اسكنرهاي باركد كالاهاي فروش رفته وموارد مشابه ، توليد كننده داده هاي خام براي داده كاوي هستند.
امروزه همه ما در طول زندگي  جريان مداومي از اطلاعات تعاملي را ايجاد مي كنيم. وقتي شما گوشي تلفن را بر مي داريد تا يك كالا سفارش دهيد جزئيات تماس شما در اداره تلفن محلي ثبت مي شود و بطور مثال، زمان تماس، شماره تلفن و عنوان شركتي را كه با آن تماس گرفته ايد نشان مي دهد. در شركتي كه با آن تماس گرفته ايد نيز اطلاعات مشابهي نظير مدت مكالمه شما ثبت مي شود. اين داده ها با ساير اطلاعاتي كه متشكل از نحوه پرداخت صورتحساب و اسم و آدرس شما براي تهيه يك رسيد است جمع مي گردد. در شركتهاي تهيه كاتالوگها نيز تماس شما دوباره  به همراه اطلاعاتي در باره كاتالوگ مخصوصي كه شما از آن سفارش داده ايد و هر طرح تشويقي ديگري كه به آن پاسخ داده ايد ثبت مي شود. وقتي پاسخ دهندگان به تماس شما، شماره كارت اعتباري شما و تاريخ انقضاي آنرا سوال نموده اند، اين اطلاعات هم بلافاصله به سيستم بررسي كارتهاي اعتباري داده مي شود تا صحت اطلاعات گرفته شده ثابت گردد  و اين موارد هم البته ثبت مي گردد. در يك چشم به هم زدن اين تعامل بانكي كه صادر كننده كارت اعتباري شماست برقرار مي شود و در صورتحساب ماهيانه بعديتان اين مسئله ثبت خواهد شد. وقتي سفارش مي دهيد آن سفارش با شماره اقلام، اندازه و رنگ آن وارد سيستم سفارشات كاتالوگها مي شود و اطلاعات بيشتري را در سيستم كامپيوتري اداره پست توليد مي كند جايي كه كالاهاي ارسالي با پست توسط واحد انبارها بعنوان فرستنده ودر خانه شمابعنوان گيرنده بررسي مي شود تا با بررسي وب سايت حامل كالا ببينيد كار در چه مرحله اي از پيشرفت است.
اين اطلاعات تعاملي براي داده كاوي توليد و جمع آوري نشده اند بلكه براي برآورده كردن نيازهاي عملي شركت ايجاد شده اند. با اين وجود همه اين اطلاعات حاوي مطالب مفيدي در مورد مشتريان هستند و مي توان همگي را با موفقيت كاوش كرد. شركتهاي مخابرات از اطلاعات مربوط به جزئيات تماسها براي دستيابي به شماره تلفن ساكناني استفاده كرده اند كه الگوهاي تماسشان شبيه الگوهاي تجارتي است تا مخابرات بتواند خدماتخاصي را به افرادي كه در منازل خويش كسب و كاري راه انداخته اند عرضه نمايد. شركتهاي تهيه كاتالوگها از سفارشات گذشته براي تصميم گيري در مورد شموليت هر كدام از مشتريان در ارسال بسته هاي پستي حاوي كاتالوگ آينده استفاده مي كنند. يك شركت پست از تغيير رخ داده در الگوي تقاضاي مشتريان خود در طول تعطيلي موقتي شركت رقيب استفاده نمود تا سهم خويش را در تجارت توزيع بسته هاي مشتريانشان محاسبه نمايد. سوپر ماركتها از داده هاي حاصل از اسكن باركد كالاهاي فروش رفته براي تصميم گيري در مورد چاپ نوع خاصي از كوپن تشويقي براي انواع مشتريان استفاده نموده اند. خرده فروشان اينترنتي از خريدهاي قبلي استفاده كرده اند تا تعيين كنند چه كالايي را در زماني كه مشتريان براي بازديد مجدد از سايتشان باز مي گردند عرضه كنند.
اين سيستم هاي تعاملي نقطه تماس مشتريان هستند؛ جايي كه اطلاعات در مورد رفتار مشتريان براي اولين بار وارد شركت مي شود. در چنين حالتي اين سيستم ها در واقع گوش و چشم شركت هستند.


نقش ذخيره سازي داده ها
شركتهاي مشتري مدار هر اطلاعاتي در مورد هر تعاملي با مشتري يا ارباب رجوع را به عنوان فرصتي براي يادگيري قلمداد مي كنند. هر تماسي را با پشتيباني مشتريان، هر تعاملي را با برگه هاي فروش، هر نوع سفارش كاتالوگ، هر بازديد از وب سايت شركت، جزو اين تعاملات قلمداد مي شود. ولي يادگيري نيازمند چيزي بيش از گردآوري ساده داده هاست . در واقع بيشتر شركتها صدها گيگابايت يا ترابايت از داده ها را در باره مشتريانشان جمع آوري مي كنند بدون اينكه چيزي ياد بگيرند. داده ها جمع مي شوند زيرا براي برخي از اهداف عملياتي چون كنترل فهرستها يا صورتحسابها لازم هستند. وقتي هدف مورد نظر به دست آمد اطلاعات روي يك لوح فشرده ذخيره مي شود و يا اصلاً حذف مي گردد. 
براي اينكه يادگيري رخ دهد بايد داده هاي حاصل از منابع متعدد از جمله اطلاعات موجود در صورتحسابها، داده هاي اسكنرها، فرمهاي ثبت نام، تقاضانامه ها، جزئيات تماسها، نقد كردن كوپنها و معاملات با هم جمع آوري و به روشي مفيد و ثابت دسته بندي شوند. اين مرحله را ذخيره سازي داده ها مي نامند. ذخيره سازي داده ها به شركتها اجازه مي دهد آنچه در مورد مشتريان جلب توجه ميكند را به ياد بياورند.
يكي از مهمترين جنبه هاي ذخيره سازي داده ها توانايي دنبال كردن رفتار مشتري در طول زمانهاي مختلف است. الگوهاي مشتريان در طول زمان مشخص مي گردد. در ذخيره سازي داده ها لازم است داده هاي صحيح قديمي به كار گرفته شود تا داده كاوي بتواند اين روندهاي مهم را كشف كند. بسياري از الگوهاي مهم در مديريت روابط با مشتري تنها با گذشت زمان ظاهر مي شود. آيا ميزان خريد مشتريان روند صعودي و يا نزولي را طي مي كند؟ مشتريان چه كانال ارتباطي را ترجيح مي دهند؟ مشتريان به چه تبليغاتي پاسخ مي دهند؟
سالها قبل يك شركت تهيه كاتالوگها وقتي به اهميت حفظ داده هاي رفتار گذشته مشتريان پي برد كه براي اولين بار اطلاعات مربوط به بيش از يك سال بسته هاي پستي كاتالوگها و پاسخهايي كه ازمشتريانشان گرفته بودند را جمع آوري و نگهداري نمود. آنها دريافتند كه بخشي از مشتريان هستند كه تنها از طريق كاتالگ و در زمان عيد سفارش داده اند. با داشتن شناخت در مورد آن بخش از مشتريان، آنان در مورد اينكه چه كري انجام دهند تصميماتي گرفتند. آنها مي توانستند روشهايي را براي افزايش علاقه اين گروه از مشتريان به سفارش دادن در بقيه سال نيز ايجاد نمايند. آنها مي توانستند نسبت كلي تعداد پاسخهاي دريافتي به تعداد كل بسته هاي پستي كاتالوگهاي ارسال شده را از طريق نفرستادن بسته هاي پستي براي اين بخش در بقيه طول سال افزايش دهند. بدون بررسيهاي بيشتر نمي توان گفت كه كداميك پاسخ درست است ولي بدون داشتن داده هاي گذشته هرگز به اين نتيجه نمي رسيدند كه بايد سوالاتي بپرسند.
يك انباره داده خوب، امكان دسترسي به اطلاعاتي را فراهم مي كند كه از داده هاي تعاملي فراهم شده اند و به شكلي كاربردي تر از آنچه در سيستمهاي عملياتي كه از آنها داده ها به دست آمده اند نگهداري مي شوند. 
در حالت ايده آل داده هاي ذخيره سازها از منابع زيادي جمع آوري مي گردد. انباره داده هر شركت يكي از مهمترين منابع داه ها براي مديريت روابط تحليلي با مشتريان است.
نقش داده كاوي
انباره داده براي شركت مثل يك حافظه عمل مي كند ولي حافظه بدون هوش و آگاهي فايده چنداني ندارد. آگاهي به ما اجازه مي دهد در حافظه هاي قبلي خود جستجو كنيم، به الگوهاي خاصي توجه نمائيم، قوانيني را ايجاد كنيم، به ايده هاي جديدي برسيم، سوالهاي درستي را مطرح كنيم و پيش بيني هايي در باره آينده انجام دهيم. در اين كتاب به ابزار و تكنكيهايي اشاره مي شود كه به افزايش گاهي در ذخيره سازي داده ها كمك مي نمايد. اين تكنيكها به شركتها امكان استفاده از انبوه داده هايي را كه از طريق تعاملات با مشتريان و ارباب رجوعها به منظور شناخت بهتر آنها فراهم شده ميدهد. 
احتمال وفادار ماندن چه مشترياني زياد است و چه كسي وفادار نخواهد بود؟ چه محصولاتي را براي چه مشتريان بالقوه اي بايد عرضه نمود؟ چه چيزي تعيين مي كند كه آيا يك فرد به محصول خاصي پاسخ مي دهد يا نه؟ چه وقت بايد شعبه بعدي را ايجاد نمود؟ محصول يا خدمات بعدي كه اين مشتري مي خواهد كدام است؟ پاسخ به سوالاتي از اين دست در بطن داده هاي شركت قرار دارد و كشف آنها به ابزارهاي قوي داده كاوي نياز دارد. ايده اصلي داده كاوي براي مديريت روابط با مشتري اين است كه داده هاي قديمي حاوي اطلاعاتي هستند كه در آينده به درد خورده و مفيد از آب در مي آيند چرا كه رفتار مشتريان در داده هاي شركت نشان داده شده تصادفي نيستند بلكه نيازهاي متفاوت، ترجيحات، تمايلات و عملكردهاي مشتريان را نشان مي دهند. هدف داده كاوي يافتن الگوهايي در داده هاي پيشين است كه آن نيازها، ترجيحات و تمايلات را روشن تر مي نمايد. اين حقيقت كه الگوها همواره واضح نيستند و علائم دريافت شده از مشتريان گاهي مبهم و گيج كننده هستند كار را سخت تر مي نمايد. جدا كردن علائم از چيزهاي به درد نخور يعني تشخيص الگوهاي اساسي در بطن متغيرهاي به ظاهر تصادفي، يكي از نقشهاي مهم داده كاوي است.
در ادامه، اين كتاب بعضي از تكنيكهاي مهم داده كاوي را بررسي مي كند و نقاط ضعف و قوت هر يك را در زمينه مديريت روابط با مشتري معين مي نمايد.
نقش استراتژي مديريت روابط با مشتري
براي كارايي داده كاوي بايد داده كاوي در زمينه اي رخ دهد كه به سازمان اجازه تغيير رفتار بر اساس نتيجه حاصل از يادگيري را بدهد. داده كاوي بايد در بطن استراتژي روابط با مشتري شركت قرار گيرد تا برنامه علمياتي كه بايستي انجام گيرد مشخص شود و اين عمل در نتيجه آنچه از طريق داده كاوي ياد گرفته شده صورت مي پذيرد. وقتي مشتريان كم اهميت معين شدند چگونه بايد با آنها رفتار كرد؟ آيا برنامه هايي براي ترغيب علاقه آنها جهت افزايش اهميتشان وجود دارد؟ يا بهتر است هزينه خدمات رساني به آنها را كاهش داد؟ اگر برخي از كانالها به طور مداوم مشتريان سودآوري با خود مي آورند چگونه مي توان منابع را به سمت آن كانالها سوق داد؟
داده كاوي يك ابزار است و همانطور كه در مورد همه ابزارها صدق مي كند بيشتر از آنكه لازم باشد بفهميم داده كاوي چگونه كار مي كند، لازم است بفهميم كه چگونه از آن بايد استفاده كرد. داده كاوي فرايند تصميم سازي را بانجام ميرساند و تصميم گيري را به مديران مي سپرد. در واقع داده كاوي پيشنهاد مي دهد و نهايتا مديران آن تجارب تصميم مي گيرند. بطور مثال تجزيه مشكلات يك شركت ارائه دهنده خدمات تلفن همراه، اغلب نشان مي دهد احتمال لغو اشتراك مشتركيني كه الگوهاي تماسشان با الگوي پيش بيني و طراحي شده توسط شركت هماهنگي ندارد بيشتر است. آناني كه از تلفن بيش از زماني كه در طرحشان قيد شده استفاده مي كنند هزينه اين زمانهاي اضافي را مي پردازند و اغلب اشتراك خود را لغو مي كنند. آناني كه از كل زمان تخصيص يافته به آنها استفاده نمي كنند هزينه دقايق استفاده نشده را مي پردازند و احتمالاً جذب پيشنهاد رقيبي مي شوند كه قول ارائه طرح ارزان تر را مي دهد. اين نتايج نشان مي دهد كه بايد كار موثري كرد تا مشتريان را به سمت طرحي سوق داد كه دقيقا مطابق خواسته آنان است، ولي اين تصميم آساني نيست. تا زماني كه مشتريان در طرح نامناسب براي آنان همچنان مشترك هستند اگر آنها را به حال خودشان رها كنيم براي شركت سودآور ترند. قطعا تجزيه و تحليل هاي بيشتري لازم است،  احتمالاً بخشي از اين مشتريان نسبت به قيمت حساس نيستند و مي توان آنها را به حال خودشان گذاشت. يك تحليل مناسب داده كاوي مي تواند به حل اين مسائل كمك كند. داده كاوي مي تواند با بكارگيري تكنيك مناسب در اتخاذ تصميمات آگاهانه تر كمك كند ولي نهايتاً اين خود مديران آن تجارت هستند كه بايد تصميم نهايي را اتخاذ كنند.
داده كاوي چيست؟
داده كاوي به بررسي و تجزيه و تحليل مقادير عظيمي از داده ها به منظور كشف الگوها و قوانين معني دار اطلاق مي شود. با توجه به رويكرد اين كتاب، به جهت ايجاد دركي آسانتر مثال ها و نمونه هاي عملي ذكر شده از مقوله بازاريابي و مديريت ارتباط با مشتريان انتخاب شده است و فرض كتاب حاضر اين است كه هدف داده كاوي قادر ساختن يك شركت به بهبود بازاريابي، فروش و عملكردهاي پشتيباني از مشتريان از طريق درك بهتر مشتريانش مي باشد. با اين وجود به ياد داشته باشيد كه ابزارها و تكنيكهاي داده كاوي بيان شده در اين كتاب در همه زمينه هاي ديگر نيز يكسان عمل مي كنند و كافي است شما آن را به موضوعات خود مرتبط سازيد. براساس اعلام دانشگاه MIT امروزه مرز و محدوديتي براي دانش داده كاوي متصور نبوده و مرز آن را از اعماق اقيانوس ها تا بيكران فضا مي دانند.
در حقيقت هيچ كدام از الگوريتم هاي داده كاوي در ابتدا با كاربردهاي تجاري در ذهن به وجود نيامدند. داده كاوهاي تجاري از يك سري تكنيكهاي وام گرفته شده از آمار و علوم كامپيوتر استفاده مي كنند. انتخاب مجموعه اي از تكنيكها براي به كارگيري در موقعيت خاص بستگي به ماهيت عمل داده كاوي، ماهيت داده هاي موجود و مهارتها و ترجيحات داده كاوان دارد.
داده كاوي در دو نوع هدايت شده و غير هدايت شده ظاهر مي شود. داده كاوي هدايت شده داراي هدفي خاص و از پيش تعيين شده است كه بدنبال الگويي خاص ميگردد در حاليكه هدف داده كاوي غير هدايت شده يافتن الگوها يا تشابهات بين گروههايي از اطلاعات بدون داشتن هدفي خاص و يا مجموعه اي از دسته ها و الگوهاي از پيش تعيين شده مي باشد. هر دو نوع داده كاوي در فصول بعدي تشريح خواهد شد

عتیقه زیرخاکی گنج