• بازدید : 56 views
  • بدون نظر
این فایل در ۳۲ اسلاید قابل ویرایش تهیه شده وشامل موارد زیر است:

امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده هاي ذخيره شده را پردازش کردواطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد . 
با استفاده ار پرسش هاي ساده در SQL و ابزارهاي گوناگون گزارش گيري معمولي ، مي توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است .
مفاهيم پايه در داده کاوي
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .

تعريف داده کاوي
در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده است . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم. 
اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود 
داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها . 
داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .

تاريخچه داده کاوي
اخيرا داده کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله ها ي عملي شده است ، اما اين واژه تا اوايل دهه نود مفهومي نداشت وبه کار برده نمي شد .
در دهه شصت و پيش از آن زمينه هايي براي ايجاد سيستم ها ي جمع آوري و مديريت داده ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم هاي مديريت پايگاه داده ها گرديد .
ايجاد و توسعه مدلهاي داده اي براي پايگاه سلسله مراتبي ، شبکه اي و بخصوص رابطه اي در دهه هفتاد ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده ها و در نهايت ايجاد زبان پرسش SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرمهاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد و ايجاد پايگاه هاي شي گرا ، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردي شدن اين سيستم ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، … ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها (KDD) دانست بطوري که در بسياري موارد DM و KDD بصورت مترادف مورد استفاده قرار مي گيرند . 
براي اولين بار مفهوم داده کاوي در کارگاه IJCAI در زمينه KDD توسط Shapir مطرح گرديد . به دنبال آن در سالهاي ۱۹۹۱ تا ۱۹۹۴ ، کارگاههاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط گرديدند.
برخي از کاربردهاي داده کاوي در محيطهاي واقعي عبارتند از : 
۱٫ خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد :  
تعيين الگوهاي خريد مشتريان 
تجزيه و تحليل سبد خريد بازار
پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي) 
۲٫ بانکداري :
پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري 
تشخيص مشتريان ثابت 
تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي 
۳٫ بيمه :
تجزيه و تحليل دعاوي 
پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان 
۴٫ پزشکي :
تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي 
تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت
 
مراحل فرايند کشف دانش از پايگاه داده ها 
فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از :
۱٫ انبارش داده ها 
۲٫ انتخاب داده ها 
۳٫ تبديل داده ها 
۴٫ کاوش در داده ها 
۵٫ تفسير نتيجه 
همانگونه که مشاهده مي شود داده کاوي يکي از مراحل اين فرايند است که به عنوان بخش چهارم آن نقش مهمي در کشف دانش از داده ها ايفا مي کند .انبارش داده ها 
وجود اطلاعات صحيح و منسجم يکي از ملزوماتي است که در داده کاوي به آن نيازمنديم . اشتباه و عدم وجود اطلاعات صحيح باعث نتيجه گيري غلط و در نتيجه اخذ تصميمات ناصحيح در سازمانها مي گردد و منتج به نتايج خطرناکي خواهد گرديد که نمونه هاي آن کم نيستند .
اکثر سازمانها دچار يک خلا اطلاعاتي هستند . در اينگونه سازمانها معمولا سيستم هاي اطلاعاتي در طول زمان و با معماري و مديريت هاي گوناگون ساخته شده اند ، به طوري که سازمان اطلاعاتي يکپارچه و مشخصي مشاهده نمي گردد . علاوه بر اين براي فرايند داده کاوي به اطلاعات خلاصه و مهم در زمينه تصميم گيريهاي حياتي نيازمنديم .
هدف از فرايند انبارش داده ها فراهم کردن يک محيط يکپارچه جهت پردازش اطلاعات است . در اين فرايند ، اطلاعات تحليلي و موجز در دوره هاي مناسب زماني سازماندهي و ذخيره مي شود تا بتوان از آنها در فرايند هاي تصميم گيري که از ملزومات آن داده کاوي است ، استفاده شود . به طور کلي تعريف زير براي انبار داده ها ارائه مي گردد : 
انبار داده ها ، مجموعه اي است موضوعي، مجتمع ، متغير در زمان و پايدار از داده ها که به منظور پشتيباني از فرايند مديريت تصميم گيري مورد استفاده قرار مي گيرد . 
انبارش داده ها خود موضوع مفصلي است که مقاله ها و رساله ها ي گوناگوني در مورد آن نگاشته شده اند . در اين فصل به منظور آشنايي با اين فرايند به آن اشاره اي شد .

انتخاب داده ها 
انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است که همه آنها در داده کاوي مورد نياز نيستند . براي فرايند داده کاوي بايد داده ها ي مورد نياز انتخاب شوند . به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي ، اطلاعاتي در مورد خريد مشتريان ، خصوصيات آماري آنها ، تامين کنندگان ، خريد ، حسابداري و … وجود دارند . براي تعيين نحوه چيدن قفسه ها تنها به داده ها يي در مورد خريد مشتريان و خصوصيات آماري آنها نياز است . حتي در مواردي نياز به کاوش در تمام محتويات پايگاه نيست بلکه ممکن است به منظور کاهش هزينه عمليات ، نمونه هايي از عناصر انتخاب و کاوش شوند .
 
تبديل داده ها
هنگامي که داده هاي مورد نياز انتخاب شدند و داده ها ي مورد کاوش مشخص گرديدند ، معمولا به تبديلات خاصي روي داده ها نياز است . نوع تبديل به عمليات و تکنيک داده کاوي مورد استفاده بستگي دارد : تبديلاتي ساده همچون تبديل نوع داده اي به نوع ديگر تا تبديلات پيچيده تر همچون تعريف صفات جديد با انجام عملياتهاي رياضي و منطقي روي صفات موجود .
 
کاوش در داده ها 
داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند .
 
تفسير نتيجه 
اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل و بهترين نتايج معين مي گردند . هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست ، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .

عملياتهاي داده کاوي 
در داده کاوي ، چهار عمل اصلي انجام مي شود که عبارتند از 
۱٫ مدلسازي پيشگويي کننده
۲٫ تقطيع پايگاه داده ها 
۳٫ تحليل پيوند 
۴٫ تشخيص انحراف
از عملياتهاي اصلي مذکور ، يک يا بيش از يکي از آنها در پياده سازي کاربرد هاي گوناگون داده کاوي استفاده مي شوند . به عنوان مثال براي کاربرد هاي خرده فروشي معمولا از عمليات تقطيع و تحليل پيوند استفاده مي شود در حالي که براي تشخيص کلاهبرداري ، مي توان از هر يک از چهار عمليات مذکور استفاده نمود . علاوه برا ين مي توان از دنباله اي از عملياتها براي يک منظور خاص استفاده کرد . مثلا براي شناسايي مشتريان ، ابتدا پايگاه تقطيع مي شود و سپس مدلسازي پيشگويي کننده در قطعات ايجاد شده اعمال مي گردد .
تکنيکها ، روشها و الگوريتمهاي داده کاوي ، راههاي پياده سازي عملياتهاي داده کاوي هستند . اگر چه هر عمليات نقاط ضعف و قوت خود را دارد ، ابزارهاي گوناگون داده کاوي عملياتها را بر اساس معيارهاي خاصي ، انتخاب مي کنند . اين معيارها عبارتند از :
تناسب با نوع داده هاي ورودي 
شفافيت خروجي داده کاوي 
مقاومت در مقابل اشتباه در مقادير داده ها 
ميزان صحت خروجي
توانايي کار کردن با حجم بالاي داده ها 

عتیقه زیرخاکی گنج