• بازدید : 40 views
  • بدون نظر
این فایل در ۳۳صفحه قابل ویرایش تهیه شده وشامل موارد زیر است:

هرچه بر تنوع حجم و منابع موجود در شبکه وب افزوده می گردد، بحث جستجو و اطلاع یابی در محیط وب ابعاد و جنبه های گسترده تر و پیچیده تری به خود می گیرد.
گاهی یافتن پاسخ این پرسش در این شبکه به شکلی ساده و سریع انجام می شود و تنها به تایپ کلید واژه ای مناسب در یک موتور جستجوی آشنا مثل گوگل نیاز است. اما همیشه اطلاع یابی در این شبکه به این سهولت نیست و معمولا به تدبیر و تامل بیشتری نیاز دارد. با این حال گاهی با اتخاذ تمام تدابیر ممکن باز هم جستجو در وب و به ویژه از طریق موتور های کاوش عمومی نتیجه ای رضایت بخش در پی ندارد.
چنانچه منبعی مورد نظر درمحیط  وب موجود  باشد اما موتور های جستجو قادر به فراهم آوری امکان بازیابی آن نباشند اطلاعات مورد نظر در سایه وب پنهان / وب نامرئی مخفی مانده است.
افزايش روز افزون منابع اطلاعاتي و نياز شديد افراد در دسترسي به اين اطلاعات در سراسر دنيا از يك سو و در دنياي شگفت انگيز ارتباطات رايانه اي از سوي ديگر، موجب پيدايش شبكة جهاني اينترنت در اواخر دهة ۱۹۶۰ گرديد. ولي تا سال ۱۹۹۰ هيچگونه ابزاري براي كاوش اطلاعات موجود در آن وجود نداشت. در سال ۱۹۹۰ شبكة جهاني وب در« آزمايشگاه فيزيك ذره اي اروپا » واقع در سوئيس توسط « تيم برنرزلي » ابداع شد.
پس از ابداع شبكة جهاني وب، ابزارها و موتورهاي كاوش نيز پا به عرصة ظهور نهادند.

در سال ۱۹۹۰ اولين ابزار كاوش توسط  «آلان امتيج» در دانشگاه «مك گيل» با عنوان «آركي» ابداع شد.
« آركي » از طريق نمايه سازي فايل هاي موجود در سايتهاي اف تي پي ( پروتكل انتقال فايل )، امكان جستجو و بازيابي فايل ها در محيط اينترنت را فراهم ساخت.

 اما با وجود پيشرفت ها و تحولات در حوز ة ذخيرة اطلاعات در اينترنت كه يكي از امتيازات بارز اين پديدة جديد مي باشد، بايد يادآور شد كه ذخيرة اطلاعات به تنهايي كافي نيست، قطعًا اطلاعات توليدشده زماني ارزش واقعي مي¬يابد كه مورد استفاده قرار گيرد. مشكلات موجود در زمينة جستجو و بازيابي اطلاعات در اينترنت باعث شده كه حجم زيادي از اطلاعات ذخيره شده درآن، قابل دسترس نباشد. (Sherman and price, 1999)  
به موازات گسترش ابزارهاي كاوش، پژوهش  دربارة جنبه هاي مختلف اين موتور نيز شروع شد. بيشترين مباحث مطرح شده، موضوع دامنة كاوش و ميزان سودمندي و كارآيي موتورهاي كاوش بوده، كه در اين خصوص بحث هاي زيادي نيز صورت گرفته، اما از موضوعاتي كه كمتر مورد توجه قرار گرفته موضوع وب نامرئي مي باشد.

به رغم آنکه تاکنون مقالات متعدد به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است.
مرور نوشتارها حاكي از آن است كه به نخستين ( وب نامرئي ) احتمال قريب به يقين گویا عبارت  “وب پنهان یا وب نامرئی” درسال ١٩٩٤ توسط « ژيل السورث »  ابداع شده است (برگمن۲۰۰۱,). البته معدودي از منابع نيز شخص ديگري به نام «متيوكل» را به عنوان مبدع اين اصطلاح معرفي مي كنند. (شرمن۲۰۰۳,)

“وب پنهان یا وب نامرئی” اشاره به یک مفهوم چند بعدی و گسترده دارد به شکلی که ارائه تعریفی گویا و کوتاه از آن را کمی دشوار می کند.
با این حال نام“ کریس شرمن و گری ﭘرایس ”به عنوان دو نفر از صاحب نظران اصلی دراین موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال ۲۰۰۱ از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. از آنجا كه بين وب نامرئي وموتورهاي كاوش در اينترنت ارتباط تنگاتنگي وجود دارد، لازم است نخست اشار ة مختصري به سازوكار موتورهاي كاوش كنيم.

ابزارهای کاوش که در وب ارايه می شود به دو گروه اصلی زير تقسيم بندی می گردد:

Search Engine    ( موتورهای جستجو)
Directory            (فهرست راهنما )

تفاوت اصلی دو گروه اشاره شده در اين است که:

اطلاعات پايگاه داده گروه اول را نرم افزارها جمع آوری می کنند، حال آنکه اين کار برای گروه دوم توسط انسانها انجام می شود.

فهرست هرگز از وجود سایت شما اطلاع نمی یابد مگر زمانی که شخصی آن را به وی معرفی نماید. بعد از معرفی است که ویراستار آن فهرست به سایت شما مراجعه نموده، در صورت رعایت قوانین فهرست و انتخاب گروه مناسب، سایت شما را به پایگاه داده فهرست اضافه می نماید.
شما باید سایت خود را با عنوان و توضیحی مناسب به فهرست ها معرفی نمایید و بهترین گروه ممکن را برای سایت خود در نظر بگیرید. این کار بسیار مهم است زیرا عموما فهرست ها همین عنوان و توضیح را به همراه آدرس صفحه اول سایت تان در پایگاه داده خود قرار می دهند.

اما در موتورهای جستجوگر وضع به گونه ای دیگر است؛ موتور جستجوگر می تواند از وجود سایت شما اطلاع یابد، اگر راه ورود آن فراهم شده باشد. در واقع نرم افزار موتور جستجوگر هر لحظه در حال وبگردی و به روز رسانی اطلاع قدیمی و همینطور افزودن اطلاعات جدید به پایگاه داده موتور جستجوگر است.
فهرست راهنما ( Directory ) : 
فهرست راهنما یا دایرکتوری که به آن فهرست راهنما نیز گفته می شود٬ سایتی است که صفحات و سایت های مربوط به موضوعات گوناگون علمی وغیرعلمی را شناسایی و به صورت دستی دسته بندی می کند. ازاین رو اطلاعات طبقه بندی شده درفهرست راهنما از کیفیت خوبی برخوردار است و نتایج نامربوط در بین آنها بسیار اندک می باشد. برای ﭘذیرش یک لینک به لیست موضوعات٬ معیارها وشرایط خاصی وجود دارد اما این معیارها و شرایط برای لیست های موضوعات مختلف٬ متفاوت است. بیشتر لیست ها دارای قابلیت جستجو هستند. 
 دو نوع فهرست راهنما وجود دارد:
۱-   فهرست های دانشگاهی وتخصصی که غالباً توسط متخصصین موضوعات مربوطه وبه منظور ﭘﺎسخگویی به نیازهای محققین ایجاد واداره می شود.
۲-   فهرست هایی که به صورت تجاری عمل می کنند و مخاطبانشان عموم مردم وهدفشان جذب هرچه بیشتر مراجعان می باشد.
بنابراین هنگام انتخاب فهرست راهنما باید توجه کرد که مطابق با نیاز جستجوگر باشد. بسیاری از مردم از فهرست های راهنما استفاده کافی را نمی برند و مستقیماً به سراغ موتورهای جستجو می روند. حال آنکه فهرست های راهنمای دانشگاهی دربرگیرنده مجموعه های به دقت انتخاب شده ای از سایت های با کیفیت بالا هستند. هنگام جستجوی سایت های با کیفیت بالا ٬ نباید فهرست های راهنما را فراموش کرد.
نکته ای که در هنگام انتخاب فهرست های راهنما باید مورد توجه قرار گیرد٬ سیاست ها ومعیارهای ﭘذیرش سایت ها درآن فهرست راهنما است. ضوابط ﭘذیرش سایتها درفهرست های راهنما بسیار متفاوت است و می تواند تا حد زیادی نشانگر اعتبار آن فهرست راهنما باشد. به جرأت می توان گفت بزرگ ترین و معتبرترین فهرست راهنمای اینترنت درحال حاضر open project directory  می باشد.که نشانی آن www.zdmo.org است. بسیاری از موتورهای جستجو مانند google وaltavista در دایرکتوری خود از همین فهرست راهنما استفاده می کنند.  
ازجمله فهرستهای راهنمای دیگر می توان به  www.about.com   و  www.yahoo.com  اشاره كرد. البته yahoo مثال خوبی برای فهرست موضوعات تجاری است وهیچ گاه نباید از آن ویا دیگر راهنماهای تجاری مشابه درتحقیقات جدی ومهم استفاده کرد. Infomine  از دانشگاه کالیفرنیا نیز مثال خوبی برای فهرست های راهنمای دانشگاهی است.

موتور های جستجو:

آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز می‌کنند و مراجعه به موتورهای جستجوگر چنان عادی شده است که جستجو کردن و کار با موتورهای جستجوگر، دومین فعالیت عمده کاربران در دنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی) محسوب می شود.

موتورهاي كاوش، نرم افزارهاي كاربردي هستند كه براي جستجوي منابع اطلاعاتي در اينترنت و اينترانت ها مورد استفاده قرار مي گيرند. اين نرم افزارهاي كاربردي، تحت شبكه و در محيط وب قابل دسترس هستند و بر اساس كليد واژه ها و عبارات مورد نظر، جستجو را بر روي يك پايگاه اطلاعاتي انجام مي دهند و نتيجه را همراه با پيوندهايي به اصل موضوع ارائه مي كنند.

اين موتورهاي جستجو با هدف سهولت دسترسي به اطلاعات ابداع گرديدند و به عنوان پايگاه اطلاعاتي، از ساختار محتوايي نويني نسبت به پايگاه هاي اطلاعاتي سنتي برخوردارند.
دقت در ارایه نتایج جستجو چیزی است که کاربران وب همواره از موتورهای جستجوگر می خواهند.

اگر عبارت یکسانی در تمام موتورهای جستجوگر، جستجو شود هیچ کدام از آنها نتایج یکسانی را ارائه نمی‌دهند و با نتایج کاملا متفاوتی روبرو می‌شویم. تفاوت در ارائه نتایج جستجو در موتورهای جستجوگر از تفاوت آنها در الگوریتم (سیستم رتبه بندی) و بایگانی(index) داده‌ هایشان ناشی می‌شود. حتی اگر همه آنها از بایگانی داده یکسانی نیز استفاده کنند، بازهم نتایج جستجویشان متفاوت خواهد بود. هر موتور جستجوگری برای رده‌ بندی صفحات وب، از الگوریتم خاصی استفاده می‌کند که منحصر به خودش بوده و فوق‌العاده محرمانه می‌باشد. الگوریتم نیز مجموعه ای از دستورالعمل ها است که موتور جستجوگر به کمک آن تصمیم می‌گیرد که سایت ها را چگونه در خروجی‌اش مرتب کند.
حال اگر کاربری که دنبال چیزی می گردد کلماتی را جستجو کند، موتور جستجوگر در پایگاه داده ای که تشکیل داده است، ابتدا تمام صفحات مرتبط با موضوع جستجو شده را می یابد و سپس مرتبط ترین را به عنوان اولین نتیجه جستجو و بقیه صفحات را بر اساس میزان ارتباط بعد از آن در اختیار کاربر قرار می دهد. به عبارت دیگر اگر تعداد نتایج جستجو ۱۰۰۰ مورد باشد، سایت رده اول مرتبط ترین و سایت رده ۱۰۰۰ کم ارتباط ترین سایت به موضوع جستجو شده می باشد.
موتور های جستجو امکانات ویژه ای برای جستجوی عکس، فیلم، فایل های صوتی و اخبار دارند که به کاربر کمک شایانی برای سازمان یافته تر عمل کردن می دهد.

بخش های مجزای یك موتور جستجوگر عبارتند از  :

Spider(عنکبوت) :  عنكبوت با وارسي و پويش صفحه هاي وب، پيوند هاي موجود در هر صفحه به ديگر صفحات مربوط به آن صفحه را دنبال مي كند. اين روباتها معمولا هرچند وقت يكبار در اينترنت به جستجوي صفحات وب و ارتباط آن ها با صفحات ديگر مي پردازند و در پايان، آنچه را پيدا كرده اند به نمايه مي افزايند. گستردگي و عمق دسترسي به اطلاعات در هر موتورجستجو، بيش از هر چيز به ويژگي هاي نرم افزار خزندة آن بستگي دارد.
Crawler  ( نرم افزار خزنده يا روبات جستجوگر ) : پيوندهای وبی را دنبال می کند.
Indexer ( بایگانی کننده ) : يك پايگاه اطلاعاتي است كه اطلاعات نمايه سازي شده و مرتبط با صفحات يا سايت هاي وب در آنجا نگهداري مي شود و قابل بازيابي است.
Query processor : برنامه اي است كه در بين ميليون ها صفحة نمايه شدة موجود در يك موتور جستجو، مطابق با پرسش جستجوگر و استراتژي هاي جستجو عمل مي كند و اطلاعاتي را كه با موضوع مرتبط باشد بازيابي مي كند و نمايش مي دهد.
Ranker  ( سیستم رتبه بندی )

ساز وکار موتور های کاوش :

وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه مي شود، کاربران در واقع نتيجه کار بخش هاي متفاوت موتور جستجوگر را مي بينند،  موتور جستجو اطلاعات را از پايگاه اطلاعاتي خود مورد جستجو و بازيابي قرار مي دهد و اينطور نيست که همان لحظه اطلاعات را از اينترنت به دست آورد، بلكه از قبل اطلاعات را از اينترنت گرفته و در پايگاه خود ذخيره مي کند.
در ابتدا مرحله گردآوري اطلاعات صفحات وب را داريم. از طريق روباتهاي اطلاعاتي مي توانيم به جستجوي مستمر و مداوم اطلاعات در صفحات وب بپردازيم. از جمله روباتهاي اينترنت مي توانيم به  Spiderها و Crawler ها اشاره کنيم.

عتیقه زیرخاکی گنج