افزایش روز افزون منابع اطلاعاتی در اینترنت و مشکلات فنی و غیرفنی موتورهای کاوش باعث شده حجم زیادی از این اطلاعات از دید کاربران پنهان بماند و به عنوان وب نامرئی مورد بحث بسیاری از متخصصان
اطلاع رسانی قرار گیرد. امروزه گرایش بسیاری از کتابخانه ها و مراکز اطلاع رسانی و محققان به دیجیتالی کردن منابع و قراردادن آن ها در محیط اینترنت می باشد. بعلاوه، بسیاری از این منابع تک نسخه هستند و چنانچه دسترسی مطلوب به منابع ذخیره شده در اینترنت ممکن نباشد بسیاری از میراث های علمی، پژوهشی، فکری و فرهنگی بشر به هیچ وجه مورد استفادة حال و آینده قرار نخواهد گرفت.
در این میان کتابداران و اطلاع رسانان نیز با افزایش آگاهی کاربران از وجود وب نامرئی و شیوه های دستیابی و اطلاع یابی کاربران در باب این اطلاعات، می توانند نقش مهمی را در کاستن سطح اطلاعات نامرئی بر عهده بگیرند .
دراین مقاله تلاش شده است مفهوم وب پنهان چه از دید فنی و چه از دید کاربرمدار باز شود، بدین منظور ابتدا تاریخچه ای در مورد پیدایش وب ( همچنین وب نا مرئی ) آورده شده است، سپس مهمترین ابزار های جستجو در وب شامل فهرست راهنما و موتور های جستجو آورده شده است و توضیحی درباره چگونگی ساز وکار
موتور های جستجو داده شده است.
بعد از آن مقوله وب نامرئی و اهمیت آن بررسی شده و در مورد تفاوت آن با وب مرئی از جنبه های مختلف نکاتی گفته می شود، سپس انواع وب نامرئی ، ویژگی های محتوایی وب پنهان و شیوه های اطلاع یابی در آن
گفته می شود و در نهایت در مورد وضعیت آن از گذشته تا به امروز و نیز در آینده تحلیلی انجام می شود.
آنچه گفته می شود تنها نوک کوه یخی را نشان میدهد. پیوندهایی که در این مقاله به آنها اشاره می شود تنها نقطه شروعی است برای دستیابی به منابع موجود در وب نامرئی.
هرچه زمان میگذرد، عمق وب نیز بیشتر و بیشتر میشود و بنابراین بهتر است از همین حالا یاد بگیریم که چگونه از آن استفاده کنیم.
فهرست صفحه
مقدمه ...........................................................................................................................5
تاریخچه........................................................................................................................6
ابزارهای کاوش که در وب............................................................................................7
فهرست راهنما.....................................................................................................................8
موتور های جستجو.............................................................................................................9
ساز وکار موتور های کاوش ........................................................................................10
وب نامرئی...................................................................................................................13
اهمیت وب پنهان ......................................................................................................14
مقایسه وب مرئی و نامرئی.........................................................................................15
انواع وب نامرئی..........................................................................................................17
دلایل عدم بازیابی و نمایه سازی وب نامرئی توسط موتورهای کاوش.....................20
ویژگیهای محتوایی وب پنهان..................................................................................21
شیوه های اطلاع یابی در وب نامرئی.........................................................................24
وب پنهان از گذشته تا آینده....................................................................................30
نتیجه گیری...............................................................................................................31
منابع...........................................................................................................................32
مقدمه:
هرچه بر تنوع حجم و منابع موجود در شبکه وب افزوده می گردد، بحث جستجو و اطلاع یابی در محیط وب ابعاد و جنبه های گسترده تر و پیچیده تری به خود می گیرد.
گاهی یافتن پاسخ این پرسش در این شبکه به شکلی ساده و سریع انجام می شود و تنها به تایپ کلید واژه ای مناسب در یک موتور جستجوی آشنا مثل گوگل نیاز است. اما همیشه اطلاع یابی در این شبکه به این سهولت نیست و معمولا به تدبیر و تامل بیشتری نیاز دارد. با این حال گاهی با اتخاذ تمام تدابیر ممکن باز هم جستجو در وب و به ویژه از طریق موتور های کاوش عمومی نتیجه ای رضایت بخش در پی ندارد.
چنانچه منبعی مورد نظر درمحیط وب موجود باشد اما موتور های جستجو قادر به فراهم آوری امکان بازیابی آن نباشند اطلاعات مورد نظر در سایه وب پنهان / وب نامرئی مخفی مانده است.
واقعیت آن است که چالش عمده ما در حال حاضر، نبود اطلاعات نیست، بلکه دسترسی به اطلاعات مهمتر شده است. آنهم دسترسی به اطلاعات دقیق و معتبر و در زمان مورد نیاز.
وب منبع بزرگ اطلاعاتی عصر حاضر است و تقریبا درباره هر موضوعی می توان در آن اطلاعاتی یافت.
وب راهنمایی دارد که به کاربران برای یافتن اطلاعات کمک کند. سایتهایی وجود دارند که کاربران وب با مراجعه به آنها پاسخ سوالات خود را می یابند.
ما اینگونه سایتها را با عنوان “موتورهای جستجوگر” می شناسیم. در حقیقت موتور جستجوگر سایتی است که کاربر وب با مراجعه به آن و نوشتن چند کلمه می تواند هزاران پاسخ برای سوال خود بیابد. علاوه بر مراجعه به موتورهای جستجوگر یکی از راههای دیگر جستجوی اطلاعات، استفاده از “وب پنهان” است.
انواع اطلاعات موجود در اینترنت را می توان به سه دسته زیر تقسیم بندی کرد:
۱( اطلاعات رایگان و پیدا
۲( اطلاعات رایگان و ناپیدا
۳( اطلاعات تجاری
اطلاعات رایگان و پیدا اطلاعاتی هستند که در دسترس همگان قرار داده شده اند و با جستجو در موتورهای جستجوگر می توانیم آنها را بیابیم. اطلاعات تجاری اطلاعاتی هستند که برای استفاده از آن باید مبلغی پرداخت شود. در آخر اطلاعات رایگان و ناپیدا اطلاعاتی¬اند که نمی توانیم از طریق موتورهای جستجوگر به آنها دسترسی داشته باشیم.
تاریخچه:
افزایش روز افزون منابع اطلاعاتی و نیاز شدید افراد در دسترسی به این اطلاعات در سراسر دنیا از یک سو و در دنیای شگفت انگیز ارتباطات رایانه ای از سوی دیگر، موجب پیدایش شبکة جهانی اینترنت در اواخر دهة ۱۹۶۰ گردید. ولی تا سال ۱۹۹۰ هیچگونه ابزاری برای کاوش اطلاعات موجود در آن وجود نداشت. در سال ۱۹۹۰ شبکة جهانی وب در« آزمایشگاه فیزیک ذره ای اروپا » واقع در سوئیس توسط « تیم برنرزلی » ابداع شد.
پس از ابداع شبکة جهانی وب، ابزارها و موتورهای کاوش نیز پا به عرصة ظهور نهادند.
در سال ۱۹۹۰ اولین ابزار کاوش توسط «آلان امتیج» در دانشگاه «مک گیل» با عنوان «آرکی» ابداع شد.
« آرکی » از طریق نمایه سازی فایل های موجود در سایتهای اف تی پی ( پروتکل انتقال فایل )، امکان جستجو و بازیابی فایل ها در محیط اینترنت را فراهم ساخت.
اما با وجود پیشرفت ها و تحولات در حوز ة ذخیرة اطلاعات در اینترنت که یکی از امتیازات بارز این پدیدة جدید می باشد، باید یادآور شد که ذخیرة اطلاعات به تنهایی کافی نیست، قطعًا اطلاعات تولیدشده زمانی ارزش واقعی می¬یابد که مورد استفاده قرار گیرد. مشکلات موجود در زمینة جستجو و بازیابی اطلاعات در اینترنت باعث شده که حجم زیادی از اطلاعات ذخیره شده درآن، قابل دسترس نباشد. (Sherman and price, 1999)
به موازات گسترش ابزارهای کاوش، پژوهش دربارة جنبه های مختلف این موتور نیز شروع شد. بیشترین مباحث مطرح شده، موضوع دامنة کاوش و میزان سودمندی و کارآیی موتورهای کاوش بوده، که در این خصوص بحث های زیادی نیز صورت گرفته، اما از موضوعاتی که کمتر مورد توجه قرار گرفته موضوع وب نامرئی می باشد.
به رغم آنکه تاکنون مقالات متعدد به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است.
مرور نوشتارها حاکی از آن است که به نخستین ( وب نامرئی ) احتمال قریب به یقین گویا عبارت "وب پنهان یا وب نامرئی" درسال ١٩٩٤ توسط « ژیل السورث » ابداع شده است (برگمن2001,). البته معدودی از منابع نیز شخص دیگری به نام «متیوکل» را به عنوان مبدع این اصطلاح معرفی می کنند. (شرمن2003,)
"وب پنهان یا وب نامرئی" اشاره به یک مفهوم چند بعدی و گسترده دارد به شکلی که ارائه تعریفی گویا و کوتاه از آن را کمی دشوار می کند.
با این حال نام“ کریس شرمن و گری ﭘرایس ”به عنوان دو نفر از صاحب نظران اصلی دراین موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال 2001 از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. از آنجا که بین وب نامرئی وموتورهای کاوش در اینترنت ارتباط تنگاتنگی وجود دارد، لازم است نخست اشار ة مختصری به سازوکار موتورهای کاوش کنیم.
ابزارهای کاوش که در وب ارایه می شود به دو گروه اصلی زیر تقسیم بندی می گردد:
• Search Engine ( موتورهای جستجو)
• Directory (فهرست راهنما )
تفاوت اصلی دو گروه اشاره شده در این است که:
اطلاعات پایگاه داده گروه اول را نرم افزارها جمع آوری می کنند، حال آنکه این کار برای گروه دوم توسط انسانها انجام می شود.
فهرست هرگز از وجود سایت شما اطلاع نمی یابد مگر زمانی که شخصی آن را به وی معرفی نماید. بعد از معرفی است که ویراستار آن فهرست به سایت شما مراجعه نموده، در صورت رعایت قوانین فهرست و انتخاب گروه مناسب، سایت شما را به پایگاه داده فهرست اضافه می نماید.
شما باید سایت خود را با عنوان و توضیحی مناسب به فهرست ها معرفی نمایید و بهترین گروه ممکن را برای سایت خود در نظر بگیرید. این کار بسیار مهم است زیرا عموما فهرست ها همین عنوان و توضیح را به همراه آدرس صفحه اول سایت تان در پایگاه داده خود قرار می دهند.
اما در موتورهای جستجوگر وضع به گونه ای دیگر است؛ موتور جستجوگر می تواند از وجود سایت شما اطلاع یابد، اگر راه ورود آن فراهم شده باشد. در واقع نرم افزار موتور جستجوگر هر لحظه در حال وبگردی و به روز رسانی اطلاع قدیمی و همینطور افزودن اطلاعات جدید به پایگاه داده موتور جستجوگر است.
فهرست راهنما ( Directory ) :
فهرست راهنما یا دایرکتوری که به آن فهرست راهنما نیز گفته می شود٬ سایتی است که صفحات و سایت های مربوط به موضوعات گوناگون علمی وغیرعلمی را شناسایی و به صورت دستی دسته بندی می کند. ازاین رو اطلاعات طبقه بندی شده درفهرست راهنما از کیفیت خوبی برخوردار است و نتایج نامربوط در بین آنها بسیار اندک می باشد. برای ﭘذیرش یک لینک به لیست موضوعات٬ معیارها وشرایط خاصی وجود دارد اما این معیارها و شرایط برای لیست های موضوعات مختلف٬ متفاوت است. بیشتر لیست ها دارای قابلیت جستجو هستند.
دو نوع فهرست راهنما وجود دارد:
1- فهرست های دانشگاهی وتخصصی که غالباً توسط متخصصین موضوعات مربوطه وبه منظور ﭘﺎسخگویی به نیازهای محققین ایجاد واداره می شود.
2- فهرست هایی که به صورت تجاری عمل می کنند و مخاطبانشان عموم مردم وهدفشان جذب هرچه بیشتر مراجعان می باشد.
بنابراین هنگام انتخاب فهرست راهنما باید توجه کرد که مطابق با نیاز جستجوگر باشد. بسیاری از مردم از فهرست های راهنما استفاده کافی را نمی برند و مستقیماً به سراغ موتورهای جستجو می روند. حال آنکه فهرست های راهنمای دانشگاهی دربرگیرنده مجموعه های به دقت انتخاب شده ای از سایت های با کیفیت بالا هستند. هنگام جستجوی سایت های با کیفیت بالا ٬ نباید فهرست های راهنما را فراموش کرد.
نکته ای که در هنگام انتخاب فهرست های راهنما باید مورد توجه قرار گیرد٬ سیاست ها ومعیارهای ﭘذیرش سایت ها درآن فهرست راهنما است. ضوابط ﭘذیرش سایتها درفهرست های راهنما بسیار متفاوت است و می تواند تا حد زیادی نشانگر اعتبار آن فهرست راهنما باشد. به جرأت می توان گفت بزرگ ترین و معتبرترین فهرست راهنمای اینترنت درحال حاضر open project directory می باشد.که نشانی آن www.zdmo.org است. بسیاری از موتورهای جستجو مانند google وaltavista در دایرکتوری خود از همین فهرست راهنما استفاده می کنند.
ازجمله فهرستهای راهنمای دیگر می توان به www.about.com و www.yahoo.com اشاره کرد. البته yahoo مثال خوبی برای فهرست موضوعات تجاری است وهیچ گاه نباید از آن ویا دیگر راهنماهای تجاری مشابه درتحقیقات جدی ومهم استفاده کرد. Infomine از دانشگاه کالیفرنیا نیز مثال خوبی برای فهرست های راهنمای دانشگاهی است.
موتور های جستجو:
آمارها نشان می دهند که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز میکنند و مراجعه به موتورهای جستجوگر چنان عادی شده است که جستجو کردن و کار با موتورهای جستجوگر، دومین فعالیت عمده کاربران در دنیای وب (بعد از ارسال و دریافت نامه های الکترونیکی) محسوب می شود.
موتورهای کاوش، نرم افزارهای کاربردی هستند که برای جستجوی منابع اطلاعاتی در اینترنت و اینترانت ها مورد استفاده قرار می گیرند. این نرم افزارهای کاربردی، تحت شبکه و در محیط وب قابل دسترس هستند و بر اساس کلید واژه ها و عبارات مورد نظر، جستجو را بر روی یک پایگاه اطلاعاتی انجام می دهند و نتیجه را همراه با پیوندهایی به اصل موضوع ارائه می کنند.
این موتورهای جستجو با هدف سهولت دسترسی به اطلاعات ابداع گردیدند و به عنوان پایگاه اطلاعاتی، از ساختار محتوایی نوینی نسبت به پایگاه های اطلاعاتی سنتی برخوردارند.
دقت در ارایه نتایج جستجو چیزی است که کاربران وب همواره از موتورهای جستجوگر می خواهند.
اگر عبارت یکسانی در تمام موتورهای جستجوگر، جستجو شود هیچ کدام از آنها نتایج یکسانی را ارائه نمیدهند و با نتایج کاملا متفاوتی روبرو میشویم. تفاوت در ارائه نتایج جستجو در موتورهای جستجوگر از تفاوت آنها در الگوریتم (سیستم رتبه بندی) و بایگانی(index) داده هایشان ناشی میشود. حتی اگر همه آنها از بایگانی داده یکسانی نیز استفاده کنند، بازهم نتایج جستجویشان متفاوت خواهد بود. هر موتور جستجوگری برای رده بندی صفحات وب، از الگوریتم خاصی استفاده میکند که منحصر به خودش بوده و فوقالعاده محرمانه میباشد. الگوریتم نیز مجموعه ای از دستورالعمل ها است که موتور جستجوگر به کمک آن تصمیم میگیرد که سایت ها را چگونه در خروجیاش مرتب کند.
حال اگر کاربری که دنبال چیزی می گردد کلماتی را جستجو کند، موتور جستجوگر در پایگاه داده ای که تشکیل داده است، ابتدا تمام صفحات مرتبط با موضوع جستجو شده را می یابد و سپس مرتبط ترین را به عنوان اولین نتیجه جستجو و بقیه صفحات را بر اساس میزان ارتباط بعد از آن در اختیار کاربر قرار می دهد. به عبارت دیگر اگر تعداد نتایج جستجو 1000 مورد باشد، سایت رده اول مرتبط ترین و سایت رده 1000 کم ارتباط ترین سایت به موضوع جستجو شده می باشد.
موتور های جستجو امکانات ویژه ای برای جستجوی عکس، فیلم، فایل های صوتی و اخبار دارند که به کاربر کمک شایانی برای سازمان یافته تر عمل کردن می دهد.
بخش های مجزای یک موتور جستجوگر عبارتند از :
• Spider(عنکبوت) : عنکبوت با وارسی و پویش صفحه های وب، پیوند های موجود در هر صفحه به دیگر صفحات مربوط به آن صفحه را دنبال می کند. این روباتها معمولا هرچند وقت یکبار در اینترنت به جستجوی صفحات وب و ارتباط آن ها با صفحات دیگر می پردازند و در پایان، آنچه را پیدا کرده اند به نمایه می افزایند. گستردگی و عمق دسترسی به اطلاعات در هر موتورجستجو، بیش از هر چیز به ویژگی های نرم افزار خزندة آن بستگی دارد.
• Crawler ( نرم افزار خزنده یا روبات جستجوگر ) : پیوندهای وبی را دنبال می کند.
• Indexer ( بایگانی کننده ) : یک پایگاه اطلاعاتی است که اطلاعات نمایه سازی شده و مرتبط با صفحات یا سایت های وب در آنجا نگهداری می شود و قابل بازیابی است.
• Query processor : برنامه ای است که در بین میلیون ها صفحة نمایه شدة موجود در یک موتور جستجو، مطابق با پرسش جستجوگر و استراتژی های جستجو عمل می کند و اطلاعاتی را که با موضوع مرتبط باشد بازیابی می کند و نمایش می دهد.
• Ranker ( سیستم رتبه بندی )
ساز وکار موتور های کاوش :
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند، موتور جستجو اطلاعات را از پایگاه اطلاعاتی خود مورد جستجو و بازیابی قرار می دهد و اینطور نیست که همان لحظه اطلاعات را از اینترنت به دست آورد، بلکه از قبل اطلاعات را از اینترنت گرفته و در پایگاه خود ذخیره می کند.
در ابتدا مرحله گردآوری اطلاعات صفحات وب را داریم. از طریق روباتهای اطلاعاتی می توانیم به جستجوی مستمر و مداوم اطلاعات در صفحات وب بپردازیم. از جمله روباتهای اینترنت می توانیم به Spiderها و Crawler ها اشاره کنیم.
اسپایدر، اینترنت را برای اسناد جدید وب مورد جستجو قرار می دهد و آدرسهای آنها و اطلاعات مربوط به محتوا را در بانک اطلاعاتی قرار می دهد که با موتور جستجو می توان آن را در دسترسی قرار داد. کار اسپایدر بازبینی کدهای HTML صفحات وب می باشد (شکل 1) ، در حالی که کاربران وب نتیجه حاصل از کنار هم قرار گرفتن این کدها را می بینند. (شکل 2 )
شکل 1- آنچه اسپایدارها می بینند
شکل2- نتیجه حاصل از قرار گرفتن کدها و آنچه که کاربر می بیند
در حالی که کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند و مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود .کراولر، ممکن است قبلا برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند در پایگاه داده هایش ذخیره کند و همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. سپس اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و ....
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می¬کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a,an,the ,www,is و..... از این گونه کلمات هستند.
آنگاه داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره می شوند .یک موتور جستجوگر باید پایگاه داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد.
یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
سرانجام در هنگام جستجو نرم افزار کاوش به کاربر این امکان را می دهد که از میان همه صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه بندی می کند.
در واقع نرم افزار جستجو رابط بین کاربر و اطلاعات نمایه شده است. بخشی از این نرم افزار کار رتبه بندی اطلاعات بازیافتی را انجام می دهد.
اگرچه ابزارهای کاوش حجم بسیار بالایی از اطلاعات (صفحات وب) را در پایگاه های خود نمایه و با سرعت بالایی بازیابی می کنند، اما این پرسش مطرح می شود که :
آیا همة اطلاعات موجود در وب توسط این ابزارها قابل بازیابی است؟
تقریبًا همة ابزارهای کاوش خود را بهترین، کارآمدترین و قدرتمندترین وسیله برای جستجو و بازیابی اطلاعات درمحیط وب معرفی می کنند، اما تحقیقات نشان می دهند که بهترین موتورهای جستجو فقط
١٦ % از اطلاعات موجود بر روی وب را به کاربران عرضه می کنند.
دلایل متعددی در این زمینه وجود دارند که بخشی از این مشکلات و دشواری ها به حجم عظیم و روز افزون اطلاعات موجود در اینترنت مربوط می شود، بخش دیگر به میزان مهارت های اطلاع یابی کاربران و تجربة آنان در کاوش برمی گردد و بخش دیگر نیز به دلیل وجود وب نامرئی یا وب پنهان می باشد که موتورهای کاوش، به دلایلی که شرح خواهم داد قادر به انجام عمل بازیابی در آن نیستند.
وب نامرئی
برای اینکه مفهوم وب نامرئی کاملا درک شود وب مرئی ( وب سطحی) را تعریف می کنیم.
وب مرئی٬ وب آشکارا و قابل نمایه سازی یا وب سطحی است.
در واقع آن وب سایت هایی است که توسط موتورهای کاوش برداشته و نمایه سازی شده اند. بنابراین هنگامی که افراد یک جستجوی مبتنی بر وب در موتورهای کاوش را هدایت می کنند در حقیقت عمل٬ آنها مطالعه شان را بر وب مرئی محدود می کنند و اساساً٬ بخش نامرئی وب را در نظر نمی گیرند.
همان گونه که گفته شد “ کریس شرمن و گری ﭘرایس ”به عنوان دو نفر از صاحب نظران اصلی در موضوع وب نامرئی تعریفی به ساده ترین شکل از وب نامرئی ارائه کرده¬ اند که در اغلب منابع ذکر شده است.
«شرمن» و «پرایس» به طور خلاصه وب نامرئی را این چنین تعریف نمودند:
« وب پنهان آن بخش از فضای شبکه جهان گستر وب می باشد که عمدتًا شامل منابع اطلاعاتی غیرمتنی و پویایی است که به هر دلیل، به طور موقت یا دائم خارج از حوزة جستجو و بازیابی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفادة مستقیم از این موتورها میسر نمی باشد. امکان بازیابی منابع پنهان در وب نامرئی، یا برای موتورهای کاوش از نظر فنی میسر نیست، یا محدودیت های مالی مانع از نمایه سازی این منابع شده است.»
افزودن قید « به هر دلیل » در این تعریف حاکی از این است که ایجاد اینترنت ﭘنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط می¬شود. درخصوص وب نامرئی کلماتی نظیر وب ﭘنهان٬ وب عمیق٬ وب تاریک٬ به طور مترادف در متون مختلف به کار برده شده است. اما اینها در حقیقت معادل یکدیگر نیستند و هریک به جنبه ای از نامرئی بودن اشاره دارند.
انتخاب واژه وب نامرئی به این معنا نیست که اطلاعات موجود در این بخش از وب غیرقابل رویت هستند، بلکه انتخاب این واژه ناشی از این واقعیت است که به دلیل محبوبیت و عمومیت استفاده از موتورهای کاوش این ابزار بازیابی اطلاعات در وب بیشترین استفاده را برای کاربران داشته است و کم و بیش این تصور عمومی وجود دارد که موتورهای کاوش به تمام بخش های شبکه وب دسترسی دارند.
وب پنهان یک بخش مشخص و قابل تفکیک در وب نیست .
وب پنهان یا به بیان بهتر سطح ناپیدایی اطلاعات در وب برای کاربران مختلف با ویژگیهای متفاوت از جمله میزان مهارت های اطلاع یابی یا تجربه جستجوی گوناگون یکسان نیست .
اهمیت وب پنهان
به دو دلیل می توان گفت که وب نامرئی اهمیت دارد:
کمی و کیفی
کمی :
حجم اطلاعات موجود در این بخش خیلی بیشتر از سطح آشکار است. موارد زیر، اهمیت وب نامرئی را از نظر کمی نشان می دهند. (Devine and Egger-sider 2001)
١ .بهترین موتورهای کاوش فقط قادر هستند که حدود ١٦ درصد از اطلاعات موجود در وب را بازیابی کنند و بنابراین ٨٤ درصد آن ها جزو وب نامرئی به حساب می آیند.
٢ . اندازة وب نامرئی تقریبأ ٥٠٠ برابر وب مرئی است: وب نامرئی ٥٥٠ میلیون سند، و وب مرئی تقریبأ ١ میلیون سند را دارا می باشد.
کیفی:
اطلاعات بخش های مختلف این مجموعه به ویژه منابع اطلاعاتی موجود در وب عمیق، معمولا منابع ارزشمند و مفید هستند و در
بسیاری از موارد پاسخگوی نیاز کاربران می باشند.
تقریبأ بیش از نیمی از وب نامرئی را پایگاه های اطلاعاتی موضوعی تشکیل می دهند.
مقایسه وب مرئی و نامرئی:
1) در وب مرئی نتایج از موتورهای جستجو عمومی بدست می آید، ولی در وب نامرئی نتایج در وب های
در دسترس مشاهده نمی شوند.
2) در وب مرئی نتایج می توانند مربوط به هر کسی (هر محققی و یا هرعلاقه مندی) یا هر جایی باشند، ولی در
وب نامرئی نتایج از طریق تصحیح کردن توسط محققین حاصل می شوند.
3) تفاوت این دو وب در نوع URL آن ها است .
4) در وب مرئی هر فرد منحصرا" مسئول صحت اطلاعات می باشد، اما وب نامرئی به جستجوگر کمک می کند تا مطمئن شود اطلاعات صحیح است .
5) در وب مرئی هر کسی می تواند از طریق اینترنت به این اطلاعات دسترسی پیدا کند، در حالی که در وب نامرئی عمدتا" از طریق پرداخت آبونمان به پایگاه های داده مخصوصی امکان دسترسی به آنها میسر
است.
ارزیابی از طریق URL :
راحت ترین روش برای تشخیص نامرئی بودن صفحات وب است.
URL مستقیم :
• این URL ها که نمایانگر صفحات خاصی هستند . مانند www.yahoo.ca : یا www.tc.gc.ca/en/modes/htm
• Crawler ها قادر به تعقیب این URL ها می باشند.
• URL ها به سرنام هایی مانند edu, org, gov و .... ختم می شوند.
URL غیر مستقیم :
• این URL ها به صفحات خاصی اشاره نمی کنند.
• حاوی اطلاعاتی هستند که توسط یک دستور (script ) روی سرور( server ) اجرا می¬شوند.
• شامل علائمی مانند "؟" و یا کلماتی مثل " cgi-bin" یا " javascript " می باشند.
به عنوان مثال : www.elections.ca/scripts/info/edMap_e.asp?edID=35059&showLink=no
مقایسه وب مرئی و وب نامرئی در نمایه سازی
وب مرئی:
1.spider crawlers های موتور جستجو با صفحات استاتیک که قبلا index شده، شروع می کند.
2.spider با یک link به صفحه وب استاتیک مواجه می شود.
3.spider وارد link می شود.
4. طراح سایت به وسیله موتور جستجو، صفحه وب استاتیک رو ثبت می کند.
5.spider، صفحه وب جدید را به Index موتور جستجو با انتقال آن به محتوی مرئی اضافه می نماید.
وب نا مرئی:
spider crawlers .1های موتور جستجو با صفحات استاتیک که قبلا index شده، شروع می کند.
2. spider با پایگاه داده مواجه می شود.
3. درخواست برای دستیابی به داده پویا (Dynamic ) مورد نیاز است.
4. spiderقادر به انجام درخواست نمی باشد.
5.spider متوقف شده و نمی تواند داده را در پایگاه داده index کند و آن را به محتوی نامرئی تبدیل می کند.
انواع وب نامرئی:
براساس تعریف شرمن و پرایس میتوان طیفی از ناپیدایی اطلاعات در شبکه وب تصور نمود، که بسته به میزان ناپیدایی اطلاعات در بخش های مختلف وب از وب نسبتا نامرئی تا وب حقیقتا نا مرئی قابل ترسیم است، آنها بخشهای مختلف وب نامرئی را به شرح زیر تقسیم بندی می کنند.
1- وب عمیق:
وب عمیق بزرگترین بخش وب پنهان را به خود اختصاص داده است و شامل منابع نهفته در پایگاههای اطلاعاتی با واسط کاربر مبتنی بر وب و مدارک غیر وبی است. فهرست ﭘﯾوسته عمومی بسیاری از کتابخانه های دنیا که از طریق شبکه وب دسترس ﭘذیر هستند و همچنین بسیاری ﭘﺎیگاههای دیگر از جمله وب عمیق هستند. بعضی از این ﭘﺎیگاه ها و فهرست های ﭘﯾوسته٬ خدمات خود را رایگان عرضه نموده و برخی دیگر در ازاء ارائه خدمات٬ هزینه اشتراک دریافت می کنند.
ازجمله دیگر موارد وب عمیق٬ صفحات وبی است که تنها در ﭘﺎسخ یک ﭘرسش از نظام بازیابی اطلاعات تولید می شود.
به عبارت دیگر وب عمیق شامل ﭘﺎیگاه های اطلاعاتی است که هریک از این ﭘﺎیگاه ها صفحه جستجوی مبتنی بر وب دارند که امکان جستجو در آنها را برای کاربران فراهم می کند٬ اما خزنده های موتورهای جستجو توان ورود به آنها را ندارند و در نتیجه حجم انبوهی از اطلاعات نمایه نشده باقی می ماند.
به عنوان نمونه : اگر یک متخصص موضوعی (مثلاً یک دانشجوی رشته ﭘزشکی) بخواهد خود را به موتورهای کاوش معمولی محدود کند و نتواند به ﭘﺎیگاه های اطلاعاتی تخصصی مراجعه نماید یا از وجود آنها آگاه نباشد٬ از دسترسی به حجم انبوهی از اطلاعات محروم خواهد ماند، بنابراین کاربر باید در این موارد از طریق موتورهای جستجو٬ ﭘﺎیگاه های مرتبط با موضوع خود را شناسایی کند و سپس جداگانه به جستجو در آنها بپردازد تا از دسترسی به وب عمیق باز نماند.
2-وب مات یا تاریک :
این بخش از وب نامرئی دچار نوعی ناﭘﯾدایی موقتی است وامکان ﭘﯾوستن آن به بخش آشکار یا مرئی وب محتمل تر از بخش های دیگر است. اطلاعات موجود در وب تاریک می تواند مورد استفاده عموم قرار گیرد، و هیچ کس تعمدی در مخفی کردن آن نداشته، اما به دلیل عواملی که در ادامه ذکر می گردد ، عملأ از حوزه و قلمرو موتورهای جستجو دور مانده است.
اجزای تشکیل دهنده وب تاریک عبارتند از :
1. وب مرده
صفحاتی که پیوندی با منابع دیگر برقرار نکرده اند، یا صفحاتی که به موتور جستجو معرفی نشده اند، لذا توسط موتور جستجو مورد جستجو واقع نمی شوند.
2. تناوب روز آمد سازی نمایه موتورهای جستجو
معمولأ سرعت روز آمد سازی پایگاه داده های موتور های کاوش کندتر از سرعت افزودن اطلاعات جدید به محیط وب است، و همواره صفحات جدیدی به محیط وب افزوده می شوند که هنوز مورد شناسایی خزنده ها (Crawlers) واقع نشده و به همین دلیل از حوزه جستجوی موتور ها دور می مانند.
3. عمق نمایه سازی
توان مالی و فناوری بسیاری از موتور های کاوش هنوز محدود تر از آن است که بتوانند تمام صفحات و لایه های موجود در وب سایت ها را نمایه سازی کنند، چرا که این کار فرآیندی هزینه بر و دشوار است. بنا براین هر یک از موتور ها به میزان توان خود و سیاستی که برای نمایه سازی اتخاذ کرده اند، تنها بخشی از وب سایت های شناسایی شده را نمایه می کنند.
4. حداکثر صفحات قابل مرور در نتایج بازیابی
معمولأ جستجو های انجام شده در موتور های کاوش با نتایج باز یابی فراوانی همراه می باشد. موتورهای جستجو، اطلاعات بازیابی شده را در صفحات متعدد نمایش می دهند و هر صفحه بین 10 , 20 یا 30 مورد را در بر می گیرد.
اکثر کاربران معمولأ صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور کرده و به ندرت به صفحات بعدی مراجعه می کنند.
گرچه موتور های جستجو بر اساس نظام رتبه بندی خود ، سعی می کنند که اطلاعات مرتبط تر را در ابتدای فهرست بازیابی نمایش دهند، اما موضوع ربط یک مفهوم ساده نیست و نمی توان به راحتی نسبت به مربوط بودن یا مربوط نبودن اطلاعات مندرج در مدرک قضاوت کرد.
به ویژه آنکه همواره قضاوت نهایی درباره ربط بر عهده ی کاربر است و سیستم نمی تواند بر اساس معیار های تعریف شده، اطلاعاتی را صد در صد مرتبط یا نا مرتبط بداند. حتی در بهترین شرایط بخشی از اطلاعات بازیابی شده که ممکن است مرتبط با نیاز کاربر نیز باشد، در لایه های زیرین صفحات بازیابی شده توسط موتور های جستجو مدفون می ماند و به این ترتیب جزء وب مات محسوب می شود.
این بخش به دلایل ذیر در سایه وب پنهان مخفی مانده است :
I. تناوب بازدید سایتها توسط خزنده ها
II. محدودیت عمق کاوش خزنده ها
III. حداکثر تعداد نتایج قابل رویت توسط کاربران
IV. پیوندهای شکسته شده ( Disconnected URL)
3- وب خصوصی یا شخصی :
این بخش از وب نامرئی تفاوت اساسی با بخش های دیگر آن دارد. این تفاوت اساسی ازآنجا ناشی می شود که مخفی بودن اطلاعات در این بخش کاملاً تعمدی می باشد و اطلاعات مذکور جزء دارایی های شخصی و خصوصی افراد یا سازمانها محسوب می شوند.
به کاربردن سه روش زیر منجر به بوجود آمدن وب خصوصی می شود :
استفاده از اسم کاربر و گذرواژه: معمول ترین روش برای جداکردن این نوع منابع از محیط عمومی وب محسوب می شود.
استفاده از فایل Robots txt : وجود این فایل٬ خزنده های موتورهای جستجو را از نمایه سازی وب سایت مذکور باز می دارد.
استفاده از کد no index : افزودن کد no index به مجموع کدهای یک صفحه وب٬ ﭘﯾﺎمی برای خزنده موتور جستجو به شمار می رود که آن را از نمایه سازی صفحه مذکور منع می کند.
4-وب ملکی:
بعضی از منابع اطلاعاتی مثل انواع نشریه های الکترونیکی و ﭘﺎیگاه های اطلاعاتی مبتنی بر وب که دسترسی به آنها مستلزم ﭘرداخت حق اشتراک است و جزء محصولات شرکت های مختلف می باشد را وب ملکی می نامند. از نظر فنی معمولاً بین منابع وب ملکی و وب عمیق مشابهت وجود دارد اما از آنجا که در این بخش از وب نامرئی منافع مالی تولید کنندگان اطلاعات منجر به خارج نمودن این منابع از حوزه دسترسی موتورهای جستجو شده این گروه در دسته ای جداگانه طبقه بندی می شوند.
5- وب واقعاً نامرئی:
بخش های دیگری نیز در قلمرو تاریک وب وجود دارد که در اثر مسائل فنی از دسترس کاربران دور مانده است و چه بسا در آینده با ﭘﯾشرفت ابزارهای کاوش به محیط وب مرئی منتقل شوند.
دلایل عدم بازیابی و نمایه سازی وب نامرئی توسط موتورهای کاوش
1- دلایل فنی :
بسیاری از موتورهای کاوش به دلیل محدودیت های نرم افزاری توانایی روزآمد سازی اطلاعات جدید وب را ندارند. باید یادآور شد که هنوز هیج موتور کاوشی ادعا نکرده است که قادر به گسترش حوزه کاوش خود به تمام محیط وب می باشد و همیشه این موتورها یک گام از سرعت روز افزون اطلاعات عقب تر هستند.
2- دلایل بودجه ای :
فرآیند نمایه سازی تمام صفحات وب٬ هزینه بر خواهد بود و موتورهای کاوش نیز بنا به محدودیت بودجه ناگزیرند فقط بخشی از وب سایت ها را نمایه سازی کنند.
3- دلایل اجتماعی و حقوقی :
از آنجا که اطلاعات موجود در وب در دسترس عموم قرار می گیرد، بسیاری از افراد و سازمان ها به دلیل صرف بودجه های کلان در راه اندازی سایت ها و ﭘﺎیگاه های اطلاعاتی خود٬ حاضر نیستند این اطلاعات را به صورت رایگان در اختیار همه بگذارند. البته این از لحاظ اجتماعی و حقوقی حق مسلم آنها است.
دلایل دیگری نیز وجود دارند که باعث می شوند اطلاعات یک وب سایت به وب نامرئی بپیوندند.
به طور مثال:
عدم وجود لینک به یک وب سایت می¬تواند دلیلی بر عدم دسترسی به آن توسط موتورهای جستجو باشد.
محدودیت موتورهای جستجو در تعداد نتایجی که می توانند به کاربر نشان دهند.
محتویات صفحاتی از وب که برای دیدن آنها نیاز به عضویت در سایت است.
البته اگر بخواهیم در مورد وب نامرئی به صورت بومی صحبت کنیم٬ مسائل دیگری از قبیل مشکلات مربوط به یافتن متن هایی که با حروف استاندارد تاﯾﭗ نشده اند و یا مشکلات مربوط به قواعد نگارش مانند : «هیچ کس و هیچکس» را نیز باید اضافه کرد.
ویژگیهای محتوایی وب پنهان :
دلایل مختلفی ممکن است باعث شود اطلاعات یک سایت از سوی موتورهای جستجو، ردیابی نشود، که این دلایل به ویژگی هایی که محتوای وب پنهان دارد مربوط می شود که به توضیح آن در ذیل می پردازیم:
• محتوا در پایگاه اطلاعاتی ذخیره شده است. (با درخواست کاوش کاربر، محتوا تولید میشود)
• پایگاه اطلاعاتی با پرداخت هزینه قابل دسترسی است.
• محتوا در زمان واقعی ارائه می شود. ( وضعیت آب و هوا، قیمت سهام، وضعیت پرواز هواپیماها )
• قالبهای محتوا (قالبهای پی.دی.اف، دیداری و شنیداری و هر قالب جدید دیگر)
صفحاتی که اطلاعات آنها از سوی موتورهای جستجو قابل خواندن نیست، تا چندی پیش موتورهای جستجو فقط میتوانستند متنهای ساده و صفحات وب را که دارای فرمت HTML هستند، بخوانند. هنوز هم بسیاری از قالبهای فایلهای اطلاعاتی از سوی موتورهای جستجو قابل خواندن نیست ؛ اما اکنون سایتهایی مانند گوگل میتوانند اطلاعات موجود در یک فایل PDF یا DOC را هم بخوانند.
• ورود به سایتها، نیازمند اجازه ویژه است. ( همه سایتهایی که نیازمند عضویت هستند)
صفحاتی که مشاهده اطلاعات آنها نیاز به دریافت نام و کلمه عبور از کاربر دارد. بسیاری از سایتها اطلاعات خود را فقط به کاربرانی که عضو و دارای نام و کلمه عبور هستند، نشان میدهند. این سایتها معمولا در مقابل عضویت و ارائه اطلاعات هزینهای دریافت میکنند یا به دلایل امنیتی اطلاعات خود را در اختیار عموم قرار نمیدهند.
• تعاملی بودن محتوا
• محتوا به عنوان نتیجه کاوش کاربر، بصورت پویا تولید می شود.
سایتهایی که محتوای آنها به طور پویا ایجاد میشوند. این سایتها اطلاعات نمایش داده شده را بر اساس ورودیای که از کاربر دریافت میکنند و پردازش اطلاعات دریافتی با توجه به بانک اطلاعاتیشان ایجاد میکنند. از آنجا که این صفحات محتویات ثابتی را که از سوی روبات خزنده مورد جستجو قرار بگیرند، ندارند، از دید موتورهای جستجو پنهان میمانند. اطلاعات سایت دائره المعارف بریتانیکا از این مقوله است.
• سایت هایی که توسط پروتکلهای بازدارنده روبوتها مسدود شده اند.
فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد
تعداد صفحات این مقاله 33 صفحه
پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید
دانلود مقاله وب نامرئی (Invisible Web)