اصول جستجوی وب

مقدمه

این روزها اینترنت و طبیعتا جستجو در دنیای وب به یکی از قسمت های جدایی ناپذیر زندگیمان تبدیل شده است. بسیاری از ما روزانه برای یافتن پرسشهای متفاوتی که در زمینه های مختلف در زندگیمان روبرو می شویم به جستجو در اینترنت می پردازیم. اما نباید جستجو در وب تنها محدود به یافتن پرسشهایمان باشد. یکی از کاربردهای بسیار خوب جستجو این است که "چرخ را از نوع اختراع نکنیم". ما هر کاری را می خواهیم شروع کنیم مثلا قصد داریم استارتاپی را راه اندازی کنیم اولین کار باید جستجو برای موارد مشابه باشد. حتما قبل از شما کسی در مورد این موضوع یا موارد مشابه آن کار کرده است و به نتایجی رسیده است، کافی است برای یافتن نتایج و تجربیات او جستجو کنیم. قطعا با مشاهده تجربیات موارد مشابه بسیاری از مشکلات پیش روی شما خود به خود حل خواهد گردید.

نحوه کارکرد موتورهای جستجو

بسیاری فکر می کنند که وقتی ما عبارتی را جستجو می کنیم، موتور جستجو وب را جستجو می کند و نتایج متناسب را نشان می دهد. اما در حقیقت اینطور نیست، بلکه موتور جستجو پایگاه داده خود را جستجو می کند و نتایج را به شما نشان می دهد. موتور جستجو در واقع از قسمت های زیر تشکیل شده است.

Crawler   خزنده

Indexer بايگاني کننده

Database پايگاه داده

Ranker  سيستم رتبه بندي

ابتدا خزنده یا عنکبوت موتور جستجو لینک هایی را که توسط کاربر به او داده شده است یا خودش پیدا کرده است را جستجو می کند در هر صفحه ای که پیدا شد اطلاعات مورد نیاز خود مانند متاتگ ها، عنوان، توضیحات، لینک و اطلاعات عکس ها و .. را بایگانی کرده و در پایگاه داده موتور جستجو ذخیره می نماید. هر صفحه ای خود شامل لینک به صفحات داخلی یا وبسایت های دیگر است، که وقتی عنکبوت آنها را پیدا کرد می تواند آنها را نیز جستجو نماید. بنابراین چون صفحات وب به صورت زنجیره توسط لینکها به یکدیگر متصل است، عنکبوت قادر است بسیاری از صفحات را پیدا و اطلاعات آن ها را در پایگاه داده ذخیره نماید.

البته تنها بخش کوچکی از وب توسط موتورهای جستجو قابل شناسایی و بایگانی شدن است که با آن وب سطحی (surface web) می گویند. بخش بزرگی از وب مانند محتوای ایمیل ها، محتوای پیام رسان های آنلاین (تلگرام، واتزاپ و …)، پایگاه داده های دانشگاهی، تعدادی از گزارش های علمی و دولتی و …. توسط موتورهای جستجو شناسایی و بایگانی نمی شود. به طور کلی هر محتوایی که برای دیدن آن شما نیاز به وارد کردن رمز عبور باشید، توسط موتور جستجو قابل شناسایی نیست. البته بخش دیگری از وب نیز که به وب تاریک (dark web) معروف است و معمولا برای کارهای خلاف قانون مانند خرید و فروش مواد مخدر، اسلحه و … استفاده می گردد، تنها با اتصال به شبکه تور قابل دسترسی است و از دید موتورهای جستجوی معمول مخفی است. به طور کلی به قسمتی از وب که توسط موتورهای جستجو قابل شناسایی نیست وب عمیق (deep web) می گویند و طبق تخمین ها قسمت اعظم وب را نیز شامل می شود.

هنر جستجو

شاید تعجب کرده باشید که در عنوان این مطلب چرا از جستجوی وب به عنوان هنر یاد شده است، اما این یک حقیقت است که جستجو بیشتر یک هنر است تا اصول علمی. هر کدام از ما روزانه شاید چندین بار به گوگل برای پاسخ به سوالاتمان مراجعه می کنیم، اما آن چیزی که باعث می گردد، یک نفر سریعتر به جواب برسد نه اصول علمی بلکه هنر و تجربه او در استفاده از کلمات کلیدی مناسب برای یافتن پاسخ است. هرچند تکنیک ها و ترفندهایی نیز وجود دارد که در جستجو ما را یاری کنید ولی در نهایت این هنر شماست که شما را در رسیدن به نتیجه مورد نظر کمک می کند. برای انتخاب درست کلماتتان در جستجو به نکات زیر توجه نمایید:

  • در باره چیزی که می خواهید پیدا کنید فکر کنید.
  • کلماتی را انتخاب کنید که فکر می کنید ممکن است در صفحه پیدا شود.
  • خودتان را به جای نویسنده قرار دهید، اگر شما بودید چه کلمات کلیدی را در مطلب قرار می دادید؟

به عنوان مثال فرض کنید که دوستی به شما گفته یک شهر قدیمی در خلیج سانفرانسیکو وجود دارد که الان خالی از سکنه است، می خواهید نام شهر را پیدا کنید چه چیزی جستجو می کنید؟

شاید شما عبارت زیر را جستجو کنید:

  • What was old city in San Francisco Bay?

اما با این جستجو به نتیجه مورد نظر نخواهید رسید و گوگل نمی تواند نام شهر مورد نظر را به درستی برای شما پیدا کند. هرچند سوال پرسیدن از گوگل همیشه هم بد نیست و گاهی وقت ها به جواب های درستی ختم می شود. مثلا اگر از گوگل بپرسید How to tie a tie? گوگل به درستی نحوه بستن کراوات را برای شما پیدا می کنید و در صفحه جستجو نشان می دهد. به این ویژگی گوگل question answering می‌گویند.

ویژگی question-answering گوگل

حال برگردیم به سوال اصلیمان، در تلاش دوم عبارت زیر را وارد می نماییم:

  • Old city San Francisco Bay

در این عبارت فقط از کلمات کلیدی استفاده شده است و حروف اضافه حذف گردیده‌اند. اما با این حال این جستجو هم به نتایج درستی ختم نمی‌گردد. مشکل از کجاست؟ شاید ما کلمات کلیدیمان را درست انتخاب نکرده ایم. بیایید خودمان را جای نویسنده مطلبی که راجع به این شهر است قرار دهیم. نویسنده احتمالا برای توصیف این شهر از واژه متروکه (ghost town) یا شهر خالی از سکنه استفاده کرده باشد و واژه شهر قدیمی (old city) چندان واژه مناسبی برای توصیف این شهر نیست زیرا شاید بسیاری شهر قدیمی در سان فرانسیکو باشد که خالی از سکنه نباشد. اگر با هر سه عبارت زیر جستجو کنید گوگل جواب درست را که Drawbridge است را برای شما پیدا می کند (دقت کنید که گوگل به بزرگی و کوچکی حروف حساس نیست):

  • Ghost town San Francisco Bay
  • Empty city San Francisco Bay
  • abandoned city San Francisco bay

ترفندهای جستجو

برخی از ترفندها وجود دارد که می تواند ما را در جستجوی بهتر یاری نماید. در این قسمت به برخی از مهم ترین این ترفندها اشاره می گردد:

عملگر NOT یا - : اگر بخواهید نتایج شما شامل عبارتی نباشد از عملگر "–"  قبل از عبارت و بدون فاصله استفاده نمایید. مثلا فرض کنید می خواهید درمورد سرعت حیوان جگوار جستجو کنید، در عین حال می دانیم جگوار نام خودرو نیز هست پس باید این خودرو را از نتایج جستجوی خود حدف کنیم بنابراین عبارت جستجوی ما باید به صورت زیر باشد:

  • jaguar speed –car

علامت" ":  وقتی در گوگل جستجو می کنید گوگل حالت های مختلف عبارت شما و حتی گاهی هم معنی عبارت شما را نیز جستجو می کند، برای جستجوی عین عبارت شما، عبارت جستجو را داخل کوتیشن مارک قرار دهید مانند زیر:

  • "tallest building"

filetype: اگر شما دنبال اطلاعتی با فرمت خاص هستید از این عبارت قبل از فرمت فایل استفاده کنید. برای مثال فرض کنید دنبال اطلاعاتی درباره شتابدهنده به صورت فایل پاورپوینت هستید، باید عبارت زیر را جستجو نمایید:

  • startup filetype:ppt

related: اگر بخواهید سایتهای مشابه سایت مورد نظرتان پیدا نمایید باید از عبارت relate: قبل از سایت مورد نظر استفاده نمایید. مثلا می دانیم سایت paperdl.com در مورد دانلود مقاله است، حال می خواهیم سایت های مشابه را پیدا کنیم:

  • related:paperdl.com

site: اگر فقط بخواهید داخل سایت خاصی حستجو انجام دهید باید آدرس سایت را بعد از عبارت site: قرار دهید. مثلا فرض کنید میخواهید مطالبی در مورد احتراق در سایت دانشگاه MIT پیدا کنید:

  • combustion site:mit.edu

و اگر بخواهید در کل سایت های دانشگاهی بگردید با توجه به اینکه سایت های دانشگاهی معمولا به edu ختم می شوند، عبارت زیر را جستجو کنید:

  • combustion site:edu

inurl: با استفاده از این دستور قید می کنیم که عبارت بعد آن حتما در آدرس سایت باشد.

عملگرهای مختلف قایل ترکیب با یکدیگر نیز هستند مثلا میخواهید بدانید چه دانشگاه هایی به ژورنال SAE دسترسی دارند. با توجه به اینکه دسترسی به ژورنال های مختلف معمولا در قسمت کتابخانه دانشگاه (lib) است. به صورت زیر عمل می کنیم:

  • sae inurl:lib site:edu

یا اگر بخواهید در سایت دانشگاه MIT فایل هایی به فرمت pdf در مورد احتراق پیدا کنید باید عبارت زیر را جستجو کنید:

  • combustion site:mit.edu filetype:pdf

define: برای فعال کردن دیکشنری و پیدا کردن معنی کلمات از عبارت define قبل از کلمه مورد نظر استفاده کنید:

  • define pilgrim

جمع بندی

در این مطلب سعی بر آن شد تا در مورد نیاز به جستجو، اصول کارکرد موتورهای جستجو، هنر استفاده مناسب از کلمات کلیدی در جستجو و نهایتا برخی از ترفندهای جستجو توضیحاتی ارائه گردد. در 80 درصد مواقع شاید این ترفندها به کار نیایند و نهایتا این هنر جستجوی شماست که به نتایج مورد نظرتان منجر خواهد شد. پس قبل از جستجو فکر کنید و تک تک عبارات جستجویتان را با دقت انتخاب کنید.