فایل robots.txt چیست و چه کاربردی دارد؟
یک فایل مهم در سئو وب سایت است که وظیفه آن گزارش ساختار وب سایت برای نمایش در موتور های جستجو است، فایل robots.txt به موتور جستجو توضیح می دهد که چه صفحاتی مثلا در جستجوی گوگل نمایش داده شوند و چه صفحاتی نباید ایندکس شوند که این مسئله علاوه بر کاربرد برای افزایش سطح سئو سایت در افزایش سطح امنیت وب سایت نیز موثر است.
فایل Robots.txt چیست؟
یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار میگیرد. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها یا با تعریفی دقیقتر، پیمایش سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شده اند میباشد.
فایل robots.txt چگونه کار می کند؟
موتورهای جستجو دو وظیفه اصلی دارند:
- پیمایش وب برای کشف و یافتن محتوا
- ایندکس کردن محتوا به منظور ارائه به کاربران در صورت نیاز آنها
برای پیمایش یک وب سایت، موتورهای جستجو از طریق لینک ها از یک سایت به سایت دیگر هدایت می شوند. پیمایش سایت ها از این طریق به “Spidering” معروف است. خزنده ها پس از رسیدن به یک وب سایت و قبل از پیمایش آن، بدنبال فایل robots.txt می گردند. اگر خزنده این فایل را پیدا کند، قبل از ورود به صفحه، فایل ربات را می خواند. زیرا فایل ربات شامل اطلاعاتی است که به موتورجستجو اعلام می کند چگونه باید یک وب سایت را مورد پیمایش قرار دهد. اگر فایل robots.txt شامل هیچ دایرکتیوی نباشد که دسترسی خزنده موتورجستجو را محدود و بلاک کند (یا اینکه سایت دارای فایل robots نباشد)، خزنده موتور جستجو (Crawler) تمام صفحات و فولدرهای آن سایت را پیمایش و ایندکس خواهد کرد.
دلایل اهمیت فایل robots.txt:
فایل رباتها دسترسی خزنده ها را به مسیرهای خاصی از وب سایت محدود می کند. اگرچه استفاده ناردست از این فایل ممکن است خزنده ها را از پیمایش کل وب سایت منع کند و تمام صفحات وب سایت را بلاک کند! مواردی وجود دارد که این فایل می تواند بسیار کاربردی و سودمند باشد.
موارد کاربرد فایل robots.txt:
- جلوگیری از انتشار محتوای تکراری (Duplicate Content) در صفحه نتایج موتورجستجو (SERP: Search Engine Result Page)
- محرمانه و خصوصی کردن بخش هایی از وب سایت و از دسترس عموم خارج کردن کل این بخش ها
- جلوگیری از نمایش نتایج جستجوی داخلی سایت در نتایج عمومی موتورهای جستجو (Public SERP)
- تعیین محل قرارگیری نقشه یا نقشه های سایت (Sitemap)
- جلوگیری از پیمایش و ایندکس شدن صفحات و یا فایل های خاصی از وب سایت (مانندpdf یا ppt)
- درنظر گرفتن تاخیر پیمایش (Crawl Delay) به منظور جلوگیری ازoverload شدن سرور سایت
نکته: اگر درنظر ندارید بخشی از وب سایت تان را از دید موتورهای جستجو پنهان کنید، احتمالا نیازی به داشتن فایل robots.txt ندارید.
چک کردن وجود فایل robots.txt:
اگر مطمئن نیستید وب سایت شما دارای فایل robots.txt می باشد یا خیر، براحتی با تایپ /robots.txt در انتهای دامین سایت تان، از این موضوع مطلع شوید. بعنوان مثال، فایل ربات سایت iranvps.com در مسیر iranvps.com/robots.txt قابل دسترسی می باشد. در صورتی که وارد این مسیر شدید و هیچ فایل متنی ربات پیدا نمایش داده نشد، مسلما سایت شما فایل ربات ندارد. اگر متوجه شدید سایت تان فایل robots.txt ندارد و یا خواستید آنرا بطور کلی تغییر دهید، براحتی می توانید یک فایل ربات جدید بسازید. با مراجعه به این مقاله می توانید فرآیند ایجاد فایل robots.txt را پیگیری کنید.