robottxt

همه چیز در مورد robots.txt

صاحبان وب سایتها برای اینکه به ربات ها و اسپایدرهای موتورهای جستجو بفهمانند که چگونه و کجای وب سایت آنها را  مورد کنکاش قرار دهند ، از فایل  robots.txt استفاده می کنند. بطور کامل تر اگر  بگوییم، این عمل “The Robots Exclusion Protocol” نام دارد.

طریقه ی کار robots.txt :

فرض کنید اسپایدر موتور جستجو می خواهد وب سایت شما را آنالیز کند. در این فرآیند به صفحه ی http://www.mysite.com/welcome.html بر می خورد. اما قبل از آنکه این صفحه را بررسی کند، سری به فایل http://www.mysite.com/robots.txt می زند و اطلاعات زیر را می یابد:

User-agent: *
Disallow: /

عبارت “User-agent: *” : یعنی اینکه این بخش شامل همه ی ربات ها می شود و عبارت “Disallow: /” نیز بدین معنی است که ربات حق بررسی هیچ یک از صفحات وب سایت را ندارد .

دو نکته ی مهم هنگام استفاده از robots.txt وجود دارد:

  • ربات ها می توانند به سادگی فایل robots.txt شما را نادیده بگیرند، مخصوصا ربات های Malware که بدنبال خلا های امنیتی وب سایت شما هستند. و یا ابزارهای پیدا کننده ی ایمیل آدرس ها در متن وب سایت ها، که به robots.txt توجهی ندارند.
  • فایل robots.txt فایلی است که هر کسی می تواند به راحتی با وارد کردن آدرس http://www.mysite.com/robots.txt آن را مشاهده نماید. این بدین معنی است که کاربران به راحتی می توانند بفهمند شما دوست ندارید موتورهای جستجو کدام بخش از وب سایت شما را بررسی کنند. پس از robots.txt برای مخفی کردن فایل هایتان استفاده نکنید! (مشاهده فایل رباتز گوگل)

محتویات robots.txt چیست؟ چگونه آن را ایجاد کنیم؟

robots.txt یک فایل متنی ساده است که شامل یک و یا چندین رکورد است. چیزی شبیه این:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

در مثال بالا، 3 مسیر در مقابل بررسی ربات ها محافظت شده اند. در ساختار این فایل، برای هر مسیر باید یک “Disallow” بطور جداگانه در یک خط نوشته شود. مثلا در مثال بالا نمی توان نوشت: “Disallow: /cgi-bin/ /tmp/”. بلکه تمامی مسیرها را باید جداگانه در فایل آورد.

عبارت “*” در واقع به معنی “تمام ربات ها” می باشد. در فایل robots.txt عباراتی شبیه ”User-agent: *bot*” ،”Disallow: /tmp/*” یا “Disallow: *.gif” قابل نوشتن نیستند.

بیاد داشته باشید که وقتی شما ربات ها را بوسیله ی فایل robots.txt از مشاهده وب سایتتان محروم می کنید، بسیار سخت است که دوباره آنها را به بررسی وب سایتتان وا دارید. پس از همان ابتدا تصمیم درست را بگیرید.

حال وقت آن است که برخی از مثال های رایج را بررسی کنیم:

منع کردن ربات از بررسی کل وب سایت

User-agent: *
Disallow: /

اجازه دادن به ربات برای بررسی کل وب سایت

User-agent: *
Disallow:

و یا اینکه فایل robots.txt را خالی بگذارید و یا اصلا آن را ایجاد نکنید.

منع کردن همه ربات ها از بررسی بخش هایی از وب سایت

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

منع کردن یک ربات خاص

User-agent: BadBot
Disallow: /

اجازه دادن به یک ربات خاص

User-agent: Google
Disallow:User-agent: *
Disallow: /

منع کردن ربات ها از بررسی همه فایل ها بجز یکی

ایجاد چنین سیستمی کمی پیچیده به نظر می رسد. چرا که در ساختار این فایل دستوری به نام Allow وجود ندارد. پس تنها راه، بستن تمامی فایل ها به جز آن که انتظارش را داریم است.

آن را کجا قرار دهیم؟

پاسخ کوتاه است؟ در پوشه ی root وب سایتتان. بیاد داشته باشید در نوشتن robots.txt از حروف کوچک استفاده کنید. مثلا ننویسید “Robots.TXT”.

برخی از وب سایت ها نیز می توانند این فایل را برای شما ایجاد کنند. برای بررسی بیشتر سری  به mcanerin بزنید.

 

به نقل از : شیفت

0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>