یک فایل robots.txt چیست و نحوه استفاده از آن به چه شکل می باشد؟

یک فایل robots.txt چیست و نحوه استفاده از آن به چه شکل می باشد؟ – با سایت تخصصی iranvps همراه باشید تا این مطلب را بررسی کنیم.

مطلب مرتبط: آشنایی با سایت ارزیابی سئو و محتوا Woorank

اطلاعات کلی

مبانی دستوری robots.txt
نمونه هایی از کاربرد آن

Robots.txt و SEO

حذف محدودیتهای تصاویر
اضافه کردن مرجع به فایل sitemap.xml خود
ملاحظات متفرقه

Robots.txt برای وب سایت وردپرس

مسدود کردن دایرکتوری اصلی وردپرس
مسدود کردن اساس و پایه ساختار سایت شما
مسائل محتوای تکراری در WordPress

Robots.txt – اطلاعات عمومی

Robots.txt یک فایل متنی است که در دایرکتوری روت سایت قرار دارد و برای خزنده ها و عنکبوت های موتورهای جستجو مشخص می کند که شما مایلید کدام صفحات وب و فایل هایی بازدید شوند و کدامیک خیر.  معمولا، صاحبان سایت ها تلاش می کنند که این مسئله را از طریق موتورهای جستجو متوجه شوند، اما در مواردی لازم نیست این مسائل را ببینید : به عنوان مثال، اگر اطلاعات ذخیره شده حسابی را ذخیره کرده و یا می خواهید در پهنای باند خود بدون اینکه صفحات سنگین را با تصاویری عوض کنید،صرفه جویی کنید .
هنگامی که یک خزنده وب به یک سایت دسترسی پیدا می کند، یک فایل با نام ‘/robots.txt’ در وهله اول درخواست می کند. اگر چنین فایلی پیدا شود، آن را برای دستورالعمل های فهرست گذاری وب سایت بررسی می کند.

توجه: فقط یک فایل robots.txt برای وب سایت وجود دارد. یک فایل robots.txt برای دامنه افزونه باید در ریشه سند مربوطه قرار گیرد .

موضع رسمی گوگل در فایل robots.txt :

فایل robot.txt

فایل robot.txt

فایل robots.txt شامل خطوطی است که حاوی دو فیلد هستند: یک خط با یک نام نماینده کاربر (خزنده وب موتور جستجوگر) و یک یا چند خط با یک دستور مشخص

Disallow :

Robots.txt باید در قالب متن یونیکس ایجاد شود.

مبانی دستوری robots.txt

معمولا یک فایل robots.txt حاوی چیزی شبیه به این است:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~different/

در این مثال سه دایرکتوری: ‘/ cgi-bin /’، ‘/ tmp /’ و ‘/ ~ different /’ از indexation حذف می شوند.

توجه: هر دایرکتوری در یک خط جداگانه نوشته شده است. شما نمیتوانید ‘Disallow: / cgi-bin / / tmp /’ را در یک خط نوشته و یا یک directive Disallow یا User-agent را به چندین خط تقسیم کنید و از یک خط جدید برای جدا کردن دستورات از یکدیگر استفاده کنید.
‘ستاره’ (*) در قسمت User-agent به معنی هر خزنده وب است. درنتیجه، به دستوراتی مانند Disallow: * .gif یا User-agent ( در Mozilla پشتیبانی نمی شوند ) توجه کنید، چون آنها رایج ترین اشتباهات هستند.
سایر اشتباهات معمول عبارتند از خطاهای تایپی دایرکتوری های ، عامل های کاربر، کولون های از دست رفته پس از User-Agent و Disallow، و غیره. هنگامی که فایل های robots.txt شما بیشتر و پیچیده تر می شوند و براحتی در معرض خطا قرار میگیرند، در این زمان برخی از ابزارهای اعتبار سنجی وجود دارند که به راحتی قابل استفاده هستند: http://tool.motoricerca.info/robots-checker.phtml

نمونه هایی از کاربرد Robots.txt :

در اینجا چند نمونه مفید از کاربرد robots.txt بیان میکنیم:

حفاظت از کل سایت در برابر نمایه سازی توسط همه خزنده های وب:

User-agent: *
Disallow: /

اجازه دادن به تمام خزنده های وب جهت نمایه سازی کل سایت:

User-agent: *
Disallow: /


جلوگیری از تنها چندین دایرکتوری در برابر نمایه سازی کردن:

  User-agent: *
Disallow: /cgi-bin/

جلوگیری از نمایه سازی سایت توسط یک خزنده وب خاص:

  User-agent: Bot1
Disallow: /

لیست را با تمام نام کاربریهای عامل به دسته هایی تقسیم کنید.

 

اجازه نمایه سازی به یک خزنده وب خاص و جلوگیری از از دیگر خزنده ها:

User-agent: Opera 9
Disallow:
User-agent: *
Disallow: /

جلوگیری از نمایه سازی شدن تمام فایل ها بجز یکی.

این بسیار دشوار است زیرا دستورالعمل “اجازه دادن” وجود ندارد. در عوض، شما می توانید تمام فایل ها را به یک زیر پوشه خاص منتقل کنید و از نمایه سازی آنها جلوگیری کنید و فقط یک فایل خاص که مد نظر شماست را نمایه سازی کنید.

  User-agent: *
Disallow: /docs/

شما همچنین می توانید از ژنراتور فایل robots.txt آنلاین در اینجا استفاده کنید:

http://www.yellowpipe.com/yis/tools/robots.txt/index.php?D;?A;

Robots.txt و SEO

از بین بردن محدودیت تصاویر

فایل پیش فرض robots.txt در برخی از نسخه های CMS برای حذف پوشه تصاویر شما تنظیم شده است. این مسئله در جدیدترین نسخه های CMS رخ نمی دهد، اما نسخه های قدیمی تر باید بررسی شوند.

این محدودیت به این معنی است که تصاویر شما در فهرست جستجوی تصویر Google نمایش داده نمیشوند و شاید این چیزی است که شما می خواهید، بدلیل اینکه این امر رتبه بندی SEO شما را افزایش می دهد.

اگر بخواهید این را تغییر دهید، فایل robots.txt خود را باز کرده و دستور زیر را حذف کنید:

Disallow: /images/

اضافه کردن مرجع به فایل sitemap.xml شما

اگر شما یک فایل sitemap.xml داشته باشید (که شما باید آن را جهت افزایش رتبه بندی SEO خود داشته باشید)، مناسب است که خط زیر را در فایل  robots.txt خود داشته باشید:

sitemap: http: //www.domain.com/sitemap.xml

(این خط باید با نام دامنه و فایل نقشه سایت شما به روز شود).

ملاحظات متفرقه

CSS، جاوا اسکریپت و سایر منابع را به صورت پیش فرض بلاک نکنید. این باعث می شود که Google-bot از صحت رندر صفحه جلوگیری کند و متوجه شود که سایت شما بصورت خودکار بهینه شده است.
شما همچنین می توانید از این فایل برای جلوگیری از نشان دادن صفحات خاص مانند login یاصفحات 404  استفاده کنید، اما این کار با استفاده از روبات های متا تگ بهتر انجام می شود.
اضافه کردن بیانیه های disallow به یک فایل robots.txt محتوا را حذف نمی کند بلکه به سادگی دسترسی به عنکبوت ها را مسدود می کند. اگر می خواهید محتوایی را حذف کنید، بهتر است از meta no-index استفاده کنید.
به عنوان یک قانون، فایل robots.txt هرگز نباید برای اداره محتوای تکراری استفاده شود. روش های بهتر مانند برچسب Rel = canonical وجود دارند که بخشی از صفحه HTML صفحه وب هستند.
همیشه در ذهن داشته باشید که فقط robots.txt وجود ندارد بلکه ابزارهای دیگری در اختیار شما هستند که می توانند کارایی بهتر داشته باشند ، مانند ابزارهای پارامتر دستکاری در گوگل ،Bing Webmaster ، تگ x-robots-tag و تگ های متا ربات.

Robots.txt برای وردپرس

وردپرس هنگامی که شما اولین پست خود را با ان منتشر می کنید یک فایل robots.txt مجازی ایجاد می کند. اگر در حال حاضر فایل robots.txt واقعی در سرور شما وجود داشته باشد، وردپرس یک فایل مجازی را اضافه نخواهد کرد.

robot.txt مجازی در سرور وجود ندارد و بنابراین شما می توانید از طریق لینک زیر به آن دسترسی پیدا کنید: http://www.yoursite.com/robots.txt

به طور پیش فرض آن باعث میشود که Media-bot گوگل آزاد باشد ، اما دسته ای از اسپم ها  و برخی از پوشه ها و فایل های استاندارد WordPress ممنوع خواهد بود.

بنابراین در صورتی که شما هنوز  یک robots.txt واقعی ایجاد نکرده اید، یکی را از طریق ویرایشگر متن ایجاد کنید و آن را به پوشه ریشه سرور خود از طریق FTP آپلود کنید.

مسدود کردن دایرکتوری اصلی وردپرس

سه دایرکتوری استاندارد در هر بار نصب وردپرس وجود دارد – wp-content، wp-admin، wp-include که نیازی به نمایه سازی ندارند.

هرگز تمام پوشه WP-content را غیر فعال نکنید، زیرا حاوی sub-folder “آپلودها” با فایل های رسانه ای سایت شما می باشد، که شما نمی خواهید مسدود شوند. به همین دلیل است که شما باید به صورت زیر عمل کنید:

  Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

مسدود کردن بر اساس ساختار سایت شما

هر وبلاگ را می توان به شیوه های مختلف ساخت:

a) بر مبنای دسته بندی ها
ب) بر اساس تگ ها
ج) بر مبنای هر دو یا هیچ یک از آن ها
د) بر اساس آرشیوهای مبتنی بر تاریخ

الف) اگر سایت شما طبقه بندی شده است، نیازی نیست که آرشیو تگ ها نمایه شود. پایه تگ خود را در صفحه گزینه های Permalinks در زیر منوی تنظیمات پیدا کنید. اگر فیلد خالی باقی بماند، پایه تگ ها به روشنی یک “تگ” می باشد:

Disallow: /tag/

ب) اگر سایت شما تگ ساختار باشد، بایستی بایگانی دسته را مسدود کنید. پایه گروه خود را پیدا کنید و از دستور زیر استفاده کنید:

Disallow: /category/

ج) اگر از هر دو شکل گروه و تگ استفاده می کنید، نیازی به استفاده از دستورالعمل ها ندارید. در صورت استفاده از هیچ یک از آنها، شما باید هر دو آنها را مسدود کنید:

Disallow: /tags/
Disallow: /category/

د) اگر سایت شما بر مبنای آرشیوهای مبتنی بر تاریخ باشد، می توانید آنها را از طریق روش های زیر مسدود کنید:

 Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/

 نکته: شما نمیتوانید از دستور Disallow: / 20 * / استفاده کنید زیرا این دستور هر پست وبلاگ یا صفحه ای که با شماره «20» شروع می شود را مسدود می کند.

مسائل محتوای تکراری در WordPress

به طور پیش فرض، وردپرس دارای صفحات تکراری است که برای رتبه بندی SEO شما خوب نیست. برای اصلاح آن، ما توصیه می کنیم که از robots.txt استفاده نکنید، اما به جای آن از روش زیر استفاده کنید:

از تگ rel = canonical که شما از ان برای قرار دادن تنها URL استاندارد در بخش سایت خود استفاده می کنید، بهره ببرید . به این ترتیب، خزنده های وب تنها نسخه استاندارد از یک صفحه را خالی می کنند.

 منبع: www.namecheap.com