Navigate Robots.txt – Điều hướng bọ tìm kiếm

Navigate Robots.txt – Điều hướng bọ tìm kiếm

Robots.txt là một tệp tin dạng Text Document (.txt) được đặt tại thư mục gốc (root) của socure web. Tại bài tìm hiểu cơ chế hoạt động của google mình đã có phân tích khá chi tiết quy trình hoạt động của Google Spider (Bots). Bản chất, Google Spider là 1 con robots hoạt động dựa trên liên kết. Google Spider khi nhảy vào thu thập thông tin dữ liệu của một website thì luôn luôn tuân thủ theo nguyên tắc đọc dữ liệu tệp robots.txt này để xem nó có quyền được thu thập thông tin dữ liệu của website đó hay không!

Tại tệp tin Robots.txt này chúng ta sẽ thiết lập điều hướng (navigate) bọ tìm kiếm theo cách có lợi nhất cho Google Spider. Có những tệp, thư mục bạn rất cần google index và tìm nạp dữ liệu, lập chỉ mục. Tuy nhiên vẫn có khá nhiều tệp, thư mục Google có craw được dữ liệu gì cũng không quan trọng và không ảnh hưởng đến quá trình SEO. Thậm chí còn làm mất thời gian để Google Spider lòng vòng trong website của bạn. Tôi lấy ví dụ như các thư mục “Admin, Plusgin…” Những thư mục chứa phần quản trị website, các Plusgin mở rộng… Google Spider craw để làm gì?.

Với một tệp tin Robots.txt chúng ta hoàn toàn có thể điều hướng được bọ tìm kiếm Google Spider index và Craw dữ liệu vào các tệp tin, thư mục mong muốn. Và có thể chặn bots truy cập vào các tệp tin, thư mục mà mình không mong muốn!.

Cách điều hướng bọ tìm kiếm bằng Robots.txt (Navigate Robots)

File Robots.txt không quá khó sử dụng. Tuy nhiên nếu không sử dụng đúng  cách rất có thể bạn sẽ cản trở toàn bộ quá trình index dữ liệu của Google Spider. Trong lịch sử làm nghề dịch vụ SEO, Đào Tạo SEO. Mình đã gặp khá nhiều trường hợp dở khóc dở cười vì file Robots.txt này. Các bạn ấy SEO mãi mà từ khóa không lên nổi, khi mình check thì File này đã chặn mọi hoạt động tìm kiếm và thu thập thông tin của Google Spider. Hỏi sao SEO mấy năm mà vẫn không nhích lên TOP 😀 😀 😀

1. Thuộc tính User-agent

Đây là thuộc tính “cho phép các bot nào được quyền đọc dữ liệu website của bạn”. Chúng ta mải nói về Google Spider của Google. Tuy nhiên các bạn đừng hiểu nhầm rằng nhắc đến Bots thì chỉ có google mới có con bots này nhé. Có khá nhiều bộ máy tìm kiếm như Bing, Yahoo, Ask… hay các website như Ahefs… mỗi đơn vị đều tự tạo cho mình một loại bots tìm kiếm cùng hoạt động dựa trên liên kết. Vậy nên bạn có thể chặn bất kỳ một con bots nào của bất kỳ bộ máy tìm kiếm nào bạn muốn thông qua navigate robots. Với SEO thì bạn không nên chặn con bots nào cả (khuyến nghị). Bạn nên thiết lập ở chế độ:

User-agent: * //Cho Phép tất cả các bọ tìm kiếm thu thập thông tin dữ liệu.

Với thiết lập (*) dấu Sao ở sau thuộc tính User-agent bạn đã cho phép tất cả các bọ tìm kiếm thu thập thông tin website của bạn. Công thức của nó rất đơn giản:

User-agent: (dấu cách khoảng trắng) (các bots được cho phép).

Ví dụ:

User-agent: *

2. Thuộc tính Disallow

Disallow là thuộc tính “Chặn bots truy cập vào một thư mục, tệp tin cụ thể trên socure web”. Với thiết lập này bạn có thể chặn các bots tìm kiếm không được truy cập, đọc dữ liệu thông tin của một tệp tin hoặc một thư mục nào đó trên website của bạn!. Công thức cũng chỉ với các ký tự thông thường:

Disallow: (dấu cách khoảng trắng)/(tên thư mục hoặc tệp tin bạn muốn chặn).

Ví dụ 1: bạn muốn chặn bots đọc thông tin các tệp trong thư mục wp-admin (xem lại hình bên trên) ta dùng cú pháp:

Disallow: /wp-admin/

Đối với chặn thư mục. Bạn cần thêm dấu gạch chéo (/) đằng sau tên thư mục nhé. Bots sẽ bị chặn truy cập vào thư mục wp-admin và tất cả các tệp tin nằm trong thư mục đó.

Ví dụ 2: Chặn 1 tệp tin. Chẳng hạn bạn muốn chặn tệp wp-config.php (tệp tin dùng để cấu hình khai báo kết nối cơ sở dữ liệu):

Disallow: /wp-config.php

Lưu ý: Chặn tệp tin thì đừng thêm dấu gạch chéo (/) vào đằng sau nhé!.

Một đặc điểm lỗi thường gặp ở đây mà bạn cần phải rất lưu ý. Nhiều bạn sử dụng tệp Robots theo kiểu:

User-agent: *

Disallow: /

Như thế là chết nhé bạn. Với cú pháp trên, “Disallow: /” sẽ chặn toàn bộ thư mục và File trong website của bạn. Google bots sẽ không thể truy cập và lấy thông tin dữ liệu website của bạn đâu nhé. Lỗi này rất hay gặp của rất nhiều SEOER. Bạn nhớ nhé!.

3. Thuộc tính Crawl-delay

Crawl-delay là thuộc tính cho phép Google Bots được quyền index lại website của bạn trong một khoảng thời gian được tính bằng giây. Điều này giúp tăng thêm mức độ bảo mật cho website của bạn tốt hơn (khuyên dùng). Ngoài ra còn tránh được tình trạng nghẽn tắc khi quá nhiều bots cùng truy cập craw thông tin website của bạn trong cùng 1 thời điểm.

Cú pháp: 

Crawl-delay: (khoảng cách trắng)(thời gian theo đơn vị giây)

Ví dụ:

Crawl-delay: 30

4. Thuộc tính Sitemap

Bạn nên tận dụng thuộc tính này để giúp Bots Google Spider index thông tin website của bạn dễ dàng hơn. Với khai báo này Google Spider sẽ bỏ qua bước tìm đọc File sitemap.xml (sơ đồ website) mà cứ theo đường dẫn khai báo tại file robots rồi đâm thẳng vào!.

cú pháp:

Sitemap: (khoảng cách trắng)/(tên file sitemap)

Ví dụ:

Sitemap: /post-sitemap.xml

Sitemap: /page-sitemap.xml

Sitemap: /category-sitemap.xml

Sitemap: /post_tag-sitemap.xml

5. Tham khảo mẫu Navigate Robots chuẩn cho wordpress

Dưới đây mình xin đưa ra một mẫu file Robots.txt chuẩn mã nguồn WordPress để các bạn tham khảo:

User-agent: *

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /archives/

Disallow: /wp-content/plugins/

Disallow: /wp-content/cache/

Disallow: /wp-content/themes/

Sitemap: /post-sitemap.xml

Sitemap: /page-sitemap.xml

Sitemap: /category-sitemap.xml

Sitemap: /post_tag-sitemap.xml

Crawl-delay: 15

——————————————–

Kết luận: Cách sử dụng tệp tin Robots.txt không quá khó phải không nào?. Hãy tối ưu và điều hướng chuẩn, thân thiện với Google Spider để tiết kiệm thời gian thu thập dữ liệu trên website của bạn. Chúc các bạn thành công!.