Mẫu File robots.txt chuẩn dành cho Website WordPress 2022

  • Tuesday 15/03/2022

Robots.txt là một trong những file có vai trò rất quan trọng đối với việc SEO Website. Nó không những quy định cách thức các công cụ tìm kiếm có thể thu thập và lập chỉ mục trên Website mà còn có thể ảnh hưởng tới khả năng hiển thị của Website (tính thân thiện với thiết bị di động) khi Google Bots truy xuất dữ liệu. Do đó, có một file robots.txt chuẩn là bước đầu tiên mà các bạn cần làm khi tối ưu Website cho các công cụ tìm kiếm.

Để website của bạn xuất hiện trên trang kết quả tìm kiếm Google thì nó cần cho bot tìm kiếm đi vào bên trong và thu thập dữ liệu.

Một trong những việc mà webmaster (dùng WordPress) cực kỳ chú trọng, đó là cấu hình file robots.txt này cho chuẩn, để hiệu quả thu thập dữ liệu là tốt nhất.

Không những thế, việc cấu hình file này tốt sẽ giúp bạn giảm bớt sự phá hoại về SEO từ đối thủ. Bài này mình chia sẻ đến bạn Mẫu file robots.txt chuẩn cho website WordPress để áp dụng vào site đang làm nhé !

1. File robots.txt là gì?

Robots Exclusion Standard được phát triển từ năm 1994, nhằm giúp các Webmaster có thể “tư vấn” cho các công cụ tìm kiếm cách thu thập thông tin từ Website của họ. Nó hoạt động theo cách tương tự như các robot meta tag. Điểm khác biệt chính giữa chúng là các file robots.txt sẽ ngăn cản việc công cụ tìm kiếm truy cập vào một trang hoặc thư mục, trong khi các robot meta tag chỉ kiểm soát việc lúc nào thì trang hoặc thư mục đó được lập chỉ mục (index).

Đặt một file robots.txt trong thư mục gốc của tên miền cho phép bạn ngăn chặn công cụ tìm kiếm lập chỉ mục các tập tin và thư mục nhạy cảm. Ví dụ, bạn có thể ngăn chặn một công cụ tìm kiếm thu thập dữ liệu từ thư mục hình ảnh của bạn hoặc lập chỉ mục một tập tin PDF nằm trong một thư mục bí mật.

Các công cụ tìm kiếm lớn sẽ thực hiện theo các quy tắc mà bạn thiết lập. Tuy nhiên, không phải lúc nào các quy tắc mà bạn xác định trong tập tin robots.txt cũng được thi hành. Trình thu thập dữ liệu của các phần mềm độc hại và các công cụ tìm kiếm nhỏ có thể không tuân thủ các quy tắc và index bất cứ điều gì họ muốn. Rất may, các công cụ tìm kiếm lớn hoạt động theo các tiêu chuẩn này, bao gồm cả Google, Bing, Yandex, Ask và Baidu.

Các bạn có thể tham khảo thêm tài liệu về file robots.txt do chính Google cung cấp tại đây.

2. Các quy tắc cơ bản của Robots Exclusion Standard

Không mất quá nhiều thời gian để có được một sự hiểu biết đầy đủ về Robots Exclusion Standard. Chỉ có một vài quy tắc mà bạn cần phải tìm hiểu. Những quy tắc này thường được gọi là “chỉ thị”.

Ba chỉ thị chính của Robots Exclusion Standard là:

  • User-agent: xác định các công cụ tìm kiếm mà quy tắc được áp dụng
  • Disallow: ngăn cản các công cụ tìm kiếm thu thập thông tin và lập chỉ mục
  • Allow: cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục

Dấu hoa thị (*) có thể được sử dụng như một ký tự đại diện cho tất cả các công cụ tìm kiếm. Ví dụ, bạn có thể thêm dòng sau vào file robots.txt để ngăn chặn các công cụ tìm kiếm thu thập thông tin trên toàn bộ Website của bạn.

User-agent: *

Disallow: /

Các chỉ thị trên là hữu ích nếu bạn đang phát triển một Website mới và không muốn các công cụ tìm kiếm lập chỉ mục khi nó chưa được hoàn thiện.

Một số Website sử dụng chỉ thị Disallow mà không có dấu gạch chéo (/) để biểu thị một trang Web có thể được thu thập dữ liệu. Điều này cho phép các công cụ tìm kiếm có đầy đủ quyền truy cập vào toàn bộ Website của bạn.

User-agent: *

Disallow:

Để ngăn chặn việc thu thập dữ liệu với các thư mục hoặc đường dẫn cụ thể, bạn chỉ cần thêm đường dẫn hoặc tên thư mục vào sau chữ Disallow. Trong ví dụ dưới đây, tôi đã quy định các công cụ tìm kiếm không được phép thu thập thông tin của thư mục /images/ và toàn bộ các tập tin cũng như thư mục con chứa trong nó:

User-agent: *

Disallow: /images/

Điều này có được là do robots.txt sử dụng đường dẫn tương đối, không sử dụng đường dẫn tuyệt đối. Các dấu gạch chéo (/) thay thế cho thư mục gốc của tên miền và do đó áp dụng quy tắc cho toàn bộ Website của bạn. Đường dẫn là trường hợp nhạy cảm, vì vậy hãy chắc chắn sử dụng đúng trường hợp khi xác định các tập tin, các trang và thư mục.

3. Nơi lưu file robots.txt trên WordPress

Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của hosting/server (thư mục public_html trên hosting cPanel).

Ví dụ: nếu site của bạn đặt trong thư mục gốc của địa chỉ demopavietnam.vn, bạn có thể xem file robots.txt ở đường dẫn demopavietnam.vn/robots.txt, kết quả thông thường sẽ như này, tuy nhiên có lúc mình sẽ sửa đổi lại cho phù hợp với hoàn cảnh, thời điểm:

User-agent: *

Disallow: /wp-admin/

Disallow: /readme.html

Disallow: /license.txt

Disallow: /search/?q=*

Allow: /wp-admin/admin-ajax.php

Allow: /wp-admin/images/*

Sitemap: https://demopavietnam.vn/sitemap_index.xml

Còn nếu bạn dùng Yoast SEO thì không cần phải vào host để tìm nó, mà theo trình tự: Yoast SEO >> Tools >> File editor >> Robots.txt | Nó hiển thị ngay đầu tiên luôn, bạn có thể sửa trực tiếp ngay trong đó và lưu lại.

Mình khuyến khích bạn sửa lại thay vì tạo mới file robots.txt vì tạo lại nó cũng vậy thôi mà, quan trọng là nội dung bên trong, hay người ta còn gọi là cấu hình hay tùy chỉnh file robots.txt

4. Mẫu file robots.txt chuẩn cho WordPress

Như ở trên bạn đã thấy mẫu robots.txt của mình đang sử dụng rồi đấy, mẫu này mình cũng tham khảo ở rất nhiều nơi và quyết định sử dụng nó, bạn cũng có thể lấy nó về và chỉnh sửa lại tên miền cũng như thêm những nội dung cần chặn nếu có.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /readme.html

Disallow: /license.txt

Disallow: /search/?q=*

Disallow: /s/

Disallow: /?s=

Disallow: *?replytocom

Disallow: */attachment/*

Disallow: /refer/

Disallow: /wp-login.php*

Disallow: /component/*

 

Allow: /*.js$

Allow: /*.css$

Allow: /wp-admin/admin-ajax.php

Allow: /wp-admin/images/*

Sitemap: https://demopavietnam.vn/sitemap_index.xml

 

Trong đó:

  • Disallow: là khai báo những trang / đường dẫn chặn thu thập dữ liệu;
  • Allow: khai báo những trang / đường dẫn cho phép thu thập dữ liệu;

Nói về chuẩn SEO hay chưa thì cũng chưa chắc mẫu trên là nhất, tùy từng website mà mình tùy chỉnh lại cho phù hợp. Mẫu trên dùng cho blog WordPress mình thấy ổn, bạn có thể dùng thử một thời gian để xem thành quả.

Điểm quan trọng là mẫu này sẽ giúp bạn tránh được việc lợi dụng khung tìm kiếm của WordPress để tạo ra các link bẩn nội bộ, gây ảnh hưởng đến vấn đề SEO của website. Ví dụ: Các bên muốn phá hoại website của bạn về mặt SEO thì chỉ cần nhập nhiều truy vấn tìm kiếm “tầm bậy” và nếu bạn không chặn thì site bạn sẽ bị Google đánh giá xấu và rớt top tìm kiếm sau đó.

5. Xác nhận đã thay đổi nội dung file robots.txt với Google search console

Việc này rất quan trọng vì nếu sau khi bạn sửa lại file robots.txt nhưng không báo lại trong Google search console thì cũng chẳng có tác dụng gì. Do đó bạn phải thực hiện thêm bước này nữa, đây là cách thực hiện:

Bước 1: Copy toàn bộ nội dung trong file robots.txt sau khi đã chỉnh sửa >> mở Trình kiểm tra robots.txt của Google search console lên và dán đè nội dung đã copy vào đó.

Bước 2: Nhìn xuống dưới bạn thấy nút Gửi, nhấn vào đó >> nhấn tiếp Yêu cầu Google cập nhật là xong.

Như vậy là bây giờ file robots.txt trên host và trên Google search console đã thống nhất với nhau rồi đấy, rất đơn giản đúng không nào. Bài viết này mình chia sẻ dựa trên cách ứng dụng của mình để cho nhanh gọn hơn thôi chứ nó không phải là cách làm duy nhất. Cám ơn bạn đã dành thời gian quan tâm đến bài viết này.


P.A Việt Nam cung cấp đa dạng các Plan Hosting WordPress đáp ứng yêu cầu của khách hàng
WordPress Hosting phổ thông
WordPress Hosting chất lượng cao
WordPress VIP

Tham khảo các bài viết liên quan đến wordpress hosting : https://kb.pavietnam.vn/category/phan-mem/open-source/wordpress

Tham khảo các ưu đãi: https://www.pavietnam.vn/vn/tin-khuyen-mai/