Hướng dẫn tạo file robots.txt cho website WordPress

  • Friday 12/08/2022

Hướng dẫn tạo file robots.txt cho website WordPress

Khi bạn bắt đầu một chiến dịch SEO, thì chắc hẳn bạn đã từng nghe qua về việc tạo file robots.txt để hỗ trợ hoặc ngăn chặn các công cụ tìm kiếm website của bạn.

Trong bài này, mình sẽ hướng dẫn cách bạn tạo ra file robots.txt bằng Yoast SEO và cách để khai thác file robots.txt tốt nhất cho SEO.

1. File robots.txt là gì?

Trước tiên, bạn cần phải biết làm sao các công cụ tìm kiếm thu thập được dữ liệu từ website của bạn. Đó là nhờ những con bots tự động được tạo ra từ những thuật toán vô cùng phúc tạp. Những bots này thu thập dữ liệu trên mạng để giúp các công cụ tìm kiếm như Google lập chỉ mục và xếp hạng hàng tỷ trang trên Internet.

Hầu hết các website sẽ được thiết lập index toàn bộ website, những tài nguyên trên website được index sẽ hiển thị trên google mỗi khi người nào đó tìm kiếm những từ khóa liên quan về nó. Bạn sẽ không thích những thư mục, tài nguyên nhạy cảm của website được thu thập và công khai trên các công cụ tìm kiếm, nó sẽ chứa rất nhiều rủi ro về bảo mật.

Như vậy, file robots.txt được sinh ra đưa ra những chỉ dẫn cho các bots của các công cụ tìm kiếm, đâu là nơi bạn nên đến và không nên đến để thu thập dữ liệu.

2. Tại sao bạn nên quan tâm đến tệp Robots.txt của mình?

Đối với hầu hết các quản trị web, lợi ích của tệp robot.txt có cấu trúc tốt thường sẽ có hai tác dụng chính sau:

  • Tối ưu hóa tài nguyên thu thập dữ liệu của các công cụ tìm kiếm bằng cách nói với họ đừng lãng phí thời gian trên các trang mà bạn không muốn được lập chỉ mục. Điều này giúp đảm bảo rằng các công cụ tìm kiếm tập trung vào việc thu thập dữ liệu các trang mà bạn quan tâm nhất.
  • Tối ưu hóa việc sử dụng máy chủ của bạn bằng cách chặn các bot đang lãng phí tài nguyên. Nhiều trường hợp website gặp tình trạng chậm, lag do hosting/máy chủ phải cung cấp tài nguyên để phản hồi các request từ các bots.

3. Tạo file robots.txt trên website WordPress như thế nào?

Có nhiều cách đê tạo ra file này, một cách đơn giản là sử dụng plugin Yoast SEO – Plugin tối ưu SEO tổng hợp. Ngoài việc hỗ trợ tạo nhanh robots.txt thì bạn có thể tìm hiểu thêm những tính năng SEO vô cung hữu ích từ Yoast SEO.

Tại giao diện quản trị website (Dashboard) -> Plugins -> Add New -> tìm kiếm trong kho thư viện của WordPress với từ khóa “Yoast SEO” và tiến hành cài đặt vào website.

Tại SEO -> Tools, bạn thực hiện theo hướng dẫn sau để thực hiện tạo file robots.txt hoặc chỉnh sửa file và lưu lại file sau khi hoàn tất

4. Làm sao để kiểm tra file Robots.txt?

Bạn có thể kiểm tra tệp Robots.txt của bạn bằng công cụ Robots.txt tester của Google. Chỉ cần nhấp vào Add property now, và chọn website của bạn, Google sẽ hiển thị công cụ kiểm tra hoạt động file robots.txt. Bạn cũng có thể điền bất kỳ URL nào, bao gồm cả trang chủ của bạn và kiểm tra các URL bạn đã chặn để đảm bảo chúng thực sự bị chặn và không được phép thu thập thập dữ liệu .

5. Tùy chỉnh file Robots.txt nâng cao:

Đầu tiên bạn cần phải biết rõ là trong file robots.txt của bạn có những thông tin gì? Bây giờ bạn có tệp robots.txt vật lý trên máy chủ của mình mà bạn có thể chỉnh sửa khi cần. Nhưng bạn thực sự làm gì với tập tin đó? Như đã đề cập ban đầu robot.txt cho phép bạn kiểm soát cách robot tương tác với trang web của bạn. Bạn làm điều đó với hai lệnh cốt lõi:

  • User-agent – điều này cho phép bạn nhắm mục tiêu các bot cụ thể. User-agent là những gì bot sử dụng để nhận dạng chính họ. Với User-agent, ví dụ, bạn có thể tạo quy tắc áp dụng cho Bing, nhưng không áp dụng cho Google.
  • Disallow  – điều này cho phép bạn nói với robot không truy cập vào các khu vực nhất định trên trang web của bạn.

Ngoài ra còn có một lệnh Allow mà bạn sẽ sử dụng trong các tình huống thích hợp. Theo mặc định, mọi thứ trên trang web của bạn được đánh dấu bằng Allow , do đó không cần thiết phải sử dụng lệnh Allow trong 99% tình huống. Nhưng nó có ích khi bạn muốn Disallow truy cập vào một thư mục và các thư mục con của nó nhưng Allow truy cập vào một thư mục con cụ thể.

Trước tiên, bạn thêm quy tắc bằng cách chỉ định User-agent nào nên áp dụng quy tắc và sau đó liệt kê các quy tắc sẽ áp dụng bằng Disallow và Allow. Ngoài ra còn có một số lệnh khác như Crawl-delay và Sitemap sẽ có những tác động sau:

  • Bị bỏ qua bởi hầu hết các trình thu thập thông tin chính hoặc được diễn giải theo nhiều cách khác nhau (trong trường hợp trì hoãn thu thập thông tin)
  • Được tạo dự phòng bằng các công cụ như Google Search Console (cho sơ đồ trang web)

Như vậy là bạn đã hiểu rõ tác dụng của robots.txt trong SEO Onpage, cách để tạo ra một file robots.txt cho webite và tùy chỉnh file robots.txt theo ý muốn. Việc vấu hình sai file robots.txt có thể dẫn tới nhiều vấn đề về thu thập dữ liệu trên các công cụ tìm kiếm vì vậy hãy cẩn thận trước khi chỉnh gì đó.

===================

Bạn cũng có thể tham khảo thêm nhiều bài viết hướng dẫn về WordPress tại đây

Ngoài ra PA Việt Nam cung cấp đa dạng các Plan Hosting WordPress đáp ứng yêu cầu của khách hàng
WordPress Hosting phổ thông
WordPress Hosting chất lượng cao
WordPress VIP

Tham khảo các ưu đãi: https://www.pavietnam.vn/vn/tin-khuyen-mai/

 

 

Rate this post