Googlebot và những vấn đề cần lưu tâm

  • Saturday 03/02/2024

Googlebot và những vấn đề cần lưu tâm

1. Googlebot là gì?

– Googlebot hiểu nôm na đó là những con bọ tìm kiếm đôi khi cũng được gọi là Spider. Nhiệm vụ chính là Crawling thu thập các thông tin, thu thập dữ liệu. Mỗi một Spider có một địa chỉ IP riêng và thường được thay đổi ngẫu nhiên.

Googlebot

2. Googlebot kết nối đến website của bạn như thế nào?

– Googlebot tìm kiếm mọi ngõ ngách trên mạng internet để thu thập thông tin, tìm kiếm những website, blog, URL mới, … đối với những trang như facebook, những tài khoản facebook cá nhân hay tài khoản Twitter… cũng đều có thể coi như những URL mới và Googlebot đều không bỏ qua. Nó thu thập tất cả thông tin và cho vào rổ thông tin của Google chờ đánh chỉ mục.

– Google sử dụng một lượng lớn máy tính để thu thập dữ liệu trên website của bạn. Googlebot ngày nay được lập trình thông minh hơn có thể xác định được trang web của bạn có được cập nhật thường xuyên, chu kỳ cập nhật như thế nào…

– Googlebot thu thập dữ liệu từ tập hợp các URL trước đó và tăng cường thu thập thông qua Sitemap được người quản trị web gửi tới trong Search Console. Googlebot đi qua website của bạn, xác định được các liên kết và thẻ meta từ đó có xác định có đi theo các liên kết đó hay không.

– Chúng ta cũng nên chú ý mỗi lần Googlebot đi vào trang web của bạn là 1 lần tải bản sao tại thời điểm đó. Và quá trình Spider Crawling là quá trình đầu tiên trong cơ chế làm việc của các Search Engine nói chung. Đôi khi Google sử dụng dữ liệu của các đối tác, đại lý.

3. Các vấn đề với các spammer và các user-agent

– Địa chỉ IP mà Googlebot sử dụng thay đổi liên tục, cách tốt nhất để xác định kết nối đến Googlebot là sử dụng user-agent. Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, nhưng vẫn có những trường hợp ngoại lệ khác như Report spam / paid links / malware.

– Googlebot có các user-agent khác nhau như Feedfetcher (user-agent Feedfetcher-Google). Do những yêu cầu của Feedfetcher đến từ hành động từ các user thật, mà các user này hoàn toàn tự đưa dữ liệu đến trang chủ Google và không đến từ việc tự động tìm kiếm thông tin của Googlebot nên Feedfetcher không chịu ảnh hưởng bởi file robots.txt. Bạn có thể ngăn chặn việc này bằng cách cấu hình server của bạn gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.

4. Ngăn chặn Googlebot dò được nội dung website của bạn

Googlebot

– Gần như là không thể giữ kín nội dung của web server bằng việc không public đường dẫn đến Googlebot. Chỉ cần ai đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, thậm chí có thể được lưu lại và public bởi các web server khác.

– Web có nhiều đường dẫn quá cũ và lỗi cũng vậy, bất cứ khi nào ai đó public một đường dẫn sai đến web của bạn hoặc thất bại trong việc cập nhật đường dẫn để phản ánh những thay đổi trên server của bạn thì Googlebot sẽ có gắng download một đường dẫn sai từ web của bạn.

– Nếu bạn muốn ngăn chặn Googlebot tìm kiếm đến nội dung web của bạn, bạn có thể dùng file robots.txt để khóa kết nối đến các file và thư mục trên server.

  • Một khi bạn tạo một file robots.txt, có thể có một sự chậm trể nhỏ trước khi Googlebot phát hiện những thay đổi của bạn. Nếu Googlebot vẫn còn phát hiện nội dung mà bạn đã block trong file robots.txt, hãy kiểm tra lại xem file này đã đặt đúng đường dẫn chưa.
  • File robots.txt phải được đặt ở thư mục đầu tiên của hosting, nếu chúng ta đặt ở thư mục con sẽ không có tác dụng. Bạn có thể tham khảo 2 bài viết về cách tạo file robots.txt và kiểm tra file robots.txt có hoạt động hay chưa tại đây!

5. Một số lỗi thường gặp

– Lỗi URL Errors, robots.txt trong google webmaster tool:

  • Nếu bạn nhận được thông báo “Google couldn’t crawl your site because we were unable to access the robots.txt” hoặc bạn gặp trường hợp Server error, Not found hoặc Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ.
  • Đầu tiên bạn phải kiểm tra trong file robots.txt của bạn xem có cấm một thư mục nào đó mà google không thể tiến hành index các URL của các bạn.
  • Thứ hai bạn nên kiểm tra hosting, liệu hosting của bạn có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.

– Googlebot không thể truy cập trang web của bạn

  • Nếu bạn nhận được thông báo “Trong 24 giờ qua, Googlebot đã gặp 2 lỗi trong khi cố truy cập robots.txt của bạn. Để đảm bảo rằng chúng tôi không thu thập dữ liệu bất kỳ trang nào được liệt kê trong tệp đó, chúng tôi đã trì hoãn việc thu thập dữ liệu của mình. Tỷ lệ lỗi robots.txt chung của trang web của bạn là 66.7%.” thì bạn có thể xem chi tiết tại Search Console.

===================

P.A Việt Nam cung cấp đa dạng các Plan Hosting, các cấu hình Máy Chủ Ảo và Máy Chủ Riêng đáp ứng yêu cầu của khách hàng
Hosting Phổ Thông
Hosting Chất Lượng Cao

WordPress Hosting phổ thông
WordPress Hosting chất lượng cao
WordPress VIP

Cloud Server
Cloud Server Pro
Máy Chủ Riêng

Tham khảo các ưu đãi: https://www.pavietnam.vn/vn/tin-khuyen-mai/

5/5 - (1 bình chọn)