Giúp công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục

  • Wednesday 15/05/2024

Hướng dẫn giúp công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục

Lập chỉ mục google hay còn được biết đến là chỉ mục tìm kiếm hoặc cơ sở dữ liệu web của Google là một phần cốt lõi của World Wide Web. Nó chịu trách nhiệm quan trọng trong việc hình thành cách chúng ta tiếp cận và khám phá thông tin trên internet.

Trong thời đại kỹ thuật số này, việc nhận thức về tầm quan trọng của lập chỉ mục Google là không thể phủ nhận đối với chủ sở hữu trang web, những người tiếp thị và cả người tiêu dùng.

1. Trang có mã trạng thái HTTP không thành công

Máy chủ cung cấp mã trạng thái HTTP gồm ba chữ số cho mỗi yêu cầu tài nguyên mà máy chủ nhận được. Mã trạng thái trong 400 và 500 cho biết đã xảy ra lỗi với tài nguyên được yêu cầu. Nếu gặp lỗi mã trạng thái khi thu thập dữ liệu trên một trang web, thì công cụ tìm kiếm có thể sẽ không lập chỉ mục trang đó đúng cách.

Từ khoá quan trọng: Thu thập dữ liệu là cách một công cụ tìm kiếm cập nhật chỉ mục nội dung của mình trên web.

Cách quy trình kiểm tra mã trạng thái Lighthouse HTTP không thành công

Lighthouse gắn cờ các trang trả về mã trạng thái HTTP không thành công (trong 400 hoặc 500s):

thu-thap-du-lieu-va-lap-chi-muc

Kiểm tra bằng Lighthouse cho thấy các công cụ tìm kiếm đang gặp khó khăn trong việc lập chỉ mục trang của bạn

Lưu ý: Mỗi bài kiểm tra SEO sẽ có trọng số như nhau trong Điểm SEO của Lighthouse, ngoại trừ bài kiểm tra Dữ liệu có cấu trúc là hợp lệ theo cách thủ công. Tìm hiểu thêm trong Hướng dẫn chấm điểm của Lighthouse.

Cách khắc phục mã trạng thái HTTP không thành công

Trước tiên, hãy đảm bảo rằng bạn thực sự muốn các công cụ tìm kiếm thu thập dữ liệu trên trang đó. Bạn không nên đưa một số trang (như trang 404 hay bất kỳ trang nào khác hiển thị lỗi) vào kết quả tìm kiếm.

Để khắc phục lỗi mã trạng thái HTTP, hãy tham khảo tài liệu của máy chủ hoặc nhà cung cấp dịch vụ lưu trữ của bạn. Máy chủ phải trả về một mã trạng thái ở độ 200 cho tất cả URL hợp lệ hoặc một mã trạng thái ở độ 300 cho một tài nguyên đã chuyển sang một URL khác.

Lưu ý: Nếu đang sử dụng Trang GitHub để lưu trữ ứng dụng trang đơn, bạn có thể cần phân phát nội dung hợp lệ có mã trạng thái 404.

Thử cách này: Các ứng dụng trang đơn có thể khiến việc sửa lỗi mã trạng thái HTTP trở nên phức tạp hơn một chút. Tìm hiểu cách khắc phục lỗi 404 lén lút trong ứng dụng Express.

2. robots.txt không hợp lệ

Tệp robots.txt cho các công cụ tìm kiếm biết chúng có thể thu thập dữ liệu những trang nào trên trang web của bạn. Cấu hình robots.txt không hợp lệ có thể gây ra 2 loại sự cố:

Phương thức này có thể ngăn công cụ tìm kiếm thu thập dữ liệu các trang công khai, khiến nội dung của bạn hiển thị ít thường xuyên hơn trong kết quả tìm kiếm.
Cách này có thể khiến công cụ tìm kiếm thu thập dữ liệu các trang mà bạn không muốn chúng xuất hiện trong kết quả tìm kiếm.

Cách quy trình kiểm tra Lighthouse robots.txt không thành công

Lighthouse gắn cờ tệp robots.txt không hợp lệ:

thu-thap-du-lieu-va-lap-chi-muc01

Lưu ý: Hầu hết các quy trình kiểm tra bằng Lighthouse chỉ áp dụng cho trang mà bạn đang truy cập. Tuy nhiên, vì robots.txt được xác định ở cấp tên máy chủ lưu trữ, nên quy trình kiểm tra này áp dụng cho toàn bộ miền (hoặc miền con).

Mở rộng nội dung kiểm tra robots.txt không hợp lệ trong báo cáo của bạn để tìm hiểu xem robots.txt của bạn gặp vấn đề gì.

Các lỗi phổ biến bao gồm:

No user-agent specified
Pattern should either be empty, start with “/” or “*”
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

Lighthouse không kiểm tra để đảm bảo rằng tệp robots.txt của bạn nằm ở đúng vị trí. Để hoạt động chính xác, tệp phải nằm trong thư mục gốc của miền hoặc miền con của bạn.

Lưu ý: Mỗi bài kiểm tra SEO có trọng số như nhau trong Điểm SEO của Lighthouse, ngoại trừ bài kiểm tra Dữ liệu có cấu trúc hợp lệ theo cách thủ công. Tìm hiểu thêm trong Hướng dẫn chấm điểm của Lighthouse.

Cách khắc phục vấn đề liên quan đến robots.txt

Đảm bảo robots.txt không trả về mã trạng thái HTTP 5XX

Nếu máy chủ của bạn trả về lỗi máy chủ (mã trạng thái HTTP trong 500 giây) đối với robots.txt, thì công cụ tìm kiếm sẽ không biết nên thu thập dữ liệu trên trang nào.

Chúng có thể ngừng thu thập dữ liệu trên toàn bộ trang web của bạn, từ đó sẽ ngăn Google lập chỉ mục nội dung mới.

Để kiểm tra mã trạng thái HTTP, hãy mở robots.txt trong Chrome rồi kiểm tra yêu cầu trong Công cụ của Chrome cho nhà phát triển.

Giữ cho robots.txt nhỏ hơn 500 KiB

Công cụ tìm kiếm có thể ngừng xử lý robots.txt giữa chừng nếu tệp lớn hơn 500 KiB. Điều này có thể khiến công cụ tìm kiếm nhầm lẫn, dẫn đến việc thu thập dữ liệu trang web của bạn không chính xác.

Để giữ cho robots.txt có kích thước nhỏ, hãy hạn chế tập trung vào các trang bị loại trừ riêng lẻ và tập trung nhiều hơn vào các mẫu rộng hơn. Ví dụ: nếu bạn cần chặn hoạt động thu thập dữ liệu trên các tệp PDF, đừng cho phép từng tệp riêng lẻ. Thay vào đó, hãy không cho phép tất cả URL chứa .pdf bằng cách dùng disallow: /*.pdf.

Khắc phục mọi lỗi định dạng

Chỉ được phép sử dụng các dòng, nhận xét và lệnh trống khớp với định dạng “name: value” trong robots.txt.

Đảm bảo các giá trị allow và disallow đang trống hoặc bắt đầu bằng / hoặc *.

Không sử dụng $ ở giữa giá trị (ví dụ: allow: /file$html).

Đảm bảo có giá trị cho user-agent

Tên tác nhân người dùng để cho trình thu thập dữ liệu của công cụ tìm kiếm biết cần tuân theo lệnh nào. Bạn phải cung cấp giá trị cho mỗi thực thể của user-agent để công cụ tìm kiếm biết có nên tuân theo tập hợp các lệnh được liên kết hay không.

Để chỉ định một trình thu thập dữ liệu của công cụ tìm kiếm cụ thể, hãy sử dụng tên tác nhân người dùng trong danh sách đã xuất bản. (Ví dụ: đây là Danh sách tác nhân người dùng của Google được dùng để thu thập dữ liệu.)

Hãy sử dụng * để khớp với tất cả các trình thu thập dữ liệu không phù hợp.

Không nên
user-agent:
disallow: /downloads/
Chưa xác định tác nhân người dùng nào.

Nên
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/
Xác định một tác nhân người dùng chung và một tác nhân người dùng magicsearchbot.

Đảm bảo không có lệnh allow hoặc disallow trước user-agent

Tên tác nhân người dùng xác định các phần trong tệp robots.txt. Trình thu thập dữ liệu của công cụ tìm kiếm sử dụng các phần đó để xác định các lệnh cần tuân theo.

Việc đặt một lệnh trước tên tác nhân người dùng đầu tiên có nghĩa là sẽ không có trình thu thập dữ liệu nào theo sau tên tác nhân người dùng đó.

Không nên
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /
Sẽ không có trình thu thập dữ liệu của công cụ tìm kiếm nào đọc lệnh disallow: /downloads.

Nên
# start of file
user-agent: *
disallow: /downloads/
Tất cả công cụ tìm kiếm đều không được phép thu thập dữ liệu thư mục /downloads.

Trình thu thập dữ liệu của công cụ tìm kiếm chỉ tuân theo các lệnh trong mục có tên tác nhân người dùng cụ thể nhất. Ví dụ: nếu bạn có các lệnh cho user-agent: * và user-agent: Googlebot-Image, thì Googlebot Hình ảnh sẽ chỉ tuân theo các lệnh trong phần user-agent: Googlebot-Image.

Cung cấp URL tuyệt đối cho sitemap

Tệp Sơ đồ trang web là một cách tuyệt vời để cho công cụ tìm kiếm biết về các trang trên trang web của bạn. Tệp sơ đồ trang web thường bao gồm danh sách các URL trên trang web của bạn, cùng với thông tin về thời điểm các URL đó được thay đổi lần gần đây nhất.

Nếu bạn chọn gửi tệp sơ đồ trang web trong robots.txt, hãy nhớ sử dụng URL tuyệt đối.

Không nên
sitemap: /sitemap-file.xml
Nên
sitemap: https://example.com/sitemap-file.xml

3. Tài liệu sử dụng trình bổ trợ

Các công cụ tìm kiếm thường không thể lập chỉ mục nội dung dựa trên các trình bổ trợ của trình duyệt, chẳng hạn như Java hoặc Flash. Điều đó có nghĩa là nội dung dựa trên trình bổ trợ không xuất hiện trong kết quả tìm kiếm.

Ngoài ra, hầu hết thiết bị di động đều không hỗ trợ trình bổ trợ, điều này gây ra trải nghiệm khó chịu cho người dùng thiết bị di động.

Cách quy trình kiểm tra trình bổ trợ Lighthouse không thành công
Lighthouse gắn cờ các trang sử dụng trình bổ trợ:

thu-thap-du-lieu-va-lap-chi-muc03

Kiểm tra Lighthouse cho thấy tài liệu sử dụng trình bổ trợ
Lighthouse kiểm tra trang để tìm các phần tử thường đại diện cho trình bổ trợ:

embed
object
applet
Sau đó, Lighthouse sẽ gắn cờ một phần tử dưới dạng trình bổ trợ nếu loại MIME của phần tử đó khớp với bất kỳ nội dung nào sau đây:

application/x-java-applet
application/x-java-bean
application/x-shockwave-flash
application/x-silverlight
application/x-silverlight-2
Lighthouse cũng gắn cờ các phần tử trỏ đến một URL có định dạng tệp đại diện cho nội dung trình bổ trợ:

swf
flv
class
xap
Không sử dụng plugin để hiển thị nội dung của bạn

Để chuyển đổi nội dung dựa trên trình bổ trợ sang HTML, hãy tham khảo hướng dẫn dành cho trình bổ trợ đó. Ví dụ: MDN giải thích cách chuyển đổi video Flash thành video HTML5.

Kết luận

Trên đây là những thông tin hướng dẫn giúp công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục.

P.A Việt Nam cung cấp đa dạng các Plan Hosting WordPress đáp ứng yêu cầu của khách hàng

WordPress Hosting phổ thông
WordPress Hosting chất lượng cao
WordPress VIP

Tham khảo các ưu đãi: https://www.pavietnam.vn/vn/tin-khuyen-mai/

Sử dụng dịch vụ với giá tốt của nhà cung cấp Việt Nam nhưng tận hưởng chất lượng quốc tế.

Nếu Các bạn đang sử dụng Email marketing tại P.A thì có thể tham khảo hướng dẫn sử dụng email marketing tại đây

Hiện tại chúng tôi cũng có 1 số chương trình khuyến mãi cho các dịch vụ các bạn cũng có thể tham khảo tại đây

P.A Việt Nam – Nhà cung cấp giải pháp Email Server dành cho Doanh Nghiệp hàng đầu Việt Nam

Screenshot from 2023 04 21 15 05 59 1

 

Rate this post