Bạn Tìm Gì Hôm Nay ...?
Tất cả đều có chỉ trong 1 nốt nhạc !
Nếu cần hỗ trợ chi tiết gọi 1900 9477
Những ảnh hưởng của robots.txt đến SEO
Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web; đây không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, hãy chặn lập chỉ mục bằng noindex hoặc bảo vệ trang đó bằng mật khẩu.
Nếu sử dụng một Hệ thống quản lý nội dung (CMS), chẳng hạn như Wix hoặc Blogger, có thể bạn không cần (hoặc không thể) trực tiếp chỉnh sửa tệp robots.txt của mình. Thay vào đó, có thể CMS của bạn sử dụng trang cài đặt tìm kiếm hoặc một cơ chế khác để giúp công cụ tìm kiếm biết được có nên thu thập dữ liệu trên trang của bạn không.
Nếu bạn muốn ẩn hoặc hiện một trong các trang của mình trên công cụ tìm kiếm, hãy tìm hướng dẫn về cách sửa đổi chế độ hiển thị của trang trong công cụ tìm kiếm trên CMS của bạn (ví dụ: tìm “wix ẩn trang khỏi công cụ tìm kiếm”).
Tệp robots.txt chủ yếu dùng để quản lý lưu lượng truy cập của trình thu thập dữ liệu vào trang web của bạn và thường dùng để ẩn tệp khỏi Google, tuỳ thuộc vào loại tệp
Ảnh hưởng của tệp robots.txt đến các loại tệp | |
---|---|
Trang web | Đối với các trang web (HTML, PDF hoặc các định dạng khác không phải nội dung đa phương tiện mà Google đọc được), bạn có thể dùng một tệp robots.txt để quản lý lưu lượng thu thập dữ liệu nếu cho rằng máy chủ của bạn sẽ bị quá tải do số lượng yêu cầu của trình thu thập dữ liệu của Google. Bạn cũng có thể dùng tệp này để tránh thu thập dữ liệu các trang không quan trọng hoặc tương tự nhau trên trang web của mình.
Nếu trang web của bạn bị chặn bằng một tệp robots.txt thì URL của trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm, nhưng kết quả tìm kiếm đó sẽ không có nội dung mô tả. Các tệp hình ảnh, tệp video, tệp PDF và các tệp không phải HTML khác được nhúng trên trang bị chặn cũng sẽ bị loại trừ khỏi quá trình thu thập dữ liệu, trừ phi các tệp đó được dẫn chiếu đến qua các trang khác được phép thu thập dữ liệu. Nếu bạn thấy kết quả tìm kiếm này cho trang của mình và muốn sửa, hãy xoá tệp robots.txt đang chặn trang. Nếu bạn muốn ẩn hoàn toàn trang khỏi Tìm kiếm, hãy sử dụng một phương thức khác. |
Tệp đa phương tiện | Bạn có thể dùng tệp robots.txt để quản lý lưu lượng thu thập dữ liệu, đồng thời để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm trên Google. Tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh, video hay âm thanh của bạn. |
Tệp tài nguyên | Bạn có thể dùng tệp robots.txt để chặn các tệp tài nguyên (chẳng hạn như hình ảnh, tập lệnh hoặc các tệp định kiểu không quan trọng) nếu bạn cho rằng lệnh chặn này sẽ không ảnh hưởng đáng kể đến những trang có thể tải mà không cần những tài nguyên này. Tuy nhiên, nếu trình thu thập dữ liệu của Google khó có thể hiểu được trang của bạn khi thiếu những tài nguyên này, thì bạn đừng chặn. Nếu không, Google sẽ không thể phân tích chính xác những trang cần đến những tài nguyên đó. |
Trước khi tạo hoặc chỉnh sửa tệp robots.txt, bạn nên biết những hạn chế của phương pháp chặn URL này. Tuỳ thuộc vào mục tiêu và tình huống của bạn, bạn nên cân nhắc cả những cơ chế khác để đảm bảo URL của bạn không tìm được trên web.
Một số công cụ tìm kiếm có thể không hỗ trợ các quy tắc trong tệp robots.txt.
Hướng dẫn trong các tệp robots.txt không thể bắt một trình thu thập dữ liệu làm theo một hành vi cụ thể. Trình thu thập dữ liệu có quyền quyết định việc có tuân theo lệnh trong tệp hay không. Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, tuy nhiên, một số trình thu thập dữ liệu khác có thể không như vậy.
Vì vậy, nếu bạn muốn đảm bảo an toàn cho thông tin của mình trước các trình thu thập dữ liệu web, bạn nên dùng những phương thức chặn khác, chẳng hạn như bảo vệ các tệp riêng tư bằng mật khẩu trên máy chủ.
Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
Các trình thu thập dữ liệu web có uy tín sẽ tuân theo các quy tắc trong tệp robots.txt, tuy nhiên, có thể mỗi trình thu thập dữ liệu lại có cách thức riêng để diễn giải các quy tắc như vậy. Bạn nên nắm được cú pháp thích hợp dành cho từng trình thu thập dữ liệu web vì một số trình thu thập có thể không hiểu được một số hướng dẫn nhất định.
Một trang bị tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị tệp robots.txt chặn, tuy nhiên, chúng tôi vẫn có thể tìm thấy và lập chỉ mục một URL bị tệp robots.txt chặn khi có những nơi khác trên web liên kết đến URL đó.
Kết quả là các địa chỉ URL và có thể là cả thông tin công khai khác như văn bản liên kết trong các đường liên kết đến trang đó vẫn sẽ xuất hiện trong kết quả tìm kiếm trên Google.
Để ngăn URL của bạn xuất hiện trong kết quả tìm kiếm trên Google, hãy bảo vệ các tệp trên máy chủ bằng mật khẩu, dùng tiêu đề phản hồi hoặc thẻ meta noindex, hoặc xoá hẳn trang.
Thận trọng: Việc kết hợp nhiều quy tắc thu thập dữ liệu và lập chỉ mục có thể khiến một số quy tắc xung đột với nhau. Hãy tìm hiểu cách kết hợp quy tắc thu thập dữ liệu với quy tắc lập chỉ mục và phân phát.
Tệp robots.txt nằm tại thư mục gốc của trang web. Vì vậy, đối với trang web www.example.com, tệp robots.txt nằm tại www.example.com/robots.txt. robots.txt là một tệp văn bản thuần túy tuân theo Tiêu chuẩn loại trừ robot.
Tệp robots.txt chứa ít nhất một quy tắc. Mỗi quy tắc sẽ chặn hoặc cho phép tất cả hoặc một trình thu thập dữ liệu cụ thể truy cập vào một đường dẫn tệp được chỉ định trên miền hoặc miền con lưu trữ tệp robots.txt đó.
Trừ trường hợp bạn chỉ định khác đi, mọi tệp robots.txt đều ngầm cho phép hoạt động thu thập dữ liệu.
Sau đây là một tệp robots.txt đơn giản chứa hai quy tắc:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Sau đây là ý nghĩa của tệp robots.txt đó:
Tác nhân người dùng có tên Googlebot không được phép thu thập dữ liệu trong mọi URL bắt đầu bằng https://example.com/nogooglebot/.
Mọi tác nhân người dùng khác đều được phép thu thập dữ liệu trên toàn bộ trang web.
Quy tắc này có thể được bỏ qua mà kết quả vẫn như vậy. Lý do là theo mặc định, mọi tác nhân người dùng đều được phép thu thập dữ liệu trên toàn bộ trang web.
Tệp sơ đồ trang web của trang web này nằm tại https://www.example.com/sitemap.xml.
Các quy tắc có tác dụng hướng dẫn trình thu thập dữ liệu về những phần có thể thu thập dữ liệu trên trang web của bạn. Khi bạn thêm quy tắc vào tệp robots.txt, hãy tuân theo những nguyên tắc sau:
User-agent
nêu rõ mục tiêu của nhóm đó.disallow
chặn.disallow: /file.asp
áp dụng cho https://www.example.com/file.asp
nhưng không áp dụng cho https://www.example.com/FILE.asp
.#
đánh dấu điểm bắt đầu của một nhận xét. Các nhận xét sẽ bị bỏ qua trong quá trình xử lý.Trong tệp robots.txt, trình thu thập dữ liệu của Google hỗ trợ những lệnh sau đây:
user-agent:
[Bắt buộc, ít nhất một lệnh trong mỗi nhóm] Quy tắc này chỉ định tên của ứng dụng tự động (còn được gọi là trình thu thập dữ liệu của công cụ tìm kiếm) phải tuân theo quy tắc đó. Đây là dòng đầu tiên của mọi nhóm quy tắc. Danh sách tác nhân người dùng của Google có liệt kê tên các tác nhân người dùng của Google. Dấu hoa thị (*
) đại diện cho mọi trình thu thập dữ liệu, ngoại trừ các trình thu thập dữ liệu AdsBot (bạn phải nêu rõ tên cho loại trình thu thập dữ liệu này). Ví dụ:
# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
disallow:
[Ít nhất một mục disallow
hoặc allow
trên mỗi quy tắc] Một thư mục hoặc trang (tương đối so với miền gốc) mà bạn không muốn tác nhân người dùng thu thập dữ liệu trên đó. Nếu quy tắc đề cập đến một trang, thì trang đó phải có tên đầy đủ (như tên xuất hiện trong trình duyệt). Quy tắc này phải bắt đầu bằng một ký tự /
và nếu quy tắc này đề cập đến một thư mục, thì thư mục đó phải kết thúc bằng một dấu /
.allow:
[Ít nhất một mục disallow
hoặc allow
trên mỗi quy tắc] Một thư mục hoặc trang (tương đối so với miền gốc) mà tác nhân người dùng đã chỉ định được phép thu thập dữ liệu trên đó. Quy tắc này được dùng để ghi đè quy tắc disallow
nhằm cho phép thu thập dữ liệu trên một thư mục con hoặc một trang trong một thư mục không được phép. Đối với một trang đơn lẻ, hãy chỉ định tên trang đầy đủ như tên xuất hiện trong trình duyệt. Quy tắc này phải bắt đầu bằng một ký tự /
và nếu quy tắc này dẫn chiếu đến một thư mục, thì thư mục đó phải kết thúc bằng một dấu /
.sitemap:
[Không bắt buộc, có hoặc không có trong mỗi tệp] Vị trí của sơ đồ trang web cho trang web này. URL sơ đồ trang web phải là một URL đủ điều kiện; Google không giả định hoặc kiểm tra các phiên bản thay thế (http/https/www/không có www). Sơ đồ trang web là một cách hay để chỉ định nội dung mà Google nên thu thập dữ liệu, chứ không phải nội dung mà Google được phép hoặc không được phép thu thập dữ liệu. Tìm hiểu thêm về sơ đồ trang web. Ví dụ:
Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
Mọi quy tắc (ngoại trừ sitemap
) đều hỗ trợ ký tự đại diện *
cho một tiền tố, hậu tố hoặc toàn bộ chuỗi đường dẫn.
Các dòng không khớp với quy tắc nào trong những quy tắc này sẽ bị bỏ qua.
Hãy đọc trang cách Google diễn giải quy cách tệp robots.txt của chúng tôi để nắm được nội dung mô tả đầy đủ cho từng quy tắc.
Khi đã lưu tệp robots.txt vào máy tính tức là bạn đã sẵn sàng cung cấp tệp này cho trình thu thập dữ liệu của công cụ tìm kiếm. Không có công cụ nào có thể giúp bạn thực hiện việc này, vì cách bạn tải tệp robots.txt lên trang web phụ thuộc vào cấu trúc trang web và máy chủ của bạn.
Hãy liên hệ với công ty lưu trữ của bạn hoặc tìm kiếm trong tài liệu của công ty lưu trữ đó; ví dụ: tìm kiếm “tải tệp lên infomaniak”.
Sau khi bạn tải tệp robots.txt lên, hãy kiểm tra xem tệp đó có thể truy cập công khai không và Google có thể phân tích cú pháp tệp đó không.
Để kiểm tra xem tệp robots.txt mới tải lên có thể truy cập công khai hay không, hãy mở một cửa sổ duyệt web ở chế độ riêng tư (hoặc tương đương) trong trình duyệt rồi di chuyển đến vị trí của tệp robots.txt. Ví dụ: https://example.com/robots.txt
. Nếu thấy nội dung của tệp robots.txt thì bạn đã sẵn sàng để kiểm tra mã đánh dấu.
Google cung cấp hai cách kiểm tra mã đánh dấu robots.txt:
Sau khi bạn đã tải lên và kiểm tra tệp robots.txt, các trình thu thập dữ liệu của Google sẽ tự động tìm và bắt đầu sử dụng tệp robots.txt của bạn. Bạn không phải làm bất cứ điều gì! Nếu bạn đã cập nhật tệp robots.txt và cần phải làm mới bản sao đã lưu vào bộ nhớ đệm của Google càng sớm càng tốt, hãy tìm hiểu cách gửi tệp robots.txt đã cập nhật cho Google.
Sau đây là một số quy tắc phổ biến và hữu ích trong tệp robots.txt:
Quy tắc hữu ích | |
---|---|
Không cho phép thu thập dữ liệu toàn bộ trang web | Xin lưu ý rằng trong một số trường hợp, Google vẫn có thể lập chỉ mục các URL thuộc trang web mặc dù chưa thu thập dữ liệu những URL đó.
User-agent: * Disallow: / |
Không cho phép thu thập dữ liệu một thư mục và nội dung trong đó | Thêm dấu gạch chéo lên vào tên thư mục để không cho phép thu thập dữ liệu toàn bộ thư mục.
User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
Cho phép truy cập vào một trình thu thập dữ liệu | Chỉ googlebot-news mới có thể thu thập dữ liệu trên toàn bộ trang web.
User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
Cho phép tất cả các trình thu thập dữ liệu truy cập nhưng ngoại trừ một trình thu thập dữ liệu | Unnecessarybot không được thu thập dữ liệu trên trang web, mọi bot khác có thể thu thập dữ liệu trên trang web.
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
Không cho phép thu thập dữ liệu trên một trang của trang web | Ví dụ: không cho phép trang useless_file.html nằm tại https://example.com/useless_file.html và other_useless_file.html trong thư mục junk .
User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
Không cho phép thu thập dữ liệu trên toàn bộ trang web, ngoại trừ một thư mục con | Trình thu thập dữ liệu chỉ có thể truy cập vào thư mục con public .
User-agent: * Disallow: / Allow: /public/ |
Chặn một hình ảnh cụ thể khỏi Google Hình ảnh | Ví dụ: không cho phép hình ảnh dogs.jpg .
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
Chặn mọi hình ảnh trên trang web khỏi Google Hình ảnh | Google không thể lập chỉ mục hình ảnh và video mà không thu thập dữ liệu hình ảnh và video đó.
User-agent: Googlebot-Image Disallow: / |
Không cho phép thu thập dữ liệu trong các tệp thuộc một loại cụ thể | Ví dụ: không cho phép thu thập dữ liệu trong mọi tệp .gif .
User-agent: Googlebot Disallow: /*.gif$ |
Không cho phép thu thập dữ liệu trên toàn bộ trang web, nhưng cho phép Mediapartners-Google |
Cách thức triển khai này ẩn các trang của bạn khỏi kết quả tìm kiếm, nhưng trình thu thập dữ liệu web Mediapartners-Google vẫn có thể phân tích những trang đó để quyết định xem nên hiển thị quảng cáo nào cho khách truy cập trang web của bạn.
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Sử dụng ký tự đại diện * và $ để khớp với những URL kết thúc bằng một chuỗi cụ thể |
Ví dụ: không cho phép mọi tệp .xls .
User-agent: Googlebot Disallow: /*.xls$ |
Trên đây là những thông tin những ảnh hưởng của robots.txt đến SEO
P.A Việt Nam cung cấp đa dạng các Plan Hosting WordPress đáp ứng yêu cầu của khách hàng
WordPress Hosting phổ thông
WordPress Hosting chất lượng cao
WordPress VIP
Tham khảo các ưu đãi: https://www.pavietnam.vn/vn/tin-khuyen-mai/
Sử dụng dịch vụ với giá tốt của nhà cung cấp Việt Nam nhưng tận hưởng chất lượng quốc tế.
Nếu Các bạn đang sử dụng Email marketing tại P.A thì có thể tham khảo hướng dẫn sử dụng email marketing tại đây
Hiện tại chúng tôi cũng có 1 số chương trình khuyến mãi cho các dịch vụ các bạn cũng có thể tham khảo tại đây
P.A Việt Nam – Nhà cung cấp giải pháp Email Server dành cho Doanh Nghiệp hàng đầu Việt Nam