John Mueller của Google đã trả lời câu hỏi về lý do tại sao Google lập chỉ mục các trang không được robots.txt cho phép thu thập dữ liệu và tại sao có thể bỏ qua các báo cáo liên quan của Search Console về các hoạt động thu thập dữ liệu đó.
Lưu lượng truy cập của Bot đến URL tham số truy vấn
Người đặt câu hỏi, Rick Horst (hồ sơ LinkedIn) đã ghi lại rằng các bot đang tạo liên kết đến các URL tham số truy vấn không tồn tại (?q=xyz) đến các trang có thẻ meta noindex cũng bị chặn trong robots.txt. Điều khiến người ta đặt câu hỏi là Google đang thu thập các liên kết đến các trang đó, bị chặn bởi robots.txt (mà không thấy thẻ meta robots noindex) sau đó được báo cáo trong Google Search Console là “Đã lập chỉ mục, mặc dù bị chặn bởi robots.txt”.
Người đó đã hỏi câu hỏi sau:
“Nhưng đây là câu hỏi lớn: tại sao Google lại lập chỉ mục các trang khi họ thậm chí không thể nhìn thấy nội dung? Lợi ích của việc đó là gì?”
John Mueller của Google đã xác nhận rằng nếu họ không thể thu thập dữ liệu trang, họ sẽ không thể thấy thẻ meta noindex. Ông cũng đề cập một cách thú vị đến toán tử site:search, khuyên bạn nên bỏ qua các kết quả vì người dùng “trung bình” sẽ không thấy những kết quả đó.
Ông viết:
“Đúng vậy, bạn nói đúng: nếu chúng ta không thể thu thập dữ liệu trang, chúng ta không thể thấy noindex. Điều đó có nghĩa là nếu chúng ta không thể thu thập dữ liệu các trang, thì chúng ta không có nhiều thứ để lập chỉ mục. Vì vậy, mặc dù bạn có thể thấy một số trang đó có site:-query được nhắm mục tiêu, nhưng người dùng trung bình sẽ không thấy chúng, vì vậy tôi sẽ không bận tâm đến điều đó. Noindex cũng ổn (nếu không có robots.txt disallow), điều đó chỉ có nghĩa là các URL cuối cùng sẽ được thu thập dữ liệu (và cuối cùng sẽ xuất hiện trong báo cáo của Search Console cho mục đã thu thập dữ liệu/chưa lập chỉ mục — không có trạng thái nào trong số này gây ra sự cố cho phần còn lại của trang web). Phần quan trọng là bạn không làm cho chúng có thể thu thập dữ liệu + có thể lập chỉ mục.”
Có liên quan: Google nhắc nhở các trang web sử dụng Robots.txt để chặn URL hành động
Bài học rút ra:
1. Xác nhận giới hạn của Site: Tìm kiếm
Câu trả lời của Mueller xác nhận những hạn chế khi sử dụng toán tử tìm kiếm nâng cao Site:search vì lý do chẩn đoán. Một trong những lý do đó là vì nó không được kết nối với chỉ mục tìm kiếm thông thường, mà là một thứ hoàn toàn riêng biệt.
John Mueller của Google đã bình luận về toán tử tìm kiếm trang web vào năm 2021:
“Câu trả lời ngắn gọn là truy vấn site: không có nghĩa là đầy đủ hoặc không được sử dụng cho mục đích chẩn đoán.
Truy vấn trang web là một loại tìm kiếm cụ thể giới hạn kết quả vào một trang web nhất định. Về cơ bản, đó chỉ là từ site, dấu hai chấm và sau đó là tên miền của trang web.
Truy vấn này giới hạn kết quả cho một trang web cụ thể. Nó không có nghĩa là một bộ sưu tập toàn diện tất cả các trang từ trang web đó.”
Toán tử trang web không phản ánh chỉ mục tìm kiếm của Google, khiến nó không đáng tin cậy để hiểu những trang nào Google đã lập chỉ mục hoặc không lập chỉ mục. Giống như các toán tử tìm kiếm nâng cao khác của Google, chúng không đáng tin cậy như các công cụ để hiểu bất kỳ điều gì liên quan đến cách Google xếp hạng hoặc lập chỉ mục nội dung.
2. Thẻ Noindex mà không sử dụng robots.txt sẽ phù hợp trong những trường hợp như thế này khi bot liên kết đến các trang không tồn tại đang được Googlebot phát hiện. Thẻ noindex trên các trang không bị chặn bởi lệnh disallow trong robots.txt cho phép Google thu thập dữ liệu trang và đọc lệnh noindex, đảm bảo trang sẽ không xuất hiện trong chỉ mục tìm kiếm, điều này được ưu tiên nếu mục tiêu là giữ một trang không nằm trong chỉ mục tìm kiếm của Google.
3. Các URL có thẻ noindex sẽ tạo mục “đã thu thập/chưa lập chỉ mục” trong Search Console và sẽ không ảnh hưởng tiêu cực đến phần còn lại của trang web.
Các mục nhập Search Console này, trong bối cảnh các trang bị chặn có chủ đích, chỉ cho biết rằng Google đã thu thập dữ liệu trang nhưng không lập chỉ mục, về cơ bản có nghĩa là điều này đã xảy ra chứ không phải (trong bối cảnh cụ thể này) có nghĩa là có điều gì đó không ổn cần khắc phục.
Mục nhập này hữu ích để cảnh báo các nhà xuất bản về các trang vô tình bị chặn bởi thẻ noindex hoặc do một số nguyên nhân khác ngăn không cho trang được lập chỉ mục. Sau đó, đó là điều cần điều tra
4. Cách Googlebot xử lý các URL có thẻ noindex bị chặn không cho thu thập thông tin bằng lệnh disallow trong robots.txt nhưng vẫn có thể phát hiện được thông qua các liên kết.
Nếu Googlebot không thể thu thập dữ liệu một trang thì nó không thể đọc và áp dụng thẻ noindex, do đó trang đó vẫn có thể được lập chỉ mục dựa trên việc phát hiện URL từ liên kết nội bộ hoặc liên kết ngoài.
Tài liệu về thẻ meta noindex của Google có cảnh báo về việc sử dụng robots.txt để không cho phép các trang có thẻ noindex trong siêu dữ liệu:
“Để quy tắc noindex có hiệu lực, trang hoặc tài nguyên không được chặn bởi tệp robots.txt và phải có thể truy cập được bằng cách khác đối với trình thu thập thông tin. Nếu trang bị chặn bởi tệp robots.txt hoặc trình thu thập thông tin không thể truy cập trang, trình thu thập thông tin sẽ không bao giờ thấy quy tắc noindex và trang vẫn có thể xuất hiện trong kết quả tìm kiếm, ví dụ như nếu các trang khác liên kết đến trang đó.”
5. Sự khác biệt giữa tìm kiếm site: so với tìm kiếm thông thường trong quá trình lập chỉ mục của Google
Trang web: tìm kiếm bị giới hạn trong một tên miền cụ thể và không liên quan đến chỉ mục tìm kiếm chính, khiến chúng không phản ánh chỉ mục tìm kiếm thực tế của Google và ít hữu ích hơn trong việc chẩn đoán sự cố lập chỉ mục.
Đọc câu hỏi và câu trả lời trên LinkedIn:
Tại sao Google lại lập chỉ mục các trang khi họ thậm chí không thể nhìn thấy nội dung?
Hình ảnh nổi bật của Shutterstock/Krakenimages.com
Nguồn: Searchenginejournal