Google đã ra mắt một bản cải tiến lớn đối với tài liệu Crawler của mình, thu nhỏ trang tổng quan chính và chia nội dung thành ba trang mới, tập trung hơn. Mặc dù nhật ký thay đổi hạ thấp các thay đổi nhưng có một phần hoàn toàn mới và về cơ bản là viết lại toàn bộ trang tổng quan của crawler. Các trang bổ sung cho phép Google tăng mật độ thông tin của tất cả các trang crawler và cải thiện phạm vi chủ đề.
Có gì thay đổi?
Nhật ký thay đổi tài liệu của Google ghi chú hai thay đổi nhưng thực tế còn nhiều thay đổi hơn thế nữa.
Sau đây là một số thay đổi:
- Đã thêm chuỗi tác nhân người dùng được cập nhật cho trình thu thập thông tin GoogleProducer
- Đã thêm thông tin mã hóa nội dung
- Đã thêm phần mới về đặc tính kỹ thuật
Phần thuộc tính kỹ thuật chứa thông tin hoàn toàn mới mà trước đây không có. Không có thay đổi nào đối với hành vi của trình thu thập thông tin, nhưng bằng cách tạo ba trang cụ thể theo chủ đề, Google có thể thêm nhiều thông tin hơn vào trang tổng quan của trình thu thập thông tin đồng thời làm cho trang này nhỏ hơn.
Đây là thông tin mới về mã hóa nội dung (nén):
“Các trình thu thập dữ liệu và trình tải của Google hỗ trợ các mã hóa nội dung sau (nén): gzip, deflate và Brotli (br). Các mã hóa nội dung được hỗ trợ bởi mỗi tác nhân người dùng Google được quảng cáo trong tiêu đề Accept-Encoding của mỗi yêu cầu mà chúng thực hiện. Ví dụ: Accept-Encoding: gzip, deflate, br.”
Có thêm thông tin về việc thu thập dữ liệu qua HTTP/1.1 và HTTP/2, cùng với tuyên bố về mục tiêu của chúng là thu thập dữ liệu càng nhiều trang càng tốt mà không ảnh hưởng đến máy chủ trang web.
Mục tiêu của việc cải tạo là gì?
Việc thay đổi tài liệu là do trang tổng quan đã trở nên lớn. Thông tin bổ sung về trình thu thập dữ liệu sẽ làm cho trang tổng quan thậm chí còn lớn hơn. Một quyết định đã được đưa ra là chia trang thành ba chủ đề phụ để nội dung trình thu thập dữ liệu cụ thể có thể tiếp tục phát triển và tạo chỗ cho thông tin chung hơn trên trang tổng quan. Việc tách các chủ đề phụ thành các trang riêng của chúng là một giải pháp tuyệt vời cho vấn đề về cách phục vụ người dùng tốt nhất.
Đây là cách nhật ký thay đổi tài liệu giải thích về sự thay đổi:
“Tài liệu ngày càng dài, hạn chế khả năng mở rộng nội dung về trình thu thập thông tin và trình truy xuất do người dùng kích hoạt của chúng tôi.
…Tổ chức lại tài liệu cho trình thu thập dữ liệu của Google và trình truy xuất do người dùng kích hoạt. Chúng tôi cũng đã thêm các ghi chú rõ ràng về sản phẩm mà mỗi trình thu thập dữ liệu ảnh hưởng và thêm một đoạn mã robots.txt cho mỗi trình thu thập dữ liệu để minh họa cách sử dụng mã thông báo tác nhân người dùng. Không có thay đổi có ý nghĩa nào đối với nội dung khác.”
Nhật ký thay đổi giảm nhẹ các thay đổi bằng cách mô tả chúng như một sự sắp xếp lại vì tổng quan của trình thu thập thông tin đã được viết lại đáng kể, ngoài việc tạo ra ba trang hoàn toàn mới.
Mặc dù nội dung vẫn giữ nguyên về cơ bản, việc chia thành các chủ đề phụ giúp Google dễ dàng thêm nội dung vào các trang mới mà không cần tiếp tục phát triển trang gốc. Trang gốc, được gọi là Tổng quan về trình thu thập và trình tìm nạp của Google (tác nhân người dùng), giờ đây thực sự là tổng quan với nội dung chi tiết hơn được chuyển sang các trang độc lập.
Google đã công bố ba trang mới:
- Các trình thu thập thông tin phổ biến
- Trình thu thập dữ liệu trường hợp đặc biệt
- Người dùng kích hoạt trình lấy dữ liệu
1. Các loài bò sát thông thường
Như đã nói trên tiêu đề, đây là những trình thu thập thông tin phổ biến, một số trong đó được liên kết với GoogleBot, bao gồm Google-InspectionTool, sử dụng tác nhân người dùng GoogleBot. Tất cả các bot được liệt kê trên trang này đều tuân thủ các quy tắc robots.txt.
Sau đây là các trình thu thập thông tin được Google ghi lại:
- Googlebot
- Hình ảnh Googlebot
- Video của Googlebot
- Tin tức Googlebot
- Cửa hàng GoogleBot
- Công cụ kiểm tra của Google
- GoogleKhác
- GoogleKhác-Hình ảnh
- GoogleKhác-Video
- Google-CloudVertexBot
- Google-Mở rộng
3. Trình thu thập dữ liệu trường hợp đặc biệt
Đây là các trình thu thập thông tin được liên kết với các sản phẩm cụ thể và được thu thập thông tin theo thỏa thuận với người dùng các sản phẩm đó và hoạt động từ các địa chỉ IP khác với địa chỉ IP của trình thu thập thông tin GoogleBot.
Danh sách các trình thu thập dữ liệu đặc biệt:
- AdSense
User Agent cho Robots.txt: Mediapartners-Google - Quảng cáoBot
User Agent cho Robots.txt: AdsBot-Google - AdsBot Di động Web
User Agent cho Robots.txt: AdsBot-Google-Mobile - API-Google
User Agent cho Robots.txt: APIs-Google - Google-An toàn
User Agent cho Robots.txt: Google-Safety
3. Trình tải do người dùng kích hoạt
Trang Trình tải do người dùng kích hoạt bao gồm các bot được kích hoạt theo yêu cầu của người dùng, được giải thích như sau:
“Các trình tìm nạp do người dùng kích hoạt được người dùng khởi tạo để thực hiện chức năng tìm nạp trong sản phẩm của Google. Ví dụ: Google Site Verifier hoạt động theo yêu cầu của người dùng hoặc một trang web được lưu trữ trên Google Cloud (GCP) có tính năng cho phép người dùng của trang web đó truy xuất nguồn cấp RSS bên ngoài. Vì người dùng yêu cầu tìm nạp nên các trình tìm nạp này thường bỏ qua các quy tắc robots.txt. Các thuộc tính kỹ thuật chung của trình thu thập dữ liệu của Google cũng áp dụng cho các trình tìm nạp do người dùng kích hoạt.”
Tài liệu này bao gồm các bot sau:
- Feedfetcher
- Trung tâm xuất bản của Google
- Google Đọc To
- Trình xác minh trang web của Google
Mua mang về:
Trang tổng quan về trình thu thập thông tin của Google trở nên quá toàn diện và có thể ít hữu ích hơn vì mọi người không phải lúc nào cũng cần một trang toàn diện, họ chỉ quan tâm đến thông tin cụ thể. Trang tổng quan ít cụ thể hơn nhưng cũng dễ hiểu hơn. Giờ đây, nó đóng vai trò là điểm vào nơi người dùng có thể đi sâu vào các chủ đề phụ cụ thể hơn liên quan đến ba loại trình thu thập thông tin.
Thay đổi này cung cấp thông tin chi tiết về cách làm mới một trang có thể hoạt động kém vì nó đã trở nên quá toàn diện. Việc chia một trang toàn diện thành các trang độc lập cho phép các chủ đề phụ giải quyết các nhu cầu cụ thể của người dùng và có thể làm cho chúng hữu ích hơn nếu chúng được xếp hạng trong kết quả tìm kiếm.
Tôi không cho rằng sự thay đổi này phản ánh bất cứ điều gì trong thuật toán của Google, nó chỉ phản ánh cách Google cập nhật tài liệu của họ để làm cho nó hữu ích hơn và thiết lập để thêm nhiều thông tin hơn.
Đọc Tài liệu mới của Google
Tổng quan về trình thu thập và tìm kiếm của Google (tác nhân người dùng)
Danh sách các trình thu thập thông tin phổ biến của Google
Danh sách các trình thu thập thông tin đặc biệt của Google
Danh sách các trình tìm nạp do người dùng Google kích hoạt
Hình ảnh nổi bật của Shutterstock/Diễn viên của hàng ngàn người
Nguồn: Searchenginejournal