Lê Hoài Thương
Tích Cực
Googlebot là tên gọi chung cho hai loại trình thu thập dữ liệu web của Google:
Googlebot là phần mềm thu thập thông tin website được Google xây dựng để thu thập dữ liệu từ website của bạn để xây dựng chỉ mục có thể tìm kiếm cho Công cụ tìm kiếm của Google. Tên này thực sự được sử dụng để chỉ hai loại trình thu thập thông tin web khác nhau: trình thu thập thông tin trên máy tính để bàn (để mô phỏng người dùng máy tính để bàn – Googlebot Desktop) và trình thu thập thông tin di động cho các smartphone và máy tính bản (để mô phỏng người dùng di động – Googlebot Smartphone).
Bạn có thể xác định loại Googlebot bằng cách xem chuỗi tác nhân người dùng trong yêu cầu. Tuy nhiên, cả hai loại trình thu thập dữ liệu này đều có cùng một mã sản phẩm (mã tác nhân người dùng) trong tệp robots.txt. Do đó, bạn không thể dùng tệp robots.txt để tuỳ ý nhắm đến Googlebot Smartphone (dành cho điện thoại thông minh) hoặc Googlebot Desktop (dành cho máy tính).
Đối với hầu hết các trang web, Google chủ yếu lập chỉ mục phiên bản nội dung dành cho thiết bị di động. Do đó, phần lớn yêu cầu thu thập dữ liệu của Googlebot sẽ do trình thu thập dữ liệu thiết bị di động thực hiện trong khi một phần nhỏ còn lại thì sử dụng trên trình thu thập dữ liệu máy tính.
id="how-googlebot-accesses-your-site" role="presentation" data-text="Cách Googlebot truy cập vào trang web của bạn">
Với hầu hết trang web, trung bình Googlebot sẽ không truy cập trang web của bạn nhiều hơn một lần trong vài giây. Tuy nhiên, do vấn đề trễ mạng nên có thể tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút.
Chúng tôi đã thiết kế để có thể cho phép hàng nghìn máy chạy Googlebot cùng lúc nhằm cải thiện hiệu suất và quy mô tương ứng với sự phát triển của môi trường web. Ngoài ra, để giảm mức sử dụng băng thông, chúng tôi chạy nhiều trình thu thập dữ liệu trên các máy nằm gần những trang web mà các trình đó có thể thu thập dữ liệu. Do đó, có thể nhật ký của bạn cho thấy các lượt truy cập qua một vài địa chỉ IP, tất cả đều có tác nhân người dùng Googlebot. Mục tiêu của chúng tôi là thu thập dữ liệu nhiều trang nhất có thể trên trang web của bạn trong mỗi lần truy cập mà không làm máy chủ của bạn quá tải. Nếu trang web của bạn không đáp ứng được các yêu cầu thu thập dữ liệu của Google, thì bạn có thể giảm tốc độ thu thập dữ liệu.
Googlebot chủ yếu thu thập dữ liệu qua các địa chỉ IP ở Hoa Kỳ. Trong trường hợp phát hiện thấy một trang web chặn yêu cầu từ Hoa Kỳ, có thể Googlebot sẽ cố gắng thu thập dữ liệu qua địa chỉ IP ở các quốc gia khác. Danh sách khối địa chỉ IP mà Googlebot hiện sử dụng (định dạng JSON).
Googlebot thu thập dữ liệu qua HTTP/1.1 và nếu trang web có hỗ trợ thì qua HTTP/2. Phiên bản giao thức được sử dụng để thu thập dữ liệu trên trang web của bạn không mang lại lợi thế xếp hạng nào; nhưng việc thu thập dữ liệu qua HTTP/2 có thể giúp tiết kiệm tài nguyên điện toán (ví dụ như CPU, RAM) cho trang web của bạn và Googlebot.
Để chọn không cho phép thu thập dữ liệu qua HTTP/2, hãy hướng dẫn máy chủ lưu trữ trang web của bạn phản hồi bằng mã trạng thái HTTP 421 khi Googlebot cố gắng thu thập dữ liệu trên trang web của bạn qua HTTP/2. Nếu việc này không khả thi, bạn có thể gửi tin nhắn cho nhóm Googlebot (nhưng giải pháp này chỉ là tạm thời).
Googlebot có thể thu thập dữ liệu 15 MB đầu tiên của một tệp HTML hoặc tệp dựa trên văn bản được hỗ trợ. Mỗi tài nguyên được tham chiếu trong đoạn mã HTML như CSS và JavaScript được tìm nạp riêng biệt và mỗi lần tìm nạp đều có cùng giới hạn kích thước tệp. Sau 15 MB đầu tiên của tệp, Googlebot sẽ ngừng thu thập dữ liệu và chỉ xem xét 15 MB đầu tiên đó của tệp để lập chỉ mục. Giới hạn kích thước tệp được áp dụng cho dữ liệu chưa nén. Các trình thu thập dữ liệu khác của Google, chẳng hạn như Googlebot Video và Googlebot Image, có thể có các giới hạn khác.
Phương thức giữ bí mật một máy chủ web bằng cách không xuất bản các đường liên kết đến máy chủ đó hầu như không có hiệu quả. Ví dụ: ngay khi một người nào đó theo một đường liên kết từ máy chủ “bí mật” của bạn đến một máy chủ web khác, URL “bí mật” của bạn có thể xuất hiện trong thẻ liên kết giới thiệu và có thể được máy chủ web khác lưu trữ và xuất bản trong nhật ký liên kết giới thiệu của máy chủ đó. Tương tự như vậy, có nhiều đường liên kết đã lỗi thời và bị hỏng trên web. Mỗi khi ai đó phát hành một đường liên kết không chính xác đến trang web của bạn hoặc không cập nhật đường liên kết để phản ánh thay đổi trong máy chủ của bạn, Googlebot sẽ cố gắng thu thập dữ liệu trên một đường liên kết không chính xác từ trang web của bạn.
Bạn có thể lựa chọn một số cách để ngăn Googlebot thu thập dữ liệu nội dung trên trang web của bạn. Hãy lưu ý sự khác biệt giữa việc ngăn Googlebot thu thập dữ liệu một trang/ngăn Googlebot lập chỉ mục một trang và ngăn cả trình thu thập dữ liệu hoặc người dùng truy cập một trang.
Trước khi bạn quyết định chặn Googlebot, hãy lưu ý rằng các trình thu thập dữ liệu khác thường giả mạo chuỗi tác nhân người dùng mà Googlebot sử dụng. Điều quan trọng là bạn phải xác minh được rằng yêu cầu gặp vấn đề thực sự đến từ Google. Cách tốt nhất để xác minh rằng một yêu cầu thực sự đến từ Googlebot là sử dụng quy trình tra cứu DNS ngược đối với IP nguồn của yêu cầu hoặc so khớp IP nguồn này với phạm vi IP của Googlebot.
Tần suất Googlebot sẽ thu thập dữ liệu một trang web tùy thuộc vào ngân sách thu thập thông tin. Ngân sách thu thập thông tin là ước tính tần suất cập nhật trang web.
Về mặt kỹ thuật, nhóm phát triển của Googlebot (nhóm Thu thập thông tin và Lập chỉ mục) sử dụng một số thuật ngữ đã xác định trong nội bộ để tiếp quản “ngân sách thu thập thông tin” là viết tắt của cụm từ nào. Kể từ tháng 5 năm 2019, Googlebot sử dụng công cụ kết xuất Chromium mới nhất, hỗ trợ các tính năng ECMAScript 6. Điều này sẽ làm cho bot “thường xanh” hơn một chút và đảm bảo rằng nó không dựa vào một công cụ kết xuất lỗi thời so với khả năng của trình duyệt.
Xem tiếp...
- Googlebot Desktop: một trình thu thập dữ liệu máy tính mô phỏng một người dùng trên máy tính.
- Googlebot Smartphone: một trình thu thập dữ liệu thiết bị di động mô phỏng một người dùng sử dụng thiết bị di động.
Khái niệm Googlebot là gì?
Googlebot là phần mềm thu thập thông tin website được Google xây dựng để thu thập dữ liệu từ website của bạn để xây dựng chỉ mục có thể tìm kiếm cho Công cụ tìm kiếm của Google. Tên này thực sự được sử dụng để chỉ hai loại trình thu thập thông tin web khác nhau: trình thu thập thông tin trên máy tính để bàn (để mô phỏng người dùng máy tính để bàn – Googlebot Desktop) và trình thu thập thông tin di động cho các smartphone và máy tính bản (để mô phỏng người dùng di động – Googlebot Smartphone).
Bạn có thể xác định loại Googlebot bằng cách xem chuỗi tác nhân người dùng trong yêu cầu. Tuy nhiên, cả hai loại trình thu thập dữ liệu này đều có cùng một mã sản phẩm (mã tác nhân người dùng) trong tệp robots.txt. Do đó, bạn không thể dùng tệp robots.txt để tuỳ ý nhắm đến Googlebot Smartphone (dành cho điện thoại thông minh) hoặc Googlebot Desktop (dành cho máy tính).
Đối với hầu hết các trang web, Google chủ yếu lập chỉ mục phiên bản nội dung dành cho thiết bị di động. Do đó, phần lớn yêu cầu thu thập dữ liệu của Googlebot sẽ do trình thu thập dữ liệu thiết bị di động thực hiện trong khi một phần nhỏ còn lại thì sử dụng trên trình thu thập dữ liệu máy tính.
Cách Googlebot truy cập trang web của bạn
id="how-googlebot-accesses-your-site" role="presentation" data-text="Cách Googlebot truy cập vào trang web của bạn">
Với hầu hết trang web, trung bình Googlebot sẽ không truy cập trang web của bạn nhiều hơn một lần trong vài giây. Tuy nhiên, do vấn đề trễ mạng nên có thể tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút.
Chúng tôi đã thiết kế để có thể cho phép hàng nghìn máy chạy Googlebot cùng lúc nhằm cải thiện hiệu suất và quy mô tương ứng với sự phát triển của môi trường web. Ngoài ra, để giảm mức sử dụng băng thông, chúng tôi chạy nhiều trình thu thập dữ liệu trên các máy nằm gần những trang web mà các trình đó có thể thu thập dữ liệu. Do đó, có thể nhật ký của bạn cho thấy các lượt truy cập qua một vài địa chỉ IP, tất cả đều có tác nhân người dùng Googlebot. Mục tiêu của chúng tôi là thu thập dữ liệu nhiều trang nhất có thể trên trang web của bạn trong mỗi lần truy cập mà không làm máy chủ của bạn quá tải. Nếu trang web của bạn không đáp ứng được các yêu cầu thu thập dữ liệu của Google, thì bạn có thể giảm tốc độ thu thập dữ liệu.
Googlebot chủ yếu thu thập dữ liệu qua các địa chỉ IP ở Hoa Kỳ. Trong trường hợp phát hiện thấy một trang web chặn yêu cầu từ Hoa Kỳ, có thể Googlebot sẽ cố gắng thu thập dữ liệu qua địa chỉ IP ở các quốc gia khác. Danh sách khối địa chỉ IP mà Googlebot hiện sử dụng (định dạng JSON).
Googlebot thu thập dữ liệu qua HTTP/1.1 và nếu trang web có hỗ trợ thì qua HTTP/2. Phiên bản giao thức được sử dụng để thu thập dữ liệu trên trang web của bạn không mang lại lợi thế xếp hạng nào; nhưng việc thu thập dữ liệu qua HTTP/2 có thể giúp tiết kiệm tài nguyên điện toán (ví dụ như CPU, RAM) cho trang web của bạn và Googlebot.
Để chọn không cho phép thu thập dữ liệu qua HTTP/2, hãy hướng dẫn máy chủ lưu trữ trang web của bạn phản hồi bằng mã trạng thái HTTP 421 khi Googlebot cố gắng thu thập dữ liệu trên trang web của bạn qua HTTP/2. Nếu việc này không khả thi, bạn có thể gửi tin nhắn cho nhóm Googlebot (nhưng giải pháp này chỉ là tạm thời).
Googlebot có thể thu thập dữ liệu 15 MB đầu tiên của một tệp HTML hoặc tệp dựa trên văn bản được hỗ trợ. Mỗi tài nguyên được tham chiếu trong đoạn mã HTML như CSS và JavaScript được tìm nạp riêng biệt và mỗi lần tìm nạp đều có cùng giới hạn kích thước tệp. Sau 15 MB đầu tiên của tệp, Googlebot sẽ ngừng thu thập dữ liệu và chỉ xem xét 15 MB đầu tiên đó của tệp để lập chỉ mục. Giới hạn kích thước tệp được áp dụng cho dữ liệu chưa nén. Các trình thu thập dữ liệu khác của Google, chẳng hạn như Googlebot Video và Googlebot Image, có thể có các giới hạn khác.
>Chặn Googlebot truy cập trang web của bạn
Phương thức giữ bí mật một máy chủ web bằng cách không xuất bản các đường liên kết đến máy chủ đó hầu như không có hiệu quả. Ví dụ: ngay khi một người nào đó theo một đường liên kết từ máy chủ “bí mật” của bạn đến một máy chủ web khác, URL “bí mật” của bạn có thể xuất hiện trong thẻ liên kết giới thiệu và có thể được máy chủ web khác lưu trữ và xuất bản trong nhật ký liên kết giới thiệu của máy chủ đó. Tương tự như vậy, có nhiều đường liên kết đã lỗi thời và bị hỏng trên web. Mỗi khi ai đó phát hành một đường liên kết không chính xác đến trang web của bạn hoặc không cập nhật đường liên kết để phản ánh thay đổi trong máy chủ của bạn, Googlebot sẽ cố gắng thu thập dữ liệu trên một đường liên kết không chính xác từ trang web của bạn.
Bạn có thể lựa chọn một số cách để ngăn Googlebot thu thập dữ liệu nội dung trên trang web của bạn. Hãy lưu ý sự khác biệt giữa việc ngăn Googlebot thu thập dữ liệu một trang/ngăn Googlebot lập chỉ mục một trang và ngăn cả trình thu thập dữ liệu hoặc người dùng truy cập một trang.
Xác minh Googlebot
Trước khi bạn quyết định chặn Googlebot, hãy lưu ý rằng các trình thu thập dữ liệu khác thường giả mạo chuỗi tác nhân người dùng mà Googlebot sử dụng. Điều quan trọng là bạn phải xác minh được rằng yêu cầu gặp vấn đề thực sự đến từ Google. Cách tốt nhất để xác minh rằng một yêu cầu thực sự đến từ Googlebot là sử dụng quy trình tra cứu DNS ngược đối với IP nguồn của yêu cầu hoặc so khớp IP nguồn này với phạm vi IP của Googlebot.
Googlebot thường truy cập website với tần suất thế nào?
Tần suất Googlebot sẽ thu thập dữ liệu một trang web tùy thuộc vào ngân sách thu thập thông tin. Ngân sách thu thập thông tin là ước tính tần suất cập nhật trang web.
Về mặt kỹ thuật, nhóm phát triển của Googlebot (nhóm Thu thập thông tin và Lập chỉ mục) sử dụng một số thuật ngữ đã xác định trong nội bộ để tiếp quản “ngân sách thu thập thông tin” là viết tắt của cụm từ nào. Kể từ tháng 5 năm 2019, Googlebot sử dụng công cụ kết xuất Chromium mới nhất, hỗ trợ các tính năng ECMAScript 6. Điều này sẽ làm cho bot “thường xanh” hơn một chút và đảm bảo rằng nó không dựa vào một công cụ kết xuất lỗi thời so với khả năng của trình duyệt.
Làm gì để Googlebot truy cập website của bạn thường xuyên hơn?
- Hãy kết nối các đường dẫn URL lên các vị trí để giúp Googlebot truy cập các đường dẫn đi tới URL đó nhiều hơn.
- Chia sẻ các đường dẫn là một giải pháp, có thể trên Social (Facebook, Instagram,Zalo)
- Tạo Google Search Console và cập nhật sitemaps sẽ giúp điều đó diễn ra tốt hơn.
Xem tiếp...