Googlebot nedir, nasıl çalışır?

18 Kasım Pazar 2018

Googlebot

Googlebot, Google'ın web tarama botudur (bazen "örümcek" olarak da adlandırılır). Tarama, Googlebot’un Google dizinine eklenecek yeni ve güncel sayfaları bulmasını sağlayan işlemdir.

Web’deki milyarlarca sayfayı bulup getirmek (veya "taramak") için muazzam sayıda bilgisayardan yararlanır. Googlebot, algoritmaya dayalı bir işlem kullanır: Hangi sitelerin ne sıklıkta taranacağı ve her siteden kaç sayfa alınacağı bilgisayar programları tarafından belirlenir.

Googlebot sitenize nasıl erişir?

Çoğu site için, Googlebot'un, sitenize ortalama olarak her birkaç saniyede birden fazla erişmemesi gerekir. Ancak, ağ gecikmeleri yüzünden, kısa dönemlerde bu hızın biraz daha yüksek olduğunu görebilirsiniz.

Googlebot, daha yüksek performans sağlaması ve web'in büyümesiyle birlikte çalışma kapasitesini geliştirebilmesi için birçok makine üzerinden çalışacak şekilde dağıtılmıştır. Ayrıca, bant genişliğini daha az kullanmak çok sayıda tarayıcıyı, ağ üzerinde dizine ekledikleri sitelere yakın yerlerde bulunan makinelerde çalıştırır. Dolayısıyla, günlüklerinizde google.com'daki birkaç makineden, tümü de Googlebot kullanıcı aracısına sahip ziyaretler görebilirsiniz. Amacı, sunucunuzun bant genişliğinde aşırı yoğunluğa yol açmadan her ziyaretinde sitenizden mümkün olduğunca çok sayfayı taramaktır. Tarama hızının değiştirilmesi için istekte bulunun.

Googlebot'un sitenizdeki içeriğe erişmesini engelleme

Bağlantılarını yayınlamayarak bir web sunucusunu gizli tutmak neredeyse imkansızdır. Bir kullanıcı "gizli" sunucunuzdaki bir bağlantıyı izleyerek başka bir web sunucusuna gittiği anda "gizli" URL'niz yönlendiren etiketinde görülebilir ve diğer web sunucusu tarafından yönlendiren günlüğüne kaydedilip herkesin erişebileceği şekilde yayınlanabilir. Benzer bir şekilde, İnternet'te çok sayıda eski ve bozuk bağlantı bulunmaktadır. Biri sitenize hatalı bir bağlantı yayınladığında veya mevcut bağlantıları sunucunuzdaki değişiklikleri yansıtacak şekilde güncellemediğinde, Googlebot sitenizden hatalı bir bağlantı indirmeyi dener.

Googlebot’un sitenizdeki içeriği taramasını önlemek istiyorsanız bunun için çeşitli seçenekler vardır. Googlebot’un bir sayfayı taramasını, Googlebot’un bir sayfayı dizine eklemesini ve bir sayfanın hem tarayıcılar hem de kullanıcılar için erişilebilir olmasını önlemek arasındaki farka dikkat edin.

Spam gönderenler ve diğer kullanıcı aracılarıyla ilgili sorunlar

Googlebot tarafından kullanılan IP adresleri zaman zaman değişmektedir. Googlebot kendisini bir kullanıcı aracısı dizesiyle tanımlar, ancak bu özellik adres sahteciliğinde kullanılabilir. Googlebot’un erişimlerini tanımlamanın en iyi yolu, ters DNS araması kullanmaktır.

Googlebot ve diğer güvenilir arama motoru botları robots.txt dosyasındaki yönergelere uyar, ancak bazı kötü amaçlı kişiler ve spam gönderenler bunlara uymaz. Spam'ı Google'a bildirin.

Google'ın aralarında Feedfetcher'ın (Feedfetcher-Google kullanıcı aracısı) da bulunduğu birkaç başka kullanıcı aracısı daha vardır. Feedfetcher istekleri otomatik tarayıcılardan değil, özet akışlarını Google ana sayfalarına ekleyen gerçek kullanıcıların açık bir şekilde gerçekleştirdikleri işlemlerden geldiği için, Feedfetcher robots.txt yönergelerini izlemez. Sunucunuzu Feedfetcher-Google kullanıcı-aracısına 404, 410 veya başka bir hata durumu iletisi sunacak şekilde yapılandırarak, Feedfetcher'ın sitenizde tarama yapmasını engelleyebilirsiniz. Feedfetcher hakkında daha fazla bilgi edinin.

KAYNAK: Googlebot