İçerik Botları Nasıl Çalışır?

Daha önceki yazılarımızda; içerik nedir, içerik botu nedir konularını ele almıştık. Şimdi içerik botlarının çalışma mantığını anlatacağız.

İçerik Botları hedef gösterilen sitede öncelikli olarak yeni içerik var mı yok mu bunun tespitini yapabilmek için daha önce işlemiş olduğu linkler ile sitedeki linkleri karşılaştırarak yeni bir içerik var mı, yok mu bunun tespitini yapmaya çalışır.

Yeni link yoksa siteden çıkar ve işlemi sonlandırır. Ancak yeni link varsa bu linklere sırayla girerek içerikleri toplamaya başlar.

Peki içerik toplama işlemi nasıl olur?

Örneğin;

<h1>Başlık</h1>
<section class="content">
Burada içerik bulunmaktadır.
</section>

şeklinde html blokları arasında olan içeriği düzenli ifadeler sayesinde toplamaktadırlar.

Düzenli İfadeler ile başlığı almak için: <h1>(.*?)<\/h1>
Düzenli ifadeler ile içeriği almak için: <section class=”content”>(.*?)<\/content>
gibi kodlar kullanılmaktadır.

Tabii içeriği toplamak yetmiyor, içerikte istenmeyen kodlar ayıklanarak içerikler çekilmektedir. Çeşitli formatlama işlemlerinden geçirilen bu içerikler hazırlanarak bir panelde sunuluyor veya direkt olarak işleme tabii tutuluyor.

İşlemi biten her link için bir işaret noktası oluşturuluyor ve böylece bir daha o işlem tekrar etmiyor veya güncelleme kontrolü yapılacaksa buna uygun olarak alanlar tek tek kontrol ettirilebiliyor.