Yandex için robots txt nasıl yapılır? Robots txt dosyası nasıl düzenlenir?

16.09.2023

Yandex ve Google tarayıcıları site sayfalarını ziyaret eder, içeriği değerlendirir, arama motorunun indeks veritabanına sayfalar hakkında yeni kaynaklar ve bilgiler ekler. Botlar, içerik güncellemelerini veritabanına aktarmak, yeni bağlantıların görünümünü ve kullanılabilirliğini not etmek için sayfaları düzenli olarak ziyaret eder.

Tarama neden gereklidir:

Bir dizin oluşturmak için veri toplayın - yeni sayfalar ve eski sayfalardaki güncellemeler hakkında bilgi.
Dizindeki ve tarama listesindeki URL'leri karşılaştırın.
İki kez indirilmelerini önlemek için yinelenen URL'leri kuyruktan kaldırın.

Botlar sitenin tüm sayfalarına bakmaz. Bu sayı, tarayıcı botunun tarayabileceği URL sayısı olan tarama bütçesiyle sınırlıdır. Hacimli bir web sitesi için bütçe yeterli olmayabilir. Tarama bütçesinin önemsiz veya "gereksiz" sayfaların taranması için harcanması riski vardır ve bunun olmasını önlemek için web yöneticileri tarayıcıları bir dosya kullanarak yönlendirir. robots.txt.

Botlar siteye gider ve kök dizindeki robots.txt dosyasını bulur, sayfalara erişimi analiz eder ve kapalı bağlantılara erişmeden tarama süresini azaltmak için site haritasına gider. Dosyayı inceledikten sonra botlar ana sayfaya gider ve oradan sitenin derinliklerine inerler.

Tarayıcı hangi sayfaları daha hızlı tarayacak:

Ana olana daha yakın yerleştirilmişler.
Ana sayfadan sayfaya yönlendiren tıklamalar ne kadar az olursa, o kadar önemli olur ve bir tarayıcı tarafından ziyaret edilme olasılığı da o kadar artar. Ana sayfadan mevcut sayfaya geçiş sayısına (DFI) denir.
Birçok bağlantınız var.
Bir sayfaya çok sayıda kişi bağlantı veriyorsa bu, sayfanın yararlı olduğu ve iyi bir üne sahip olduğu anlamına gelir. Sayfa başına yaklaşık 11-20 bağlantı normal kabul edilir ve kendi materyalleriniz arasında bağlantı verilmesi de dikkate alınır.
Hızlı yüklenir.
İndirme hızının yavaş olup olmadığını kontrol edin - ve.

Tüm tarayıcı bot ziyaretleri Google Analytics gibi araçlar tarafından kaydedilmez, ancak bot davranışı günlük dosyalarında takip edilebilir. Büyük sitelerin bazı SEO sorunları, bağlantılarla ve tarama bütçesinin dağıtımıyla ilgili sorunları görmenize de yardımcı olacak şekilde çözülebilir.

Yandex ve Google için Robots.txt

Web yöneticileri, robots.txt dosyasını kullanarak tarayıcı botların sitedeki davranışını kontrol edebilir. Robots.txt arama motoru robotları için indeksleme talimatlarını içeren bir metin dosyasıdır. Sitedeki hangi sayfa ve dosyaların taranamayacağını söyleyerek botların sunucuya gelen istek sayısını azaltmasına ve bilgisiz, birbirinin aynı ve önemsiz sayfalarda zaman kaybetmemesine olanak tanır.

Robots.txt'de tüm dosyalara erişimi açabilir veya engelleyebilirsiniz ya da hangi dosyaların taranıp hangilerinin taranamayacağını ayrı ayrı belirleyebilirsiniz.

Robots.txt için gereksinimler:

dosyanın adı " robots.txt", ad yalnızca küçük harflerle yazılır, "Robots.TXT" ve diğer varyasyonlar desteklenmez;
yalnızca kök dizinde bulunur - https://site.com/robots.txt, bir alt dizinde olamaz;
web sitesinde tek nüsha halinde;
.txt formatına sahiptir;
32 KB'ye kadar ağırlığa sahiptir;
isteğe yanıt olarak ; ile HTTP kodunu döndürür;
her URL öneki ayrı bir satırda;
yalnızca Latin karakterleri içerir.

Etki alanı Kiril dilindeyse, robots.txt için tüm Kiril bağlantılarını herhangi bir Punycode dönüştürücü kullanarak Punycode'a çevirin: “site.rf” - “xn--80aswg.xn--p1ai”.

Robots.txt, HTTP, HTTPS ve FTP için geçerlidir, UTF-8 veya ASCII kodludur ve yalnızca bulunduğu ana bilgisayar, protokol ve bağlantı noktası numarasına göre yönlendirilir.

Alt alan adlarına (http://web.site.com/robots.txt) veya standart olmayan bağlantı noktalarına (http://site.com:8181/robots.txt) sahip adreslere eklenebilir. Sitenizde birden fazla alt alan adı varsa dosyayı her birinin kök dizinine yerleştirin.

Robots.txt kullanarak sayfaları indekslemenin dışında tutma

Robots.txt dosyasında botların bazı içerikleri dizine eklemesini engelleyebilirsiniz.

Kullanıcı aracısı: * İzin verme: /hakkında/

"/" harfini kapatmadan "Disallow: /about" biçimini yazmak, http://site.com/about/ bölümüne, http://site.com/about.php dosyasına ve başlayan diğer bağlantılara erişimi reddeder. yaklaşık".

Birkaç bölüme veya klasöre erişimi reddetmeniz gerekiyorsa, her birinin Disallow yazan ayrı bir satıra ihtiyacı vardır:

Kullanıcı aracısı: * İzin Verme: /about İzin Verme: /info İzin Verme: /album1

İzin vermek

Yönerge, belirtilen arama botlarının kullanabileceği yolları tanımlar. Aslında bu Disallow'dur, aksine taramaya izin veren bir direktiftir. Robotlar için kural şudur: Yasak olmayana izin verilir, ancak bazen belirli bir dosyaya erişime izin vermeniz ve diğer bilgileri kapatmanız gerekir.

"/catalog" ile başlayan her şeyin taranmasına izin verilir, ancak diğer her şey yasaktır:

Kullanıcı aracısı: * İzin ver: /catalog İzin verme: /

"photo.html" dosyasının taranmasına izin verilir, ancak /album1/ dizinindeki diğer tüm bilgilerin taranması yasaktır:

Kullanıcı aracısı: * İzin ver: /album1/photo.html İzin Verme: /album1/

"site.com/catalog1/" ve "site.com/catalog2/" dizinlerine erişimi engelleyin ancak "catalog2/subcatalog1/" erişimine izin verin:

Kullanıcı aracısı: * İzin Verme: /katalog1/ İzin Verme: /katalog2/ İzin Ver: /katalog2/altkatalog1/

Bir sayfa için birden fazla kuralın geçerli olduğu görülür. Daha sonra robot, URL önek uzunluğuna göre listeyi en küçükten en büyüğe sıralayacak ve listedeki son kuralı izleyecektir.

Yandex botlarının tanıdığı yönergeler:

Temiz parametre

Bazı sayfalar, içeriği etkilemeyen farklı GET parametreleri veya UTM etiketleriyle çoğaltılır. Örneğin ürün kataloğunda sıralama veya farklı kimlikler kullanılmışsa.

Book_id=123 kitabının bulunduğu sayfanın hangi kaynaktan istendiğini takip etmek için ref: kullanın.

"www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123"
"www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123"

Kitabın bulunduğu sayfa aynı, içerik değişmiyor. Botun bu tür sayfaların tüm sürümlerini farklı parametrelerle taramasını önlemek için Clean-param kuralını kullanın:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: ref/some_dir/get_book.pl

Yandex robotu tüm sayfa adreslerini tek bir forma indirecektir:

"www.example.com/some_dir/get_book.pl?book_id=123"

Şunun gibi adresler için:
"www.example2.com/index.php? page=1&sid=2564126ebdec301c607e5df"
"www.example2.com/index.php? page=1&sid=974017dcd170d6c4a5d76ae"

robots.txt şunları içerecektir:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: sid/index.php

Gibi adresler için

"www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243"
"www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243"

robots.txt şunları içerecektir:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: s/forum/showthread.php

Birkaç geçiş parametresi varsa:
"www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311"
"www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896"

robots.txt şunları içerecektir:

Kullanıcı aracısı: Yandex İzin Verme: Temiz parametre: s&ref/forum*/showthread.php

Ev sahibi

Kural, indeksleme sırasında hangi aynanın dikkate alınacağını gösterir. URL, "http://" ve kapanış eğik çizgisi "/" olmadan yazılmalıdır.

Kullanıcı aracısı: Yandex İzin Verme: /hakkında Ana Bilgisayar: www.site.com

Artık bu yönerge artık kullanılmıyor, robots.txt dosyanızda varsa silebilirsiniz. Bunun yerine sitenin ana olmayan tüm aynalarına 301 yönlendirmesi yüklemeniz gerekir.

Tarama gecikmesi

Önceden, sayfaların sık sık yüklenmesi sunucuyu yüklüyordu, bu nedenle botlar için Tarama gecikmesi ayarlandı; robotun yüklemeler arasında saniye cinsinden bekleme süresi. Bu yönerge atlanabilir; güçlü sunucular buna ihtiyaç duymaz.

Bekleme süresi - 4 saniye:

Kullanıcı aracısı: * İzin ver: /album1 İzin verme: / Tarama gecikmesi: 4

Yalnızca Latince

Yanlış:

Kullanıcı aracısı: Yandex İzin Verme: /directory

Sağ:

Kullanıcı aracısı: Yandex İzin Verme: /xn--/-8sbam6aiv3a

Örnek robots.txt

Giriş, kuralın tüm robotlar için geçerli olduğu anlamına gelir: sepetteki, yerleşik arama ve yönetici panelindeki bağlantıları taramak yasaktır, site haritası http://site.com/ site haritası bağlantısında bulunur, ref get_book sayfasının içeriğini değiştirmez:

Kullanıcı aracısı: * İzin verme: /bin/ İzin verme: /arama/ İzin verme: /admin/ Site haritası: http://site.com/sitemap Temiz parametre: ref/some_dir/get_book.pl

Robots.txt'yi derlemek ve kontrol etmek için araçlar

Robots.txt dosyasını ücretsiz oluşturun yardımcı olacaktır, sitenin tamamını botlar için kapatmanıza veya açmanıza, site haritasının yolunu belirlemenize, sayfa ziyaretlerinde kısıtlamalar ayarlamanıza, bazı robotlara erişimi engellemenize ve bir gecikme ayarlamanıza olanak tanır:

Doldurulacak araç grafikleri

İçin robots.txt dosyasında hatalar olup olmadığını kontrol etme Arama motorlarının kendi araçları vardır:

Google'ın robots.txt dosya inceleme aracı, bir botun belirli bir URL'yi nasıl gördüğünü kontrol etmenize olanak tanır. Alanı kontrol etmek için URL'yi girmeniz gerekir; araç, bağlantının mevcut olup olmadığını gösterecektir.

Yandex'in doğrulama aracı dosyanın doğru doldurulup doldurulmadığını gösterecektir. Robots.txt dosyasının oluşturulduğu siteyi belirtmeniz ve içeriğini alana aktarmanız gerekiyor.

Robots.txt dosyası, özel dosyalara erişimi engellemek için uygun değildir ancak tarayıcıları site haritasına yönlendirir ve önemli kaynak materyallerin hızlı bir şekilde taranması için önerilerde bulunur.

Merhaba arkadaşlar! Makalede, bulunduğu site için doğru robots txt'nin ne olduğu, robots dosyasının nasıl oluşturulacağı, başka bir siteden robots dosyasının nasıl uyarlanacağı, blogunuza nasıl yükleneceği anlatılmaktadır.

Dosya nedirrobotlar txt,neden gerekli ve neden sorumlu?

Robots txt dosyası, arama robotlarına yönelik talimatları içeren bir metin dosyasıdır. Blogunuzun sayfalarına erişmeden önce robot ilk olarak robots dosyasını arar, bu yüzden bu kadar önemlidir. Robots txt dosyası, robotların belirli sayfaları dizine eklemesini engelleyen bir standarttır. Robots txt dosyası, gizli verilerinizin açıklanıp açıklanmayacağını belirleyecektir. Bir site için doğru robots txt dosyası, sitenizle arama robotları arasındaki etkileşimde önemli bir araç olduğundan tanıtımına yardımcı olacaktır.

Robots txt dosyasının en önemli SEO aracı olarak adlandırılması boşuna değil; bu küçük dosya, site sayfalarının ve bir bütün olarak sitenin indekslenmesini doğrudan etkiler. Tersine, yanlış robots txt dosyası bazı sayfaları, bölümleri veya siteyi bir bütün olarak arama sonuçlarından hariç tutabilir. Bu durumda, blogunuzda 1000 makale olabilir, ancak siteye hiç ziyaretçi gelmeyecek, tamamen rastgele yoldan geçenler olacaktır.

Yandex web yöneticisinin, Yandex'in robots txt dosyasını kimseye göstermek istemediğiniz kişisel eşyalarınızın bulunduğu bir kutuyla karşılaştırdığı bir eğitim videosu var. Yabancıların bu kutuya bakmasını önlemek için kutuyu bantla kapatıyor ve üzerine “Açmayın” yazıyorsunuz.

Robotlar iyi huylu bireyler oldukları için bu kutuyu açmayacaklar ve içinde ne olduğunu başkalarına anlatamayacaklardır. Robots txt dosyası yoksa, arama motoru robotu tüm dosyaların mevcut olduğuna inanır, kutuyu açar, her şeye bakar ve kutunun içinde ne olduğunu başkalarına söyler. Robotun bu kutuya tırmanmasını önlemek için, oraya tırmanmasını yasaklamanız gerekir; bu, İngilizce'den yasaklamak ve İzin Vermek olarak tercüme edilen İzin Verme yönergesi kullanılarak yapılır.

Bu normal bir not defteri veya NotePad++ programında derlenen normal bir txt dosyasıdır; robotlara sitedeki belirli sayfaları dizine eklememelerini öneren bir dosyadır. Bu ne için:

düzgün bir şekilde oluşturulmuş bir robots txt dosyası, robotların herhangi bir çöpü dizine eklemesine izin vermez ve arama sonuçlarını gereksiz materyalle tıkamaz, ayrıca çok zararlı bir olgu olan yinelenen sayfalar oluşturmaz;
robotların resmi kullanım için gerekli olan bilgileri indekslemesine izin vermez;
casus robotların gizli verileri çalmasını ve bunları spam göndermek için kullanmasını önler.

Bu, arama motorlarından bir şeyi, gizli bir şeyi gizlemek istediğimiz anlamına gelmez; yalnızca bu bilginin ne arama motorları ne de ziyaretçiler için hiçbir değeri yoktur. Örneğin, giriş sayfası, RSS yayınları vb. Ayrıca robots txt dosyası, site haritasının yanı sıra site aynasını da belirtir. Varsayılan olarak WordPress üzerine kurulmuş bir web sitesinde robots txt dosyası bulunmaz. Bu nedenle bir robots txt dosyası oluşturup blogunuzun kök klasörüne yüklemeniz gerekiyor. Bu yazıda WordPress için robots txt dosyasının oluşturulmasına, ayarlanmasına ve siteye yüklenmesine bakacağız. Öncelikle robots txt dosyasının nerede olduğunu öğreneceğiz.

Nerederobotlar txtnasıl görebilirim?

Sanırım yeni başlayanların çoğu kendilerine şu soruyu soruyor: robots txt nerede bulunuyor? Dosya sitenin kök klasöründe, public_html klasöründe bulunur, oldukça basit bir şekilde görülebilir. Hostinginize gidebilir, sitenizin klasörünü açabilir ve bu dosyanın orada olup olmadığına bakabilirsiniz. Aşağıdaki video bunun nasıl yapılacağını göstermektedir. Dosyayı Yandex web yöneticisini ve Google web yöneticisini kullanarak görüntüleyebilirsiniz, ancak bunun hakkında daha sonra konuşacağız.

Yalnızca robots txt'nizi değil, herhangi bir sitenin robotlarını da görüntülemenize olanak tanıyan daha basit bir seçenek de vardır. Robotları bilgisayarınıza indirebilir ve ardından kendinize uyarlayıp web sitenizde (blog) kullanabilirsiniz. Bu şu şekilde yapılır - ihtiyacınız olan siteyi (blog) açarsınız ve eğik çizgi kullanarak robots.txt dosyasını eklersiniz (ekran görüntüsüne bakın)

ve Enter tuşuna basın, robots txt dosyası açılır. Bu durumda robots txt dosyasının nerede olduğunu göremezsiniz ancak görüntüleyip indirebilirsiniz.

Doğru olan nasıl oluşturulur?robotlar txt site için

Bir web sitesi için robots txt oluşturmanın çeşitli seçenekleri vardır:

hızlı bir şekilde robots txt dosyası oluşturacak çevrimiçi oluşturucuları kullanın; bunu yapabilen pek çok site ve hizmet vardır;
bu sorunu çözmeye yardımcı olacak WordPress eklentilerini kullanın;
normal bir not defteri veya NotePad++ programında kendi ellerinizle manuel olarak bir robots txt dosyası oluşturun;
başka birinin sitesinden (blog) hazır, doğru robots txt'yi kullanın ve sitenizin adresini burada değiştirin.

Jeneratörler

Yani daha önce robots txt dosyası oluşturmak için jeneratör kullanmadım ama bu makaleyi yazmadan önce robots txt dosyası oluşturmak için 4 hizmeti test etmeye karar verdim, kesin sonuçlar aldım, bunları size daha sonra anlatacağım. Bu hizmetler şunlardır:

SEOlib;
PR-CY hizmeti;
hizmet Raskruty.ru;
seo cafe bu bağlantıyı kullanarak buraya gidebilirsiniz - info.seocafe.info/tools/robotsgenerator.

Robots txt oluşturucunun pratikte nasıl kullanılacağı aşağıdaki videoda detaylı olarak gösterilmiştir. Test sürecinde yeni başlayanlar için uygun olmadıkları sonucuna vardım, peki nedeni nedir? Oluşturucu yalnızca dosyanın kendisinde hatasız doğru girişi oluşturmanıza izin verir, ancak doğru robots txt dosyasını oluşturmak için yine de bilgiye sahip olmanız gerekir, hangi klasörleri kapatıp hangilerini kapatacağınızı bilmeniz gerekir. Bu nedenle yeni başlayanlar için dosya oluşturmak için robots txt oluşturucuyu kullanmanızı önermiyorum.

Eklentilerİçin WordPress

Dosyayı oluşturmak için PC Robots.txt gibi eklentiler vardır. Bu eklenti, bir dosyayı doğrudan sitenin kontrol panelinde düzenlemenize olanak tanır. Başka bir eklenti iRobots.txt SEO'dur - bu eklenti benzer işlevselliğe sahiptir. Robots txt dosyasıyla çalışmanıza olanak tanıyan birçok farklı eklenti bulabilirsiniz. Dilerseniz “Eklenti ara” alanına robotlar ibaresini girebilirsiniz. txt'ye tıklayın ve "Ara" düğmesine tıklayın; size çeşitli eklentiler sunulacaktır. Elbette her birini okumanız ve incelemelere bakmanız gerekiyor.

Robots txt eklentilerinin WordPress için çalışma şekli, jeneratörlerin çalışma şekline çok benzer. Bir site için doğru robots txt dosyasını almak için bilgi ve deneyime ihtiyacınız vardır, ancak yeni başlayanlar bunu nereden alabilir? Bana göre bu tür hizmetlerden yarardan çok zarar gelebilir. Ve bir eklenti yüklerseniz, barındırma da yüklenecektir. Bu nedenle robots txt WordPress eklentisini kurmanızı önermiyorum.

Yaratmakrobotlar txtmanuel olarak

Normal bir not defteri veya NotePad++ programını kullanarak robots txt'yi manuel olarak oluşturabilirsiniz, ancak bu bilgi ve deneyim gerektirir. Bu seçenek yeni başlayanlar için de uygun değildir. Ancak zamanla deneyim kazandıkça bunu yapabileceksiniz ve site için bir robots txt dosyası oluşturabilir, Disallow robots direktiflerini kaydedebilir, gerekli klasörleri indekslemeden kapatabilir, bir robot kontrolü gerçekleştirebilir ve bunu kolayca ayarlayabilirsiniz. 10 dakika. Aşağıdaki ekran görüntüsü not defterinde robots txt dosyasını göstermektedir:

Robots txt dosyası oluşturma prosedürünü burada ele almayacağız; bu, örneğin Yandex Webmaster gibi birçok kaynakta ayrıntılı olarak yazılmıştır. Robots txt dosyasını derlemeden önce her yönergenin, neyden sorumlu olduğunun ayrıntılı olarak açıklandığı Yandex Webmaster'a gitmeniz ve bu bilgilere dayanarak bir dosya oluşturmanız gerekir. (ekran görüntüsüne bakın).

Bu arada, Yandex'in yeni web yöneticisi ayrıntılı ve detaylı bilgiler sunuyor, bununla ilgili bir makale blogda bulunabilir. Daha doğrusu sadece yeni başlayanlar için değil bloggerlar için de büyük fayda sağlayacak iki yazı sunuluyor, okumanızı tavsiye ederim.

Yeni başlayan biri değilseniz ve robotların txt dosyasını kendiniz oluşturmak istiyorsanız, bir dizi kurala uymanız gerekir:

Robots txt dosyasında ulusal karakterlerin kullanılmasına izin verilmez.
Robots dosya boyutu 32 KB'ı geçmemelidir.
Robots dosyasının adı Robots veya ROBOTS gibi yazılamaz; dosyanın tam olarak yazıda gösterildiği gibi imzalanması gerekir.
Her yönerge yeni bir satırda başlamalıdır.
Bir satırda birden fazla yönerge belirtemezsiniz.
Boş satırlı “İzin Verme” direktifi “İzin Ver” direktifine eşdeğerdir - izin ver, bunun hatırlanması gerekir.
Satır başına boşluk koyamazsınız.
Çeşitli “Kullanıcı aracısı” direktifleri arasında boşluk bırakmazsanız, robotlar yalnızca en üstteki direktifi kabul edecek, gerisi göz ardı edilecektir.
Yönerge parametresinin kendisinin yalnızca bir satıra yazılması gerekir.
Yönerge parametrelerini tırnak içine alamazsınız.
Bir yönergeden sonra bir satırı noktalı virgülle kapatamazsınız.
Robots dosyası algılanmazsa veya boşsa robotlar bunu “Her şeye izin var” olarak algılayacaktır.
Yönerge satırında (satırın ne olduğunu netleştirmek için) yorum yapabilirsiniz, ancak yalnızca # hash işaretinden sonra.
Eğer satır aralarına boşluk koyarsanız bu User-agent direktifinin sonu anlamına gelecektir.
"Disallow" ve "Allow" direktifleri yalnızca bir parametre içermelidir.
Dizin olan yönergeler için bir eğik çizgi eklenir, örneğin – Disallow/ wp-admin.
"Tarama gecikmesi" bölümünde, robotlara belgelerin sunucudan indirilmesi arasındaki süreyi (genellikle 4-5 saniye) önermeniz gerekir.
Önemli - Direktifler arasında boş satır olmamalıdır. Yeni bir yönerge bir boşlukla başlar. Bu, ekteki videoda detaylı olarak gösterildiği gibi, arama robotu için kuralların sonu anlamına geliyor. Yıldız işaretleri herhangi bir karakter dizisi anlamına gelir.
Yandex robotu için tüm kuralları ayrı ayrı tekrarlamanızı, yani diğer robotlar için öngörülen tüm talimatları Yandex için ayrı ayrı tekrarlamanızı tavsiye ederim. Yandex robotuna ilişkin bilgilerin sonunda ana bilgisayar yönergesini (Ana Bilgisayar - yalnızca Yandex tarafından desteklenir) yazmanız ve blogunuzu belirtmeniz gerekir. Ana bilgisayar, www ile veya www olmadan sitenizin hangi aynasının ana olduğunu Yandex'e belirtir.
Ayrıca robots txt dosyasının ayrı bir dizininde yani boşlukla ayrılmış olarak site haritanızın adresini belirtmeniz önerilir. Dosyanın oluşturulması birkaç dakika içinde yapılabilir ve “Kullanıcı aracısı:” ifadesiyle başlar. Örneğin resimlerin indekslenmesini engellemek istiyorsanız, İzin Verme: /images/ ayarını yapmanız gerekir.

Doğru olanı kullanınrobotlar txt başkasının sitesinden

İdeal bir dosya yoktur; periyodik olarak arama motorlarının çalışmasındaki değişiklikleri denemeniz ve dikkate almanız, zaman içinde blogunuzda görünebilecek hataları hesaba katmanız gerekir. Bu nedenle, başlangıç olarak başka birinin doğrulanmış robots txt dosyasını alıp kendiniz kurabilirsiniz.

Ana Bilgisayar dizinindeki blogunuzun adresini yansıtan girişleri değiştirdiğinizden emin olun (ekran görüntüsüne bakın, ayrıca videoya bakın) ve bunu site haritası adresindeki site adresinizle (alt iki satır) değiştirin. Zamanla bu dosyanın biraz ayarlanması gerekecektir. Örneğin, yinelenen sayfaların görünmeye başladığını fark ettiniz.

Yukarıda yer alan “Robots txt nerede bulunur, nasıl görülür” bölümünde robots txt nasıl görüntülenir ve indirilir konusuna baktık. Bu nedenle, TIC göstergeleri yüksek, trafiği yüksek, iyi bir güven sitesi seçmeniz, doğru robots txt'yi açmanız ve indirmeniz gerekir. Birkaç siteyi karşılaştırmanız, kendiniz için istediğiniz robots txt dosyasını seçip sitenize yüklemeniz gerekiyor.

Siteye dosya nasıl yüklenirrobotlar txt sitenin kök klasörüne

Daha önce yazıldığı gibi, WordPress'te bir site oluşturduktan sonra varsayılan olarak robots txt dosyası yoktur. Bu nedenle hosting üzerinde web sitemizin (blog) kök klasörü oluşturulmalı ve yüklenmelidir. Dosyayı yüklemek oldukça basittir. TimeWeb barındırmada, diğer barındırmalarda, üzerinden veya üzerinden yükleme yapabilirsiniz. Aşağıdaki video, bir robots txt dosyasını TimeWeb barındırma sistemine yükleme işlemini göstermektedir.

Robots txt dosyasını kontrol etme

Robots txt dosyasını indirdikten sonra varlığını ve çalışmasını kontrol etmeniz gerekmektedir. Bunun için yukarıda “Robots txt nerede bulunur, nasıl görülür” bölümünde gösterildiği gibi tarayıcıdan dosyaya bakabiliriz. Dosyanın çalışmasını Yandex web yöneticisini ve Google web yöneticisini kullanarak kontrol edebilirsiniz. Bunun için ve içinde olması gerektiğini hatırlıyoruz.

Yandex'de check-in yapmak için Yandex web yöneticisi hesabımıza gidin, birden fazla siteniz varsa bir site seçin. "Dizin oluşturma ayarları"nı, "Robots.txt analizi"ni seçin ve ardından talimatları izleyin.

Google web yöneticisinde de aynısını yapıyoruz, hesabımıza gidiyoruz, istenen siteyi seçiyoruz (birkaç tane varsa), "Tarama" düğmesini tıklayıp "Robots.txt dosya doğrulama aracı"nı seçiyoruz. Robots txt dosyası açılacaktır. Düzenleyebilir veya kontrol edebilirsiniz.

Aynı sayfada robots txt dosyasıyla çalışmaya yönelik mükemmel talimatlar var, bunları okuyabilirsiniz. Sonuç olarak, robots txt dosyasının ne olduğunu, nasıl bulunacağını, nasıl görüntülenip indirileceğini, dosya oluşturucuyla nasıl çalışılacağını, robots txt dosyasının nasıl oluşturulacağını ve kendinize nasıl uyarlanacağını, diğer bilgileri gösteren bir video sunuyorum. gösterilir:

Çözüm

Peki bu yazımızda robots txt dosyası nedir sorusuna baktık ve bu dosyanın site için çok önemli olduğunu öğrendik. Doğru robots txt dosyasının nasıl oluşturulacağını, başka birinin sitesinden robots txt dosyasını kendi sitenize nasıl uyarlayacağınızı, blogunuza nasıl yükleyeceğinizi ve nasıl kontrol edeceğinizi öğrendik.

Makaleden, yeni başlayanlar için ilk başta hazır ve doğru bir robots txt kullanmanın daha iyi olduğu, ancak Ana Bilgisayar dizinindeki etki alanını kendi alan adınızla değiştirmeyi ve ayrıca adresi girmeyi hatırlamanız gerektiği açıkça ortaya çıktı. blogunuzun site haritalarında. Robots.txt dosyamı buradan indirebilirsiniz. Artık düzeltmeden sonra dosyayı blogunuzda kullanabilirsiniz.

Robots.txt dosyası için ayrı bir internet sitesi var, oraya gidip daha detaylı bilgi edinebilirsiniz. Umarım her şey yolunda gider ve blog iyi bir şekilde indekslenir. Sana iyi şanslar!

Saygılarımla Ivan Kunpan.

Not: Blogunuzu doğru bir şekilde tanıtmak için blogunuzdaki makaleleri optimize etme konusunda doğru yazmanız gerekir, o zaman yüksek trafik ve derecelendirmelere sahip olacaktır. Üç yıllık tecrübemin bir araya geldiği bilişim ürünlerim bu konuda size yardımcı olacaktır. Aşağıdaki ürünleri alabilirsiniz:

ücretli kitap;
istihbarat haritası;
ücretli video kursu " ".

Yeni blog makalelerini doğrudan e-postanıza alın. Formu doldurun, "Abone Ol" butonuna tıklayın

Merhaba! Hayatımda web sitesi oluşturma hakkında kesinlikle hiçbir şey bilmediğim ve robots.txt dosyasının varlığı hakkında kesinlikle hiçbir fikrimin olmadığı bir dönem vardı.

Basit bir ilgi ciddi bir hobiye dönüştüğünde, tüm incelikleri inceleme gücü ve arzusu ortaya çıktı. Forumlarda bu dosyayla ilgili birçok konu bulabilirsiniz, neden? Çok basit: robots.txt, arama motorlarının siteye erişimini düzenler, indekslemeyi yönetir ve bu çok önemlidir!

Robots.txt Arama robotlarının sitenin tarama ve arama sonuçlarından hariç tutulması gereken bölümlerine ve sayfalarına erişimini sınırlamak için tasarlanmış bir metin dosyasıdır.

Neden belirli web sitesi içeriğini gizleyesiniz? Bir arama robotunun, şifreler veya diğer hassas bilgileri içerebilecek site yönetim dosyalarını indekslemesi durumunda mutlu olmanız pek olası değildir.

Erişimi düzenlemek için çeşitli yönergeler vardır:

Kullanıcı aracısı - erişim kurallarının belirtildiği kullanıcı aracısı,
İzin verme - URL'ye erişimi reddeder,
İzin ver - URL'ye erişime izin verir,
Site Haritası - yolu gösterir,
Tarama gecikmesi - URL tarama aralığını ayarlar (yalnızca Yandex için),
Clean-param - dinamik URL parametrelerini yok sayar (yalnızca Yandex için),
Ana Bilgisayar - sitenin ana aynasını gösterir (yalnızca Yandex için).

20 Mart 2018 tarihinden itibaren Yandex'in Host direktifini desteklemeyi resmi olarak durdurduğunu lütfen unutmayın. Robots.txt dosyasından kaldırılabilir ve bırakılırsa robot onu görmezden gelecektir.

Dosya sitenin kök dizininde bulunmalıdır. Sitenin alt alan adları varsa her alt alan adı için kendi robots.txt dosyası derlenir.

Her zaman güvenliği hatırlamanız gerekir. Bu dosya herkes tarafından görüntülenebilir, dolayısıyla içindeki yönetim kaynaklarına (kontrol panelleri vb.) giden açık bir yol belirtmeye gerek yoktur. Dedikleri gibi, ne kadar az bilirseniz o kadar iyi uyursunuz. Bu nedenle, bir sayfaya bağlantı yoksa ve onu dizine eklemek istemiyorsanız, o zaman onu robotlara kaydetmenize gerek yoktur, zaten onu kimse, örümcek robotlar bile bulamaz.

Bir arama robotu bir siteyi taradığında, öncelikle sitede robots.txt dosyasının varlığını kontrol eder ve ardından sayfaları tararken yönergelerini takip eder.

Arama motorlarının bu dosyayı farklı şekilde ele aldığını hemen belirtmek isterim. Örneğin, Yandex kayıtsız şartsız kurallarına uyuyor ve yasaklı sayfaları indekslemenin dışında tutuyor, Google ise bu dosyayı bir öneri olarak algılıyor, başka bir şey değil.

Sayfaların indekslenmesini yasaklamak için başka yöntemler kullanmak da mümkündür:

.htaccess dosyasını kullanarak bir dizine yönlendirin veya yönlendirin,
noindex meta etiketi (ile karıştırılmamalıdır) metnin bir kısmının indekslenmesini yasaklamak için),
bağlantılar için özelliğin yanı sıra gereksiz sayfalara olan bağlantıları da kaldırır.

Aynı zamanda Google, tüm kısıtlamalara rağmen indekslenmesi yasak olan sayfaları arama sonuçlarına başarıyla ekleyebilmektedir. Ana argümanı, bir sayfaya bağlantı verildiğinde bu sayfanın arama sonuçlarında görünebileceğidir. Bu durumda bu tür sayfalara bağlantı verilmemesi tavsiye edilir ancak kusura bakmayın robots.txt dosyası tam olarak bu tür sayfaları arama sonuçlarından çıkarmak için tasarlanmıştır... Bana göre bunun bir mantığı yok 🙄

Sayfaları aramadan kaldırma

Yasaklanan sayfalar hâlâ dizine eklenmişse Google Search Console'u ve içerdiği URL kaldırma aracını kullanmanız gerekir:

Benzer bir araç Yandex Web Yöneticisi'nde mevcuttur. Sayfaları arama motoru dizininden kaldırma hakkında daha fazla bilgiyi ayrı bir makalede okuyun.

robots.txt kontrol ediliyor

Temayı Google ile sürdürerek başka bir Search Console aracı kullanabilir ve belirli sayfaların dizine eklenmesini önlemek için robots.txt dosyasının doğru şekilde derlenip derlenmediğini kontrol edebilirsiniz:

Bunu yapmak için, kontrol edilmesi gereken URL'leri metin alanına girin ve Kontrol Et düğmesine tıklayın - kontrol sonucunda bu sayfanın indekslenmesinin yasak olup olmadığı veya içeriğinin arama robotları tarafından erişilebilir olup olmadığı ortaya çıkacaktır. .

Yandex'in de Web Yöneticisi'nde benzer bir aracı vardır, kontrol benzer şekilde gerçekleştirilir:

Bir dosyayı nasıl doğru şekilde oluşturacağınızı bilmiyorsanız, o zaman adı taşıyan boş bir metin belgesi oluşturmanız yeterlidir. robots.txt CMS'nin ve site yapısının özelliklerini incelerken onu gerekli direktiflerle destekleyin.

Bir dosyanın doğru şekilde nasıl derleneceği hakkında bilgi için lütfen bağlantıyı izleyin. Görüşürüz!

Robot.txt dosyası çoğu web sitesi için gereklidir.

Her SEO optimizasyon uzmanı bu dosyanın anlamını anlamalı ve aynı zamanda en popüler direktifleri yazabilmelidir.

Düzgün bir şekilde oluşturulmuş robotlar, sitenin arama sonuçlarındaki konumunu iyileştirir ve diğer tanıtım yöntemlerinin yanı sıra etkili bir SEO aracıdır.

Robot.txt'nin ne olduğunu ve nasıl çalıştığını anlamak için arama motorlarının nasıl çalıştığını hatırlayalım.

Bunu kontrol etmek için adres çubuğuna kök alan adınızı girin ve ardından URL'nin sonuna /robots.txt ekleyin.

Örneğin, Moz robot dosyası şu adreste bulunur: moz.com/robots.txt. Giriyoruz ve sayfayı alıyoruz:

"Robot" için talimatlar

Robots.txt dosyası nasıl oluşturulur?

robots.txt için 3 tür talimat.

Robots.txt dosyanızın eksik olduğunu fark ederseniz bir tane oluşturmak kolaydır.

Makalenin başında da belirttiğimiz gibi bu, sitenin kök dizininde bulunan normal bir metin dosyasıdır.

Bu, programcının sitedeki dosyalarla çalıştığı yönetici paneli veya dosya yöneticisi aracılığıyla yapılabilir.

Yazı ilerledikçe oraya nasıl ve ne yazacağımızı anlayacağız.

Arama motorları bu dosyadan üç tür talimat alır:

her şeyi tarayın, yani tam erişim (İzin Ver);
hiçbir şeyi tarayamazsınız - tam bir yasak (İzin Verme);
Bireysel öğeleri (hangileri belirtilmiştir) tarayamazsınız - kısmi erişim.

Pratikte şöyle görünür:

Bu site içinden veya dışından bağlantı verilmişse sayfanın yine de arama sonuçlarında görünebileceğini lütfen unutmayın.

Bunu daha iyi anlamak için bu dosyanın sözdizimini inceleyelim.

Sözdizimi Robots.Txt

Robots.txt: neye benziyor?

Önemli noktalar: Robotlar hakkında her zaman hatırlamanız gerekenler.

Web sitelerinde sıklıkla bulunan yedi ortak terim.

En basit haliyle robot şuna benzer:

Kullanıcı aracısı: [yönerge yazdığımız sistemin adı] İzin Verme: Site Haritası: [site haritasının nerede olduğunu belirtin] # Kural 1 Kullanıcı aracısı: Googlebot İzin Verme: /prim1/ Site Haritası: http://www.nashsite. com /sitemap.xml

Bu üç satır birlikte en basit robots.txt dosyası olarak kabul edilir.

Burada botun http://www.nashsite.com/prim1/ URL'sini indekslemesini engelledik ve site haritasının nerede olduğunu belirttik.

Robots dosyasında, bir kullanıcı aracısına (arama motoru) yönelik yönergeler kümesinin, bir başkasının yönergeler kümesinden satır sonuyla ayrıldığını lütfen unutmayın.

Birden fazla arama motoru direktifi içeren bir dosyada, her yasaklama veya izin verme yalnızca söz konusu satır bloğunda belirtilen arama motoruna uygulanır.

Bu önemli bir noktadır ve unutulmamalıdır.

Bir dosya birden fazla kullanıcı aracısına uygulanan kurallar içeriyorsa sistem, belirtilen arama motoruna özel yönergelere öncelik verecektir.

İşte bir örnek:

Yukarıdaki çizimde MSNbot, discobot ve Slurp'un yalnızca bu arama motorlarında çalışacak ayrı kuralları vardır.

Diğer tüm kullanıcı aracıları, kullanıcı aracısı grubundaki genel yönergelere uyar: *.

robots.txt dosyasının sözdizimi kesinlikle karmaşık değildir.

Web sitelerinde sıklıkla bulunan yedi ortak terim vardır.

Kullanıcı aracısı: Tarama talimatlarını verdiğiniz belirli bir web arama motoru (arama motoru botu). Çoğu kullanıcı aracısının bir listesini burada bulabilirsiniz. Toplamda 302 sistemi var; bunlardan en alakalı ikisi Google ve Yandex.
İzin verme: Aracıya URL'yi ziyaret etmemesini söyleyen bir izin vermeme komutu. URL başına yalnızca bir "izin vermeme" satırına izin verilir.
İzin Ver (yalnızca Googlebot için geçerlidir): Komut, bot'a, üst sayfası veya alt klasörü kapatılmış olsa bile bir sayfaya veya alt klasöre erişebileceğini bildirir.
Tarama gecikmesi: Arama motorunun sayfa içeriğini yüklemeden ve taramadan önce kaç milisaniye beklemesi gerektiğidir.

Lütfen unutmayın - Googlebot bu komutu desteklemez, ancak tarama hızı Google Search Console'da manuel olarak ayarlanabilir.

Site Haritası: Bu URL ile ilişkili herhangi bir XML haritasının konumunu çağırmak için kullanılır. Bu komut yalnızca Google, Ask, Bing ve Yahoo tarafından desteklenir.
Ana Bilgisayar: Bu yönerge, indeksleme sırasında dikkate alınması gereken sitenin ana aynasını belirtir. Yalnızca bir kez kayıt yapılabilir.
Clean-param: Bu komut, dinamik adresleme sırasında yinelenen içerikle mücadele etmek için kullanılır.

Düzenli ifadeler

Düzenli ifadeler: neye benziyorlar ve ne anlama geliyorlar.

Robots.txt dosyasında taramaya nasıl izin verilir ve reddedilir?

Uygulamada robots.txt dosyaları büyüyebilir ve oldukça karmaşık ve kullanışsız hale gelebilir.

Sistem, dosyanın gerekli işlevselliğini sağlamak, yani sayfalar ve alt klasörlerle esnek bir şekilde çalışmak için normal ifadelerin kullanılmasını mümkün kılar.

* bir joker karakterdir ve yönergenin tüm arama botları için geçerli olduğu anlamına gelir;
$ bir URL'nin veya dizenin sonuyla eşleşir;
# geliştirici ve optimize edici yorumları için kullanılır.

http://www.nashsite.com için bazı robots.txt örnekleri burada verilmiştir.

Robots.txt dosya URL'si: www.nashsite.com/robots.txt

User-agent: * (yani tüm arama motorları için) Disallow: / (eğik çizgi sitenin kök dizinini belirtir)

Tüm arama motorlarının sitenin tamamını taramasını ve dizine eklemesini durdurduk.

Bu eylem ne sıklıkla gereklidir?

Sık olmamakla birlikte, bir kaynağın arama sonuçlarına katılmaması, ziyaretlerin özel bağlantılar veya kurumsal yetkilendirme yoluyla yapılmasının gerekli olduğu durumlar vardır.

Bazı şirketlerin iç web siteleri bu şekilde çalışır.

Ayrıca sitenin geliştirme veya modernizasyon aşamasında olması durumunda böyle bir direktif verilir.

Arama motorunun sitedeki her şeyi taramasına izin vermeniz gerekiyorsa, robots.txt dosyasına aşağıdaki komutları yazmanız gerekir:

Kullanıcı aracısı: * İzin verme:

Yasaklamada (izin vermeme) hiçbir şey yoktur, yani her şey mümkündür.

Bu sözdiziminin bir robots.txt dosyasında kullanılması, tarayıcıların ana sayfa, yönetici sayfası ve iletişim sayfası da dahil olmak üzere http://www.nashsite.com adresindeki tüm sayfaları taramasına olanak tanır.

Belirli arama botlarını ve belirli klasörleri engelleme

Google arama motoru (Googlebot) için sözdizimi.

Diğer arama aracıları için sözdizimi.

Kullanıcı aracısı: Googlebot İzin Verme: /example-subfolder/

Bu sözdizimi yalnızca Google arama motoruna (Googlebot) şu adresi taramamasını söyler: www.nashsite.com/example-subfolder/.

Belirtilen botlar için ayrı sayfaları engelleme:

Kullanıcı aracısı: Bingbot İzin Verme: /example-subfolder/blocked-page.html

Bu sözdizimi, Bingbot'a (Bing arama aracısının adı) yalnızca şu adresteki sayfayı ziyaret etmemesini söyler: www.nashsite.com/example-subfolder/blocked-page.

Temelde bu kadar.

Bu yedi komuta ve üç sembole hakim olursanız ve uygulamanın mantığını anlarsanız doğru robots.txt dosyasını yazabileceksiniz.

Neden çalışmıyor ve ne yapmalı

Ana eylemin algoritması.

Diğer yöntemler.

Yanlış robots.txt bir sorundur.

Sonuçta bir hatayı tespit etmek ve ardından onu anlamak zaman alacaktır.

Dosyayı tekrar okuyun, gereksiz hiçbir şeyi engellemediğinizden emin olun.

Bir süre sonra sayfanın hala arama sonuçlarında asılı kaldığı ortaya çıkarsa, arama motorunun siteyi yeniden dizine ekleyip eklemediğini görmek için Google Web Yöneticisi'ne bakın ve kapatılan sayfaya herhangi bir harici bağlantı olup olmadığını kontrol edin.

Çünkü eğer varsa, onu arama sonuçlarından gizlemek daha zor olacak; başka yöntemler gerekecektir.

Kullanmadan önce bu dosyayı Google'ın ücretsiz bir test cihazıyla kontrol edin.

Zamanında analiz, sorunların önlenmesine yardımcı olur ve zaman kazandırır.

Bu, belirli bir sitenin indekslenmesine ilişkin açık talimatlar içeren bir metin dosyasıdır (.txt formatında belge). Dosya, arama motorlarına bir web kaynağının hangi sayfalarının indekslenmesi gerektiğini ve hangilerinin indekslenmesinin yasaklanması gerektiğini belirtir.

Görünüşe göre neden bazı site içeriğinin indekslenmesini yasaklayasınız? Arama robotunun her şeyi ayrım gözetmeden indekslemesine izin verin ve şu ilkeye göre hareket edin: ne kadar çok sayfa olursa o kadar iyi! Ama bu doğru değil.

Bir web sitesini oluşturan içeriğin tamamına arama robotları ihtiyaç duymaz. Sistem dosyaları var, yinelenen sayfalar var, anahtar kelime kategorileri var ve dizine eklenmesi gerekmeyen çok daha fazlası var. Aksi halde aşağıdaki durum göz ardı edilemez.

Bir arama robotu sitenize geldiğinde yaptığı ilk şey, meşhur robots.txt dosyasını bulmaya çalışmaktır. Bu dosya kendisi tarafından tespit edilmezse veya tespit edilirse ancak yanlış derlenirse (gerekli yasaklar olmadan), arama motoru "messenger" siteyi kendi takdirine göre incelemeye başlar.

Böyle bir çalışma sürecinde her şeyi indeksler ve ilk önce aramaya girilmesi gereken sayfalarla (yeni makaleler, incelemeler, fotoğraf raporları vb.) Başladığı bir gerçek değildir. Doğal olarak bu durumda yeni sitenin indekslenmesi biraz zaman alabilir.

Böylesine kaçınılmaz bir kaderden kaçınmak için web yöneticisinin doğru robots.txt dosyasını zamanında oluşturmaya özen göstermesi gerekir.

“Kullanıcı aracısı:” robots.txt dosyasının ana yönergesidir.

Uygulamada, direktifler (komutlar) robots.txt'de özel terimler kullanılarak yazılır, bunlardan en önemlisi direktif olarak kabul edilebilir " Kullanıcı aracısı: " İkincisi, gelecekte belirli talimatlar verilecek olan arama robotunu belirtmek için kullanılır. Örneğin:

Kullanıcı aracısı: Googlebot– bu temel direktifi izleyen tüm komutlar yalnızca Google arama motoruyla (onun indeksleme robotu) ilgili olacaktır;
Kullanıcı aracısı: Yandex– bu durumda muhatap yerli arama motoru Yandex'dir.

Robots.txt dosyası, diğer tüm arama motorlarına toplu olarak hitap etmek için kullanılabilir. Bu durumda komut şöyle görünecektir: Kullanıcı aracısı: *. Özel karakter “*” genellikle “herhangi bir metin” anlamına gelir. Bizim durumumuzda Yandex dışındaki tüm arama motorları. Bu arada Google, kişisel olarak iletişime geçmediğiniz sürece bu yönergeyi kişisel olarak ele alır.

“İzin Verme:” komutu – robots.txt dosyasında indekslemeyi yasaklar

Arama motorlarına yönelik ana “Kullanıcı aracısı:” direktifini belirli komutlar takip edebilir. Bunlar arasında en yaygın olanı “yönetmeliktir” İzin verme: " Bu komutu kullanarak arama robotunun web kaynağının tamamını veya bir kısmını indekslemesini engelleyebilirsiniz. Her şey bu direktifin hangi uzantıya sahip olacağına bağlıdır. Örneklere bakalım:

Kullanıcı aracısı: Yandex İzin Verme: /

Robots.txt dosyasına bu tür bir giriş, yasaklayıcı "/" işareti tek başına durduğundan ve herhangi bir açıklama eşlik etmediğinden, Yandex arama robotunun bu siteyi dizine eklemesine hiçbir şekilde izin verilmediği anlamına gelir.

Kullanıcı aracısı: Yandex İzin Verme: /wp-admin

Gördüğünüz gibi bu sefer açıklamalar var ve bunlar sistem klasörüyle ilgili wp-admin V . Yani, indeksleme robotu bu komutu (içinde belirtilen yolu) kullanarak bu klasörün tamamını indekslemeyi reddedecektir.

Kullanıcı aracısı: Yandex İzin Verme: /wp-content/themes

Yandex robotuna böyle bir talimat, onun büyük bir kategoriye kabul edilmesini gerektirir " wp içeriği ", burada " hariç tüm içeriği dizine ekleyebilir temalar ».

Robots.txt metin belgesinin "yasak" özelliklerini daha ayrıntılı olarak inceleyelim:

Kullanıcı aracısı: Yandex İzin Verme: /index$

Bu komutta örnekteki gibi başka bir özel işaret olan “$” kullanılmaktadır. Kullanımı, robota, bağlantıları harf dizisini içeren sayfaları dizine ekleyemediğini bildirir " dizin " Aynı zamanda aynı isimde ayrı bir site dosyasını indeksleyin “ index.php » robot yasak değildir. Bu nedenle, indekslemeyi yasaklamak için seçici bir yaklaşımın gerekli olduğu durumlarda “$” sembolü kullanılır.

Ayrıca robots.txt dosyasında, belirli karakterleri içeren ayrı kaynak sayfalarının dizine eklenmesini yasaklayabilirsiniz. Şunun gibi görünebilir:

Kullanıcı aracısı: Yandex İzin Verme: *&*

Bu komut, Yandex arama robotuna, URL'leri "&" karakterini içeren bir web sitesindeki tüm sayfaları dizine eklememesini söyler. Ayrıca bağlantıdaki bu işaretin diğer sembollerin arasında görünmesi gerekir. Ancak başka bir durum da olabilir:

Kullanıcı aracısı: Yandex İzin Verme: *&

Burada indeksleme yasağı, bağlantıları "&" ile biten tüm sayfalar için geçerlidir.

Bir sitenin sistem dosyalarının indekslenmesinin yasaklanmasıyla ilgili herhangi bir soru olmaması gerekiyorsa, kaynağın tek tek sayfalarının indekslenmesinin yasaklanmasıyla ilgili bu tür sorular ortaya çıkabilir. Mesela bu prensipte neden gerekli? Deneyimli bir web yöneticisinin bu konuda pek çok düşüncesi olabilir, ancak asıl önemli olan, aramada yinelenen sayfalardan kurtulma ihtiyacıdır. "İzin Verme:" komutunu ve yukarıda tartışılan özel karakter grubunu kullanarak "istenmeyen" sayfalarla oldukça basit bir şekilde başa çıkabilirsiniz.

“İzin Ver:” komutu – robots.txt dosyasında indekslemeye izin verir

Önceki direktifin antipodu “ komut olarak düşünülebilir. İzin vermek: " Aynı açıklayıcı öğeleri kullanarak, ancak robots.txt dosyasındaki bu komutu kullanarak, indeksleme robotunun ihtiyacınız olan site öğelerini arama veritabanına girmesine izin verebilirsiniz. Bunu doğrulamak için işte başka bir örnek:

Kullanıcı aracısı: Yandex İzin ver: /wp-admin

Bazı nedenlerden dolayı web yöneticisi fikrini değiştirdi ve robots.txt dosyasında uygun ayarlamaları yaptı. Sonuç olarak, artık klasörün içeriği wp-admin Yandex tarafından indekslenmek üzere resmi olarak onaylandı.

İzin Ver: komutu mevcut olmasına rağmen pratikte çok sık kullanılmamaktadır. Otomatik olarak uygulandığı için genel olarak buna gerek yoktur. Site sahibinin, şu veya bu içeriğin dizine eklenmesini yasaklayan "İzin Verme:" direktifini kullanması yeterlidir. Bundan sonra, kaynağın robots.txt dosyasında yasaklanmayan diğer tüm içeriği, arama robotu tarafından indekslenebilecek ve indekslenmesi gereken bir şey olarak algılanır. Her şey içtihattaki gibidir: “Kanunla yasaklanmayan her şeye izin verilir.”

"Ana Bilgisayar:" ve "Site Haritası:" direktifleri

Robots.txt dosyasındaki önemli yönergelere genel bakış şu komutlarla tamamlanır: Ev sahibi: " Ve " Site haritası: " Birincisine gelince, yalnızca Yandex için tasarlanmıştır ve ona hangi site aynasının (www ile veya www olmadan) ana site olarak kabul edildiğini belirtir. Örneğin bir site şöyle görünebilir:

Kullanıcı aracısı: Yandex Sunucusu: web sitesi

Kullanıcı aracısı: Yandex Sunucusu: www.site

Bu komutun kullanılması aynı zamanda site içeriğinin gereksiz yere kopyalanmasını da önler.

Buna karşılık “yönerge Site haritası: » indeksleme robotuna Site Haritası adı verilen dosyalara giden doğru yolu gösterir site haritası.xml Ve site haritası.xml.gz (CMS WordPress durumunda). Varsayımsal bir örnek şöyle olabilir:

Kullanıcı aracısı: * Site Haritası: http://site/sitemap.xml Site Haritası: http://site/sitemap.xml.gz

Bu komutu robots.txt dosyasına yazmak, arama robotunun Site Haritasını daha hızlı dizine eklemesine yardımcı olacaktır. Bu da web kaynağı sayfalarının arama sonuçlarına alınma sürecini de hızlandıracaktır.

Robots.txt dosyası hazır; sırada ne var?

Acemi bir web yöneticisi olarak yukarıda verdiğimiz bilgilerin tamamına hakim olduğunuzu varsayalım. Sonra ne yapmalı? Sitenizin özelliklerini dikkate alarak bir robots.txt metin belgesi oluşturun. Bunu yapmak için ihtiyacınız var:

ihtiyacınız olan robots.txt dosyasını oluşturmak için bir metin düzenleyici (örneğin Not Defteri) kullanın;
örneğin bu Yandex hizmetini kullanarak oluşturulan belgenin doğruluğunu kontrol edin;
Bir FTP istemcisi kullanarak bitmiş dosyayı sitenizin kök klasörüne yükleyin (WordPress durumunda genellikle Public_html sistem klasöründen bahsediyoruz).

Evet, neredeyse unutuyorduk. Acemi bir web yöneticisi, şüphesiz, kendini denemeden önce, ilk önce bu dosyanın başkaları tarafından gerçekleştirilen hazır örneklerine bakmak isteyecektir. Hiçbir şey daha basit olamaz. Bunu yapmak için tarayıcınızın adres çubuğuna girmeniz yeterlidir. site.ru/robots.txt . "Site.ru" yerine - ilgilendiğiniz kaynağın adı. Bu kadar.

Mutlu denemeler ve okuduğunuz için teşekkürler!

kalastus-shop.ru

Tarama neden gereklidir:

Tarayıcı hangi sayfaları daha hızlı tarayacak:

Yandex ve Google için Robots.txt

Robots.txt için gereksinimler:

Robots.txt kullanarak sayfaları indekslemenin dışında tutma

İzin vermek

Temiz parametre

Ev sahibi

Tarama gecikmesi

Yalnızca Latince

Örnek robots.txt

Robots.txt'yi derlemek ve kontrol etmek için araçlar

Dosya nedirrobotlar txt,neden gerekli ve neden sorumlu?

Nerederobotlar txtnasıl görebilirim?

Doğru olan nasıl oluşturulur?robotlar txt site için

Jeneratörler

Eklentilerİçin WordPress

Yaratmakrobotlar txtmanuel olarak

Doğru olanı kullanınrobotlar txt başkasının sitesinden

Siteye dosya nasıl yüklenirrobotlar txt sitenin kök klasörüne

Robots txt dosyasını kontrol etme

Çözüm

Sayfaları aramadan kaldırma

robots.txt kontrol ediliyor

"Robot" için talimatlar

Sözdizimi Robots.Txt

Düzenli ifadeler

Belirli arama botlarını ve belirli klasörleri engelleme

Neden çalışmıyor ve ne yapmalı

“Kullanıcı aracısı:” robots.txt dosyasının ana yönergesidir.

“İzin Verme:” komutu – robots.txt dosyasında indekslemeyi yasaklar

“İzin Ver:” komutu – robots.txt dosyasında indekslemeye izin verir

"Ana Bilgisayar:" ve "Site Haritası:" direktifleri

Robots.txt dosyası hazır; sırada ne var?