De saga van John Mueller’s Freaky Robots.txt

Inhoudsopgave

Het robots.txt-bestand van de persoonlijke blog van Google’s John Mueller kwam in de belangstelling toen iemand op Reddit beweerde dat de blog van Mueller was getroffen door het Helpful Content-systeem en vervolgens was gedeïndexeerd. De waarheid bleek minder dramatisch dan dat, maar het was nog steeds een beetje raar.

SEO-subredditbericht

De saga van John Mueller’s robots.txt begon toen hij Redditor was Geplaatst dat de website van John Mueller werd gedeïndexeerd en dat deze in strijd was met het algoritme van Google. Maar hoe ironisch dat ook zou zijn, dat zou nooit het geval zijn, want het kostte slechts een paar seconden om de robots.txt van de website te laden en te zien dat er iets vreemds aan de hand was.

Hier is het bovenste deel van Mueller’s robots.txt met een paasei met commentaar voor degenen die een kijkje nemen.

Het eerste stukje dat niet elke dag wordt gezien, is een disallow op robots.txt. Wie gebruikt zijn robots.txt om Google te vertellen zijn robots.txt niet te crawlen?

Nu weten we het.

Het volgende deel van robots.txt blokkeert dat alle zoekmachines de website en robots.txt crawlen.

Dat verklaart dus waarschijnlijk waarom de site is gedeïndexeerd in Google. Maar het verklaart niet waarom het nog steeds door Bing wordt geïndexeerd.

Ik vroeg rond en Adam Humphreys, een webontwikkelaar en SEO(LinkedIn profiel), suggereerde dat het zou kunnen zijn dat Bingbot niet op de site van Mueller is geweest omdat het een grotendeels inactieve website is.

Adam stuurde me een bericht met zijn gedachten:

“Gebruiker-agent: *
Niet toestaan: /topsy/
Niet toestaan: /crets/
Niet toestaan: /hidden/file.html

In die voorbeelden zouden de mappen en dat bestand in die map niet worden gevonden.

Hij zegt dat hij het robotsbestand moet verbieden dat Bing negeert, maar Google luistert ernaar.

Bing zou onjuist geïmplementeerde robots negeren omdat velen niet weten hoe ze het moeten doen. “

Adam suggereerde ook dat Bing het robots.txt-bestand misschien helemaal negeerde.

Hij legde het mij als volgt uit:

“Ja, of hij kiest ervoor om een ​​richtlijn te negeren om een ​​instructiebestand niet te lezen.

Onjuist geïmplementeerde robotinstructies bij Bing worden waarschijnlijk genegeerd. Dit is voor hen het meest logische antwoord. Het is een routebeschrijving.”

De robots.txt is ergens tussen juli en november 2023 voor het laatst bijgewerkt, dus het kan zijn dat Bingbot de nieuwste robots.txt niet heeft gezien. Dat is logisch omdat het IndexNow-webcrawlsysteem van Microsoft prioriteit geeft aan efficiënt crawlen.

Een van de mappen die worden geblokkeerd door Mueller’s robots.txt is /nofollow/ (wat een rare naam is voor een map).

Er staat eigenlijk niets op die pagina behalve wat sitenavigatie en het woord Redirector.

Ik heb getest om te zien of robots.txt inderdaad die pagina blokkeerde en dat was het geval.

De Rich Results-tester van Google kan de webpagina /nofollow/ niet crawlen.

De uitleg van John Mueller

Mueller leek het geamuseerd te vinden dat er zoveel aandacht werd besteed aan zijn robots.txt en hij publiceerde een toelichting op LinkedIn van wat er aan de hand was.

Hij schreef:

‘Maar wat is er met het dossier aan de hand? En waarom is uw site gedeïndexeerd?

Iemand suggereerde dat dit misschien komt door de links naar Google+. Het is mogelijk. En terug naar de robots.txt… het is prima – ik bedoel, het is hoe ik het wil, en crawlers kunnen er mee omgaan. Of dat zouden ze moeten kunnen, als ze RFC9309 volgen.”

Vervolgens zei hij dat de nofollow op robots.txt eenvoudigweg bedoeld was om te voorkomen dat deze als HTML-bestand zou worden geïndexeerd.

Hij legde uit:

“”disallow: /robots.txt” – zorgt dit ervoor dat robots in cirkels draaien? Wordt uw site hierdoor gedeindexeerd? Nee.

Mijn robots.txt-bestand bevat gewoon veel dingen, en het is schoner als het niet wordt geïndexeerd met de inhoud ervan. Dit blokkeert puur het crawlen van het robots.txt-bestand voor indexeringsdoeleinden.

Ik zou ook de x-robots-tag HTTP-header met noindex kunnen gebruiken, maar op deze manier heb ik die ook in het robots.txt-bestand.”

Mueller zei ook dit over de bestandsgrootte:

“De grootte komt uit tests van de verschillende robots.txt-testtools waaraan mijn team en ik hebben gewerkt. De RFC zegt dat een crawler minimaal 500 kibibytes moet parseren (bonus likes voor de eerste persoon die uitlegt wat voor soort snack dat is). Je moet ergens stoppen, je zou pagina’s kunnen maken die oneindig lang zijn (en dat heb ik gedaan, en veel mensen hebben dat gedaan, sommige zelfs expres). Wat er in de praktijk gebeurt, is dat het systeem dat het robots.txt-bestand controleert (de parser) ergens een snede maakt.”

Hij zei ook dat hij een verbod bovenop dat gedeelte had toegevoegd, in de hoop dat het opgepikt zou worden als een “algemene verbod”, maar ik weet niet zeker over welk verbod hij het heeft. Zijn robots.txt-bestand bevat precies 22.433 verboden.

Hij schreef:

“Ik heb bovenaan dat gedeelte een “disallow: /” toegevoegd, dus hopelijk wordt dat opgepikt als een algemene disallow. Het is mogelijk dat de parser op een onhandige plek afbreekt, zoals een regel met “allow: /cheeseisbest” en deze stopt precies bij de “/”, wat de parser in een impasse zou brengen (en, trivia! de allow-regel wordt overschreven als u zowel “allow: /” als “disallow: /”) heeft. Dit lijkt echter zeer onwaarschijnlijk.”

En daar is het. De rare robots.txt van John Mueller.

Robots.txt is hier te bekijken: