lbv3

Wat datawetenschap kan doen voor site-architecturen

Inhoudsopgave

Het afgelopen decennium heeft de verschuiving van SEO gemarkeerd van spreadsheetgestuurde, anekdotische best practices naar een meer datagestuurde aanpak, wat blijkt uit het grotere aantal SEO-professionals dat Python leert.

Naarmate het aantal updates van Google toeneemt (11 in 2023), erkennen SEO-professionals de noodzaak om een ​​meer datagestuurde benadering van SEO te volgen, en interne linkstructuren voor site-architecturen vormen daarop geen uitzondering.

In een vorig artikel heb ik uiteengezet hoe interne koppelingen meer datagestuurd kunnen zijn, door Python-code aan te bieden over hoe de site-architectuur statistisch kan worden geëvalueerd.

Naast Python kan datawetenschap SEO-professionals helpen op effectievere wijze verborgen patronen en belangrijke inzichten te ontdekken, zodat zoekmachines de prioriteit van de inhoud op een website kunnen signaleren.

Datawetenschap is het kruispunt van codering, wiskunde en domeinkennis, waarbij het domein in ons geval SEO is.

Dus hoewel wiskunde en coderen (steevast in Python) belangrijk zijn, wordt SEO geenszins minder belangrijk, omdat het stellen van de juiste vragen over de gegevens en het instinctief aanvoelen of de cijfers er ‘goed uitzien’ ongelooflijk belangrijk zijn.

Stem de sitearchitectuur af om niet-gelinkte inhoud te ondersteunen

Veel sites zijn gebouwd als een kerstboom, met de startpagina helemaal bovenaan (de belangrijkste) en andere pagina’s in afnemende volgorde van belangrijkheid in de daaropvolgende niveaus.

Voor de SEO-wetenschappers onder jullie: je wilt weten wat de verdeling van links is vanuit verschillende weergaven. Dit kan op verschillende manieren worden gevisualiseerd met behulp van de Python-code uit het vorige artikel, waaronder:

  • Diepte van de locatie.
  • Inhoudstype.
  • Interne paginarangschikking.
  • Conversiewaarde/opbrengst.
Afbeelding door auteur, december 2023

De boxplot laat effectief zien hoeveel links ‘normaal’ zijn voor een bepaalde website op verschillende siteniveaus. De blauwe vakjes vertegenwoordigen het interkwartielbereik (dwz het 25e en 75e kwantiel), waar het grootste deel (67% om precies te zijn) van het aantal inkomende interne links ligt.

Denk aan de belcurve, maar in plaats van deze vanaf de zijkant te bekijken (zoals je bij een berg zou doen), bekijk je hem als een vogel die boven je hoofd vliegt.

Het diagram laat bijvoorbeeld zien dat voor pagina’s die zich twee niveaus lager bevinden dan de startpagina, het blauwe vak aangeeft dat 67% van de URL’s tussen de vijf en negen inkomende interne links heeft. We kunnen ook zien dat dit aanzienlijk (en misschien niet verrassend) veel lager is dan pagina’s die één stap verwijderd zijn van de startpagina.

De dikke lijn die het blauwe vak doorsnijdt, is de mediaan (50e kwantiel), die de middelste waarde vertegenwoordigt. In het bovenstaande voorbeeld zijn de gemiddelde inkomende interne links 7 voor pagina’s op siteniveau 2, wat ongeveer 5.000 keer minder is dan die op siteniveau 1!

Even terzijde: het zal je misschien opvallen dat de mediaanlijn niet voor alle blauwe vakken zichtbaar is, omdat de gegevens scheef zijn (dat wil zeggen niet normaal verdeeld zijn zoals een klokvormige curve).

Is dit goed? Is dit slecht? Moeten SEO-professionals zich zorgen maken?

Een datawetenschapper zonder kennis van SEO zou kunnen besluiten dat het beter is om de balans te herstellen door de verdeling van interne links naar pagina’s op siteniveau uit te werken.

Van daaruit zou een datawetenschapper voor pagina’s die bijvoorbeeld onder de mediaan of het 20e percentiel (kwantiel in datawetenschap gesproken) liggen voor hun gegeven siteniveau kunnen concluderen dat deze pagina’s meer interne links vereisen.

Als zodanig betekent dit vaak dat pagina’s die hetzelfde aantal hops vanaf de startpagina delen (dwz hetzelfde diepteniveau van de site) even belangrijk zijn.

Vanuit het perspectief van de zoekwaarde is dit echter onwaarschijnlijk, vooral als je bedenkt dat sommige pagina’s op hetzelfde niveau simpelweg meer zoekvraag hebben dan andere.

De sitearchitectuur zou dus prioriteit moeten geven aan de pagina’s met meer zoekvraag dan aan de pagina’s met minder vraag, ongeacht hun standaardpositie in de hiërarchie – ongeacht hun niveau!

Herziening van de echte interne paginarangschikking (TIPR)

Echte interne paginarangschikking (TIPR), zoals gepopulariseerd door Kevin Indig, heeft een wat verstandiger aanpak gekozen door de externe PageRank op te nemen, dat wil zeggen verdiend door backlinks. In eenvoudige wiskundetermen:

TIPR = Interne paginarangschikking x Autoriteit op paginaniveau van backlinks

Hoewel het bovenstaande de niet-wetenschappelijke versie van zijn metriek is, is het niettemin een veel nuttiger en empirischer manier om te modelleren wat de normale waarde is van de waarde van een pagina binnen een website-architectuur. Als je wilt dat de code dit berekent, zie hier.

Bovendien is het, in plaats van deze statistiek toe te passen op siteniveau, veel leerzamer om dit per inhoudstype toe te passen. Voor een e-commerceklant zien we hieronder de verdeling van TIPR per inhoudstype:

Afbeelding door auteur, december 2023

De grafiek in het geval van deze online winkel is dat de gemiddelde TIPR voor categorieëninhoud of productvermeldingspagina’s (PLP’s) ongeveer twee TIPR-punten bedraagt.

Toegegeven, TIPR is een beetje abstract, want hoe vertaalt zich dat in het aantal benodigde interne links? Dat is niet het geval – althans niet direct.

Ondanks de abstractie is dit nog steeds een effectievere constructie voor het vormgeven van de architectuur van de site.

Als je wilt zien welke categorieën ondermaats presteren qua rangpositiepotentieel, zou je eenvoudigweg zien dat PLP-URL’s zich onder het 25e kwantiel bevinden en misschien op zoek gaan naar interne links van pagina’s met een hogere TIPR-waarde.

Hoeveel links en welke TIPR? Met wat modellering is dat een antwoord voor een ander bericht.

Introductie van Revenue Internal Page Rank (RIPR)

De andere belangrijke vraag die het beantwoorden waard is, is: welke inhoud verdient hogere posities?

Kevin bepleitte ook een meer verlichte aanpak om interne linkstructuren af ​​te stemmen op conversiewaarden, die velen van jullie hopelijk al toepassen op jullie klanten; Ik ben het daar van harte mee eens.

Een eenvoudige, niet-wetenschappelijke oplossing is om de verhouding tussen de e-commerce-inkomsten en de TIPR te nemen, dat wil zeggen

RIPR = Opbrengst / TIPR

De bovenstaande statistiek helpt ons te zien hoe de normale opbrengst per pagina-autoriteit eruit ziet, zoals hieronder weergegeven:

Afbeelding door auteur, december 2023

Zoals we kunnen zien verandert het beeld enigszins; plotseling zien we geen box (dwz distributie) voor bloginhoud omdat er geen inkomsten worden geregistreerd voor die inhoud.

Praktische toepassingen? Als we dit als model per inhoudstype gebruiken, zouden aan alle pagina’s die hoger zijn dan het 75e kwantiel (dwz ten noorden van hun blauwe vak) voor hun respectieve inhoudstype meer interne links moeten worden toegevoegd.

Waarom? Omdat ze hoge inkomsten hebben, maar een zeer lage pagina-autoriteit hebben, wat betekent dat ze een zeer hoge RIPR hebben en daarom meer interne links moeten krijgen om dichter bij de mediaan te komen.

Daarentegen zullen degenen met lagere inkomsten maar te veel significante interne links een lagere RIPR hebben en moeten er dus links worden weggenomen, zodat de inhoud met hogere inkomsten meer belang kan krijgen door de zoekmachines.

Een waarschuwing

RIPR heeft een aantal aannames ingebouwd, zoals het goed opzetten van de analyse-inkomstenregistratie, zodat uw model de basis vormt voor effectieve interne linkaanbevelingen.

Natuurlijk moet je, net als bij TIPR, modelleren wat een interne link waard is in termen van hoeveel RIPR een interne link waard is vanaf een bepaalde pagina.

Dat is voordat we zelfs maar bij de locatie van de interne linkplaatsing zelf komen.

Meer middelen:


Uitgelichte afbeelding: NicoElNino/Shutterstock