Wat is crawling

Het vinden en bezoeken van webpagina’s

Crawling is:

Het vinden van nieuwe en bijgewerkte inhoud door webcrawlers (bots).
Een belangrijk technisch onderdeel van SEO

Inhoud

Crawling is het proces waarbij zoekmachines zoals Google, Bing en andere webcrawlers (ook wel bots of spiders genoemd) het internet doorzoeken om nieuwe en bijgewerkte inhoud te ontdekken.

Deze bots navigeren door websites door links te volgen, pagina’s te scannen en de inhoud op te slaan in de database van de zoekmachine, ook wel de index genoemd.

Crawling is de eerste stap in het proces van zoekmachineoptimalisatie (SEO). Als een pagina niet wordt gecrawld, kan deze niet worden geïndexeerd en dus ook niet worden weergegeven in de zoekresultaten.

Waarom is een crawling belangrijk?

Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen. Daarom is het essentieel om een crawlbare website te hebben met duidelijke interne links, een goed gestructureerde sitemap en een snelle laadtijd.

Door regelmatig je website te controleren met tools zoals Google Search Console of Ahrefs kun je eventuele crawling-problemen opsporen en oplossen, zodat je website beter zichtbaar wordt in de zoekresultaten. Deze controle wordt ook wel een Site Audit genoemd.

“Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen.”

Hoe werkt crawling?

Crawling werkt als volgt:

Start bij bekende URL’s:
Crawlers beginnen vaak met een lijst van URL’s die al bekend zijn bij de zoekmachine.
Links volgen:
Vanuit deze URL’s volgen ze interne en externe links om nieuwe pagina’s te ontdekken.
Inhoud analyseren:
De bot bekijkt de inhoud en metadata van de pagina om te begrijpen waar deze over gaat.
Resultaten opslaan:
De gevonden informatie wordt toegevoegd aan de zoekmachine-index. Dit wordt indexeren genoemd.

Factoren die indexeren beïnvloeden

Robots.txt en meta-tags:
Als een pagina een noindex-meta-tag bevat of wordt geblokkeerd in het robots.txt-bestand, wordt deze niet geïndexeerd. Zie ook Robots.txt.
Unieke en kwalitatieve inhoud:
Zoekmachines indexeren liever pagina’s met originele en waardevolle content. Duplicate content of dunne inhoud wordt vaak genegeerd.

Technische fouten:
Problemen zoals serverfouten (5xx) of gebroken links (404) kunnen voorkomen dat een pagina wordt geïndexeerd.

Interne en externe links:
Een pagina die goed is gelinkt vanaf andere pagina’s heeft meer kans om geïndexeerd te worden. Dit wordt ook wel linkbuilding genoemd.

SEO problemen met crawling

Veelvoorkomende problemen met crawling zijn:

Beperkt crawlbudget
Geblokkeerde pagina’s in robots.txt
Slechte interne linkstructuur
Te veel omleidingen (redirect chains)
Onnodig lange laadtijden
Dynamische URL’s, waarbij de URL uit een parameter bestaat
JavaScript gebaseerde content die moeilijk te doorzoeken is

Ben je benieuwd hoe

je meer bezoekers krijgtklanten krijgtgeld verdient

Ja, ik wil meer weten over SEO

Je zit nergens aan vast

Nils van der Knaap

Senior SEO Specialist

Nils vreet SEO artikelen als jelly beans. Met ruim 16 jaar intensieve ervaring als online marketeer en SEO specialist weet hij als geen ander wat werkt en wat niet.