Wat is crawling
Het vinden en bezoeken van webpagina’s
Crawling is:
Crawling is het proces waarbij zoekmachines zoals Google, Bing en andere webcrawlers (ook wel bots of spiders genoemd) het internet doorzoeken om nieuwe en bijgewerkte inhoud te ontdekken.
Deze bots navigeren door websites door links te volgen, pagina’s te scannen en de inhoud op te slaan in de database van de zoekmachine, ook wel de index genoemd.
Crawling is de eerste stap in het proces van zoekmachineoptimalisatie (SEO). Als een pagina niet wordt gecrawld, kan deze niet worden geïndexeerd en dus ook niet worden weergegeven in de zoekresultaten.
Waarom is een crawling belangrijk?
Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen. Daarom is het essentieel om een crawlbare website te hebben met duidelijke interne links, een goed gestructureerde sitemap en een snelle laadtijd.
Door regelmatig je website te controleren met tools zoals Google Search Console of Ahrefs kun je eventuele crawling-problemen opsporen en oplossen, zodat je website beter zichtbaar wordt in de zoekresultaten. Deze controle wordt ook wel een Site Audit genoemd.
“Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen.”
Hoe werkt crawling?
Crawling werkt als volgt:
- Start bij bekende URL’s:
Crawlers beginnen vaak met een lijst van URL’s die al bekend zijn bij de zoekmachine. - Links volgen:
Vanuit deze URL’s volgen ze interne en externe links om nieuwe pagina’s te ontdekken. - Inhoud analyseren:
De bot bekijkt de inhoud en metadata van de pagina om te begrijpen waar deze over gaat. - Resultaten opslaan:
De gevonden informatie wordt toegevoegd aan de zoekmachine-index. Dit wordt indexeren genoemd.
Factoren die indexeren beïnvloeden
- Robots.txt en meta-tags:
Als een pagina eennoindex
-meta-tag bevat of wordt geblokkeerd in het robots.txt-bestand, wordt deze niet geïndexeerd. Zie ook Robots.txt. - Unieke en kwalitatieve inhoud:
Zoekmachines indexeren liever pagina’s met originele en waardevolle content. Duplicate content of dunne inhoud wordt vaak genegeerd.
- Technische fouten:
Problemen zoals serverfouten (5xx) of gebroken links (404) kunnen voorkomen dat een pagina wordt geïndexeerd.
- Interne en externe links:
Een pagina die goed is gelinkt vanaf andere pagina’s heeft meer kans om geïndexeerd te worden. Dit wordt ook wel linkbuilding genoemd.
SEO problemen met crawling
Veelvoorkomende problemen met crawling zijn:
- Beperkt crawlbudget
- Geblokkeerde pagina’s in robots.txt
- Slechte interne linkstructuur
- Te veel omleidingen (redirect chains)
- Onnodig lange laadtijden
- Dynamische URL’s, waarbij de URL uit een parameter bestaat
- JavaScript gebaseerde content die moeilijk te doorzoeken is