SEO/SEO

Crawling

Crawling er den proces, hvor søgemaskiner som Google systematisk besøger og scanner hjemmesider for at opdage nyt og opdateret indhold. Uden crawling kan jeres sider ikke indexeres eller vises i søgeresultaterne.

Crawling er det første skridt i den proces, der gør jeres hjemmeside synlig i søgeresultaterne. Når en søgemaskine crawler jeres site, sender den automatiserede programmer — kaldet crawlere, spiders eller bots (Googles hedder Googlebot) — der besøger jeres sider, følger links og registrerer indholdet. De crawlede data sendes videre til søgemaskinens indeksering, hvor indholdet analyseres, klassificeres og gemmes til brug i søgeresultater. Google crawler over 130 billioner (130.000 milliarder) sider og opdager hundredvis af milliarder nye og opdaterede sider hvert år. Uden crawling kan jeres indhold aldrig dukke op i Google — det er den absolutte forudsætning for organisk synlighed.

Crawling foregår ikke bare en gang — Googlebot vender løbende tilbage til jeres site for at opdage nyt indhold, registrere ændringer og fjerne sider, der ikke længere eksisterer. Frekvensen afhænger af jeres sites autoritet, opdateringsfrekvens og tekniske opsætning. Store nyhedssites som DR.dk eller Politiken kan blive crawlet tusindvis af gange dagligt, mens mindre danske virksomhedssites måske kun besøges ugentligt. Google har dokumenteret, at sites der publicerer nyt indhold regelmæssigt, crawles hyppigere. Googlebot opererer med to crawl-hastigheder: 'crawl rate' (hvor mange requests per sekund den sender til jeres server) og 'crawl demand' (hvor meget Google ønsker at crawle baseret på indholdsværdi og friskhed).

Jeres tekniske opsætning har stor indflydelse på, hvor effektivt jeres site crawles. Filen robots.txt placeret i roden af jeres domæne fortæller crawlere, hvilke dele af sitet de må besøge og hvilke der er blokeret. Et XML sitemap giver crawlere en komplet liste over jeres vigtigste sider med metadata som sidste ændringsdato og prioritet. Jeres interne linkstruktur hjælper crawlere med at finde og navigere mellem sider — sider der er mange klik fra forsiden ('deep pages') crawles sjældnere. Tekniske problemer som langsom serverrespons (over 500 ms), redirect-loops, 5xx serverfejl eller blokerede ressourcer kan forhindre effektiv crawling og koste jer organisk synlighed.

Et vigtigt koncept er crawl budget — det antal sider, Googlebot vælger at crawle på jeres site inden for en given periode. For store sites med tusindvis af sider er det afgørende at sikre, at crawl-budgettet bruges på jeres vigtigste sider og ikke spildes på duplikat-indhold, parameteriserede URL'er (filtre, sortering), session-ID'er i URL'er eller sider med lav værdi. Google's Gary Illyes har forklaret, at crawl budget primært er en bekymring for sites med over 10.000 URL'er — men selv mindre sites bør sikre ren URL-struktur. Brug canonical tags til at konsolidere duplikerede URL'er, og bloker crawling af ubrugelige parameteriserede URL'er via robots.txt eller URL Parameters-indstillingen i Search Console.

Moderne crawling involverer også rendering — Google kører JavaScript på de sider, den crawler, for at se det fulde indhold som en bruger ville. Dette er relevant for Single Page Applications (SPA'er) og sites der bruger JavaScript-frameworks som React, Vue eller Angular. Hvis jeres indhold kun er tilgængeligt efter JavaScript-eksekvering, skal I sikre, at Googlebot kan rendere det korrekt. Server-side rendering (SSR) eller static site generation (SSG) anbefales for optimal crawlbarhed. I Google Search Console kan I bruge URL Inspection-værktøjet til at se, hvordan Googlebot ser jeres individuelle sider — inklusive screenshots af det rendererede indhold.

Vigtigste pointer

Første skridt til synlighed — Uden crawling kan jeres sider ikke indexeres eller vises i Google; Google crawler over 130 billioner sider årligt.
Googlebot besøger jer løbende — Crawl-frekvensen afhænger af siteautoritet, opdateringsfrekvens og teknisk sundhed; aktive sites crawles oftere.
robots.txt styrer adgangen — Denne fil i jeres domænerod fortæller crawlere, hvilke dele af sitet de må og ikke må besøge.
XML sitemap er jeres vejviser — Giver crawlere et komplet kort over jeres vigtigste sider med metadata om ændringsdato og prioritet.
Crawl budget kræver prioritering — Store sites med 10.000+ sider skal sikre, at crawl-ressourcerne bruges på de vigtigste sider og ikke spildes på duplikater.

Crawling i praksis

En dansk webshop med 5.000 produkter opdager i Google Search Console, at kun 2.000 sider er indexeret. En teknisk SEO-audit afslører tre problemer: robots.txt blokerer to vigtige produktkategorier (/kollektion/ og /tilbud/), tusindvis af filter-URL'er (f.eks. ?farve=roed&stoerrelse=M) skaber 12.000 parameteriserede URL'er der spiser crawl-budgettet, og serverresponstiden er 1.200 ms i gennemsnit (for langsom). Teamet opdaterer robots.txt for at åbne de blokerede kategorier, implementerer canonical tags på alle filtererede sider, tilføjer noindex på rene paginerings-URL'er, og optimerer serverresponstiden til 280 ms via caching. Et opdateret XML sitemap med 5.000 produktsider, 15 kategorisider og 45 blogindlæg indsendes til Search Console. Inden for fire uger er alle 5.000 produkter indexeret, og organisk trafik stiger 32 %.

OFTE STILLEDE SPØRGSMÅL

KILDER

Kontakt os og få en konkret vurdering af, hvor jeres performance kan styrkes.

Kontakt os