Robots.txt er en tekstfil i roden af jeres hjemmeside, der instruerer søgemaskiners crawlere om, hvilke sider de må og ikke må besøge. Den styrer crawl-budgettet og beskytter følsomt indhold mod indeksering.
Robots.txt er en simpel tekstfil placeret i roden af jeres domæne (f.eks. wearespace.dk/robots.txt), der fungerer som en instruktion til søgemaskiners crawlere (bots). Filen følger Robots Exclusion Protocol og fortæller crawlere som Googlebot, Bingbot og andre, hvilke dele af jeres website de har tilladelse til at crawle, og hvilke de skal ignorere. Det er det første, en søgemaskine-crawler tjekker, når den besøger jeres site.
Robots.txt bruger simple direktiver: User-agent angiver hvilken crawler, reglen gælder for (* betyder alle). Disallow blokerer adgang til specifikke URL'er eller mapper. Allow tillader adgang til specifikke URL'er inden for en blokeret mappe. Sitemap peger crawleren mod jeres sitemap-fil. Eksempel: "User-agent: * / Disallow: /admin/ / Disallow: /checkout/ / Sitemap: https://example.dk/sitemap.xml".
For jeres SEO er robots.txt et vigtigt værktøj til at optimere crawl-budgettet — det antal sider, Google crawler på jeres site inden for en given periode. Ved at blokere irrelevante sider (admin-sider, interne søgeresultater, filtre, session-URL'er, dupliceret indhold) sikrer I, at Google fokuserer sin crawling på jeres vigtigste sider. For store websites med tusindvis af sider kan dette have en markant effekt på indekseringshastigheden.
Vigtig advarsel: robots.txt forhindrer crawling, men ikke nødvendigvis indeksering. Hvis andre sider linker til en URL, I har blokeret i robots.txt, kan Google stadig indeksere den — bare uden at kende indholdet. Til at forhindre indeksering skal I i stedet bruge meta robots-tagget (noindex). Fejlkonfigureret robots.txt er en af de mest kritiske tekniske SEO-fejl — en enkelt forkert linje kan blokere Google fra at crawle hele jeres website.
For danske webshops og større hjemmesider er crawl-budget-optimering via robots.txt særligt vigtig. En typisk Shopify- eller WooCommerce-webshop kan generere tusindvis af filter-URL'er, der alle er varianter af de samme kategorisider. Uden korrekt robots.txt-konfiguration kan Google bruge op til 70-80 % af crawl-budgettet på disse duplicerede URL'er. I Next.js-applikationer (som brugt af _space) konfigureres robots.txt typisk via en robots.ts-fil i app-mappen, der automatisk genererer den korrekte output. Husk altid at inkludere en Sitemap-reference og at teste jeres robots.txt med Google Search Consoles URL Inspection Tool efter enhver ændring. En god tommelfingerregel er: bloker alt, der ikke har unik værdi for søgemaskiner, men bloker aldrig ressourcer (CSS, JS, billeder) som Google har brug for til at rendere jeres sider korrekt.
Robots.txt i praksis
En dansk webshop opdager i Google Search Console, at Googlebot bruger 60% af crawl-budgettet på at crawle filterbaserede URL'er (/produkter?farve=roed&str=xl) der skaber tusindvis af duplicerede varianter. Ved at tilføje "Disallow: /produkter?" i robots.txt omdirigeres crawl-ressourcerne til produktsider og kategorisider. Inden for 3 uger ser de en 40% forbedring i indekseringstid for nye produkter og bedre placeringer for kategorisiderne.
OFTE STILLEDE SPØRGSMÅL