Table of Contents
To lahko direktno skopiraš v DokuWiki editor in shraniš.
Odprava robots.txt napake v Google Search Console
(WordPress + Cloudflare + AI crawlerji)
🎯 Namen dokumenta
Ta dokument opisuje:
- zakaj pride do napake robots.txt is not valid / Unknown directive v Google Search Console,
- kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,
- kako blokirati AI crawlerje, ne da bi poškodoval SEO,
- kako preprečiti ponovitev iste napake v prihodnje.
Napaka je bila zaznana ob dodajanju domene v orodje:
Velja za
- WordPress
- Cloudflare (proxy / CDN)
- Google Search Console
- spletne strani, ki želijo:
- ohraniti SEO indeksacijo,
- omejiti AI crawlerje.
🧠 Povzetek problema (TL;DR)
Če uporabljaš:
- WordPress
- Cloudflare
- Google Search Console
lahko Google poroča, da je robots.txt neveljaven, tudi če je datoteka na strežniku videti pravilna.
Razlog je v tem, da Cloudflare prepiše robots.txt in vanj doda nestandardno direktivo, ki je Google Search Console ne podpira.
🔍 Root cause (kaj je bilo v resnici narobe)
Cloudflare ima možnost samodejnega upravljanja robots.txt, ki v datoteko doda naslednjo direktivo:
Content-signal: search=yes,ai-train=no
Ta direktiva:
- ni del uradnega robots.txt standarda,
- je Google Search Console ne prepozna,
- povzroči napake:
- robots.txt is not valid
- Unknown directive
- Links are not crawlable
Pomembno:
- Google vedno bere samo eno datoteko:
- če se ta razlikuje od datoteke na strežniku,
robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).
❌ Napačen primer
Primer robots.txt, ki povzroči napako:
User-agent: * Content-signal: search=yes,ai-train=no Allow: /
Posledica:
- Google označi robots.txt kot neveljaven,
- crawling je omejen,
- v Search Console se pojavijo opozorila.
✅ Pravilna rešitev
Rešitev ima dva obvezna koraka.
Korak 1: Pravilni robots.txt na strežniku
Robots.txt mora biti nameščen v WordPress root direktoriju (tam, kjer so mape `wp-admin`, `wp-content`, `wp-includes`).
Priporočena vsebina robots.txt:
Block AI training & AI crawlers
User-agent: GPTBot Disallow: /
User-agent: ChatGPT-User Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: PerplexityBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: Amazonbot Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Applebot-Extended Disallow: /
User-agent: meta-externalagent Disallow: /
Allow search engines
User-agent: * Allow: /
Sitemap: https://example.si/sitemap_index.xml
Ta konfiguracija:
- blokira AI crawlerje,
- ne vpliva na Google / Bing indeksacijo,
- je skladna z robots.txt standardom.
Korak 2: Izklop Cloudflare upravljanja robots.txt
V Cloudflare nadzorni plošči:
- izberi domeno,
- pojdi na Security → Settings,
- poišči razdelek Manage your robots.txt,
- izberi možnost:
- Disable robots.txt configuration,
- shrani spremembo.
S tem:
- Cloudflare preneha generirati robots.txt,
- Google vidi robots.txt s strežnika,
- napaka v Google Search Console izgine.
🧪 Diagnostika (če se zatakne)
Vedno preveri, kaj Google dejansko vidi:
Če vidiš:
- direktivo Content-signal,
- oznake Cloudflare Managed content,
potem Cloudflare še vedno prepisuje robots.txt in je treba ponovno preveriti nastavitve.
🛡️ Kako preprečiti ponovitev napake
- robots.txt vedno upravljaj izključno na strežniku,
- Cloudflare ne uporabljaj za generiranje robots.txt,
- ne dodajaj nestandardnih direktiv v robots.txt,
- za omejevanje AI raje uporabi HTTP headerje.
Primer HTTP headerja:
X-Robots-Tag: noai, noimageai
📌 Povzetek v eni stavki
Napaka v robots.txt ni bila posledica WordPressa, temveč tega, da je Cloudflare prepisoval robots.txt z nestandardnimi direktivami, ki jih Google Search Console ne podpira.
