This is an old revision of the document!
Odprava robots.txt napake v Google Search Console
(WordPress + Cloudflare + AI crawlerji)
Namen dokumenta
Ta dokument opisuje:
zakaj pride do napake robots.txt is not valid / Unknown directive v Google Search Console,
kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,
kako blokirati AI crawlerje, ne da bi poškodoval SEO,
kako preprečiti ponovitev iste napake v prihodnje.
Dokument temelji na realnem primeru domene cisoaass.si.
Kratek povzetek problema (TL;DR)
Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku, temveč tega, da je Cloudflare prepisoval robots.txt in vanj dodal nestandardno direktivo:
Content-signal: search=yes,ai-train=no
Google Search Console te direktive ne podpira, zato je robots.txt označen kot neveljaven.
Ključni koncept (zelo pomembno)
Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja:
Če:
je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku,
potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).
Simptomi napake
V Google Search Console se pojavijo:
robots.txt is not valid
Unknown directive
Links are not crawlable
Napake ostanejo prisotne tudi po tem, ko:
popraviš robots.txt na strežniku,
klikneš Validate fix,
zahtevaš Recrawl.
Diagnostika: kdo servira robots.txt? 1. Preverjanje v brskalniku
Odpri:
https://tvoja-domena.si/robots.txt
Če vidiš:
BEGIN Cloudflare Managed content
ali direktivo Content-signal
potem robots.txt ne prihaja s strežnika, ampak ga generira Cloudflare.
Ciljno stanje (pravilna konfiguracija)
Iskalniki (Googlebot, Bingbot): dovoljeni
AI crawlerji (GPTBot, ClaudeBot, Google-Extended …): blokirani
robots.txt vsebuje izključno standardne direktive
Cloudflare ne upravlja robots.txt
Google Search Console je brez napak
Korak 1: Pravilni robots.txt na strežniku (origin) Lokacija
Robots.txt mora biti v WordPress root direktoriju (kjer so wp-admin, wp-content, wp-includes).
Primer:
/var/www/clients/client0/web1/web/robots.txt
Priporočena vsebina (production-ready) # Block AI training & AI crawlers User-agent: GPTBot Disallow: /
User-agent: ChatGPT-User Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: PerplexityBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: Amazonbot Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Applebot-Extended Disallow: /
User-agent: meta-externalagent Disallow: /
# Allow search engines User-agent: * Allow: /
Sitemap: https://cisoaass.si/sitemap_index.xml
Zakaj je to pravilno
AI crawlerji so eksplicitno blokirani
iskalniki niso omejeni
ni nestandardnih direktiv
Google Search Console to sprejme brez opozoril
Korak 2: Izklop Cloudflare “Manage your robots.txt” (ključni popravek) Lokacija v Cloudflare
Cloudflare Dashboard → domena → Security → Settings → Manage your robots.txt
Napačna nastavitev (vzrok problema)
Izbrana možnost:
Instruct AI bots not to scrape content
Ta možnost:
povzroči, da Cloudflare sam generira robots.txt
doda direktivo Content-signal
povzroči napake v GSC
Pravilna nastavitev
Izberi:
Disable robots.txt configuration
Shrani spremembo (Save).
Korak 3: Preverjanje po spremembi 1. Preveri robots.txt v brskalniku https://cisoaass.si/robots.txt
Datoteka mora:
ustrezati tisti na strežniku,
ne vsebovati Content-signal,
ne vsebovati Cloudflare “Managed content” oznak.
2. Google Search Console
Settings → robots.txt
klikni Validate fix
Napake običajno izginejo v nekaj minutah do nekaj ur.
Pogoste pasti in kako se jim izogniti
Ne blokiraj User-agent: * z Disallow: / (to ubije SEO)
Ne uporabljaj nestandardnih direktiv v robots.txt
Vedno preveri kaj vidi brskalnik, ne samo datoteko na strežniku
Cloudflare naj ne bo “source of truth” za robots.txt
Priporočilo za naprej (best practice)
robots.txt upravljaj na strežniku
Cloudflare uporabi za:
WAF pravila,
bot management,
rate limiting
če želiš “no AI training” signal, uporabi raje:
X-Robots-Tag: noai, noimageai
(HTTP header, ne robots.txt)
Povzetek v eni povedi
Robots.txt mora biti standarden, serviran iz origin strežnika, Cloudflare pa ne sme dodajati nestandardnih direktiv.
