KrofekWiki

This is an old revision of the document!

Odprava robots.txt napake v Google Search Console

(WordPress + Cloudflare + AI crawlerji)

Namen dokumenta

Ta dokument opisuje:

zakaj pride do napake robots.txt is not valid / Unknown directive v Google Search Console,

kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,

kako blokirati AI crawlerje, ne da bi poškodoval SEO,

kako preprečiti ponovitev iste napake v prihodnje.

Dokument temelji na realnem primeru domene cisoaass.si.

Kratek povzetek problema (TL;DR)

Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku, temveč tega, da je Cloudflare prepisoval robots.txt in vanj dodal nestandardno direktivo:

Content-signal: search=yes,ai-train=no

Google Search Console te direktive ne podpira, zato je robots.txt označen kot neveljaven.

Ključni koncept (zelo pomembno)

Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja:

https://domena/robots.txt

Če:

je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku,

potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).

Simptomi napake

V Google Search Console se pojavijo:

robots.txt is not valid

Unknown directive

Links are not crawlable

Napake ostanejo prisotne tudi po tem, ko:

popraviš robots.txt na strežniku,

klikneš Validate fix,

zahtevaš Recrawl.

Diagnostika: kdo servira robots.txt? 1. Preverjanje v brskalniku

Odpri:

https://tvoja-domena.si/robots.txt

Če vidiš:

BEGIN Cloudflare Managed content

ali direktivo Content-signal

potem robots.txt ne prihaja s strežnika, ampak ga generira Cloudflare.

Ciljno stanje (pravilna konfiguracija)

Iskalniki (Googlebot, Bingbot): dovoljeni

AI crawlerji (GPTBot, ClaudeBot, Google-Extended …): blokirani

robots.txt vsebuje izključno standardne direktive

Cloudflare ne upravlja robots.txt

Google Search Console je brez napak

Korak 1: Pravilni robots.txt na strežniku (origin) Lokacija

Robots.txt mora biti v WordPress root direktoriju (kjer so wp-admin, wp-content, wp-includes).

Primer:

/var/www/clients/client0/web1/web/robots.txt

Priporočena vsebina (production-ready) # Block AI training & AI crawlers User-agent: GPTBot Disallow: /

User-agent: ChatGPT-User Disallow: /

User-agent: ClaudeBot Disallow: /

User-agent: PerplexityBot Disallow: /

User-agent: CCBot Disallow: /

User-agent: Amazonbot Disallow: /

User-agent: Google-Extended Disallow: /

User-agent: Applebot-Extended Disallow: /

User-agent: meta-externalagent Disallow: /

# Allow search engines User-agent: * Allow: /

Sitemap: https://cisoaass.si/sitemap_index.xml

Zakaj je to pravilno

AI crawlerji so eksplicitno blokirani

iskalniki niso omejeni

ni nestandardnih direktiv

Google Search Console to sprejme brez opozoril

Korak 2: Izklop Cloudflare “Manage your robots.txt” (ključni popravek) Lokacija v Cloudflare

Cloudflare Dashboard → domena → Security → Settings → Manage your robots.txt

Napačna nastavitev (vzrok problema)

Izbrana možnost:

Instruct AI bots not to scrape content

Ta možnost:

povzroči, da Cloudflare sam generira robots.txt

doda direktivo Content-signal

povzroči napake v GSC

Pravilna nastavitev

Izberi:

Disable robots.txt configuration

Shrani spremembo (Save).

Korak 3: Preverjanje po spremembi 1. Preveri robots.txt v brskalniku https://cisoaass.si/robots.txt

Datoteka mora:

ustrezati tisti na strežniku,

ne vsebovati Content-signal,

ne vsebovati Cloudflare “Managed content” oznak.

2. Google Search Console

Settings → robots.txt

klikni Validate fix

Napake običajno izginejo v nekaj minutah do nekaj ur.

Pogoste pasti in kako se jim izogniti

Ne blokiraj User-agent: * z Disallow: / (to ubije SEO)

Ne uporabljaj nestandardnih direktiv v robots.txt

Vedno preveri kaj vidi brskalnik, ne samo datoteko na strežniku

Cloudflare naj ne bo “source of truth” za robots.txt

Priporočilo za naprej (best practice)

robots.txt upravljaj na strežniku

Cloudflare uporabi za:

WAF pravila,

bot management,

rate limiting

če želiš “no AI training” signal, uporabi raje:

X-Robots-Tag: noai, noimageai

(HTTP header, ne robots.txt)

Povzetek v eni povedi

Robots.txt mora biti standarden, serviran iz origin strežnika, Cloudflare pa ne sme dodajati nestandardnih direktiv.