KrofekWiki

This is an old revision of the document!

Odprava robots.txt napake v Google Search Console

(WordPress + Cloudflare + AI crawlerji)

Namen dokumenta

Ta dokument opisuje postopek odprave napake robots.txt is not valid / Unknown directive v Google Search Console, do katere lahko pride pri spletnih straneh, ki uporabljajo WordPress v kombinaciji s Cloudflare.

Napaka je bila zaznana med analizo spletne strani z orodjem Google PageSpeed Insights (https://pagespeed.web.dev/ ), ki je opozorilo na težave z dostopnostjo in indeksiranjem strani.

Dokument je namenjen:

sistemskim administratorjem,

razvijalcem,

SEO in varnostnim ekipam,

ter vsem, ki upravljajo WordPress strani za proxyjem (Cloudflare).

Kaj ta dokument pojasnjuje

V nadaljevanju je razloženo:

zakaj pride do napake robots.txt is not valid / Unknown directive,

kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,

kako blokirati AI crawlerje, ne da bi to negativno vplivalo na SEO,

kako preprečiti ponovitev iste napake v prihodnje.

Kratek povzetek problema (TL;DR)

Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku.

Do napake je prišlo zato, ker je Cloudflare samodejno generiral robots.txt in vanj dodal nestandardno direktivo:

Content-signal: search=yes,ai-train=no

Google Search Console te direktive ne podpira, zato je robots.txt označil kot neveljaven, kar je povzročilo dodatna opozorila o omejenem crawl dostopu.

Ključni koncept (zelo pomembno)

Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja:

https://example.si/robots.txt

Če:

je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku,

potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).

Popravljanje robots.txt samo na strežniku v tem primeru ni dovolj.

Simptomi napake

V Google Search Console se lahko pojavijo:

robots.txt is not valid

Unknown directive

Links are not crawlable

Napake pogosto ostanejo prisotne tudi po tem, ko:

popraviš robots.txt na strežniku,

klikneš Validate fix,

zahtevaš ponovno indeksiranje.

Diagnostika: kdo dejansko servira robots.txt? Preverjanje v brskalniku

Odpri naslednji URL:

https://example.si/robots.txt

Če vidiš:

komentarje v stilu Cloudflare Managed content,

ali direktivo Content-signal,

potem robots.txt ne prihaja s strežnika, temveč ga generira Cloudflare.

Ciljno stanje (pravilna konfiguracija)

Končna, pravilna konfiguracija mora zagotavljati:

da so iskalniki (Googlebot, Bingbot) dovoljeni,

da so AI crawlerji (GPTBot, ClaudeBot, Google-Extended …) blokirani,

da robots.txt vsebuje izključno standardne direktive,

da Cloudflare ne upravlja robots.txt,

da Google Search Console ne prikazuje več napak.

Korak 1: Pravilni robots.txt na strežniku (origin)

Robots.txt mora biti nameščen v WordPress root direktoriju (tam, kjer se nahajajo wp-admin, wp-content, wp-includes).

Priporočena vsebina robots.txt # Block AI training & AI crawlers User-agent: GPTBot Disallow: /

User-agent: ChatGPT-User Disallow: /

User-agent: ClaudeBot Disallow: /

User-agent: PerplexityBot Disallow: /

User-agent: CCBot Disallow: /

User-agent: Amazonbot Disallow: /

User-agent: Google-Extended Disallow: /

User-agent: Applebot-Extended Disallow: /

User-agent: meta-externalagent Disallow: /

# Allow search engines User-agent: * Allow: /

Sitemap: https://example.si/sitemap_index.xml

Ta konfiguracija:

blokira AI crawlerje,

ohranja normalno indeksiranje,

je v celoti skladna s standardom robots.txt.

Korak 2: Izklop Cloudflare upravljanja robots.txt (ključni popravek) Lokacija v Cloudflare

Cloudflare Dashboard → izbrana domena → Security → Settings → Manage your robots.txt

Napačna nastavitev (vzrok težave)

Možnost:

Instruct AI bots not to scrape content

Ta nastavitev povzroči, da Cloudflare:

sam ustvari ali spremeni robots.txt,

doda direktivo Content-signal,

s tem povzroči napake v Google Search Console.

Pravilna nastavitev

Izbrati je treba:

Disable robots.txt configuration

Spremembo je potrebno shraniti.

Korak 3: Končna verifikacija Preverjanje robots.txt

V brskalniku ponovno odpri:

https://example.si/robots.txt

Datoteka mora:

ustrezati vsebini na strežniku,

ne vsebovati Content-signal,

ne vsebovati Cloudflare “Managed” oznak.

Google Search Console

V Google Search Console:

Settings → robots.txt

klikni Validate fix

Napaka se običajno odpravi v nekaj minutah do nekaj ur.

Pogoste napake in priporočila

Nikoli ne blokiraj User-agent: * z Disallow: /

Ne uporabljaj nestandardnih direktiv v robots.txt

Vedno preveri robots.txt prek brskalnika

Cloudflare naj ne bo “source of truth” za robots.txt

Priporočena dobra praksa za naprej

robots.txt upravljaj izključno na strežniku,

Cloudflare uporabljaj za:

WAF pravila,

bot management,

rate limiting,

za signaliziranje “no AI training” raje uporabi HTTP header:

X-Robots-Tag: noai, noimageai

Povzetek

Težava z robots.txt je bila posledica konflikta med Cloudflare in standardi Google Search Console. Rešitev je v jasni ločitvi odgovornosti: robots.txt naj upravlja strežnik, ne Cloudflare.