This is an old revision of the document!
Odprava robots.txt napake v Google Search Console
(WordPress + Cloudflare + AI crawlerji)
Namen dokumenta
Ta dokument opisuje postopek odprave napake robots.txt is not valid / Unknown directive v Google Search Console, do katere lahko pride pri spletnih straneh, ki uporabljajo WordPress v kombinaciji s Cloudflare.
Napaka je bila zaznana med analizo spletne strani z orodjem Google PageSpeed Insights (https://pagespeed.web.dev/ ), ki je opozorilo na težave z dostopnostjo in indeksiranjem strani.
Dokument je namenjen:
sistemskim administratorjem,
razvijalcem,
SEO in varnostnim ekipam,
ter vsem, ki upravljajo WordPress strani za proxyjem (Cloudflare).
Kaj ta dokument pojasnjuje
V nadaljevanju je razloženo:
zakaj pride do napake robots.txt is not valid / Unknown directive,
kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,
kako blokirati AI crawlerje, ne da bi to negativno vplivalo na SEO,
kako preprečiti ponovitev iste napake v prihodnje.
Kratek povzetek problema (TL;DR)
Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku.
Do napake je prišlo zato, ker je Cloudflare samodejno generiral robots.txt in vanj dodal nestandardno direktivo:
Content-signal: search=yes,ai-train=no
Google Search Console te direktive ne podpira, zato je robots.txt označil kot neveljaven, kar je povzročilo dodatna opozorila o omejenem crawl dostopu.
Ključni koncept (zelo pomembno)
Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja:
Če:
je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku,
potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).
Popravljanje robots.txt samo na strežniku v tem primeru ni dovolj.
Simptomi napake
V Google Search Console se lahko pojavijo:
robots.txt is not valid
Unknown directive
Links are not crawlable
Napake pogosto ostanejo prisotne tudi po tem, ko:
popraviš robots.txt na strežniku,
klikneš Validate fix,
zahtevaš ponovno indeksiranje.
Diagnostika: kdo dejansko servira robots.txt? Preverjanje v brskalniku
Odpri naslednji URL:
Če vidiš:
komentarje v stilu Cloudflare Managed content,
ali direktivo Content-signal,
potem robots.txt ne prihaja s strežnika, temveč ga generira Cloudflare.
Ciljno stanje (pravilna konfiguracija)
Končna, pravilna konfiguracija mora zagotavljati:
da so iskalniki (Googlebot, Bingbot) dovoljeni,
da so AI crawlerji (GPTBot, ClaudeBot, Google-Extended …) blokirani,
da robots.txt vsebuje izključno standardne direktive,
da Cloudflare ne upravlja robots.txt,
da Google Search Console ne prikazuje več napak.
Korak 1: Pravilni robots.txt na strežniku (origin)
Robots.txt mora biti nameščen v WordPress root direktoriju (tam, kjer se nahajajo wp-admin, wp-content, wp-includes).
Priporočena vsebina robots.txt # Block AI training & AI crawlers User-agent: GPTBot Disallow: /
User-agent: ChatGPT-User Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: PerplexityBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: Amazonbot Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Applebot-Extended Disallow: /
User-agent: meta-externalagent Disallow: /
# Allow search engines User-agent: * Allow: /
Sitemap: https://example.si/sitemap_index.xml
Ta konfiguracija:
blokira AI crawlerje,
ohranja normalno indeksiranje,
je v celoti skladna s standardom robots.txt.
Korak 2: Izklop Cloudflare upravljanja robots.txt (ključni popravek) Lokacija v Cloudflare
Cloudflare Dashboard → izbrana domena → Security → Settings → Manage your robots.txt
Napačna nastavitev (vzrok težave)
Možnost:
Instruct AI bots not to scrape content
Ta nastavitev povzroči, da Cloudflare:
sam ustvari ali spremeni robots.txt,
doda direktivo Content-signal,
s tem povzroči napake v Google Search Console.
Pravilna nastavitev
Izbrati je treba:
Disable robots.txt configuration
Spremembo je potrebno shraniti.
Korak 3: Končna verifikacija Preverjanje robots.txt
V brskalniku ponovno odpri:
Datoteka mora:
ustrezati vsebini na strežniku,
ne vsebovati Content-signal,
ne vsebovati Cloudflare “Managed” oznak.
Google Search Console
V Google Search Console:
Settings → robots.txt
klikni Validate fix
Napaka se običajno odpravi v nekaj minutah do nekaj ur.
Pogoste napake in priporočila
Nikoli ne blokiraj User-agent: * z Disallow: /
Ne uporabljaj nestandardnih direktiv v robots.txt
Vedno preveri robots.txt prek brskalnika
Cloudflare naj ne bo “source of truth” za robots.txt
Priporočena dobra praksa za naprej
robots.txt upravljaj izključno na strežniku,
Cloudflare uporabljaj za:
WAF pravila,
bot management,
rate limiting,
za signaliziranje “no AI training” raje uporabi HTTP header:
X-Robots-Tag: noai, noimageai
Povzetek
Težava z robots.txt je bila posledica konflikta med Cloudflare in standardi Google Search Console. Rešitev je v jasni ločitvi odgovornosti: robots.txt naj upravlja strežnik, ne Cloudflare.
