To lahko direktno skopiraš v DokuWiki editor in shraniš.
(WordPress + Cloudflare + AI crawlerji)
Ta dokument opisuje:
Napaka je bila zaznana ob dodajanju domene v orodje:
Če uporabljaš:
lahko Google poroča, da je robots.txt neveljaven, tudi če je datoteka na strežniku videti pravilna.
Razlog je v tem, da Cloudflare prepiše robots.txt in vanj doda nestandardno direktivo, ki je Google Search Console ne podpira.
Cloudflare ima možnost samodejnega upravljanja robots.txt, ki v datoteko doda naslednjo direktivo:
Content-signal: search=yes,ai-train=no
Ta direktiva:
Pomembno:
robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).
Primer robots.txt, ki povzroči napako:
User-agent: * Content-signal: search=yes,ai-train=no Allow: /
Posledica:
Rešitev ima dva obvezna koraka.
Robots.txt mora biti nameščen v WordPress root direktoriju (tam, kjer so mape `wp-admin`, `wp-content`, `wp-includes`).
Priporočena vsebina robots.txt:
Block AI training & AI crawlers
User-agent: GPTBot Disallow: /
User-agent: ChatGPT-User Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: PerplexityBot Disallow: /
User-agent: CCBot Disallow: /
User-agent: Amazonbot Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Applebot-Extended Disallow: /
User-agent: meta-externalagent Disallow: /
Allow search engines
User-agent: * Allow: /
Sitemap: https://example.si/sitemap_index.xml
Ta konfiguracija:
V Cloudflare nadzorni plošči:
S tem:
Vedno preveri, kaj Google dejansko vidi:
Če vidiš:
potem Cloudflare še vedno prepisuje robots.txt in je treba ponovno preveriti nastavitve.
Primer HTTP headerja:
X-Robots-Tag: noai, noimageai
Napaka v robots.txt ni bila posledica WordPressa, temveč tega, da je Cloudflare prepisoval robots.txt z nestandardnimi direktivami, ki jih Google Search Console ne podpira.