User Tools

Site Tools


odprava_robots.txt_napake_v_google_search_console

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
odprava_robots.txt_napake_v_google_search_console [2026/01/04 15:11] – created sistemcodprava_robots.txt_napake_v_google_search_console [2026/01/04 15:23] (current) sistemc
Line 1: Line 1:
-Odprava robots.txt napake Google Search Console+To lahko direktno skopiraš DokuWiki editor in shraniš.
  
 +====== Odprava robots.txt napake v Google Search Console ======
 (WordPress + Cloudflare + AI crawlerji) (WordPress + Cloudflare + AI crawlerji)
  
-Namen dokumenta+===== 🎯 Namen dokumenta =====
  
 Ta dokument opisuje: Ta dokument opisuje:
  
-zakaj pride do napake robots.txt is not valid / Unknown directive v Google Search Console,+  * zakaj pride do napake **robots.txt is not valid / Unknown directive** v Google Search Console, 
 +  * kako pravilno upravljati **robots.txt**, kadar uporabljaš **Cloudflare + WordPress**, 
 +  * kako blokirati **AI crawlerje**, ne da bi poškodoval SEO, 
 +  * kako preprečiti ponovitev iste napake v prihodnje.
  
-kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress,+Napaka je bila zaznana ob dodajanju domene v orodje: 
 +  * https://pagespeed.web.dev/
  
-kako blokirati AI crawlerje, ne da bi poškodoval SEO,+-----
  
-kako preprečiti ponovitev iste napake v prihodnje.+===== Velja za =====
  
-Dokument temelji na realnem primeru domene cisoaass.si.+  * **WordPress** 
 +  * **Cloudflare (proxy / CDN)** 
 +  * **Google Search Console** 
 +  * spletne strani, ki želijo: 
 +    * ohraniti SEO indeksacijo, 
 +    * omejiti AI crawlerje.
  
-Kratek povzetek problema (TL;DR)+-----
  
-Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku, +===== 🧠 Povzetek problema (TL;DR) =====
-temveč tega, da je Cloudflare prepisoval robots.txt in vanj dodal nestandardno direktivo:+
  
-Content-signalsearch=yes,ai-train=no+Če uporabljaš:
  
 +  * WordPress
 +  * Cloudflare
 +  * Google Search Console
  
-Google Search Console te direktive ne podpirazato je robots.txt označen kot neveljaven.+lahko Google poročada je **robots.txt neveljaven**, tudi če je datoteka na strežniku videti pravilna.
  
-Ključni koncept (zelo pomembno)+Razlog je v tem, da **Cloudflare prepiše robots.txt** in vanj doda **nestandardno direktivo**, ki je Google Search Console ne podpira.
  
-Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja:+-----
  
-https://domena/robots.txt+===== 🔍 Root cause (kaj je bilo v resnici narobe) =====
  
 +Cloudflare ima možnost **samodejnega upravljanja robots.txt**, ki v datoteko doda naslednjo direktivo:
  
-Če: 
  
-je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku, 
  
-potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare).+Content-signal: search=yes,ai-train=no
  
-Simptomi napake 
  
-V Google Search Console se pojavijo:+Ta direktiva:
  
-robots.txt is not valid+  * ni del uradnega robots.txt standarda, 
 +  * je Google Search Console ne prepozna, 
 +  * povzroči napake: 
 +    * **robots.txt is not valid** 
 +    * **Unknown directive** 
 +    * **Links are not crawlable**
  
-Unknown directive+Pomembno:
  
-Links are not crawlable+  * Google vedno bere samo **eno** datoteko: 
 +    * https://example.si/robots.txt 
 +  * če se ta razlikuje od datoteke na strežniku, 
 +    robots.txt prepisuje **proxy ali aplikacija** (najpogosteje Cloudflare).
  
-Napake ostanejo prisotne tudi po tem, ko:+-----
  
-popraviš robots.txt na strežniku,+===== ❌ Napačen primer =====
  
-klikneš Validate fix,+Primer robots.txtki povzroči napako:
  
-zahtevaš Recrawl. 
  
-Diagnostika: kdo servira robots.txt? 
-1. Preverjanje v brskalniku 
  
-Odpri:+User-agent
 +Content-signal: search=yes,ai-train=no 
 +Allow: /
  
-https://tvoja-domena.si/robots.txt 
  
 +Posledica:
  
-Če vidiš:+  * Google označi robots.txt kot neveljaven, 
 +  * crawling je omejen, 
 +  * v Search Console se pojavijo opozorila.
  
-BEGIN Cloudflare Managed content+-----
  
-ali direktivo Content-signal+===== ✅ Pravilna rešitev =====
  
-potem robots.txt ne prihaja s strežnika, ampak ga generira Cloudflare.+Rešitev ima **dva obvezna koraka**.
  
-Ciljno stanje (pravilna konfiguracija)+-----
  
-Iskalniki (Googlebot, Bingbot)dovoljeni+==== Korak 1Pravilni robots.txt na strežniku ====
  
-AI crawlerji (GPTBotClaudeBotGoogle-Extended …): blokirani+Robots.txt mora biti nameščen v **WordPress root direktoriju** 
 +(tamkjer so mape `wp-admin`, `wp-content``wp-includes`).
  
-robots.txt vsebuje izključno standardne direktive+Priporočena vsebina robots.txt:
  
-Cloudflare ne upravlja robots.txt 
  
-Google Search Console je brez napak+Block AI training & AI crawlers
  
-Korak 1: Pravilni robots.txt na strežniku (origin) 
-Lokacija 
- 
-Robots.txt mora biti v WordPress root direktoriju (kjer so wp-admin, wp-content, wp-includes). 
- 
-Primer: 
- 
-/var/www/clients/client0/web1/web/robots.txt 
- 
-Priporočena vsebina (production-ready) 
-# Block AI training & AI crawlers 
 User-agent: GPTBot User-agent: GPTBot
 Disallow: / Disallow: /
Line 124: Line 132:
 Disallow: / Disallow: /
  
-Allow search engines+Allow search engines 
 User-agent: * User-agent: *
 Allow: / Allow: /
  
-Sitemap: https://cisoaass.si/sitemap_index.xml+Sitemap: https://example.si/sitemap_index.xml
  
-Zakaj je to pravilno 
  
-AI crawlerji so eksplicitno blokirani+Ta konfiguracija:
  
-iskalniki niso omejeni+  * blokira AI crawlerje, 
 +  * ne vpliva na Google / Bing indeksacijo, 
 +  * je skladna z robots.txt standardom.
  
-ni nestandardnih direktiv+-----
  
-Google Search Console to sprejme brez opozoril+==== Korak 2: Izklop Cloudflare upravljanja robots.txt ====
  
-Korak 2: Izklop Cloudflare “Manage your robots.txt” (ključni popravek) +Cloudflare nadzorni plošči:
-Lokacija v Cloudflare+
  
-Cloudflare Dashboard → domena → +  * izberi domeno, 
-Security → Settings → Manage your robots.txt+  * pojdi na **Security → Settings**, 
 +  * poišči razdelek **Manage your robots.txt**, 
 +  * izberi možnost: 
 +    * **Disable robots.txt configuration**, 
 +  * shrani spremembo.
  
-Napačna nastavitev (vzrok problema)+S tem:
  
-Izbrana možnost:+  * Cloudflare preneha generirati robots.txt, 
 +  * Google vidi robots.txt s strežnika, 
 +  * napaka v Google Search Console izgine.
  
-Instruct AI bots not to scrape content+-----
  
-Ta možnost:+===== 🧪 Diagnostika (če se zatakne) =====
  
-povzročida Cloudflare sam generira robots.txt+Vedno preverikaj Google dejansko vidi:
  
-doda direktivo Content-signal 
  
-povzroči napake v GSC 
  
-Pravilna nastavitev+https://example.si/robots.txt
  
-Izberi: 
  
-Disable robots.txt configuration+Če vidiš:
  
-Shrani spremembo (Save).+  * direktivo **Content-signal**, 
 +  * oznake **Cloudflare Managed content**,
  
-Korak 3: Preverjanje po spremembi +potem Cloudflare še vedno prepisuje robots.txt in je treba ponovno preveriti nastavitve.
-1. Preveri robots.txt v brskalniku +
-https://cisoaass.si/robots.txt+
  
 +-----
  
-Datoteka mora:+===== 🛡️ Kako preprečiti ponovitev napake =====
  
-ustrezati tisti na strežniku,+  * robots.txt vedno upravljaj izključno na strežniku, 
 +  * Cloudflare ne uporabljaj za generiranje robots.txt, 
 +  * ne dodajaj nestandardnih direktiv v robots.txt, 
 +  * za omejevanje AI raje uporabi HTTP headerje.
  
-ne vsebovati Content-signal,+Primer HTTP headerja:
  
-ne vsebovati Cloudflare “Managed content” oznak. 
  
-2. Google Search Console 
  
-Settings → robots.txt+X-Robots-Tag: noai, noimageai
  
-klikni Validate fix 
- 
-Napake običajno izginejo v nekaj minutah do nekaj ur. 
- 
-Pogoste pasti in kako se jim izogniti 
- 
-Ne blokiraj User-agent: * z Disallow: / (to ubije SEO) 
- 
-Ne uporabljaj nestandardnih direktiv v robots.txt 
- 
-Vedno preveri kaj vidi brskalnik, ne samo datoteko na strežniku 
- 
-Cloudflare naj ne bo “source of truth” za robots.txt 
- 
-Priporočilo za naprej (best practice) 
- 
-robots.txt upravljaj na strežniku 
- 
-Cloudflare uporabi za: 
- 
-WAF pravila, 
- 
-bot management, 
- 
-rate limiting 
- 
-če želiš “no AI training” signal, uporabi raje: 
- 
-X-Robots-Tag: noai, noimageai 
  
 +-----
  
-(HTTP header, ne robots.txt)+===== 📌 Povzetek v eni stavki =====
  
-Povzetek eni povedi+Napaka robots.txt ni bila posledica WordPressa, temveč tega, da je Cloudflare prepisoval robots.txt z nestandardnimi direktivami, ki jih Google Search Console ne podpira.
  
-Robots.txt mora biti standarden, serviran iz origin strežnika, Cloudflare pa ne sme dodajati nestandardnih direktiv. 
odprava_robots.txt_napake_v_google_search_console.1767539463.txt.gz · Last modified: by sistemc