odprava_robots.txt_napake_v_google_search_console
Differences
This shows you the differences between two versions of the page.
| Next revision | Previous revision | ||
| odprava_robots.txt_napake_v_google_search_console [2026/01/04 15:11] – created sistemc | odprava_robots.txt_napake_v_google_search_console [2026/01/04 15:23] (current) – sistemc | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | Odprava robots.txt napake | + | To lahko direktno skopiraš |
| + | ====== Odprava robots.txt napake v Google Search Console ====== | ||
| (WordPress + Cloudflare + AI crawlerji) | (WordPress + Cloudflare + AI crawlerji) | ||
| - | Namen dokumenta | + | ===== 🎯 Namen dokumenta |
| Ta dokument opisuje: | Ta dokument opisuje: | ||
| - | zakaj pride do napake robots.txt is not valid / Unknown directive v Google Search Console, | + | * zakaj pride do napake |
| + | * kako pravilno upravljati **robots.txt**, | ||
| + | * kako blokirati **AI crawlerje**, | ||
| + | * kako preprečiti ponovitev iste napake v prihodnje. | ||
| - | kako pravilno upravljati robots.txt, kadar uporabljaš Cloudflare + WordPress, | + | Napaka je bila zaznana ob dodajanju domene v orodje: |
| + | * https:// | ||
| - | kako blokirati AI crawlerje, ne da bi poškodoval SEO, | + | ----- |
| - | kako preprečiti ponovitev iste napake v prihodnje. | + | ===== Velja za ===== |
| - | Dokument temelji na realnem primeru domene cisoaass.si. | + | * **WordPress** |
| + | * **Cloudflare (proxy / CDN)** | ||
| + | * **Google Search Console** | ||
| + | * spletne strani, ki želijo: | ||
| + | * ohraniti SEO indeksacijo, | ||
| + | * omejiti AI crawlerje. | ||
| - | Kratek povzetek problema (TL;DR) | + | ----- |
| - | Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku, | + | ===== 🧠 Povzetek problema (TL;DR) ===== |
| - | temveč tega, da je Cloudflare prepisoval robots.txt in vanj dodal nestandardno direktivo: | + | |
| - | Content-signal: search=yes, | + | Če uporabljaš: |
| + | * WordPress | ||
| + | * Cloudflare | ||
| + | * Google Search Console | ||
| - | Google | + | lahko Google |
| - | Ključni koncept (zelo pomembno) | + | Razlog je v tem, da **Cloudflare prepiše robots.txt** in vanj doda **nestandardno direktivo**, |
| - | Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja: | + | ----- |
| - | https:// | + | ===== 🔍 Root cause (kaj je bilo v resnici narobe) ===== |
| + | Cloudflare ima možnost **samodejnega upravljanja robots.txt**, | ||
| - | Če: | ||
| - | je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku, | ||
| - | potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare). | + | Content-signal: |
| - | Simptomi napake | ||
| - | V Google Search Console se pojavijo: | + | Ta direktiva: |
| - | robots.txt is not valid | + | * ni del uradnega robots.txt standarda, |
| + | * je Google Search Console ne prepozna, | ||
| + | * povzroči napake: | ||
| + | * **robots.txt is not valid** | ||
| + | * **Unknown directive** | ||
| + | * **Links are not crawlable** | ||
| - | Unknown directive | + | Pomembno: |
| - | Links are not crawlable | + | * Google vedno bere samo **eno** datoteko: |
| + | * https:// | ||
| + | * če se ta razlikuje od datoteke na strežniku, | ||
| + | robots.txt prepisuje **proxy ali aplikacija** (najpogosteje Cloudflare). | ||
| - | Napake ostanejo prisotne tudi po tem, ko: | + | ----- |
| - | popraviš robots.txt na strežniku, | + | ===== ❌ Napačen primer ===== |
| - | klikneš Validate fix, | + | Primer robots.txt, ki povzroči napako: |
| - | zahtevaš Recrawl. | ||
| - | Diagnostika: | ||
| - | 1. Preverjanje v brskalniku | ||
| - | Odpri: | + | User-agent: * |
| + | Content-signal: | ||
| + | Allow: / | ||
| - | https:// | ||
| + | Posledica: | ||
| - | Če vidiš: | + | * Google označi robots.txt kot neveljaven, |
| + | * crawling je omejen, | ||
| + | * v Search Console se pojavijo opozorila. | ||
| - | BEGIN Cloudflare Managed content | + | ----- |
| - | ali direktivo Content-signal | + | ===== ✅ Pravilna rešitev ===== |
| - | potem robots.txt ne prihaja s strežnika, ampak ga generira Cloudflare. | + | Rešitev ima **dva obvezna koraka**. |
| - | Ciljno stanje (pravilna konfiguracija) | + | ----- |
| - | Iskalniki (Googlebot, Bingbot): dovoljeni | + | ==== Korak 1: Pravilni robots.txt na strežniku ==== |
| - | AI crawlerji | + | Robots.txt mora biti nameščen v **WordPress root direktoriju** |
| + | (tam, kjer so mape `wp-admin`, `wp-content`, `wp-includes`). | ||
| - | robots.txt | + | Priporočena vsebina |
| - | Cloudflare ne upravlja robots.txt | ||
| - | Google Search Console je brez napak | + | Block AI training & AI crawlers |
| - | Korak 1: Pravilni robots.txt na strežniku (origin) | ||
| - | Lokacija | ||
| - | |||
| - | Robots.txt mora biti v WordPress root direktoriju (kjer so wp-admin, wp-content, wp-includes). | ||
| - | |||
| - | Primer: | ||
| - | |||
| - | / | ||
| - | |||
| - | Priporočena vsebina (production-ready) | ||
| - | # Block AI training & AI crawlers | ||
| User-agent: GPTBot | User-agent: GPTBot | ||
| Disallow: / | Disallow: / | ||
| Line 124: | Line 132: | ||
| Disallow: / | Disallow: / | ||
| - | # Allow search engines | + | Allow search engines |
| User-agent: * | User-agent: * | ||
| Allow: / | Allow: / | ||
| - | Sitemap: https://cisoaass.si/ | + | Sitemap: https://example.si/ |
| - | Zakaj je to pravilno | ||
| - | AI crawlerji so eksplicitno blokirani | + | Ta konfiguracija: |
| - | iskalniki niso omejeni | + | * blokira AI crawlerje, |
| + | * ne vpliva na Google / Bing indeksacijo, | ||
| + | * je skladna z robots.txt standardom. | ||
| - | ni nestandardnih direktiv | + | ----- |
| - | Google Search Console to sprejme brez opozoril | + | ==== Korak 2: Izklop Cloudflare upravljanja robots.txt ==== |
| - | Korak 2: Izklop | + | V Cloudflare |
| - | Lokacija v Cloudflare | + | |
| - | Cloudflare Dashboard → domena → | + | * izberi domeno, |
| - | Security → Settings | + | * pojdi na **Security → Settings**, |
| + | * poišči razdelek **Manage your robots.txt**, | ||
| + | * izberi možnost: | ||
| + | * **Disable robots.txt configuration**, | ||
| + | * shrani spremembo. | ||
| - | Napačna nastavitev (vzrok problema) | + | S tem: |
| - | Izbrana možnost: | + | * Cloudflare preneha generirati robots.txt, |
| + | * Google vidi robots.txt s strežnika, | ||
| + | * napaka v Google Search Console izgine. | ||
| - | Instruct AI bots not to scrape content | + | ----- |
| - | Ta možnost: | + | ===== 🧪 Diagnostika (če se zatakne) ===== |
| - | povzroči, da Cloudflare sam generira robots.txt | + | Vedno preveri, kaj Google dejansko vidi: |
| - | doda direktivo Content-signal | ||
| - | povzroči napake v GSC | ||
| - | Pravilna nastavitev | + | https:// |
| - | Izberi: | ||
| - | Disable robots.txt configuration | + | Če vidiš: |
| - | Shrani spremembo (Save). | + | * direktivo **Content-signal**, |
| + | * oznake **Cloudflare Managed content**, | ||
| - | Korak 3: Preverjanje po spremembi | + | potem Cloudflare še vedno prepisuje |
| - | 1. Preveri | + | |
| - | https:// | + | |
| + | ----- | ||
| - | Datoteka mora: | + | ===== 🛡️ Kako preprečiti ponovitev napake ===== |
| - | ustrezati tisti na strežniku, | + | * robots.txt vedno upravljaj izključno |
| + | * Cloudflare ne uporabljaj za generiranje robots.txt, | ||
| + | * ne dodajaj nestandardnih direktiv v robots.txt, | ||
| + | * za omejevanje AI raje uporabi HTTP headerje. | ||
| - | ne vsebovati Content-signal, | + | Primer HTTP headerja: |
| - | ne vsebovati Cloudflare “Managed content” oznak. | ||
| - | 2. Google Search Console | ||
| - | Settings → robots.txt | + | X-Robots-Tag: |
| - | klikni Validate fix | ||
| - | |||
| - | Napake običajno izginejo v nekaj minutah do nekaj ur. | ||
| - | |||
| - | Pogoste pasti in kako se jim izogniti | ||
| - | |||
| - | Ne blokiraj User-agent: * z Disallow: / (to ubije SEO) | ||
| - | |||
| - | Ne uporabljaj nestandardnih direktiv v robots.txt | ||
| - | |||
| - | Vedno preveri kaj vidi brskalnik, ne samo datoteko na strežniku | ||
| - | |||
| - | Cloudflare naj ne bo “source of truth” za robots.txt | ||
| - | |||
| - | Priporočilo za naprej (best practice) | ||
| - | |||
| - | robots.txt upravljaj na strežniku | ||
| - | |||
| - | Cloudflare uporabi za: | ||
| - | |||
| - | WAF pravila, | ||
| - | |||
| - | bot management, | ||
| - | |||
| - | rate limiting | ||
| - | |||
| - | če želiš “no AI training” signal, uporabi raje: | ||
| - | |||
| - | X-Robots-Tag: | ||
| + | ----- | ||
| - | (HTTP header, ne robots.txt) | + | ===== 📌 Povzetek v eni stavki ===== |
| - | Povzetek | + | Napaka |
| - | Robots.txt mora biti standarden, serviran iz origin strežnika, Cloudflare pa ne sme dodajati nestandardnih direktiv. | ||
odprava_robots.txt_napake_v_google_search_console.1767539463.txt.gz · Last modified: by sistemc
