odprava_robots.txt_napake_v_google_search_console
Differences
This shows you the differences between two versions of the page.
| Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
| odprava_robots.txt_napake_v_google_search_console [2026/01/04 15:13] – sistemc | odprava_robots.txt_napake_v_google_search_console [2026/01/04 15:23] (current) – sistemc | ||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | Odprava robots.txt napake | + | To lahko direktno skopiraš |
| + | ====== Odprava robots.txt napake v Google Search Console ====== | ||
| (WordPress + Cloudflare + AI crawlerji) | (WordPress + Cloudflare + AI crawlerji) | ||
| - | Namen dokumenta | + | ===== 🎯 Namen dokumenta |
| - | Ta dokument opisuje | + | Ta dokument opisuje: |
| - | Napaka je bila zaznana med analizo spletne strani z orodjem | + | * zakaj pride do napake **robots.txt is not valid / Unknown directive** v Google |
| - | (https:// | + | * kako pravilno upravljati **robots.txt**, kadar uporabljaš **Cloudflare + WordPress**, |
| - | ), ki je opozorilo na težave z dostopnostjo in indeksiranjem strani. | + | * kako blokirati **AI crawlerje**, ne da bi poškodoval SEO, |
| + | * kako preprečiti ponovitev iste napake v prihodnje. | ||
| - | Dokument | + | Napaka |
| + | * https:// | ||
| - | sistemskim administratorjem, | + | ----- |
| - | razvijalcem, | + | ===== Velja za ===== |
| - | SEO in varnostnim ekipam, | + | * **WordPress** |
| + | * **Cloudflare (proxy / CDN)** | ||
| + | * **Google Search Console** | ||
| + | * spletne strani, ki želijo: | ||
| + | * ohraniti | ||
| + | * omejiti AI crawlerje. | ||
| - | ter vsem, ki upravljajo WordPress strani za proxyjem (Cloudflare). | + | ----- |
| - | Kaj ta dokument pojasnjuje | + | ===== 🧠 Povzetek problema (TL;DR) ===== |
| - | V nadaljevanju je razloženo: | + | Če uporabljaš: |
| - | zakaj pride do napake robots.txt is not valid / Unknown directive, | + | * WordPress |
| + | * Cloudflare | ||
| + | * Google Search Console | ||
| - | kako pravilno upravljati | + | lahko Google poroča, da je **robots.txt |
| - | kako blokirati AI crawlerje, ne da bi to negativno vplivalo na SEO, | + | Razlog je v tem, da **Cloudflare prepiše robots.txt** in vanj doda **nestandardno direktivo**, ki je Google Search Console ne podpira. |
| - | kako preprečiti ponovitev iste napake v prihodnje. | + | ----- |
| - | Kratek povzetek problema | + | ===== 🔍 Root cause (kaj je bilo v resnici narobe) ===== |
| + | |||
| + | Cloudflare ima možnost **samodejnega upravljanja robots.txt**, | ||
| - | Napaka v Google Search Console ni bila posledica WordPressa ali napačnega robots.txt na strežniku. | ||
| - | Do napake je prišlo zato, ker je Cloudflare samodejno generiral robots.txt in vanj dodal nestandardno direktivo: | ||
| Content-signal: | Content-signal: | ||
| - | Google Search Console te direktive ne podpira, zato je robots.txt označil kot neveljaven, kar je povzročilo dodatna opozorila o omejenem crawl dostopu. | + | Ta direktiva: |
| - | Ključni koncept (zelo pomembno) | + | * ni del uradnega robots.txt standarda, |
| + | * je Google Search Console ne prepozna, | ||
| + | * povzroči napake: | ||
| + | * **robots.txt is not valid** | ||
| + | * **Unknown directive** | ||
| + | * **Links are not crawlable** | ||
| - | Vedno obstaja samo en robots.txt, ki ga Google dejansko uporablja: | + | Pomembno: |
| - | https:// | + | * Google vedno bere samo **eno** datoteko: |
| + | * https:// | ||
| + | * če se ta razlikuje od datoteke na strežniku, | ||
| + | robots.txt prepisuje **proxy ali aplikacija** (najpogosteje Cloudflare). | ||
| + | ----- | ||
| - | Če: | + | ===== ❌ Napačen primer ===== |
| - | je vsebina datoteke na strežniku drugačna od tiste, ki jo vidiš v brskalniku, | + | Primer robots.txt, ki povzroči napako: |
| - | potem robots.txt prepisuje proxy ali aplikacija (najpogosteje Cloudflare). | ||
| - | Popravljanje robots.txt samo na strežniku v tem primeru ni dovolj. | ||
| - | Simptomi napake | + | User-agent: * |
| + | Content-signal: | ||
| + | Allow: / | ||
| - | V Google Search Console se lahko pojavijo: | ||
| - | robots.txt is not valid | + | Posledica: |
| - | Unknown directive | + | * Google označi robots.txt kot neveljaven, |
| + | * crawling je omejen, | ||
| + | * v Search Console se pojavijo opozorila. | ||
| - | Links are not crawlable | + | ----- |
| - | Napake pogosto ostanejo prisotne tudi po tem, ko: | + | ===== ✅ Pravilna rešitev ===== |
| - | popraviš robots.txt na strežniku, | + | Rešitev ima **dva obvezna koraka**. |
| - | klikneš Validate fix, | + | ----- |
| - | zahtevaš ponovno indeksiranje. | + | ==== Korak 1: Pravilni robots.txt na strežniku ==== |
| - | Diagnostika: | + | Robots.txt mora biti nameščen |
| - | Preverjanje | + | (tam, kjer so mape `wp-admin`, `wp-content`, |
| - | Odpri naslednji URL: | + | Priporočena vsebina robots.txt: |
| - | https:// | ||
| - | |||
| - | |||
| - | Če vidiš: | ||
| - | |||
| - | komentarje v stilu Cloudflare Managed content, | ||
| - | |||
| - | ali direktivo Content-signal, | ||
| - | |||
| - | potem robots.txt ne prihaja s strežnika, temveč ga generira Cloudflare. | ||
| - | |||
| - | Ciljno stanje (pravilna konfiguracija) | ||
| - | |||
| - | Končna, pravilna konfiguracija mora zagotavljati: | ||
| - | |||
| - | da so iskalniki (Googlebot, Bingbot) dovoljeni, | ||
| - | |||
| - | da so AI crawlerji (GPTBot, ClaudeBot, Google-Extended …) blokirani, | ||
| - | |||
| - | da robots.txt vsebuje izključno standardne direktive, | ||
| - | |||
| - | da Cloudflare ne upravlja robots.txt, | ||
| - | |||
| - | da Google Search Console ne prikazuje več napak. | ||
| - | |||
| - | Korak 1: Pravilni robots.txt na strežniku (origin) | ||
| - | Robots.txt mora biti nameščen v WordPress root direktoriju | + | Block AI training & AI crawlers |
| - | (tam, kjer se nahajajo wp-admin, wp-content, wp-includes). | + | |
| - | Priporočena vsebina robots.txt | ||
| - | # Block AI training & AI crawlers | ||
| User-agent: GPTBot | User-agent: GPTBot | ||
| Disallow: / | Disallow: / | ||
| Line 141: | Line 132: | ||
| Disallow: / | Disallow: / | ||
| - | # Allow search engines | + | Allow search engines |
| User-agent: * | User-agent: * | ||
| Allow: / | Allow: / | ||
| Line 150: | Line 142: | ||
| Ta konfiguracija: | Ta konfiguracija: | ||
| - | blokira AI crawlerje, | + | * blokira AI crawlerje, |
| + | * ne vpliva na Google / Bing indeksacijo, | ||
| + | * je skladna z robots.txt standardom. | ||
| - | ohranja normalno indeksiranje, | + | ----- |
| - | je v celoti skladna s standardom | + | ==== Korak 2: Izklop Cloudflare upravljanja |
| - | Korak 2: Izklop | + | V Cloudflare |
| - | Lokacija v Cloudflare | + | |
| - | Cloudflare Dashboard → izbrana domena → | + | * izberi domeno, |
| - | Security → Settings | + | * pojdi na **Security → Settings**, |
| + | * poišči razdelek **Manage your robots.txt**, | ||
| + | * izberi možnost: | ||
| + | * **Disable robots.txt configuration**, | ||
| + | * shrani spremembo. | ||
| - | Napačna nastavitev (vzrok težave) | + | S tem: |
| - | Možnost: | + | * Cloudflare preneha generirati robots.txt, |
| + | * Google vidi robots.txt s strežnika, | ||
| + | * napaka v Google Search Console izgine. | ||
| - | Instruct AI bots not to scrape content | + | ----- |
| - | Ta nastavitev povzroči, da Cloudflare: | + | ===== 🧪 Diagnostika (če se zatakne) ===== |
| - | sam ustvari ali spremeni robots.txt, | + | Vedno preveri, kaj Google dejansko vidi: |
| - | doda direktivo Content-signal, | ||
| - | s tem povzroči napake v Google Search Console. | ||
| - | |||
| - | Pravilna nastavitev | ||
| - | |||
| - | Izbrati je treba: | ||
| - | |||
| - | Disable robots.txt configuration | ||
| - | |||
| - | Spremembo je potrebno shraniti. | ||
| - | |||
| - | Korak 3: Končna verifikacija | ||
| - | Preverjanje robots.txt | ||
| - | |||
| - | V brskalniku ponovno odpri: | ||
| https:// | https:// | ||
| - | Datoteka mora: | + | Če vidiš: |
| - | ustrezati vsebini na strežniku, | + | * direktivo **Content-signal**, |
| + | * oznake **Cloudflare Managed content**, | ||
| - | ne vsebovati Content-signal, | + | potem Cloudflare še vedno prepisuje robots.txt in je treba ponovno preveriti nastavitve. |
| - | ne vsebovati Cloudflare “Managed” oznak. | + | ----- |
| - | Google Search Console | + | ===== 🛡️ Kako preprečiti ponovitev napake ===== |
| - | V Google Search Console: | + | * robots.txt vedno upravljaj izključno na strežniku, |
| + | * Cloudflare ne uporabljaj za generiranje robots.txt, | ||
| + | * ne dodajaj nestandardnih direktiv v robots.txt, | ||
| + | * za omejevanje AI raje uporabi HTTP headerje. | ||
| - | Settings → robots.txt | + | Primer HTTP headerja: |
| - | klikni Validate fix | ||
| - | Napaka se običajno odpravi v nekaj minutah do nekaj ur. | ||
| - | Pogoste napake in priporočila | + | X-Robots-Tag: |
| - | Nikoli ne blokiraj User-agent: * z Disallow: / | ||
| - | Ne uporabljaj nestandardnih direktiv v robots.txt | + | ----- |
| - | Vedno preveri robots.txt prek brskalnika | + | ===== 📌 Povzetek v eni stavki ===== |
| - | + | ||
| - | Cloudflare naj ne bo “source of truth” za robots.txt | + | |
| - | + | ||
| - | Priporočena dobra praksa za naprej | + | |
| - | + | ||
| - | robots.txt upravljaj izključno na strežniku, | + | |
| - | + | ||
| - | Cloudflare uporabljaj za: | + | |
| - | + | ||
| - | WAF pravila, | + | |
| - | + | ||
| - | bot management, | + | |
| - | + | ||
| - | rate limiting, | + | |
| - | + | ||
| - | za signaliziranje “no AI training” raje uporabi HTTP header: | + | |
| - | + | ||
| - | X-Robots-Tag: | + | |
| - | Povzetek | + | Napaka v robots.txt ni bila posledica WordPressa, temveč tega, da je Cloudflare prepisoval robots.txt z nestandardnimi direktivami, |
| - | Težava z robots.txt je bila posledica konflikta med Cloudflare in standardi Google Search Console. | ||
| - | Rešitev je v jasni ločitvi odgovornosti: | ||
odprava_robots.txt_napake_v_google_search_console.1767539636.txt.gz · Last modified: by sistemc
