Cum interpretează Google specificațiile robots.txt

Roboții automatizați ai Google, cunoscuți sub numele de
crawlers, suportă
Protocolul de Excludere a Roboților (REP).
Acest lucru înseamnă că, înainte de a accesa un site, roboții Google descarcă și analizează fișierul robots.txt al site-ului pentru a extrage informații despre care părți ale site-ului pot fi accesate. REP nu se aplică roboților Google care sunt controlați de utilizatori (de exemplu, abonamente la fluxuri) sau roboților care sunt utilizați pentru a crește siguranța utilizatorilor (de exemplu, analiza malware).

Această pagină descrie interpretarea REP de către Google. Pentru standardul original, consultați
RFC 9309.

Ce este un fișier robots.txt

Dacă nu doriți ca roboții să acceseze secțiuni ale site-ului dvs., puteți crea un fișier robots.txt cu reguli corespunzătoare. Un fișier robots.txt este un fișier text care conține reguli despre care roboți pot accesa care părți ale unui site. De exemplu, fișierul robots.txt pentru example.com poate arăta astfel:

# Acest fișier robots.txt controlează accesarea URL-urilor sub https://example.com.
# Toți roboții nu au permisiunea de a accesa fișierele din directorul "includes", cum ar fi .css, .js, dar Google are nevoie de ele pentru redare, așa că Googlebot are permisiunea de a le accesa.
User-agent: *
Disallow: /includes/

User-agent: Googlebot
Allow: /includes/

Sitemap: https://example.com/sitemap.xml

Dacă sunteți nou în utilizarea robots.txt, începeți cu
introducerea în robots.txt. De asemenea, puteți găsi
sfaturi pentru crearea unui fișier robots.txt.

Locația fișierului și domeniul de valabilitate

Trebuie să plasați fișierul robots.txt în directorul de nivel superior al unui site, pe un protocol suportat. URL-ul pentru fișierul robots.txt este (ca și alte URL-uri) sensibil la majuscule și minuscule. În cazul Google Search, protocoalele suportate sunt HTTP, HTTPS și FTP. Pe HTTP și HTTPS, roboții accesează fișierul robots.txt cu o cerere HTTP non-condițională GET; pe FTP, roboții folosesc o comandă standard RETR (RETRIEVE), folosind autentificare anonimă.

Regulile listate în fișierul robots.txt se aplică doar gazdei, protocolului și numărului de port unde este găzduit fișierul robots.txt.

Exemple de URL-uri robots.txt valide

Tabelul următor conține exemple de URL-uri robots.txt și pentru ce căi URL sunt valabile. Prima coloană conține URL-ul unui fișier robots.txt, iar a doua coloană conține domeniile pentru care acel fișier robots.txt ar fi și nu ar fi valabil.

Exemple de URL-uri robots.txt
`https://example.com/robots.txt`	Acesta este cazul general. Nu este valabil pentru alte subdomenii, protocoale sau numere de port. Este valabil pentru toate fișierele din toate subdirectoarele de pe aceeași gazdă, protocol și număr de port. Valabil pentru: `https://example.com/` `https://example.com/folder/file` Nu este valabil pentru: `https://other.example.com/` `http://example.com/` `https://example.com:8181/`
`https://www.example.com/robots.txt`	Un fișier robots.txt pe un subdomeniu este valabil doar pentru acel subdomeniu. Valabil pentru: `https://www.example.com/` Nu este valabil pentru: `https://example.com/` `https://shop.www.example.com/` `https://www.shop.example.com/`
`https://example.com/folder/robots.txt`	Nu este un fișier robots.txt valabil. Roboții nu verifică fișierele robots.txt în subdirectoare.
`https://www.exämple.com/robots.txt`	IDN-urile sunt echivalente cu versiunile lor punycode. Vezi și RFC 3492. Valabil pentru: `https://www.exämple.com/` `https://xn--exmple-cua.com/` Nu este valabil pentru: `https://www.example.com/`
`ftp://example.com/robots.txt`	Valabil pentru: `ftp://example.com/` Nu este valabil pentru: `https://example.com/`
`https://212.96.82.21/robots.txt`	Un fișier robots.txt cu o adresă IP ca nume de gazdă este valabil doar pentru accesarea acelei adrese IP ca nume de gazdă. Nu este automat valabil pentru toate site-urile găzduite pe acea adresă IP (deși este posibil ca fișierul robots.txt să fie partajat, caz în care ar fi disponibil și sub numele de gazdă partajat). Valabil pentru: `https://212.96.82.21/` Nu este valabil pentru: `https://example.com/` (chiar dacă este găzduit pe `212.96.82.21`)
`https://example.com:443/robots.txt`	Numerele de port standard (`80` pentru HTTP, `443` pentru HTTPS, `21` pentru FTP) sunt echivalente cu numele de gazdă implicite. Valabil pentru: `https://example.com:443/` `https://example.com/` Nu este valabil pentru: `https://example.com:444/`
`https://example.com:8181/robots.txt`	Fișierele robots.txt pe numere de port non-standard sunt valabile doar pentru conținutul disponibil prin acele numere de port. Valabil pentru: `https://example.com:8181/` Nu este valabil pentru: `https://example.com/`

Gestionarea erorilor și codurilor de stare HTTP

Când se solicită un fișier robots.txt, codul de stare HTTP al răspunsului serverului afectează modul în care fișierul robots.txt va fi utilizat de roboții Google. Tabelul următor rezumă modul în care Googlebot tratează fișierele robots.txt pentru diferite coduri de stare HTTP.

Gestionarea erorilor și codurilor de stare HTTP
`2xx (succes)`	Codurile de stare HTTP care semnalează succesul determină roboții Google să proceseze fișierul robots.txt așa cum este furnizat de server.
`3xx (redirecționare)`	Google urmează cel puțin cinci salturi de redirecționare, așa cum este definit de RFC 1945, și apoi se oprește și tratează ca un `404` pentru fișierul robots.txt. Acest lucru se aplică și oricăror URL-uri interzise în lanțul de redirecționare, deoarece robotul nu a putut prelua regulile din cauza redirecționărilor. Google nu urmează redirecționările logice în fișierele robots.txt (cadre, JavaScript sau redirecționări de tip meta refresh).
`4xx (erori client)`	Roboții Google tratează toate erorile `4xx`, cu excepția `429`, ca și cum un fișier robots.txt valabil nu ar exista. Acest lucru înseamnă că Google presupune că nu există restricții de accesare. Nu utilizați codurile de stare `401` și `403` pentru a limita rata de accesare. Codurile de stare `4xx`, cu excepția `429`, nu au efect asupra ratei de accesare. Aflați cum să limitați rata de accesare.
`5xx (erori server)`	Dacă Google găsește un fișier robots.txt, dar nu poate să-l preia, Google urmează acest comportament: Pentru primele 12 ore, Google oprește accesarea site-ului, dar continuă să încerce să preia fișierul robots.txt. Dacă Google nu poate prelua o versiune nouă, pentru următoarele 30 de zile Google va folosi ultima versiune bună, continuând să încerce să preia o versiune nouă. O eroare `503 (serviciu indisponibil)` duce la încercări frecvente de reîncercare. Dacă nu există o versiune în cache disponibilă, Google presupune că nu există restricții de accesare. Dacă erorile nu sunt remediate după 30 de zile: Dacă site-ul este în general disponibil pentru Google, Google va acționa ca și cum nu ar exista un fișier robots.txt (dar va continua să verifice pentru o versiune nouă). Dacă site-ul are probleme generale de disponibilitate, Google va opri accesarea site-ului, continuând să solicite periodic un fișier robots.txt.
Alte erori	Un fișier robots.txt care nu poate fi preluat din cauza problemelor DNS sau de rețea, cum ar fi expirări de timp, răspunsuri invalide, conexiuni resetate sau întrerupte și erori de fragmentare HTTP, este tratat ca o eroare de server.

Caching

Google în general cachează conținutul fișierului robots.txt pentru până la 24 de ore, dar poate să-l cacheze mai mult în situații în care reîmprospătarea versiunii cache nu este posibilă (de exemplu, din cauza expirărilor de timp sau a erorilor 5xx). Răspunsul cache poate fi partajat de diferiți roboți. Google poate crește sau reduce durata de viață a cache-ului pe baza
max-age Cache-Control
din anteturile HTTP.

Formatul fișierului

Fișierul robots.txt trebuie să fie un fișier text simplu codificat
UTF-8 și liniile trebuie să fie separate prin CR, CR/LF sau LF.

Google ignoră liniile invalide din fișierele robots.txt, inclusiv
Marca de Ordine a Bytelor Unicode (BOM) la începutul fișierului robots.txt, și folosește doar liniile valide. De exemplu, dacă conținutul descărcat este în loc de reguli robots.txt, Google va încerca să parseze conținutul și să extragă regulile, ignorând tot restul.

În mod similar, dacă codificarea caracterelor fișierului robots.txt nu este UTF-8, Google poate ignora caracterele care nu fac parte din gama UTF-8, ceea ce poate face ca regulile robots.txt să fie invalide.

Google impune o limită de dimensiune a fișierului robots.txt de 500
kibibytes (KiB). Conținutul care depășește dimensiunea maximă a fișierului este ignorat. Puteți reduce dimensiunea fișierului robots.txt prin consolidarea regulilor care ar duce la un fișier robots.txt supradimensionat. De exemplu, plasați materialul exclus într-un director separat.

Sintaxa

Liniile valide din fișierul robots.txt constau dintr-un câmp, un colon și o valoare. Spațiile sunt opționale, dar recomandate pentru a îmbunătăți lizibilitatea. Spațiul de la începutul și sfârșitul liniei este ignorat. Pentru a include comentarii, precedați comentariul cu caracterul #. Rețineți că tot ce urmează după caracterul # va fi ignorat. Formatul general este <field>:<value><#optional-comment>.

Google suportă următoarele câmpuri (alte câmpuri, cum ar fi crawl-delay, nu sunt suportate):

user-agent: identifică pentru care robot se aplică regulile.
allow: o cale URL care poate fi accesată.
disallow: o cale URL care nu poate fi accesată.
sitemap: URL-ul complet al unui sitemap.

Câmpurile allow și disallow sunt, de asemenea, numite reguli (cunoscute și sub numele de directive). Aceste reguli sunt întotdeauna specificate sub forma rule: [path], unde [path] este opțional. În mod implicit, nu există restricții pentru accesarea de către roboții desemnați. Roboții ignoră regulile fără un [path].

Valoarea [path], dacă este specificată, este relativă la rădăcina site-ului de unde a fost preluat fișierul robots.txt (folosind același protocol, număr de port, gazdă și nume de domeniu). Valoarea căii trebuie să înceapă cu / pentru a desemna rădăcina, iar valoarea este sensibilă la majuscule și minuscule. Aflați mai multe despre
potrivirea URL-urilor pe baza valorilor căii.

`user-agent`

Linia user-agent identifică pentru care robot se aplică regulile. Consultați
roboții Google și șirurile de user-agent
pentru o listă cuprinzătoare de șiruri de user-agent pe care le puteți utiliza în fișierul dvs. robots.txt.

Valoarea liniei user-agent nu este sensibilă la majuscule și minuscule.

`disallow`

Regula disallow specifică căile care nu trebuie accesate de roboții identificați de linia user-agent cu care este grupată regula disallow. Roboții ignoră regula fără o cale.

Google nu poate indexa conținutul paginilor care sunt interzise pentru accesare, dar poate totuși să indexeze URL-ul și să-l afișeze în rezultatele căutării fără un fragment. Aflați cum să
blocați indexarea.

Valoarea regulii disallow este sensibilă la majuscule și minuscule.

Utilizare:

disallow: [path]

`allow`

Regula allow specifică căile care pot fi accesate de roboții desemnați. Când nu este specificată nicio cale, regula este ignorată.

Valoarea regulii allow este sensibilă la majuscule și minuscule.

Utilizare:

allow: [path]

`sitemap`

Google, Bing și alte motoare de căutare majore suportă câmpul sitemap în robots.txt, așa cum este definit de
sitemaps.org.

Valoarea câmpului sitemap este sensibilă la majuscule și minuscule.

Utilizare:

sitemap: [absoluteURL]

Linia [absoluteURL] indică locația unui fișier sitemap sau a unui index de sitemap. Trebuie să fie un URL complet calificat, incluzând protocolul și gazda, și nu trebuie să fie codificat URL. URL-ul nu trebuie să fie pe aceeași gazdă ca fișierul robots.txt. Puteți specifica mai multe câmpuri sitemap. Câmpul sitemap nu este legat de niciun agent utilizator specific și poate fi urmat de toți roboții, cu condiția să nu fie interzis pentru accesare.

De exemplu:

user-agent: otherbot
disallow: /kale

sitemap: https://example.com/sitemap.xml
sitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml

Gruparea liniilor și regulilor

Puteți grupa împreună regulile care se aplică mai multor agenți utilizatori prin repetarea liniilor user-agent pentru fiecare robot.

De exemplu:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

În acest exemplu există patru grupuri distincte de reguli:

Un grup pentru agentul utilizator “a”.
Un grup pentru agentul utilizator “b”.
Un grup pentru ambii agenți utilizatori “e” și “f”.
Un grup pentru agentul utilizator “h”.

Pentru descrierea tehnică a unui grup, consultați
secțiunea 2.1 din REP.

Ordinea de precedență pentru agenți utilizatori

Doar un singur grup este valabil pentru un anumit robot. Roboții Google determină grupul corect de reguli găsind în fișierul robots.txt grupul cu cel mai specific agent utilizator care se potrivește cu agentul utilizator al robotului. Alte grupuri sunt ignorate. Tot textul care nu se potrivește este ignorat (de exemplu, atât googlebot/1.2 cât și googlebot* sunt echivalente cu googlebot). Ordinea grupurilor în fișierul robots.txt este irelevantă.

Dacă există mai mult de un grup specific declarat pentru un agent utilizator, toate regulile din grupurile aplicabile agentului utilizator specific sunt combinate intern într-un singur grup. Grupurile specifice agentului utilizator și grupurile globale (*) nu sunt combinate.

Exemple

user-agent” tabindex=”-1″>Potrivirea câmpurilor `user-agent`

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

Așa ar alege roboții grupul relevant:

Grup urmat de fiecare robot
Googlebot News	`googlebot-news` urmează grupul 1, deoarece grupul 1 este cel mai specific grup.
Googlebot (web)	`googlebot` urmează grupul 3.
Googlebot Storebot	`Storebot-Google` urmează grupul 2, deoarece nu există un grup specific `Storebot-Google`.
Googlebot News (când accesează imagini)	Când accesează imagini, `googlebot-news` urmează grupul 1. `googlebot-news` nu accesează imaginile pentru Google Images, așa că urmează doar grupul 1.
Otherbot (web)	Alți roboți Google urmează grupul 2.
Otherbot (știri)	Alți roboți Google care accesează conținut de știri, dar nu se identifică ca `googlebot-news` urmează grupul 2. Chiar dacă există o intrare pentru un robot similar, este valabilă doar dacă se potrivește specific.

Gruparea regulilor

Dacă există mai multe grupuri într-un fișier robots.txt care sunt relevante pentru un agent utilizator specific, roboții Google combină intern grupurile. De exemplu:

user-agent: googlebot-news
disallow: /fish

user-agent: *
disallow: /carrots

user-agent: googlebot-news
disallow: /shrimp

Roboții grupează intern regulile pe baza agentului utilizator, de exemplu:

user-agent: googlebot-news
disallow: /fish
disallow: /shrimp

user-agent: *
disallow: /carrots

Regulile altele decât allow, disallow și user-agent sunt ignorate de parserul robots.txt. Acest lucru înseamnă că următorul fragment de robots.txt este tratat ca un singur grup, și astfel atât user-agent a cât și b sunt afectați de regula disallow: /:

user-agent: a
sitemap: https://example.com/sitemap.xml

user-agent: b
disallow: /

Când roboții procesează regulile robots.txt, ei ignoră linia sitemap. De exemplu, așa ar înțelege roboții fragmentul anterior de robots.txt:

user-agent: a
user-agent: b
disallow: /

Potrivirea URL-urilor pe baza valorilor căilor

Google folosește valoarea căii în regulile allow și disallow ca bază pentru a determina dacă o regulă se aplică unui URL specific pe un site. Acest lucru funcționează prin compararea regulii cu componenta căii URL-ului pe care robotul încearcă să-l acceseze. Caracterele non-ASCII de 7 biți dintr-o cale pot fi incluse ca caractere UTF-8 sau ca caractere codificate UTF-8 cu procent, conform
RFC 3986.

Google, Bing și alte motoare de căutare majore suportă o formă limitată de caractere wildcard pentru valorile căilor. Aceste caractere wildcard sunt:

* desemnează 0 sau mai multe instanțe ale oricărui caracter valid.
$ desemnează sfârșitul URL-ului.

Tabelul următor arată cum afectează caracterele wildcard diferite parsarea:

Exemple de potrivire a căilor
`/`	Se potrivește cu rădăcina și orice URL de nivel inferior.
`/*`	Echivalent cu `/`. Wildcard-ul final este ignorat.
`/$`	Se potrivește doar cu rădăcina. Orice URL de nivel inferior este permis pentru accesare.
`/fish`	Se potrivește cu orice cale care începe cu `/fish`. Rețineți că potrivirea este sensibilă la majuscule și minuscule. Se potrivește: `/fish` `/fish.` `/fish/salmon.` `/fishheads` `/fishheads/yummy.` `/fish.php?id=anything` Nu se potrivește: `/Fish.asp` `/catfish` `/?id=fish` `/desert/fish`
`/fish*`	Echivalent cu `/fish`. Wildcard-ul final este ignorat. Se potrivește: `/fish` `/fish.` `/fish/salmon.` `/fishheads` `/fishheads/yummy.` `/fish.php?id=anything` Nu se potrivește: `/Fish.asp` `/catfish` `/?id=fish` `/desert/fish`
`/fish/`	Se potrivește cu orice în folderul `/fish/`. Se potrivește: `/fish/` `/fish/?id=anything` `/fish/salmon.htm` Nu se potrivește: `/fish` `/fish.` `/animals/fish/` `/Fish/Salmon.asp`
`/*.php`	Se potrivește cu orice cale care conține `.php`. Se potrivește: `/index.php` `/filename.php` `/folder/filename.php` `/folder/filename.php?parameters` `/folder/any.php.file.` `/filename.php/` Nu se potrivește: `/` (chiar dacă se mapează la /index.php) `/windows.PHP`
`/*.php$`	Se potrivește cu orice cale care se termină cu `.php`. Se potrivește: `/filename.php` `/folder/filename.php` Nu se potrivește: `/filename.php?parameters` `/filename.php/` `/filename.php5` `/windows.PHP`
`/fish*.php`	Se potrivește cu orice cale care conține `/fish` și `.php`, în această ordine. Se potrivește: `/fish.php` `/fishheads/catfish.php?parameters` Nu se potrivește: `/Fish.PHP`

Ordinea de precedență pentru reguli

Când se potrivesc regulile robots.txt cu URL-urile, roboții folosesc cea mai specifică regulă pe baza lungimii căii regulii. În cazul regulilor conflictuale, inclusiv cele cu wildcard-uri, Google folosește regula cea mai puțin restrictivă.

Următoarele exemple demonstrează ce regulă vor aplica roboții Google pe un URL dat.

Situații exemplu
`https://example.com/page`	allow: /p disallow: / Regula aplicabilă: `allow: /p`, deoarece este mai specifică.
`https://example.com/folder/page`	allow: /folder disallow: /folder Regula aplicabilă: `allow: /folder`, deoarece în cazul regulilor conflictuale, Google folosește regula cea mai puțin restrictivă.
`https://example.com/page.htm`	allow: /page disallow: /.htm Regula aplicabilă: `disallow: /.htm`, deoarece calea regulii este mai lungă și se potrivește cu mai multe caractere din URL, deci este mai specifică.
`https://example.com/page.php5`	allow: /page disallow: /.ph Regula aplicabilă*: `allow: /page`, deoarece în cazul regulilor conflictuale, Google folosește regula cea mai puțin restrictivă.
`https://example.com/`	allow: /$ disallow: / Regula aplicabilă: `allow: /$`, deoarece este mai specifică.
`https://example.com/page.htm`	allow: /$ disallow: / Regula aplicabilă: `disallow: /`, deoarece regula `allow` se aplică doar pe URL-ul rădăcină.

Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Cum interpretează Google specificațiile robots.txt