6MIN
Înapoi la Ghiduri Tehnice
Master GuideGhiduri

Prezentare generală a crawlerelor și fetcherelor Google (user agents)

Prezentare generală a crawlerelor și fetcherelor Google (user agents) Google utilizează crawlere și fetchere pentru a efectua acțiuni pentru produsele sale, fie automat, fie declanșate de cererea utilizatorului. Crawlerul (uneori numit și “robot” sau “spider”) este un termen generic pentru orice program utilizat pentru a descoperi și scana automat site-uri web. Fetcherele acționează ca un […]

Voice Reader
Technical TeamAdvancedSystems
8 aprilie 2026
6 min citire
Prezentare generală a crawlerelor și fetcherelor Google (user agents)

Prezentare generală a crawlerelor și fetcherelor Google (user agents)

Google utilizează crawlere și fetchere pentru a efectua acțiuni pentru produsele sale, fie automat, fie declanșate de cererea utilizatorului. Crawlerul (uneori numit și “robot” sau “spider”) este un termen generic pentru orice program utilizat pentru a
descoperi și scana automat site-uri web.
Fetcherele acționează ca un program similar cu
wget, care de obicei face o singură cerere în numele unui utilizator. Clienții Google se încadrează în trei categorii:

Crawlere comune Crawlerele comune utilizate pentru produsele Google (cum ar fi
Googlebot). Acestea respectă întotdeauna regulile robots.txt pentru crawl-urile automate.
Crawlere pentru cazuri speciale Crawlerele pentru cazuri speciale sunt similare cu crawlerele comune, dar sunt utilizate de produse specifice unde există un acord între site-ul scanat și produsul Google despre procesul de crawl. De exemplu, AdsBot ignoră agentul utilizator global din robots.txt (*) cu permisiunea editorului de anunțuri.
Fetchere declanșate de utilizator Fetcherele declanșate de utilizator fac parte din instrumente și funcții de produs unde utilizatorul final declanșează o cerere de fetch. De exemplu,
Google Site Verifier
acționează la cererea unui utilizator.

Proprietăți tehnice ale crawlerelor și fetcherelor Google

Crawlerele și fetcherele Google sunt proiectate să ruleze simultan pe mii de mașini pentru a îmbunătăți performanța și a se adapta la creșterea web-ului. Pentru a optimiza utilizarea lățimii de bandă, aceste clienți sunt distribuiți în mai multe centre de date din întreaga lume, astfel încât să fie localizați aproape de site-urile pe care le-ar putea accesa. Prin urmare, jurnalele dvs. pot arăta vizite de la mai multe adrese IP. Google egresează în principal de la adrese IP din Statele Unite. În cazul în care Google detectează că un site blochează cererile din Statele Unite, poate încerca să scaneze de la adrese IP situate în alte țări.

Protocoale de transfer suportate

Crawlerele și fetcherele Google suportă HTTP/1.1 și
HTTP/2. Crawlerele vor utiliza versiunea de protocol care oferă cea mai bună performanță de crawl și pot schimba protocoalele între sesiunile de crawl în funcție de statisticile anterioare de crawl. Versiunea de protocol implicită utilizată de crawlerele Google este HTTP/1.1; crawl-ul prin HTTP/2 poate economisi resurse de calcul (de exemplu, CPU, RAM) pentru site-ul dvs. și Googlebot, dar altfel nu există niciun beneficiu specific produsului Google pentru site (de exemplu, niciun impuls de clasare în Căutarea Google). Pentru a renunța la crawl-ul prin HTTP/2, instruiți serverul care găzduiește site-ul dvs. să răspundă cu un cod de stare HTTP 421 atunci când Google încearcă să acceseze site-ul dvs. prin HTTP/2. Dacă acest lucru nu este fezabil, puteți
trimite un mesaj echipei de Crawl
(totuși această soluție este temporară).

Infrastructura de crawl a Google suportă, de asemenea, crawl-ul prin FTP (așa cum este definit de
RFC959 și actualizările sale) și FTPS (așa cum este definit de
RFC4217 și actualizările sale), totuși crawl-ul prin aceste protocoale este rar.

Codificări de conținut suportate

Crawlerele și fetcherele Google suportă următoarele codificări de conținut (compresii):
gzip,
deflate și
Brotli (br). Codificările de conținut suportate de fiecare agent utilizator Google sunt anunțate în antetul
Accept-Encoding al fiecărei cereri pe care o fac. De exemplu,
Accept-Encoding: gzip, deflate, br.

Limite de dimensiune a fișierelor

În mod implicit, crawlerele și fetcherele Google scanează doar primele 15MB ale unui fișier, iar orice conținut dincolo de această limită este ignorat. Totuși, proiectele individuale pot stabili limite diferite pentru crawlerele și fetcherele lor, și de asemenea pentru diferite tipuri de fișiere. De exemplu, un crawler Google
precum Googlebot poate avea o limită de dimensiune mai mică (de exemplu, 2MB) sau poate specifica o limită de dimensiune mai mare pentru un PDF decât pentru .

Rata de crawl și încărcarea gazdei

Obiectivul nostru este să scanăm cât mai multe pagini de pe site-ul dvs. la fiecare vizită fără a suprasolicita serverul dvs. Dacă site-ul dvs. întâmpină dificultăți în a ține pasul cu cererile de crawl ale Google, puteți
reduce rata de crawl. Rețineți că trimiterea unui cod de răspuns HTTP
inadecvat
către crawlerele Google poate afecta modul în care site-ul dvs. apare în produsele Google.

Caching HTTP

Infrastructura de crawl a Google suportă caching-ul HTTP euristic așa cum este definit de
standardul de caching HTTP,
în special prin antetul de răspuns ETag și antetul de cerere If-None-Match,
și antetul de răspuns Last-Modified și antetul de cerere If-Modified-Since.

Dacă atât câmpurile de antet de răspuns ETag cât și Last-Modified sunt prezente în răspunsul HTTP, crawlerele Google utilizează valoarea ETag așa cum este
cerut de standardul HTTP.
Pentru crawlerele Google în mod specific, Google recomandă utilizarea
ETag
în locul antetului Last-Modified pentru a indica preferința de caching, deoarece
ETag nu are probleme de formatare a datelor.

Alte directive de caching HTTP nu sunt suportate.

Crawlerele și fetcherele Google individuale pot sau nu să utilizeze caching-ul, în funcție de nevoile produsului cu care sunt asociate. De exemplu, Googlebot suportă caching-ul atunci când re-scanăm URL-uri pentru Căutarea Google, iar Storebot-Google suportă caching-ul doar în anumite condiții.

Pentru a implementa caching HTTP pentru site-ul dvs., contactați furnizorul dvs. de găzduire sau sistem de management al conținutului.

ETag și If-None-Match

Infrastructura de crawl a Google suportă ETag și If-None-Match așa cum sunt definite de
standardul de caching HTTP.
Aflați mai multe despre
ETag
și antetul său de cerere corespondent,
If-None-Match.

Last-Modified și If-Modified-Since

Infrastructura de crawl a Google suportă Last-Modified și
If-Modified-Since așa cum sunt definite de
standardul de caching HTTP
cu următoarele avertismente:

  • Data din antetul Last-Modified trebuie să fie formatată conform
    standardului HTTP.
    Pentru a evita problemele de analiză, Google recomandă utilizarea următorului format de dată:
    “Ziua săptămânii, DD Mon YYYY HH:MM:SS Fus orar”. De exemplu,
    Fri, 4 Sep 1998 19:15:56 GMT“.
  • Deși nu este necesar, luați în considerare și setarea câmpului
    max-age al antetului de răspuns Cache-Control
    pentru a ajuta crawlerele să determine când să re-scanăm URL-ul specific. Setați valoarea câmpului
    max-age la numărul de secunde în care conținutul va rămâne neschimbat. De
    exemplu, Cache-Control: max-age=94043.

Aflați mai multe despre
Last-Modified
și antetul său de cerere corespondent, If-Modified-Since.

Verificarea crawlerelor și fetcherelor Google

Crawlerele Google se identifică în trei moduri:

  1. Antetul de cerere HTTP user-agent.
  2. Adresa IP sursă a cererii.
  3. Numele de gazdă DNS invers al adresei IP sursă.

Aflați cum să utilizați aceste detalii pentru a
verifica cererile Google.


Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.

Implementează această viziune pentru afacerea ta

Folosește expertiza agenției noastre pentru a transforma ideile de pe hârtie în software scalabil, performant și sigur.

Solicita Audit Tehnic Gratuit