Câteva note înainte de a începe
Înainte de a intra în detaliile despre cum funcționează Căutarea, este important de menționat că Google nu acceptă plăți pentru a accesa un site mai frecvent sau pentru a-l clasa mai sus. Dacă cineva îți spune altceva, se înșală.
Google nu garantează că va accesa, indexa sau afișa pagina ta, chiar dacă pagina ta respectă Google Search Essentials.
Introducerea celor trei etape ale Căutării Google
Căutarea Google funcționează în trei etape, și nu toate paginile trec prin fiecare etapă:
- Crawling: Google descarcă text, imagini și videoclipuri de pe paginile găsite pe internet cu programe automate numite crawlere.
- Indexare: Google analizează textul, imaginile și fișierele video de pe pagină și stochează informațiile în indexul Google, care este o bază de date mare.
- Servirea rezultatelor căutării: Când un utilizator caută pe Google, Google returnează informații relevante pentru interogarea utilizatorului.
Crawling
Prima etapă este descoperirea paginilor existente pe web. Nu există un registru central al tuturor paginilor web, așa că Google trebuie să caute constant pagini noi și actualizate și să le adauge la lista sa de pagini cunoscute. Acest proces se numește “descoperirea URL-urilor”. Unele pagini sunt cunoscute deoarece Google le-a vizitat deja. Alte pagini sunt descoperite când Google extrage un link de la o pagină cunoscută către o pagină nouă: de exemplu, o pagină hub, cum ar fi o pagină de categorie, leagă la o postare nouă pe blog. Alte pagini sunt descoperite când trimiți o listă de pagini (un sitemap) pentru ca Google să le acceseze.
Odată ce Google descoperă URL-ul unei pagini, poate vizita (sau “accesa”) pagina pentru a afla ce conține. Folosim un set imens de computere pentru a accesa miliarde de pagini pe web. Programul care face accesarea se numește Googlebot (cunoscut și ca crawler, robot, bot sau spider). Googlebot folosește un proces algoritmic pentru a determina ce site-uri să acceseze, cât de des și câte pagini să preia de pe fiecare site. Crawlerele Google sunt programate astfel încât să încerce să nu acceseze site-ul prea rapid pentru a evita supraîncărcarea acestuia. Acest mecanism se bazează pe răspunsurile site-ului (de exemplu, erorile HTTP 500 înseamnă “încetiniți”).
Totuși, Googlebot nu accesează toate paginile pe care le-a descoperit. Unele pagini pot fi interzise pentru accesare de către proprietarul site-ului, alte pagini pot să nu fie accesibile fără autentificare pe site.
În timpul accesării, Google redă pagina și rulează orice JavaScript găsește folosind o versiune recentă de Chrome, similar cu modul în care browserul tău redă paginile pe care le vizitezi. Redarea este importantă deoarece site-urile web se bazează adesea pe JavaScript pentru a aduce conținut pe pagină, iar fără redare Google ar putea să nu vadă acel conținut.
Accesarea depinde de posibilitatea crawlerelor Google de a accesa site-ul. Unele probleme comune cu accesarea site-urilor de către Googlebot includ:
- Probleme cu serverul care gestionează site-ul
- Probleme de rețea
- Reguli robots.txt care împiedică accesul Googlebot la pagină
Indexare
După ce o pagină este accesată, Google încearcă să înțeleagă despre ce este pagina. Această etapă se numește indexare și include procesarea și analizarea conținutului textual și a etichetelor și atributelor cheie de conținut, cum ar fi <title> elemente și atribute alt, imagini, videoclipuri și altele.
În timpul procesului de indexare, Google determină dacă o pagină este un duplicat al altei pagini de pe internet sau canonică. Canonica este pagina care poate fi afișată în rezultatele căutării. Pentru a selecta pagina canonică, grupăm mai întâi (cunoscut și sub numele de clustering) paginile pe care le-am găsit pe internet care au conținut similar, apoi selectăm pe cea care este cea mai reprezentativă pentru grup. Celelalte pagini din grup sunt versiuni alternative care pot fi servite în contexte diferite, cum ar fi dacă utilizatorul caută de pe un dispozitiv mobil sau caută o pagină foarte specifică din acel cluster.
Google colectează, de asemenea, semnale despre pagina canonică și conținutul său, care pot fi utilizate în etapa următoare, unde servim pagina în rezultatele căutării. Unele semnale includ limba paginii, țara la care conținutul este localizat și utilizabilitatea paginii.
Informațiile colectate despre pagina canonică și clusterul său pot fi stocate în indexul Google, o bază de date mare găzduită pe mii de computere. Indexarea nu este garantată; nu fiecare pagină pe care Google o procesează va fi indexată.
Indexarea depinde și de conținutul paginii și de metadatele sale. Unele probleme comune de indexare pot include:
- Calitatea scăzută a conținutului de pe pagină
-
Reguli Robots
metacare interzic indexarea - Designul site-ului web poate face indexarea dificilă
Servirea rezultatelor căutării
Când un utilizator introduce o interogare, mașinile noastre caută în index paginile care se potrivesc și returnează rezultatele pe care le considerăm de cea mai înaltă calitate și cele mai relevante pentru interogarea utilizatorului. Relevanța este determinată de sute de factori, care ar putea include informații precum locația utilizatorului, limba și dispozitivul (desktop sau telefon). De exemplu, căutarea “reparații biciclete” ar afișa rezultate diferite pentru un utilizator din Paris decât pentru unul din Hong Kong.
Pe baza interogării utilizatorului, caracteristicile de căutare care apar pe pagina de rezultate ale căutării se schimbă. De exemplu, căutarea “reparații biciclete” va afișa probabil rezultate locale și nu rezultate de imagini, însă căutarea “bicicletă modernă” este mai probabil să afișeze rezultate de imagini, dar nu rezultate locale. Poți explora cele mai comune elemente UI ale căutării web Google în galeria de elemente vizuale.
Search Console ar putea să îți spună că o pagină este indexată, dar nu o vezi în rezultatele căutării. Acest lucru ar putea fi din cauză că:
- Conținutul de pe pagină este irelevant pentru interogările utilizatorilor
- Calitatea conținutului este scăzută
-
Reguli Robots
metacare împiedică servirea
În timp ce acest ghid explică cum funcționează Căutarea, lucrăm întotdeauna la îmbunătățirea algoritmilor noștri. Poți urmări aceste schimbări urmărind blogul Google Search Central.
Notă de Transparență E-E-A-T: Acest material reprezintă o analiză aprofundată, adaptare și traducere tehnică a documentației oficiale Google Search Central. Conținutul original este oferit de Google sub licența Creative Commons Attribution 4.0 (CC-BY 4.0). AdvancedSystems operează ca o agenție premium independentă de consultanță și audit SEO, aducând valoare adăugată prin explicarea conceptelor arhitecturale pentru piața B2B din România.