Google algoritam je procureo - Šta to znači za SEO?

Google algoritam je procureo – Šta to znači za SEO?

мај 30, 2024 by Office @ W-Outsourcing in Google Algoritam, SEO

Interna inženjerska dokumentacija Google pretrage je slučajno otkrivena

Ovaj tekst je izvorno sa ipullrank.com/google-algo-leak

Dodatne detalje možete pogledati i na The Verge članku, kao i na An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them.

Pregled sadržaja:

Sekcija	Detalji	Zaključci
Uvod	– Interna dokumentacija Google Search’s Content Warehouse API je procurila.	– Otkrivena dokumentacija otkriva mnoge interne funkcije i mikroservise koje koristi Google za rangiranje pretraživačkih rezultata.
Caveats	– Ograničeno vreme i kontekst za analizu.	– Analiza je zasnovana na ograničenom vremenu i kontekstu. Dalje istraživanje može doneti dodatne uvide.
Broj funkcija za rangiranje	– Dokumentacija otkriva 14.014 atributa i 2.596 modula koji su deo Google-ovog rangiranja.	– Veliki broj atributa i modula potvrđuje kompleksnost Google-ovog algoritma.
Funkcionalnosti API-ja	– Modul za indeksiranje, povezivanje, generisanje snippet-ova, i drugi sistemi.	– API dokumentacija pruža detaljan uvid u različite funkcionalnosti koje Google koristi za kreiranje SERP-ova.
Laži Google-a	– Google je više puta tvrdio da ne koristi „domain authority“ i klikove za rangiranje.	– Dokumentacija otkriva postojanje metrika kao što su „siteAuthority“ i NavBoost, koje koriste klikove za rangiranje.
Arhitektura rangiranja	– Google koristi seriju mikroservisa za generisanje rezultata pretrage.	– Rangiranje se vrši kroz kombinaciju različitih sistema i modula, uključujući Mustang (primarni algoritam za rangiranje) i NavBoost (re-rangiranje zasnovano na klikovima).
Važni moduli i sistemi	– Twiddlers, Trawler, Alexandria, SegIndexer, TeraGoogle, HtmlrenderWebkitHeadless, LinkExtractor, WebMirror, Ascorer, NavBoost, Twiddler, WebChooserScorer, Google Web Server, SuperRoot, SnippetBrain, Glue, Cookbook.	– Razumevanje ovih modula može pomoći u boljem shvatanju kako Google rangira sadržaj i kako se određene funkcije primenjuju u procesu pretraživanja.
Democije i penalizacije	– Anchor Mismatch, SERP Demotion, Nav Demotion, Exact Match Domains Demotion, Product Review Demotion, Location demotions, Porn demotions, i drugi democijski sistemi.	– Različite penalizacije i democije se primenjuju za poboljšanje kvaliteta rezultata pretrage i borbu protiv spam sadržaja.
Važnost linkova	– Linkovi su i dalje važan faktor za rangiranje. Detaljno se prate karakteristike linkova kao što su brzina spama, PageRank početne stranice, vrednost linkova u zavisnosti od nivoa indeksiranja i drugi.	– Kvalitet i relevantnost linkova su ključni za rangiranje, dok spam i neodgovarajući linkovi mogu dovesti do penalizacija.
Autorstvo i originalnost	– Autorstvo je eksplicitno beleženo i ocenjeno.	– Autorski sadržaj igra važnu ulogu u rangiranju, a originalnost i relevantnost su ključne za dobijanje visokih pozicija u rezultatima pretrage.
Rekomendacije za SEO	– Fokus na kreiranje visokokvalitetnog sadržaja i promociju istog. Korišćenje rezultata iz curenja dokumentacije za prilagođavanje SEO strategije.	– Preporučuje se vraćanje korrelacionih studija, eksperimentisanje sa različitim SEO tehnikama, i unapređenje kvaliteta sadržaja i korisničkog iskustva za bolje rangiranje.
Značaj SEO stručnjaka	– SEO stručnjaci su pokazali ispravnost mnogih svojih tvrdnji koje su bile osporavane od strane Google-a.	– Dokumentacija potvrđuje značaj SEO strategija koje su dugo bile predmet debata, kao što su važnost kliktanja, autoriteta sajta, i dr.

Interna dokumentacija za Google Search’s Content Warehouse API je procurila. Google-ovi interni mikroservisi izgledaju slično onima koje nudi Google Cloud Platform.

Interna verzija dokumentacije za zastareli Document AI Warehouse je greškom objavljena javno u repozitorijumu koda za klijentsku biblioteku. Dokumentacija za ovaj kod je takođe zabeležena od strane eksternog automatizovanog servisa za dokumentaciju.

Na osnovu istorije promena, greška u ovom repozitorijumu je ispravljena 7. maja, ali je automatizovana dokumentacija i dalje dostupna. U cilju smanjenja potencijalne odgovornosti, ovde neću postaviti linkove, ali s obzirom da je sav kod u tom repozitorijumu objavljen pod Apache 2.0 licencom, svako ko je naišao na njega je dobio širok set prava, uključujući mogućnost korišćenja, modifikacije i distribucije.

Objašnjenje

API (Application Programming Interface): Skup definisanih pravila koja omogućavaju različitim softverskim aplikacijama da komuniciraju međusobno.

Mikroservisi: Arhitektura softvera gde su aplikacije podeljene na male, nezavisne servise koji komuniciraju preko API-ja.

Apache 2.0 licenca: Licenca koja omogućava korisnicima široka prava na korišćenje, modifikaciju i distribuciju softvera, uz određene uslove.

Pregledali smo API referentne dokumente i stavili ih u kontekst sa prethodnim Google curenjima i svedočenjem o antimonopolskom postupku Ministarstva pravde. Kombinujemo to sa opsežnim istraživanjem patenata i radova za našu nadolazeću knjigu, „The Science of SEO“. Iako u dokumentaciji koju smo pregledali nema detalja o Google-ovim funkcijama bodovanja, postoji bogatstvo informacija o podacima koji se čuvaju za sadržaj, linkove i interakcije korisnika. Postoje i različiti nivoi opisa (od razočaravajuće oskudnih do iznenađujuće otkrivajućih) o funkcijama koje se manipulišu i čuvaju.

Bili bismo u iskušenju da ove podatke široko nazovemo „rangirajućim faktorima“, ali to ne bi bilo precizno. Mnogi, čak i većina njih, jesu rangirajući faktori, ali mnogi nisu. Ono što ćemo ovde uraditi je da stavimo u kontekst neke od najzanimljivijih sistema rangiranja i funkcija (barem one koje smo uspeli pronaći u prvih nekoliko sati pregledavanja ovog ogromnog curenja) na osnovu našeg opsežnog istraživanja i stvari koje nam je Google rekao/lagao tokom godina.

„Lagao“ je oštra reč, ali jedina tačna ovde. Iako ne krivimo nužno Google-ove javne predstavnike za zaštitu njihove vlasničke informacije, imamo problem sa njihovim naporima da aktivno diskredituju ljude iz sveta marketinga, tehnologije i novinarstva koji su predstavili reproduktivna otkrića. Naš savet budućim Googlerima koji govore o ovim temama: Ponekad je bolje jednostavno reći „ne možemo o tome razgovarati“. Vaša kredibilnost je važna, i kada se pojave curenja poput ovih i svedočenja kao što je suđenje Ministarstva pravde, postaje nemoguće verovati vašim budućim izjavama.

Ograničenja

Svi znamo da će ljudi pokušati da diskredituju naše nalaze i analize iz ovog curenja. Neki će se pitati zašto je to važno i reći „ali to smo već znali“. Zato, hajde da odmah rešimo nedostatke pre nego što pređemo na suštinu.

Ograničeno vreme i kontekst – Zbog prazničnog vikenda, mogao sam da provedem oko 12 sati u dubokom razmišljanju o svemu ovome. Izuzetno sam zahvalan nekim anonimnim osobama koje su mi bile veoma korisne u deljenju svojih uvida kako bi mi pomogle da se brzo uhvatim u koštac sa materijom. Takođe, slično curenju Yandex-a koje sam pokrivao prošle godine, nemam potpunu sliku. Dok smo kod Yandex-a imali izvorni kod za analizu bez poznavanja razmišljanja iza toga, u ovom slučaju imamo neka razmišljanja iza hiljada funkcija i modula, ali nemamo izvorni kod. Moraćete da mi oprostite što ovo delim na manje strukturisan način nego što ću to učiniti za nekoliko nedelja nakon što se detaljnije upoznam sa materijalom.

Nema funkcija bodovanja – Ne znamo kako su funkcije ponderisane u različitim nizvodnim funkcijama bodovanja. Ne znamo da li se sve dostupne funkcije koriste. Znamo da su neke funkcije zastarele. Osim ako nije eksplicitno navedeno, ne znamo kako se stvari koriste. Ne znamo gde se sve dešava u lancu obrade. Imamo niz imenovanih sistema rangiranja koji se labavo usklađuju sa načinom na koji ih je Google objasnio, kako su SEO stručnjaci primetili rangiranje u praksi i kako ih patentne prijave i IR literatura objašnjavaju. Zahvaljujući ovom curenju, sada imamo jasniju sliku o tome šta se uzima u obzir, što može informisati na šta da se fokusiramo u SEO-u u budućnosti.

Verovatno prvi od nekoliko postova – Ovaj post će biti moj inicijalni pokušaj analize onoga što sam pregledao. Možda ću objaviti naknadne postove dok nastavljam da istražujem detalje. Pretpostavljam da će ovaj članak dovesti do toga da SEO zajednica požuri da analizira ove dokumente i mi ćemo kolektivno otkrivati i rekontekstualizovati stvari mesecima koji dolaze.

Čini se da su ovo aktuelne informacije – Koliko mogu da procenim, ovo curenje predstavlja trenutnu, aktivnu arhitekturu Google Search Content Storage-a od marta 2024. godine. (Da preskočimo reakciju Google PR-a koji će reći da grešim. Zapravo, hajde da preskočimo tu igru, ljudi). Na osnovu istorije izmena, povezani kod je postavljen 27. marta 2024. godine i nije uklonjen sve do 7. maja 2024. godine.

Korelacija nije uzročnost – Ok, ovo zapravo ne važi ovde, ali želeli smo da pokrijemo sve osnove.

POSTOJI 14K RANGIRAJUĆIH FUNKCIJA I JOŠ VIŠE U DOKUMENTACIJI

U API dokumentaciji je predstavljeno 2.596 modula sa 14.014 atributa (funkcija) koji izgledaju ovako:

Moduli su povezani sa komponentama YouTube-a, Assistant-a, Books-a, pretrage video zapisa, linkova, web dokumenata, infrastrukture za indeksiranje, internog kalendarskog sistema i People API-a. Baš kao i Yandex, Google-ovi sistemi rade na monolitnom repozitorijumu (ili „monorepo“) i mašine rade u zajedničkom okruženju. To znači da je sav kod uskladišten na jednom mestu i svaka mašina na mreži može biti deo bilo kog Google-ovog sistema.

Procurela dokumentacija opisuje svaki modul API-ja i razlaže ih na sažetke, tipove, funkcije i atribute. Većina onoga što posmatramo su definicije svojstava za različite protokolske bafer-e (ili protobufs) koji se pristupaju kroz sisteme rangiranja kako bi se generisale SERP-ovi (stranice sa rezultatima pretrage – ono što Google prikazuje korisnicima nakon što izvrše pretragu).

Nažalost, mnogi od sažetaka upućuju na Go linkove, što su URL-ovi na Google-ovoj korporativnoj intranet mreži, koji nude dodatne detalje o različitim aspektima sistema. Bez odgovarajućih Google akreditiva za prijavu i pregled tih stranica (što bi gotovo sigurno zahtevalo da budemo trenutni zaposleni u Google-u na timu za pretragu), prepušteni smo sopstvenim resursima za tumačenje.

API DOKUMENTACIJA OTKRIVA NEKE ZNAČAJNE GOOGLE-OVE LAŽI

Google-ovi portparoli su se trudili da nas obmanu i zavedu po različitim aspektima kako njihovi sistemi funkcionišu, u nastojanju da kontrolišu naše ponašanje kao SEO stručnjaka. Neću ići toliko daleko da to nazovem „socijalnim inženjeringom“ zbog negativnog konteksta tog izraza. Umesto toga, nazvaćemo to „gaslighting“. Google-ove javne izjave verovatno nisu namerni pokušaji laganja, već pre da zavaraju potencijalne spamera (ali i mnoge legitimne SEO stručnjake) kako bi nas skrenuli s traga kako da utičemo na rezultate pretrage.

Ispod predstavljamo tvrdnje Google-ovih zaposlenih uz činjenice iz dokumentacije sa ograničenim komentarima, kako biste sami mogli da prosudite.

Google-ovi portparoli su mnogo puta rekli da ne koristimo „autoritet domena“. Uvek smo pretpostavljali da je ovo laž po izostavljanju i zamagljivanju istine.

Kada kažu da ne koristimo autoritet domena, mogli bi da kažu da specifično ne koristimo Moz-ovu metriku zvanu „Domain Authority“ (očigledno 🙄). Takođe bi mogli da kažu da ne merimo autoritet ili važnost za određenu temu (ili domen) u vezi sa veb sajtom. Ova konfuzija putem semantike omogućava nam da nikada direktno ne odgovorimo na pitanje da li izračunavamo ili koristimo metrike autoriteta za ceo sajt.

Gary Ilyes, analitičar u našem timu za pretragu koji se fokusira na objavljivanje informacija kako bi pomogao kreatorima sajtova, ponovio je ovu tvrdnju mnogo puta.

I Gary nije usamljen u tome. John Mueller, „zagovornik pretrage koji koordinira odnose sa Google pretragom,“ izjavio je u ovom videu „nemamo ocenu autoriteta sajta.“

U stvarnosti, kao deo komprimovanih signala kvaliteta koji se čuvaju po dokumentu, Google ima funkciju koju računamo i koja se zove „siteAuthority.“

The image contains a snippet of technical documentation describing the attribute "siteAuthority." Title: siteAuthority Type: integer(), default: nil Description: site_authority: converted from quality_nsr.SiteAuthority, applied in Qstar.

Ne znamo tačno kako se ova mera izračunava ili koristi u funkcijama za ocenjivanje, ali sada definitivno znamo da postoji i da se koristi u Q* sistemu rangiranja. Ispostavlja se da Google zaista ima ukupni autoritet domena. Pripremite se za izjave Google-ovih zaposlenih poput „imamo ga, ali ga ne koristimo“ ili „ne razumete šta to znači“ ili… čekajte, rekao sam „ograničeni komentari,“ zar ne? Nastavljamo dalje.

Hajde da ovo jednom zauvek rešimo.

Svedočenje Pandu Nayaka u antimonopolskom suđenju DOJ nedavno je otkrilo postojanje sistema rangiranja Glue i NavBoost. NavBoost je sistem koji koristi mere zasnovane na klikovima za unapređenje, degradaciju ili na drugi način jačanje rangiranja u pretrazi na vebu. Nayak je naveo da NavBoost postoji od oko 2005. godine i da je istorijski koristio kliktne podatke za proteklih 18 meseci. Sistem je nedavno ažuriran da koristi podatke za proteklih 13 meseci i fokusira se na rezultate veb pretrage, dok je sistem nazvan Glue povezan sa drugim univerzalnim rezultatima pretrage. Ali, čak i pre tog otkrića, imali smo nekoliko patenata (uključujući patent iz 2007. godine za rangiranje zasnovano na vremenu) koji posebno ukazuju na to kako se dnevnici klikova mogu koristiti za promenu rezultata.

Takođe znamo da su klikovi kao mera uspeha najbolja praksa u pretrazi informacija. Znamo da je Google prešao na algoritme zasnovane na mašinskom učenju i da mašinsko učenje zahteva promenljive odgovora kako bi se poboljšao njegov učinak. Uprkos ovom zapanjujućem dokazu, i dalje postoji konfuzija u SEO zajednici zbog skretanja pažnje Google-ovih portparola i sramotno saosećajnog objavljivanja članaka širom sveta pretrage marketinga koji nekritički ponavljaju javne izjave Google-a.

Gary Ilyes je mnogo puta govorio o ovom pitanju merenja klikova. U jednom slučaju, on je podržao ono što je inženjer pretrage Google-a, Paul Haahr, podelio u svom govoru na SMX West 2016 o živim eksperimentima, rekavši da bi „korišćenje klikova direktno u rangiranju bila greška.“

Kasnije je, takođe, poznato da je koristio svoju platformu da omalovaži Randa Fishkina (osnivača i CEO-a Moz-a, dugogodišnjeg SEO praktičara) rekavši da su „dwell time, CTR, ili koja god je nova teorija Fishkina, uglavnom izmišljotine.“

Objašnjenje

Cilj ovog prevoda je bio da prikaže informacije o nedavnim otkrićima vezanim za Google-ove interne API-je i načine na koje kompanija možda koristi ili ne koristi različite faktore za rangiranje rezultata pretrage. Ukazano je na neslaganja između javnih izjava Google-ovih predstavnika i informacija otkrivenih u curenju dokumenata i svedočenjima tokom antimonopolskog suđenja. Takođe je naglašeno da postoje dokazi koji ukazuju na korišćenje klikova i drugih metrika za unapređenje algoritama rangiranja, uprkos tvrdnjama Google-ovih zvaničnika da to nije slučaj.

U stvarnosti, Navboost ima specifičan modul koji se u potpunosti fokusira na signale klikova.

Rezime tog modula definiše ga kao „signale klikova i impresija za Craps,” jedan od sistema rangiranja. Kao što možemo videti ispod, loši klikovi, dobri klikovi, najduži klikovi, nesmrvljeni klikovi i nesmrvljeni najduži klikovi su sve metričke koje se uzimaju u obzir. Prema Google-ovom patentu „Ocena lokalnih rezultata pretrage na osnovu istaknutosti lokacije”, „Squashing je funkcija koja sprečava da jedan veliki signal dominira nad ostalima.” Drugim rečima, sistemi normalizuju podatke o klikovima kako bi se osiguralo da nema neprimerene manipulacije na osnovu signala klikova. Google-ovi zaposlenici tvrde da sistemi u patentima i radovima nisu nužno ono što se koristi u produkciji, ali bi NavBoost bio besmislen sistem za izgradnju i uključivanje ako nije kritičan deo Google-ovih sistema za preuzimanje informacija.

Mnoge od ovih istih metrika zasnovanih na klikovima nalaze se i u drugom modulu povezanim sa signalima indeksiranja. Jedna od mera je datum „poslednjeg dobrog klika” na određeni dokument. Ovo sugeriše da je propadanje sadržaja (ili gubitak saobraćaja tokom vremena) takođe funkcija rangirane stranice koja ne ostvaruje očekivani broj klikova za svoju poziciju na SERP-u.

Pored toga, dokumentacija predstavlja korisnike kao glasače, a njihovi klikovi se čuvaju kao njihovi glasovi. Sistem broji broj loših klikova i segmentira podatke po zemlji i uređaju.

Takođe beleže koji je rezultat imao najduži klik tokom sesije. Dakle, nije dovoljno samo obaviti pretragu i kliknuti na rezultat, korisnici takođe moraju provesti značajnu količinu vremena na stranici. Dugi klikovi su mera uspeha pretrage, baš kao i vreme zadržavanja, ali u ovoj dokumentaciji nema specifične funkcije nazvane „dwell time“. Ipak, dugi klikovi su efektivno mera istog, što je u suprotnosti sa Google-ovim izjavama o tome.

Različiti izvori su ukazali da je NavBoost „već jedan od najjačih signala rangiranja Google-a”. Procurela dokumentacija navodi „NavBoost” po imenu 84 puta sa pet modula koji u naslovu sadrže NavBoost. Takođe postoji dokaz da razmatraju njegovo bodovanje na nivou poddomena, root domena i URL-a, što inherentno ukazuje na to da različite nivoe sajta tretiraju različito. Neću ulaziti u argument poddomena protiv poddirektorijuma, ali kasnije ćemo diskutovati kako su podaci iz sistema takođe uticali na Panda algoritam.

Dakle, da, Google ne pominje „CTR” ili „dwell time” tačno tim rečima u ovoj dokumentaciji, ali duh onoga što je Rand dokazao: klikovi na rezultate pretrage i mere uspeha sesije pretrage, su uključeni. Dokazi su prilično konačni, može biti malo sumnje da Google koristi klikove i ponašanje nakon klika kao deo svojih algoritama rangiranja.

Ne postoji sandbox ili da?

Google-ovi portparoli su bili uporni u tvrdnji da ne postoji „sandbox“ u koji se veb-sajtovi segregiraju na osnovu starosti ili nedostatka signala poverenja. U sada obrisanom tvitu, John Muller je odgovorio na pitanje o tome koliko dugo je potrebno da se bude kvalifikovan za rangiranje, navodeći da „ne postoji sandbox.”

U modulu PerDocData, dokumentacija ukazuje na atribut nazvan hostAge koji se koristi specifično „za sandbox svežeg spama u vreme servisa.”

Ispostavlja se da ipak postoji sandbox. Ko bi rekao? Oh, da, Rand je znao.

„Ne koristimo ništa iz Chrome-a za rangiranje.”

Matt Cutts je ranije izjavio da Google ne koristi Chrome podatke kao deo organskog pretraživanja. Nedavno je John Mueller potvrdio ovu ideju.

The image contains a snippet of technical documentation describing an attribute related to Chrome views. The text is as follows: chromeInTotal (type: number(), default: nil) - Site-level Chrome views. This attribute is described as being of type number() with a default value of nil, and it pertains to site-level views in Chrome.

Jedan od modula povezanih sa ocenama kvaliteta stranice sadrži meru pregleda sa Chrome-a na nivou sajta. Drugi modul, koji izgleda da je povezan sa generisanjem sitelinkova, takođe ima atribut povezan sa Chrome-om.

Procurela interna prezentacija iz maja 2016. godine o sistemu RealTime Boost takođe ukazuje na to da su podaci sa Chrome-a dolazili u pretragu. Mislim, razumete poentu.

Arhitektura Googleovog sistema za rangiranje

Konceptualno, možda mislite o „Google algoritmu“ kao o jednoj stvari, džinovskoj jednačini sa nizom ponderisanih faktora rangiranja. U stvarnosti, to je niz mikroservisa gde su mnoge funkcije unapred obrađene i dostupne u realnom vremenu kako bi se sastavili rezultati pretrage (SERP). Na osnovu različitih sistema pomenutih u dokumentaciji, može postojati više od stotinu različitih sistema rangiranja. Pretpostavljajući da to nisu svi sistemi, možda svaki od zasebnih sistema predstavlja „signal rangiranja“ i možda je to način na koji Google dolazi do 200 signala rangiranja o kojima često govori.

U predavanju Jeffa Deana „Izgradnja softverskih sistema u Google-u i lekcije naučene,“ on je pomenuo da su ranije iteracije Google-a slale svaki upit na 1000 mašina da bi se obradili i odgovorili u manje od 250 milisekundi. Takođe je diagramirao raniju verziju apstrakcije sistemske arhitekture. Ovaj dijagram ilustruje da je Super Root mozak Google pretrage koji šalje upite i na kraju sve sastavlja.

Distinguished Research Engineer Marc Najork, u svojoj nedavnoj prezentaciji o generativnom pretraživanju informacija, prikazao je apstraktni model Google pretrage sa svojim RAG sistemom (poznatim i kao Search Generative Experience/AI Overviews). Ovaj dijagram ilustruje niz različitih skladišta podataka i servera koji obrađuju različite slojeve rezultata.

Zviždač iz Google-a, Zach Vorhies, objavio je ovu slajd prezentaciju koja prikazuje odnose različitih sistema unutar Google-a po njihovim internim imenima. Nekoliko ovih sistema se pominje u dokumentaciji.

Korišćenjem ova tri visokog nivoa modela, možemo početi da razmišljamo o tome kako neki od ovih komponenti rade zajedno. Iz onoga što mogu da zaključim iz dokumentacije, čini se da ovaj API radi na Google-ovom Spanner-u. Spanner je arhitektura koja omogućava beskonačnu skalabilnost skladištenja sadržaja i računarstva dok tretira niz globalno umreženih računara kao jedan.

Priznajem, pomalo je teško složiti odnos između svega samo iz dokumentacije, ali Paul Haahr-ov rezime pruža neke vredne uvide o tome šta neki od imenovanih sistema rangiranja rade. Izdvojiću one koje znam po imenu i segmentirati ih prema njihovoj funkciji.

Crawling

Trawler – Sistem za pretragu veba. Sadrži red za pretragu, održava stope pretrage i razume koliko često se stranice menjaju.

Indexing

Alexandria – Osnovni sistem za indeksiranje. SegIndexer – Sistem koji postavlja dokumente u nivoe unutar indeksa. TeraGoogle – Sekundarni sistem za indeksiranje dokumenata koji dugoročno ostaju na disku.

Rendering

HtmlrenderWebkitHeadless – Sistem za renderovanje JavaScript stranica. Zanimljivo je da je nazvan po Webkit-u, a ne po Chromium-u. Pominje se Chromium u dokumentaciji, pa je verovatno da je Google prvobitno koristio WebKit i prešao na Headless Chrome kada se pojavio.

Processing

LinkExtractor – Izvlači linkove sa stranica. WebMirror – Sistem za upravljanje kanonizacijom i duplikacijom.

Ranking

Mustang – Primarni sistem za ocenjivanje, rangiranje i serviranje. Ascorer – Primarni algoritam za rangiranje koji rangira stranice pre bilo kakvih re-rangiranja. NavBoost – Sistem za re-rangiranje zasnovan na logovima klikova korisnika. FreshnessTwiddler – Sistem za re-rangiranje dokumenata na osnovu svežine. WebChooserScorer – Definiše imena funkcija koje se koriste u ocenjivanju snipeta.

Serving

Google Web Server – GWS je server sa kojim frontend Google-a komunicira. Prima podatke koje treba prikazati korisniku. SuperRoot – Ovo je mozak Google pretrage koji šalje poruke Google serverima i upravlja post-procesiranjem sistema za re-rangiranje i prezentaciju rezultata. SnippetBrain – Sistem koji generiše snipete za rezultate. Glue – Sistem za spajanje univerzalnih rezultata korišćenjem ponašanja korisnika. Cookbook – Sistem za generisanje signala. Postoji naznaka da se vrednosti kreiraju u realnom vremenu.

ŠTA SU TWIDDLERS?

Online postoji malo informacija o Twiddler-ima, pa mislim da vredi objasniti ih ovde kako bismo mogli bolje da kontekstualizujemo različite Boost sisteme koje srećemo u dokumentaciji.

Twiddler-i su funkcije za re-rangiranje koje rade nakon primarnog Ascorer algoritma pretrage. Funkcionišu slično kao filteri i akcije u WordPress-u gde se prikazano prilagođava neposredno pre nego što bude predstavljeno korisniku. Twiddler-i mogu prilagoditi ocenu preuzimanja informacija dokumenta ili promeniti rangiranje dokumenta. Mnogo eksperimenta uživo i imenovanih sistema za koje znamo su implementirani na ovaj način. Kao što ovaj bivši Google zaposlenik demonstrira, oni su prilično važni u različitim Google sistemima.

Twiddlers

Twiddlers mogu ponuditi ograničenja kategorija, što znači da se raznolikost može promovisati specifičnim ograničavanjem tipa rezultata. Na primer, autor može odlučiti da dozvoli samo 3 blog posta u datom SERP-u. Ovo može razjasniti kada je rangiranje izgubljena stvar bazirana na formatu stranice.

Kada Google kaže nešto poput „Panda nije bila deo osnovnog algoritma“, to verovatno znači da je lansirana kao Twiddler kao re-rangiranje ili izračunavanje democije, a zatim kasnije premeštena u primarnu funkciju bodovanja. Zamislite to kao sličnost između server-side i client-side renderinga.

Pretpostavlja se da bilo koja funkcija sa sufiksom „Boost“ radi koristeći Twiddler okvir. Evo nekoliko „Boostova“ identifikovanih u dokumentima:

NavBoost
QualityBoost
RealTimeBoost
WebImageBoost

Po njihovim nazivima, oni su prilično samorazumljivi.

Takođe postoji interni dokument o Twiddlersima koji smo pregledali i koji govori o tome u više detalja, ali ovaj post zvuči kao da je autor video isti dokument koji i mi.

KLJUČNA OTKRIĆA KOJA MOGU UTICATI NA VAŠE SEO NAPORE

Hajde da pređemo na ono zbog čega ste stvarno došli. Šta Google radi što nismo znali ili nismo bili sigurni i kako to može uticati na naše SEO napore?

Brza napomena pre nego što nastavimo. Uvek nam je cilj da izložimo SEO industriju novim konceptima. Nije nam cilj da vam damo recept kako da ga koristite za vaš specifičan slučaj. Ako je to ono što želite, trebalo bi da angažujete iPullRank za vaš SEO. Inače, uvek ima više nego dovoljno da izvučete i razvijete sopstvene slučajeve.

Kako Panda funkcioniše

Kada je Panda pokrenuta, bilo je mnogo konfuzije. Da li je to mašinsko učenje? Da li koristi korisničke signale? Zašto nam treba ažuriranje ili osveženje da se oporavimo? Da li je to na nivou cele stranice? Zašto smo izgubili saobraćaj za određeni poddirektorijum?

Panda je puštena pod vođstvom Amita Singhala. Singhal je bio odlučno protiv mašinskog učenja zbog njegove ograničene preglednosti. U stvari, postoji niz patenata koji se fokusiraju na kvalitet sajta za Pandu, ali onaj na koji želimo da se fokusiramo je neodređeni „Ranking search results“. Patent pojašnjava da je Panda daleko jednostavnija nego što smo mislili. Uglavnom se radilo o izgradnji modifikatora bodovanja baziranog na distribuiranim signalima vezanim za ponašanje korisnika i spoljnim linkovima. Taj modifikator se može primeniti na nivou domena, subdomena ili poddirektorijuma.

„Sistem generiše faktor modifikacije za grupu resursa na osnovu broja nezavisnih linkova i broja referentnih upita (korak 306). Na primer, faktor modifikacije može biti odnos broja nezavisnih linkova za grupu prema broju referentnih upita za grupu. To jest, faktor modifikacije (M) može se izraziti kao:

$M = RQ I L$

gde je IL broj nezavisnih linkova koji su izbrojani za grupu resursa, a RQ je broj referentnih upita koji su izbrojani za grupu resursa.”

Nezavisni linkovi su u osnovi ono što smatramo glavnim domenima koji linkuju, ali referentni upiti su malo složeniji. Evo kako su definisani u patentu:

„Referentni upit za određenu grupu resursa može biti prethodno postavljeni upit za pretragu koji je kategorizovan kao upit koji se odnosi na resurs u određenoj grupi resursa. Kategorizacija određenog prethodno postavljenog upita za pretragu kao upita koji se odnosi na resurs u određenoj grupi resursa može uključivati: određivanje da određeni prethodno postavljeni upit za pretragu uključuje jedan ili više termina za koje je utvrđeno da se odnose na resurs u određenoj grupi resursa.”

Sada kada imamo pristup ovoj dokumentaciji, jasno je da su referentni upiti upiti iz NavBoosta.

To sugeriše da su Panda osveženja jednostavno bila ažuriranja tekućeg prozora upita, slično načinu na koji funkcionišu izračuni Core Web Vitals. Takođe, moglo bi značiti da ažuriranja grafika linkova nisu obrađivana u realnom vremenu za Pundu.

Da ne bismo previše ponavljali, ali još jedan Panda patent, „Site quality score“, takođe razmatra skor koji je odnos između referentnih upita i korisničkih izbora ili klikova.

Zaključak je da morate privući više uspešnih klikova koristeći širi spektar upita i zaraditi veću raznolikost linkova ako želite da nastavite da rangirate. Konceptualno, to ima smisla jer će vrlo kvalitetan sadržaj to postići. Fokus na privlačenje kvalifikovanijeg saobraćaja ka boljem korisničkom iskustvu će poslati signale Google-u da vaša stranica zaslužuje da rangira. Trebalo bi da se fokusirate na isto kako biste se oporavili od ažuriranja „Helpful Content Update“.

Autori kao eksplicitna funkcija

Mnogo je pisano o E-E-A-T (Ekspertiza, Autoritet, Pouzdanost). Mnogi SEO stručnjaci ne veruju u to zbog toga koliko je nejasno kako se ocenjuju stručnost i autoritet. Takođe sam ranije istakao koliko malo autorovog markupa zapravo postoji na internetu. Pre nego što sam saznao za vektorske ugrađivanja, nisam verovao da je autorstvo dovoljno održiv signal na skali interneta.

Ipak, Google eksplicitno čuva autore povezane sa dokumentom kao tekst:

The image contains a snippet of technical documentation describing an attribute related to document authorship. The text is as follows: author Type: list(String,t), default: nil Description: Document author(s). This attribute specifies the type as a list of strings with a default value of nil, indicating that it can contain multiple author names for a document.

Takođe nastoje da utvrde da li je entitet na stranici takođe autor te stranice.

U kombinaciji sa detaljnim mapiranjem entiteta i embeddings prikazanih u ovim dokumentima, prilično je jasno da postoji sveobuhvatno merenje autora.

Degradacije

U dokumentaciji se diskutuje o nizu algoritamskih degradacija. Opisi su ograničeni, ali ih vredi pomenuti. Već smo razgovarali o Pandi, ali ostale degradacije koje smo primetili su:

Anchor Mismatch – Kada link ne odgovara ciljanom sajtu na koji vodi, link se degradira u proračunima. Kao što smo već rekli, Google traži relevantnost s obe strane linka.
SERP Degradacija – Signal koji ukazuje na degradaciju na osnovu faktora primećenih u SERP-u, sugerišući moguće nezadovoljstvo korisnika stranicom, verovatno mereno klikovima.
Nav Degradacija – Pretpostavlja se da je ovo degradacija primenjena na stranice koje pokazuju lošu navigaciju ili probleme s korisničkim iskustvom.
Exact Match Domains Degradacija – Krajem 2012. godine, Matt Cutts je najavio da tačno podudarni domeni neće imati istu vrednost kao ranije. Postoji specifična funkcija za njihovu degradaciju.
Degradacija recenzija proizvoda – Nema specifičnih informacija o tome, ali je navedena kao degradacija i verovatno je povezana sa nedavnim ažuriranjem recenzija proizvoda iz 2023. godine.
Lokacijske degradacije – Postoji naznaka da „globalne“ stranice i „super globalne“ stranice mogu biti degradirane. Ovo sugeriše da Google pokušava da poveže stranice s lokacijom i rangira ih u skladu s tim.
Pornografske degradacije – Ovo je prilično očigledno.
Ostale degradacije linkova – O njima ćemo diskutovati u sledećem delu.

Sve ove potencijalne degradacije mogu informisati strategiju, ali se svodi na pravljenje izvanrednog sadržaja sa snažnim korisničkim iskustvom i izgradnju brenda, ako budemo iskreni.

Linkovi i dalje izgledaju prilično važni

Nismo videli nikakve dokaze koji bi opovrgnuli nedavne tvrdnje da su linkovi manje važni. Verovatno se to rešava u samim funkcijama bodovanja, a ne u načinu na koji se informacije čuvaju. Ipak, posvećena je velika pažnja ekstrakciji i inženjeringu funkcija kako bi se duboko razumeo graf linkova.

Uticaj nivoa indeksiranja na vrednost linkova

Metrička vrednost pod nazivom sourceType pokazuje labavu povezanost između mesta gde je stranica indeksirana i njene vrednosti. Za kratku pozadinu, Google-ov indeks je podeljen u slojeve gde se najvažniji, redovno ažurirani i pristupačni sadržaj čuva u flash memoriji. Manje važan sadržaj se čuva na SSD-ovima, a neredovno ažurirani sadržaj se čuva na standardnim tvrdim diskovima.

Efektivno, ovo znači da što je viši nivo, to je vredniji link. Stranice koje se smatraju „svežim“ takođe se smatraju visokokvalitetnim. Dovoljno je reći da želite da vaši linkovi dolaze sa stranica koje su sveže ili su na neki drugi način predstavljene u vrhunskom sloju. Ovo delimično objašnjava zašto dobijanje rangiranja sa visoko rangiranih stranica i sa stranica sa vestima donosi bolje rezultate rangiranja. Pogledajte to, upravo smo ponovo učinili digitalni PR popularnim!

Signali brzine link spama

Postoji čitav niz metrike o identifikaciji skokova u spam anchor tekstu. Uzimajući u obzir funkciju phraseAnchorSpamDays, Google efikasno ima sposobnost da meri brzinu link spama.

$The image is a snippet of technical documentation titled "IndexingDocjoinerAnchorPhraseSpamInfo." It describes various attributes used to identify spikes of spammy anchor phrases. Anchors created during the spike are tagged with LINK_SPAM_PHRASE_SPIKE. Title: IndexingDocjoinerAnchorPhraseSpamInfo Description: Following signals identify spikes of spammy anchor phrases. Anchors created during the spike are tagged with LINK_SPAM_PHRASE_SPIKE. Attributes: phraseAnchorSpamCount Type: number(), default: nil Description: How many spam phrases found in the anchors among unique domains. phraseAnchorSpamDays Type: number(), default: nil Description: Over how many days 80% of these phrases were discovered. phraseAnchorSpamDemoted Type: integer(), default: nil Description: Total number of demoted anchors. phraseAnchorSpamEnd Type: integer(), default: nil Description: Time when anchor spam spike ended with padding. phraseAnchorSpamFraq Type: number(), default: nil Description: Spam phrases fraction of all anchors of the document. This documentation provides details on how to monitor and manage spammy anchor phrases within the indexing system.$

Ovo se lako može koristiti za identifikaciju kada neki sajt spamuje i za neutralisanje negativnog SEO napada. Za one koji su skeptični u vezi sa ovim drugim, Google može koristiti ove podatke da uporedi osnovnu vrednost otkrivanja linkova sa trenutnim trendom i jednostavno ne uračunati te linkove ni u jednom pravcu.

Google koristi samo poslednjih 20 promena za određeni URL prilikom analize linkova

Ranije smo diskutovali o tome kako je Google-ov sistem fajlova sposoban da čuva verzije stranica tokom vremena, slično Wayback Machine-u. Naše razumevanje je da Google zadržava ono što je indeksirao zauvek. Ovo je jedan od razloga zašto ne možete jednostavno preusmeriti stranicu na nerelevantni cilj i očekivati da će link equity preći.

Dokumentacija pojačava ovu ideju implicirajući da Google čuva sve promene koje su ikada videli za stranicu.

Kada izvlače podatke za poređenje pomoću DocInfo-a, uzimaju u obzir samo 20 najnovijih verzija stranice.

Ovo bi trebalo da vam pruži osećaj koliko puta morate da promenite stranice i da ih ponovo indeksirate kako biste dobili „čistu listu“ u Google-u.

PageRank početne stranice se uzima u obzir za sve stranice

Svaki dokument ima PageRank svoje početne stranice (verzija „Nearest Seed“) povezan sa njim. Ovo se verovatno koristi kao zamena za nove stranice dok ne steknu svoj sopstveni PageRank.

Verovatno je da se ovo i siteAuthority koriste kao zamene za nove stranice dok im se ne izračuna sopstveni PageRank.

Trust početne stranice

Google odlučuje o vrednosti linka na osnovu toga koliko veruju početnoj stranici.

Kao i uvek, trebali biste se fokusirati na kvalitet i relevantnost vaših linkova umesto na njihov volumen.

Veličina fonta termina i linkova je važna

Kada smo počeli sa SEO-om 2006. godine, jedna od stvari koje smo radili bila je podebljavanje i podvlačenje teksta ili povećavanje određenih pasusa kako bi izgledali važnije. U poslednjih 5 godina videli smo da ljudi i dalje smatraju da to vredi raditi. Bili smo skeptični, ali sada vidimo da Google prati prosečnu ponderisanu veličinu fonta termina u dokumentima.

The image contains a snippet of technical documentation describing the attribute "avgTermWeight." The text is as follows: avgTermWeight Type: integer(), default: nil Description: The average weighted font size of a term in the doc body. This attribute specifies the average weighted font size of a term within the document body. The type is an integer with a default value of nil.

Oni rade isto i za anchor tekst linkova.

Penguin zanemaruje interne linkove

Unutar mnogih modula povezanih sa anchor tekstom, ideja „lokalnog“ znači isti sajt. Ovaj droppedLocalAnchorCount sugeriše da se neki interni linkovi ne računaju.

Nismo primetili nijedno pominjanje Disavow

Iako bi disavow podaci mogli biti sačuvani negde drugde, nisu specifično prisutni u ovom API-ju. Ovo nalazimo posebno interesantnim jer su podaci od ocenjivača kvaliteta direktno dostupni ovde. Ovo sugeriše da su disavow podaci odvojeni od glavnih sistema rangiranja.

Naša dugoročna pretpostavka je da je disavow bio kolektivni napor za inženjering funkcija kako bi se trenirali Google-ovi klasifikatori spama. Podaci koji nisu „online“ sugerišu da ovo može biti tačno.

Mogli bismo nastaviti da pričamo o linkovima i da diskutujemo o funkcijama kao što su IndyRank, PageRankNS i tako dalje, ali dovoljno je reći da Google ima vrlo precizan pristup analizi linkova i mnogo toga što rade nije približno našim indeksima linkova. Sada je veoma dobro vreme da preispitate svoje programe izgradnje linkova na osnovu svega što ste upravo pročitali.

Dokumenti se skraćuju

Google broji broj tokena i odnos ukupnog broja reči u telu dokumenta prema broju jedinstvenih tokena. Dokumentacija pokazuje da postoji maksimalan broj tokena koji se mogu uzeti u obzir za dokument, posebno u Mustang sistemu, čime se dodatno potvrđuje da autori treba da postave svoj najvažniji sadržaj rano u tekstu.

Kratak sadržaj se ocenjuje po originalnosti

OriginalContentScore sugeriše da se kratak sadržaj ocenjuje po njegovoj originalnosti. Ovo verovatno objašnjava zašto tanak sadržaj nije uvek funkcija dužine.

Suprotno tome, postoji i ocena za pretrpavanje ključnim rečima

Suprotno tome, postoji i ocena za pretrpavanje ključnim rečima.

Naslovi stranica se i dalje ocenjuju u odnosu na upite

Dokumentacija ukazuje da postoji titlematchScore. Opis sugeriše da Google i dalje aktivno vrednuje koliko se dobro naslov stranice poklapa sa upitom.

Postavljanje ciljanih ključnih reči na prvo mesto je i dalje dobra strategija

Nema mera za brojanje karaktera

Za njegovu zaslugu, Gary Ilyes je rekao da su SEO stručnjaci izmislili optimalan broj karaktera za metapodatke. U ovom skupu podataka nema metrike koja broji dužinu naslova stranica ili odlomaka. Jedina mera brojanja karaktera koju smo našli u dokumentaciji je snippetPrefixCharCount, koja izgleda da je postavljena da odredi šta može biti korišćeno kao deo odlomka.

The image displays a section from a technical documentation page. It includes the following elements and text: snippetPrefixCharCount Type: integer(), default: nil Character counts of snippet prefix, if any. E.g. section heading, list summary, byline date.

Ovo potvrđuje ono što smo mnogo puta testirali

Dugi naslovi stranica nisu optimalni za privlačenje klikova, ali su dobri za rangiranje.

Datumi su veoma važni

Google je veoma fokusiran na sveže rezultate, a dokumenti ilustruju brojne pokušaje povezivanja datuma sa stranicama.

bylineDate – Ovo je eksplicitno postavljen datum na stranici.

The image displays a section from a technical documentation page. It includes the following elements and text: bylineDate Type: String.t, default: nil Document's byline date, if available: this is the date that will be shown in the snippets in web search results. It is stored as the number of seconds since epoch. See segindexer/compositedoc.proto

syntacticDate – Ovo je izvučeni datum iz URL-a ili naslova.

The image displays a section from a technical documentation page. It includes the following elements and text: syntacticDate Type: String.t, default: nil Document's syntactic date (e.g. date explicitly mentioned in the URL of the document or in the document title). It is stored as the number of seconds since epoch. See quality/timebased/syntacticdate/proto/syntactic-date.proto

semanticDate – Ovo je datum izveden iz sadržaja stranice.

Najbolja praksa

Najbolje što možete učiniti je da navedete datum i budete dosledni u tome kroz strukturirane podatke, naslove stranica, XML sitemape. Stavljanje datuma u URL koji se ne slaže sa datumima na drugim mestima na stranici verovatno će rezultirati lošijim performansama sadržaja.

Informacije o registraciji domena se čuvaju o stranicama

Dugo se spekulisalo da Google-ov status kao registrara utiče na algoritam. Sada možemo potvrditi da je to činjenica. Čuvaju najnovije informacije o registraciji na nivou kompozitnog dokumenta.

Koristi se za sandboxing

Kao što smo ranije diskutovali, ovo se verovatno koristi za sandboxing novog sadržaja. Takođe se može koristiti za sandboxing prethodno registrovanog domena koji je promenio vlasnika. Sumnjamo da je težina ovog faktora nedavno povećana uvođenjem politike za suzbijanje zloupotrebe isteklih domena.

Sajtovi fokusirani na video sadržaj se tretiraju drugačije

Ako više od 50% stranica na sajtu sadrži video, sajt se smatra fokusiranim na video sadržaj i biće tretiran drugačije.

The image displays a section from a technical documentation page. It includes the following elements and text: isVideoFocusedSite Type: boolean(), default: nil Bit to determine whether the site has mostly video content, but is not hosted on any known video-hosting domains. Site is considered to be video-focused, if it has > 50% of the URLs with watch pages (with smoothing prior). ariane/4045246

„Your Money Your Life“ se posebno ocenjuje

Dokumentacija pokazuje da Google ima klasifikatore koji generišu ocene za YMYL Health i YMYL News.

The image displays a section from a technical documentation page. It includes the following elements and text: ymylNewsScore Type: integer(), default: nil Stores scores of YMYL news classifier as defined at go/ymyl-classifier-dd. To use this field, you MUST join g/pq-classifiers-announce and add your use case at http://shortn/_nfg9oAldou.

Predikcija za „fringe queries“

Takođe prave predikciju za „fringe queries“ ili upite koji ranije nisu viđeni kako bi odredili da li su YMYL ili ne.

The image displays a section from a technical documentation page. It includes the following elements and text: encodedChardXlqYmylPrediction Type: integer(), default: nil An encoding of the Chard XLQ-YMYL prediction in [0,1].

Na kraju, YMYL je ocenjen na nivou delova teksta, što sugeriše da je ceo sistem zasnovan na ugrađivanju.

Postoje dokumenti zlatnog standarda. Nema naznake šta to znači, ali opis pominje „dokumente označene od strane ljudi“ nasuprot „automatski označenim beleškama“. Pitamo se da li je ovo funkcija ocena kvaliteta, ali Google kaže da ocene kvaliteta ne utiču na rangiranje. Tako da, možda nikada nećemo saznati. 🤔

The image displays a section from a technical documentation page. It includes the following elements and text: golden Type: boolean(), default: nil Flag for indicating that the document is a gold-standard document. This can be used for putting additional weight on human-labeled documents in contrast to automatically labeled annotations.

Site embeddings se koriste kako bi se izmerilo koliko je stranica u skladu sa temom. Detaljnije ćemo govoriti o ugradnjama u narednom postu, ali vredi napomenuti da Google specifično vektoriše stranice i sajtove, i upoređuje ugradnje stranica sa ugradnjama sajtova kako bi video koliko je stranica van teme.

Ocene fokusa sajta beleže koliko se sajt drži jedne teme. Radijus sajta beleži koliko daleko stranica odlazi izvan osnovne teme na osnovu vektora site2vec generisanih za sajt.

Google možda svesno uništava male sajtove

Google ima specifičnu oznaku koja ukazuje da li je sajt „mali lični sajt“. Ne postoji definicija takvih sajtova, ali na osnovu svega što znamo, ne bi bilo teško da dodamo Twiddler koji bi povećao takve sajtove ili onaj koji bi ih smanjio.

The image displays a section from a technical documentation page. It includes the following elements and text: smallPersonalSite Type: number(), default: nil Score of small personal site promotion go/promoting-personal-blogs-v1

S obzirom na negativne reakcije i male biznise koji su pogođeni Korisnim ažuriranjem sadržaja, čudo je što ne koriste ovu opciju da nešto preduzmu povodom toga.

Google algoritam je procureo – Šta to znači za SEO?