

Markkinoinnin taito
Googlebot on automaattinen ja aina päällä oleva verkkoindeksointijärjestelmä, joka pitää Googlen hakemiston päivitettynä.
Nettisivu worldwebsize.com arvioi Googlen hakemistoksi yli 62 miljardia verkkosivua.
Googlen hakuindeksi on “selvästi ohi 100 000 000 gigatavua kooltaan.”
Googlebotilla ja versioilla (älypuhelimet, uutiset, kuvat jne.) on tiettyjä JavaScript-renderöintitiheyttä tai resurssien kokoa koskevia rajoituksia.
Google käyttää indeksointirajoituksia suojellakseen omia indeksointiresurssejaan ja järjestelmiään.
Jos esimerkiksi uutissivusto päivittää suositellut artikkelit 15 sekunnin välein, Googlebot saattaa alkaa ohittaa usein päivitettävät osiot, koska ne eivät ole merkityksellisiä tai voimassa 15 sekunnin kuluttua.
Vuosia sitten Google ilmoitti, että se ei indeksoi tai käytä resursseja, jotka ovat suurempia kuin 15 Mt.
Google julkaisi uudelleen 28. kesäkuuta 2022 tämä blogikirjoitus ilmoittamalla, että se ei käytä ylimääräistä osaa resursseista 15 megatavun jälkeen indeksointiin.
Korostaakseen sitä, että sitä tapahtuu harvoin, Google ilmoitti, että “HTML-tiedoston mediaanikoko on 500 kertaa pienempi” kuin 15 Mt.
Edellä, HTTPArchive.org näyttää työpöydän ja mobiilin HTML-tiedoston mediaanikoon. Näin ollen useimmilla verkkosivustoilla ei ole 15 Mt:n indeksointirajoituksen ongelmaa.
Verkko on kuitenkin iso ja kaoottinen paikka.
Hakukoneoptimoijille on tärkeää ymmärtää 15 Mt:n indeksointirajoituksen luonne ja sen analysointitavat.
Kuva, video tai virhe voi aiheuttaa indeksointiongelmia, ja nämä vähemmän tunnetut SEO-tiedot voivat auttaa projekteja suojaamaan orgaanista hakuarvoaan.
Ei.
15 Mt:n Googlebotin indeksointirajoitus koskee kaikkia indeksoitavia ja indeksoitavia asiakirjoja, mukaan lukien Google Earth, Hancom Hanword (.hwp), OpenOffice-teksti (.odt) ja Rich Text Format (.rtf) tai muut Googlebotin tukemat tiedostotyypit.
Ei, jokainen resurssi arvioidaan erikseen 15 Mt:n indeksointirajoituksen mukaan.
Jos HTML-dokumentin koko on 14,99 Mt ja HTML-dokumentin esittelykuva on jälleen 14,99 Mt, Googlebot indeksoi ja käyttää niitä molempia.
HTML-dokumentin kokoa ei lasketa yhteen resurssien kanssa, jotka on linkitetty HTML-tunnisteiden kautta.
Kyllä, upotettu CSS, JS tai Data URI lasketaan ja niitä käytetään HTML-asiakirjan koossa.
Siten, jos asiakirja ylittää 15 Mt sisäisten resurssien ja komentojen vuoksi, se vaikuttaa tietyn HTML-dokumentin indeksoitavuuteen.
Ei, Googlen indeksointijärjestelmät eivät lopeta 15 Mt:n rajaa suurempien resurssien indeksointia.
He jatkavat tiedoston hakemista ja käyttävät vain pienempää osaa kuin 15 Mt.
Jos kuva on suurempi kuin 15 megatavua, Googlebot voi leikata kuvan 15 megatavuun “sisältöalueen” avulla.
Content-Range on vastausotsikko, joka auttaa Googlebotia tai muita indeksointirobotteja ja pyynnön esittäjiä suorittamaan osittaisia pyyntöjä.
Voit käyttää Google Chrome -kehittäjätyökalut tarkastaa resurssin koko manuaalisesti.
Noudata alla olevia ohjeita Google Chromessa.
Alla on esimerkki searchenginejournal.com-kotisivun HTML-asiakirjasta, joka on suurempi kuin 77 kt.
Käytä Pythonia tarkastaaksesi HTML-asiakirjan kokoa automaattisesti ja joukkona. Advertools ja Pandas ovat kaksi hyödyllistä Python-kirjastoa automatisoida ja skaalata SEO-tehtäviä.
Noudata alla olevia ohjeita.
import advertools as adv
import pandas as pd
df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
df = pd.read_json("output.jl", lines=True)
df[["url", "size"]].sort_values(by="size", ascending=False)
Yllä oleva koodilohko poimii sivustokartan URL-osoitteet ja indeksoi ne.
Koodin viimeinen rivi on tarkoitettu vain tietokehyksen luomiseen kokojen mukaan laskevassa järjestyksessä.
Näet HTML-dokumenttien koot kuten yllä.
Tämän esimerkin suurin HTML-dokumentti on noin 700 kt, joka on luokkasivu.
Joten tämä sivusto on turvallinen 15 Mt:n rajoituksille. Mutta voimme tarkistaa tämän pidemmälle.
Puppeteeria käytetään CSS- ja JS-resurssien koon tarkistamiseen.
Nukkenäyttelijä on NodeJS-paketti Google Chromen ohjaamiseen päättömällä tilassa selaimen automatisointia ja verkkosivustotestejä varten.
Useimmat SEO-ammattilaiset käyttävät Lighthouse tai Page Speed Insights API suorituskykytesteihinsä. Mutta Puppeteerin avulla jokainen tekninen puoli ja simulaatio voidaan analysoida.
Noudata alla olevaa koodilohkoa.
const puppeteer = require('puppeteer');
const XLSX = require("xlsx");
const path = require("path");
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.holisticseo.digital');
console.log('Page loaded');
const perfEntries = JSON.parse(
await page.evaluate(() => JSON.stringify(performance.getEntries()))
);
console.log(perfEntries);
const workSheetColumnName = [
"name",
"transferSize",
"encodedSize",
"decodedSize"
]
const urlObject = new URL("https://www.holisticseo.digital")
const hostName = urlObject.hostname
const domainName = hostName.replace("www.|.com", "");
console.log(hostName)
console.log(domainName)
const workSheetName = "Users";
const filePath = `./${domainName}`;
const userList = perfEntries;
const exportPerfToExcel = (userList) => {
const data = perfEntries.map(url => {
return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
})
const workBook = XLSX.utils.book_new();
const workSheetData = [
workSheetColumnName,
...data
]
const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
XLSX.writeFile(workBook, path.resolve(filePath));
return true;
}
exportPerfToExcel(userList)
//browser.close();
})();
Jos et tunne JavaScriptiä tai et ole suorittanut minkäänlaista Puppeteer-oppituntia, sinun voi olla hieman vaikeampaa ymmärtää näitä koodilohkoja. Mutta itse asiassa se on yksinkertainen.
Pohjimmiltaan se avaa URL-osoitteen, ottaa kaikki resurssit ja antaa niiden “transferSize”, “encodedSize” ja “decodedSize”.
Tässä esimerkissä “decodedSize” on koko, johon meidän on keskityttävä. Alla näet tuloksen XLS-tiedostona.
Jos haluat automatisoida nämä prosessit jokaiselle URL-osoitteelle uudelleen, sinun on käytettävä for-silmukkaa “await.page.goto()”-komennossa.
Halutessasi voit laittaa jokaisen verkkosivun eri laskentataulukkoon tai liittää sen samaan taulukkoon liittämällä sen.
Googlebotin 15 Mt:n indeksointirajoitus on harvinainen mahdollisuus, joka estää tekniset hakukoneoptimointiprosessisi toistaiseksi, mutta HTTPArchive.org näyttää, että mediaanivideon, kuvan ja JavaScript koot ovat lisääntyneet viime vuosina.
Työpöydän kuvan mediaanikoko on ylittänyt 1 Mt.
Videotavut ylittävät yhteensä 5 Mt.
Toisin sanoen ajoittain nämä resurssit – tai jotkin näistä resursseista – voidaan ohittaa Googlebot.
Siksi sinun pitäisi pystyä hallitsemaan niitä automaattisesti joukkomenetelmillä, jotta voit säästää aikaa ja olla ohittamatta.
Lisää resursseja:
Suositeltu kuva: BestForBest/Shutterstock
Error: No feed found.
Please go to the Instagram Feed settings page to create a feed.