Etsi yli 15 Mt resursseja parantaaksesi Googlebotin indeksointia


Googlebot on automaattinen ja aina päällä oleva verkkoindeksointijärjestelmä, joka pitää Googlen hakemiston päivitettynä.

Nettisivu worldwebsize.com arvioi Googlen hakemistoksi yli 62 miljardia verkkosivua.

Googlen hakuindeksi on “selvästi ohi 100 000 000 gigatavua kooltaan.”

Googlebotilla ja versioilla (älypuhelimet, uutiset, kuvat jne.) on tiettyjä JavaScript-renderöintitiheyttä tai resurssien kokoa koskevia rajoituksia.

Google käyttää indeksointirajoituksia suojellakseen omia indeksointiresurssejaan ja järjestelmiään.

Jos esimerkiksi uutissivusto päivittää suositellut artikkelit 15 sekunnin välein, Googlebot saattaa alkaa ohittaa usein päivitettävät osiot, koska ne eivät ole merkityksellisiä tai voimassa 15 sekunnin kuluttua.

Vuosia sitten Google ilmoitti, että se ei indeksoi tai käytä resursseja, jotka ovat suurempia kuin 15 Mt.

Google julkaisi uudelleen 28. kesäkuuta 2022 tämä blogikirjoitus ilmoittamalla, että se ei käytä ylimääräistä osaa resursseista 15 megatavun jälkeen indeksointiin.

Korostaakseen sitä, että sitä tapahtuu harvoin, Google ilmoitti, että “HTML-tiedoston mediaanikoko on 500 kertaa pienempi” kuin 15 Mt.

html-tavujen aikajanaKuvakaappaus kirjoittajalta, elokuu 2022

Edellä, HTTPArchive.org näyttää työpöydän ja mobiilin HTML-tiedoston mediaanikoon. Näin ollen useimmilla verkkosivustoilla ei ole 15 Mt:n indeksointirajoituksen ongelmaa.

Verkko on kuitenkin iso ja kaoottinen paikka.

Hakukoneoptimoijille on tärkeää ymmärtää 15 Mt:n indeksointirajoituksen luonne ja sen analysointitavat.

Kuva, video tai virhe voi aiheuttaa indeksointiongelmia, ja nämä vähemmän tunnetut SEO-tiedot voivat auttaa projekteja suojaamaan orgaanista hakuarvoaan.

Etsi yli 15 Mt resursseja parantaaksesi Googlebotin indeksointia

Onko 15 Mt Googlebotin indeksointirajoitus vain HTML-asiakirjoille?

Ei.

15 Mt:n Googlebotin indeksointirajoitus koskee kaikkia indeksoitavia ja indeksoitavia asiakirjoja, mukaan lukien Google Earth, Hancom Hanword (.hwp), OpenOffice-teksti (.odt) ja Rich Text Format (.rtf) tai muut Googlebotin tukemat tiedostotyypit.

Summennettuko kuvien ja videoiden koot HTML-dokumenttiin?

Ei, jokainen resurssi arvioidaan erikseen 15 Mt:n indeksointirajoituksen mukaan.

Jos HTML-dokumentin koko on 14,99 Mt ja HTML-dokumentin esittelykuva on jälleen 14,99 Mt, Googlebot indeksoi ja käyttää niitä molempia.

HTML-dokumentin kokoa ei lasketa yhteen resurssien kanssa, jotka on linkitetty HTML-tunnisteiden kautta.

Suurentaako upotettu CSS-, JS- tai data-URI HTML-asiakirjan kokoa?

Kyllä, upotettu CSS, JS tai Data URI lasketaan ja niitä käytetään HTML-asiakirjan koossa.

Siten, jos asiakirja ylittää 15 Mt sisäisten resurssien ja komentojen vuoksi, se vaikuttaa tietyn HTML-dokumentin indeksoitavuuteen.

Lopettaako Google resurssin indeksoinnin, jos se on suurempi kuin 15 Mt?

Ei, Googlen indeksointijärjestelmät eivät lopeta 15 Mt:n rajaa suurempien resurssien indeksointia.

He jatkavat tiedoston hakemista ja käyttävät vain pienempää osaa kuin 15 Mt.

Jos kuva on suurempi kuin 15 megatavua, Googlebot voi leikata kuvan 15 megatavuun “sisältöalueen” avulla.

Content-Range on vastausotsikko, joka auttaa Googlebotia tai muita indeksointirobotteja ja pyynnön esittäjiä suorittamaan osittaisia ​​pyyntöjä.

Kuinka tarkastaa resurssin koko manuaalisesti?

Voit käyttää Google Chrome -kehittäjätyökalut tarkastaa resurssin koko manuaalisesti.

Noudata alla olevia ohjeita Google Chromessa.

  • Avaa verkkosivun asiakirja Google Chromen kautta.
  • Paina F12.
  • Siirry Verkko-välilehteen.
  • Päivitä verkkosivu.
  • Järjestä resurssit vesiputouksen mukaan.
  • Tarkista koko sarake ensimmäisellä rivillä, joka näyttää HTML-dokumentin koon.

Alla on esimerkki searchenginejournal.com-kotisivun HTML-asiakirjasta, joka on suurempi kuin 77 kt.

hakukoneen lehden etusivun html-tuloksetKuvakaappaus kirjoittajalta, elokuu 2022

Kuinka auditoida resurssien kokoa automaattisesti ja massa?

Käytä Pythonia tarkastaaksesi HTML-asiakirjan kokoa automaattisesti ja joukkona. Advertools ja Pandas ovat kaksi hyödyllistä Python-kirjastoa automatisoida ja skaalata SEO-tehtäviä.

Noudata alla olevia ohjeita.

  • Tuo Advertools ja Pandas.
  • Kerää kaikki sivustokartan URL-osoitteet.
  • Indeksoi kaikki sivustokartan URL-osoitteet.
  • Suodata URL-osoitteet niiden HTML-koon mukaan.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

Yllä oleva koodilohko poimii sivustokartan URL-osoitteet ja indeksoi ne.

Koodin viimeinen rivi on tarkoitettu vain tietokehyksen luomiseen kokojen mukaan laskevassa järjestyksessä.

holisticseo.com URL-osoitteet ja kokoKuvan tekijä, elokuu 2022

Näet HTML-dokumenttien koot kuten yllä.

Tämän esimerkin suurin HTML-dokumentti on noin 700 kt, joka on luokkasivu.

Joten tämä sivusto on turvallinen 15 Mt:n rajoituksille. Mutta voimme tarkistaa tämän pidemmälle.

Kuinka tarkistaa CSS- ja JS-resurssien koot?

Puppeteeria käytetään CSS- ja JS-resurssien koon tarkistamiseen.

Nukkenäyttelijä on NodeJS-paketti Google Chromen ohjaamiseen päättömällä tilassa selaimen automatisointia ja verkkosivustotestejä varten.

Useimmat SEO-ammattilaiset käyttävät Lighthouse tai Page Speed ​​Insights API suorituskykytesteihinsä. Mutta Puppeteerin avulla jokainen tekninen puoli ja simulaatio voidaan analysoida.

Noudata alla olevaa koodilohkoa.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Jos et tunne JavaScriptiä tai et ole suorittanut minkäänlaista Puppeteer-oppituntia, sinun voi olla hieman vaikeampaa ymmärtää näitä koodilohkoja. Mutta itse asiassa se on yksinkertainen.

Pohjimmiltaan se avaa URL-osoitteen, ottaa kaikki resurssit ja antaa niiden “transferSize”, “encodedSize” ja “decodedSize”.

Tässä esimerkissä “decodedSize” on koko, johon meidän on keskityttävä. Alla näet tuloksen XLS-tiedostona.

Resurssien kootVerkkosivuston resurssien tavukoot.

Jos haluat automatisoida nämä prosessit jokaiselle URL-osoitteelle uudelleen, sinun on käytettävä for-silmukkaa “await.page.goto()”-komennossa.

Halutessasi voit laittaa jokaisen verkkosivun eri laskentataulukkoon tai liittää sen samaan taulukkoon liittämällä sen.

Johtopäätös

Googlebotin 15 Mt:n indeksointirajoitus on harvinainen mahdollisuus, joka estää tekniset hakukoneoptimointiprosessisi toistaiseksi, mutta HTTPArchive.org näyttää, että mediaanivideon, kuvan ja JavaScript koot ovat lisääntyneet viime vuosina.

Työpöydän kuvan mediaanikoko on ylittänyt 1 Mt.

Kuvatavujen aikasarjatKuvakaappaus kirjoittajalta, elokuu 2022

Videotavut ylittävät yhteensä 5 Mt.

Videotavujen aikasarjatKuvakaappaus kirjoittajalta, elokuu 2022

Toisin sanoen ajoittain nämä resurssit – tai jotkin näistä resursseista – voidaan ohittaa Googlebot.

Siksi sinun pitäisi pystyä hallitsemaan niitä automaattisesti joukkomenetelmillä, jotta voit säästää aikaa ja olla ohittamatta.

Lisää resursseja:


Suositeltu kuva: BestForBest/Shutterstock





Source link

About the Author

Leave a Reply

Your email address will not be published. Required fields are marked *

You may also like these

This error message is only visible to WordPress admins

Error: No feed found.

Please go to the Instagram Feed settings page to create a feed.