Mikä on Robots.txt ja mitä sillä voi tehdä? )


Mikä on robots.txt-tiedosto?

Robots.txt on lyhyt tekstitiedosto, joka opastaa indeksointirobotteja (esim. Googlebot), mitä he saavat indeksoida verkkosivustollasi.

SEO näkökulmasta robots.txt auttaa indeksoimaan tärkeimmät sivut ensin ja estää botteja vierailemasta sivuilla, jotka eivät ole tärkeitä.

Tältä robots.txt voi näyttää:

Mistä löytää robots.txt

Robots.txt-tiedostojen löytäminen on melko yksinkertaista – mene mille tahansa verkkotunnuksen etusivulle ja lisää “/robots.txt” sen loppuun.

Se näyttää oikean, toimivan robots.txt-tiedoston, tässä on esimerkki:

https://yourdomain.com/robots.txt

Robots.txt-tiedosto on julkinen kansio, joka voidaan tarkistaa käytännössä millä tahansa verkkosivustolla – voit löytää sen jopa sivustoilta, kuten Amazon, Facebook tai Apple.

Miksi robots.txt on tärkeä?

Robots.txt-tiedoston tarkoitus on kertoa indeksointiroboteille, mihin verkkosivustosi osiin he voivat päästä ja miten heidän tulee olla vuorovaikutuksessa sivujen kanssa.

Yleisesti ottaen on tärkeää, että verkkosivuston sisältö voidaan indeksoida ja indeksoida ensin – hakukoneet on löydettävä sivusi ennen kuin ne voivat näkyä hakutuloksina.

Joissakin tapauksissa on kuitenkin parempi kieltää indeksointirobotteja vierailemasta tietyillä sivuilla (esim. tyhjät sivut, verkkosivustosi kirjautumissivu jne.).

Tämä voidaan saavuttaa käyttämällä robots.txt-tiedostoa, jonka indeksointirobotit tarkistavat aina ennen kuin he alkavat indeksoida verkkosivustoa.

merkintä: Robots.txt-tiedosto voi estää hakukoneita indeksoimasta, mutta ei indeksoimasta.

Vaikka indeksoijat saattavat olla kiellettyjä vierailemasta tietyllä sivulla, hakukoneet saattavat silti indeksoida sen, jos jotkut ulkoiset linkit osoittavat siihen.

Tämä indeksoitu sivu voi siksi näkyä hakutuloksena, mutta ilman hyödyllistä sisältöä – koska indeksointirobotit eivät voineet indeksoida mitään tietoja sivulta:

robots.txt estänyt indeksoidun sivun

Estä Googlea indeksoimasta sivujasi käyttämällä muita sopivia menetelmiä (esim. noindex-sisällönkuvauskenttä) osoittamaan, että et halua joidenkin verkkosivustosi osien näkyvän hakutuloksina.

Robots.txt-tiedoston perustarkoituksen lisäksi siinä on myös joitain SEO-etuja, joista voi olla hyötyä tietyissä tilanteissa.

1. Optimoi indeksointibudjetti

Indeksointibudjetti määrittää niiden sivujen määrän, jotka indeksointirobotit, kuten Googlebot, indeksoivat (tai uudelleenindeksoivat) tietyn ajanjakson sisällä.

Monet suuret verkkosivustot sisältävät yleensä paljon merkityksettömiä sivuja, joita ei tarvitse usein (tai ei ollenkaan) indeksoida ja indeksoida.

Robots.txt-tiedoston käyttäminen kertoo hakukoneille, mitkä sivut indeksoidaan ja mitkä sivut tulee välttää kokonaan – joka optimoi indeksoinnin tehokkuuden ja tiheyden.

2. Hallitse päällekkäistä sisältöä

Robots.txt voi auttaa sinua välttämään samankaltaisen tai päällekkäisen sisällön indeksoinnin sivuillasi.

Monet sivustot sisältävät jonkinlaista päällekkäistä sisältöä – onko sivuilla URL-parametreja, www-sivuja tai muita sivuja, identtisiä PDF-tiedostoja jne.

Osoittamalla nämä sivut robots.txt-tiedoston kautta voit hallita sisältöä, jota ei tarvitse indeksoida, ja auttaa hakukonetta indeksoimaan vain ne sivut, jotka haluat näkyvän Google-haussa.

3. Estä palvelimen ylikuormitus

Robots.txt-tiedoston käyttäminen voi auttaa estämään verkkosivustopalvelinta kaatumasta.

Yleisesti ottaen Googlebot (ja muut arvostetut indeksointirobotit) ovat yleensä hyviä määrittämään, kuinka nopeasti heidän tulisi indeksoida verkkosivustosi ylittämättä sen palvelinkapasiteettia.

Voit kuitenkin haluta estää pääsyn indeksoijilta, jotka vierailevat sivustollasi liian paljon ja liian usein.

Näissä tapauksissa robots.txt voi kertoa indeksointiroboteille, mihin sivuihin heidän tulee keskittyä, jättäen muut verkkosivuston osat yksin ja siten estämään sivuston ylikuormituksen.

Tai kuin Martin SplittGooglen Developer Advocate selitti:

Se on indeksointinopeus, pohjimmiltaan kuinka paljon stressiä voimme asettaa palvelimellesi kaatumatta tai kärsimättä palvelimesi tappamisesta liikaa.

Lisäksi saatat haluta estää tietyt sivustoongelmia aiheuttavat robotit – olipa kyseessä sitten “huono” robotti, joka ylikuormittaa sivustoasi pyynnöillä, tai estää kaapimia, jotka yrittävät kopioida kaiken sivustosi sisällön.

Miten robots.txt-tiedosto toimii?

Robots.txt-tiedoston toiminnan perusperiaatteet ovat melko yksinkertaisia ​​– se koostuu kahdesta peruselementistä, jotka määräävät, minkä indeksointirobotin tulee tehdä jotain ja mitä sen pitäisi olla:

  • Käyttäjäagentit: määrittää, mitkä indeksointirobotit ohjataan välttämään (tai indeksoimaan) tietyt sivut
  • Ohjeet: kertoo käyttäjäagenteille, mitä heidän tulee tehdä tietyillä sivuilla.

Tässä on yksinkertaisin esimerkki siitä, miltä robots.txt-tiedosto voi näyttää näiden kahden elementin kanssa:

User-agent: Googlebot
Disallow: /wp-admin/

Tarkastellaanpa niitä molempia tarkemmin.

Käyttäjä-agentit

User-agent on tietyn indeksointirobotin nimi, joka saa ohjeita verkkosivustosi indeksoinnista.

Esimerkiksi yleisen Googlen indeksointirobotin user-agent on “Googlebot“, Bing-indeksoijalle se on “BingBot”, Yahoolle ”Ryystää“, jne.

Voit merkitä kaikentyyppiset indeksointirobotit tietylle käskylle kerralla käyttämällä symbolia ” * ” (kutsutaan jokerimerkiksi) – se edustaa kaikkia robots.txt-tiedostoa “totelevia” robotteja.

Robots.txt-tiedostossa se näyttäisi tältä:

User-agent: * 
Disallow: /wp-admin/

merkintä: Muista, että käyttäjäagentteja on monenlaisia, ja jokainen niistä keskittyy indeksointiin eri tarkoituksiin.

Jos haluat nähdä, mitä käyttäjäagentteja Google käyttää, katso tämä yleiskatsaus Googlen indeksointiroboteista.

direktiivit

Robots.txt-ohjeet ovat sääntöjä, joita määritetty user-agent noudattaa.

Oletuksena indeksointirobotteja kehotetaan indeksoimaan kaikki saatavilla olevat verkkosivut – robots.txt määrittää sitten, mitä verkkosivustosi sivuja tai osioita ei tule indeksoida.

On kolme yleisintä sääntöä, joita käytetään:

  • Estä – käskee indeksoijia olemaan käyttämättä mitään tässä direktiivissä määriteltyä. Voit määrittää käyttäjäagenteille useita esto-ohjeita.
  • Sallia – kertoo indeksoijille, että he pääsevät joillekin sivuille jo kiellettyjen sivustojen osiosta.
  • Sivustokartta – jos olet määrittänyt XML-sivustokartan, robots.txt voi osoittaa indeksointiroboteille, mistä he löytävät indeksoitavat sivut osoittamalla ne sivustokarttaasi.

Tässä on esimerkki siitä, miltä robots.txt voi näyttää näiden kolmen yksinkertaisen ohjeen avulla:

User-agent: Googlebot
Disallow: /wp-admin/ 
Allow: /wp-admin/random-content.php 
Sitemap: https://www.example.com/sitemap.xml

Ensimmäisellä rivillä olemme päättäneet, että direktiivi koskee tiettyä indeksointirobottia – Googlebot.

Toisella rivillä (direktiivi) kerroimme Googlebotille, että emme halua sen pääsevän tiettyyn kansioon – tässä tapauksessa WordPress-sivuston kirjautumissivulle.

Kolmannelle riville lisäsimme poikkeuksen – vaikka Googlebot ei voi käyttää mitään, mikä on alla /wp-admin/ -kansioon, se voi vierailla yhdessä tietyssä osoitteessa.

Neljännellä rivillä opastimme Googlebotille, mistä löytää Sitemap ja luettelo URL-osoitteista, jotka haluat indeksoitavan.

On myös muutamia muita hyödyllisiä sääntöjä, joita voidaan soveltaa robots.txt-tiedostoosi – varsinkin jos sivustosi sisältää tuhansia sivuja, joita on hallittava.

* (jokerimerkki)

Jokerimerkki * on direktiivi, joka ilmaisee säännön mallien sovittamiseksi.

Sääntö on erityisen hyödyllinen verkkosivustoille, jotka sisältävät paljon luotua sisältöä, suodatettuja tuotesivuja jne.

Esimerkiksi sen sijaan, että estäisit jokaisen tuotesivun alla /products/ osio yksitellen (kuten alla olevassa esimerkissä):

User-agent: * 
Disallow: /products/shoes?
Disallow: /products/boots?
Disallow: /products/sneakers?

Voimme käyttää jokerimerkkiä estääksemme ne kaikki kerralla:

User-agent: * 
Disallow: /products/*?

Yllä olevassa esimerkissä user-agenttia kehotetaan olemaan indeksoimatta mitään sivua /products/ osio, joka sisältää kysymysmerkin “?” (käytetään usein parametroiduissa tuoteluokan URL-osoitteissa).

$

The $ -symbolia käytetään osoittamaan URL-osoitteen loppua – indeksointirobotteja voidaan ohjeistaa, että heidän ei pitäisi (tai pitäisi) indeksoida URL-osoitteita, joissa on tietty pääte:

User-agent: *
Disallow: /*.gif$

$ “-merkki kertoo boteille, että heidän on jätettävä huomioimatta kaikki URL-osoitteet, jotka päättyvät “”.gif“.

#

The # merkki toimii vain kommenttina tai huomautuksena ihmislukijalle – sillä ei ole vaikutusta mihinkään käyttäjäagenttiin, eikä se toimi ohjeena:

# We don't want any crawler to visit our login page! 
User-agent: *
Disallow: /wp-admin/

Robots.txt-tiedoston luominen

Oman robots.txt-tiedoston luominen ei ole rakettitiedettä.

Jos käytät sivustollasi WordPressiä, sinulla on jo luotu robots.txt-perustiedosto – samanlainen kuin yllä esitetyt.

Jos kuitenkin aiot tehdä joitain lisämuutoksia tulevaisuudessa, on olemassa muutamia yksinkertaisia ​​laajennuksia, jotka voivat auttaa hallitsemaan robots.txt-tiedostoa, kuten:

Näiden laajennusten avulla on helppo hallita, mitä haluat sallia ja kieltää ilman, että sinun tarvitsee kirjoittaa monimutkaista syntaksia itse.

Vaihtoehtoisesti voit myös muokata robots.txt-tiedostoasi FTP:n kautta – jos olet varma sen käyttämisestä ja muokkaamisesta, tekstitiedoston lataaminen on melko helppoa.

Tämä menetelmä on kuitenkin paljon monimutkaisempi ja voi aiheuttaa nopeasti virheitä.

Robots.txt-tiedoston tarkistaminen

Voit tarkistaa (tai testata) robots.txt-tiedoston monella eri tavalla – ensinnäkin sinun tulee yrittää löytää robots.txt-tiedosto itse.

Jos et ole ilmoittanut tiettyä URL-osoitetta, tiedostosi isännöi “https://yourdomain.com/robots.txt” – jos käytät toista verkkosivustojen rakennustyökalua, URL-osoite voi olla erilainen.

Voit tarkistaa, voivatko hakukoneet, kuten Google, todella löytää robots.txt-tiedostosi ja “totella” sitä, jommallakummalla seuraavista tavoista:

  • Käytä robots.txt Testeria – Googlen yksinkertainen työkalu, jonka avulla voit selvittää, toimiiko robots.txt-tiedostosi oikein.
  • Tarkista Google Search Console – voit etsiä robots.txt-tiedoston aiheuttamia virheitä “KattavuusGoogle Search Consolen välilehti. Varmista, ettei URL-osoitteita ole, jotka raportoivat viesteistä “robots.txt estänyt” vahingossa.
Google Search Console - estänyt robots.txt-esimerkki

Robots.txt-tiedoston parhaat käytännöt

Robots.txt-tiedostot voivat olla helposti monimutkaisia, joten on parasta pitää asiat mahdollisimman yksinkertaisina.

Tässä on muutamia vinkkejä, jotka voivat auttaa sinua luomaan ja päivittämään oman robots.txt-tiedoston:

  • Käytä erillisiä tiedostoja aliverkkotunnuksille – jos verkkosivustollasi on useita aliverkkotunnuksia, sinun tulee käsitellä niitä erillisinä verkkosivustoina. Luo aina erilliset robots.txt-tiedostot jokaiselle omistamallesi aliverkkotunnukselle.
  • Määritä käyttäjäagentit vain kerran – yritä yhdistää kaikki käskyt, jotka on määritetty tietylle käyttäjäagentille. Tämä tekee robots.txt-tiedostostasi yksinkertaisuuden ja järjestyksen.
  • Varmista täsmällisyys – Varmista, että määrität tarkat URL-osoitteet ja kiinnitä huomiota kaikkiin URL-osoitteissasi oleviin (tai puuttuviin) perässä oleviin vinoviivojen tai erityisiin merkkeihin.





Source link

About the Author

Leave a Reply

Your email address will not be published. Required fields are marked *

You may also like these

This error message is only visible to WordPress admins

Error: No feed found.

Please go to the Instagram Feed settings page to create a feed.