

Markkinoinnin taito
Robots.txt on lyhyt tekstitiedosto, joka opastaa indeksointirobotteja (esim. Googlebot), mitä he saavat indeksoida verkkosivustollasi.
SEO näkökulmasta robots.txt auttaa indeksoimaan tärkeimmät sivut ensin ja estää botteja vierailemasta sivuilla, jotka eivät ole tärkeitä.
Tältä robots.txt voi näyttää:
Robots.txt-tiedostojen löytäminen on melko yksinkertaista – mene mille tahansa verkkotunnuksen etusivulle ja lisää “/robots.txt” sen loppuun.
Se näyttää oikean, toimivan robots.txt-tiedoston, tässä on esimerkki:
https://yourdomain.com/robots.txt
Robots.txt-tiedosto on julkinen kansio, joka voidaan tarkistaa käytännössä millä tahansa verkkosivustolla – voit löytää sen jopa sivustoilta, kuten Amazon, Facebook tai Apple.
Robots.txt-tiedoston tarkoitus on kertoa indeksointiroboteille, mihin verkkosivustosi osiin he voivat päästä ja miten heidän tulee olla vuorovaikutuksessa sivujen kanssa.
Yleisesti ottaen on tärkeää, että verkkosivuston sisältö voidaan indeksoida ja indeksoida ensin – hakukoneet on löydettävä sivusi ennen kuin ne voivat näkyä hakutuloksina.
Joissakin tapauksissa on kuitenkin parempi kieltää indeksointirobotteja vierailemasta tietyillä sivuilla (esim. tyhjät sivut, verkkosivustosi kirjautumissivu jne.).
Tämä voidaan saavuttaa käyttämällä robots.txt-tiedostoa, jonka indeksointirobotit tarkistavat aina ennen kuin he alkavat indeksoida verkkosivustoa.
merkintä: Robots.txt-tiedosto voi estää hakukoneita indeksoimasta, mutta ei indeksoimasta.
Vaikka indeksoijat saattavat olla kiellettyjä vierailemasta tietyllä sivulla, hakukoneet saattavat silti indeksoida sen, jos jotkut ulkoiset linkit osoittavat siihen.
Tämä indeksoitu sivu voi siksi näkyä hakutuloksena, mutta ilman hyödyllistä sisältöä – koska indeksointirobotit eivät voineet indeksoida mitään tietoja sivulta:
Estä Googlea indeksoimasta sivujasi käyttämällä muita sopivia menetelmiä (esim. noindex-sisällönkuvauskenttä) osoittamaan, että et halua joidenkin verkkosivustosi osien näkyvän hakutuloksina.
Robots.txt-tiedoston perustarkoituksen lisäksi siinä on myös joitain SEO-etuja, joista voi olla hyötyä tietyissä tilanteissa.
Indeksointibudjetti määrittää niiden sivujen määrän, jotka indeksointirobotit, kuten Googlebot, indeksoivat (tai uudelleenindeksoivat) tietyn ajanjakson sisällä.
Monet suuret verkkosivustot sisältävät yleensä paljon merkityksettömiä sivuja, joita ei tarvitse usein (tai ei ollenkaan) indeksoida ja indeksoida.
Robots.txt-tiedoston käyttäminen kertoo hakukoneille, mitkä sivut indeksoidaan ja mitkä sivut tulee välttää kokonaan – joka optimoi indeksoinnin tehokkuuden ja tiheyden.
Robots.txt voi auttaa sinua välttämään samankaltaisen tai päällekkäisen sisällön indeksoinnin sivuillasi.
Monet sivustot sisältävät jonkinlaista päällekkäistä sisältöä – onko sivuilla URL-parametreja, www-sivuja tai muita sivuja, identtisiä PDF-tiedostoja jne.
Osoittamalla nämä sivut robots.txt-tiedoston kautta voit hallita sisältöä, jota ei tarvitse indeksoida, ja auttaa hakukonetta indeksoimaan vain ne sivut, jotka haluat näkyvän Google-haussa.
Robots.txt-tiedoston käyttäminen voi auttaa estämään verkkosivustopalvelinta kaatumasta.
Yleisesti ottaen Googlebot (ja muut arvostetut indeksointirobotit) ovat yleensä hyviä määrittämään, kuinka nopeasti heidän tulisi indeksoida verkkosivustosi ylittämättä sen palvelinkapasiteettia.
Voit kuitenkin haluta estää pääsyn indeksoijilta, jotka vierailevat sivustollasi liian paljon ja liian usein.
Näissä tapauksissa robots.txt voi kertoa indeksointiroboteille, mihin sivuihin heidän tulee keskittyä, jättäen muut verkkosivuston osat yksin ja siten estämään sivuston ylikuormituksen.
Tai kuin Martin SplittGooglen Developer Advocate selitti:
“Se on indeksointinopeus, pohjimmiltaan kuinka paljon stressiä voimme asettaa palvelimellesi kaatumatta tai kärsimättä palvelimesi tappamisesta liikaa.”
Lisäksi saatat haluta estää tietyt sivustoongelmia aiheuttavat robotit – olipa kyseessä sitten “huono” robotti, joka ylikuormittaa sivustoasi pyynnöillä, tai estää kaapimia, jotka yrittävät kopioida kaiken sivustosi sisällön.
Robots.txt-tiedoston toiminnan perusperiaatteet ovat melko yksinkertaisia – se koostuu kahdesta peruselementistä, jotka määräävät, minkä indeksointirobotin tulee tehdä jotain ja mitä sen pitäisi olla:
Tässä on yksinkertaisin esimerkki siitä, miltä robots.txt-tiedosto voi näyttää näiden kahden elementin kanssa:
User-agent: Googlebot Disallow: /wp-admin/
Tarkastellaanpa niitä molempia tarkemmin.
User-agent on tietyn indeksointirobotin nimi, joka saa ohjeita verkkosivustosi indeksoinnista.
Esimerkiksi yleisen Googlen indeksointirobotin user-agent on “Googlebot“, Bing-indeksoijalle se on “BingBot”, Yahoolle ”Ryystää“, jne.
Voit merkitä kaikentyyppiset indeksointirobotit tietylle käskylle kerralla käyttämällä symbolia ” *
” (kutsutaan jokerimerkiksi) – se edustaa kaikkia robots.txt-tiedostoa “totelevia” robotteja.
Robots.txt-tiedostossa se näyttäisi tältä:
User-agent: * Disallow: /wp-admin/
merkintä: Muista, että käyttäjäagentteja on monenlaisia, ja jokainen niistä keskittyy indeksointiin eri tarkoituksiin.
Jos haluat nähdä, mitä käyttäjäagentteja Google käyttää, katso tämä yleiskatsaus Googlen indeksointiroboteista.
Robots.txt-ohjeet ovat sääntöjä, joita määritetty user-agent noudattaa.
Oletuksena indeksointirobotteja kehotetaan indeksoimaan kaikki saatavilla olevat verkkosivut – robots.txt määrittää sitten, mitä verkkosivustosi sivuja tai osioita ei tule indeksoida.
On kolme yleisintä sääntöä, joita käytetään:
Tässä on esimerkki siitä, miltä robots.txt voi näyttää näiden kolmen yksinkertaisen ohjeen avulla:
User-agent: Googlebot Disallow: /wp-admin/ Allow: /wp-admin/random-content.php Sitemap: https://www.example.com/sitemap.xml
Ensimmäisellä rivillä olemme päättäneet, että direktiivi koskee tiettyä indeksointirobottia – Googlebot
.
Toisella rivillä (direktiivi) kerroimme Googlebotille, että emme halua sen pääsevän tiettyyn kansioon – tässä tapauksessa WordPress-sivuston kirjautumissivulle.
Kolmannelle riville lisäsimme poikkeuksen – vaikka Googlebot ei voi käyttää mitään, mikä on alla /wp-admin/
-kansioon, se voi vierailla yhdessä tietyssä osoitteessa.
Neljännellä rivillä opastimme Googlebotille, mistä löytää Sitemap
ja luettelo URL-osoitteista, jotka haluat indeksoitavan.
On myös muutamia muita hyödyllisiä sääntöjä, joita voidaan soveltaa robots.txt-tiedostoosi – varsinkin jos sivustosi sisältää tuhansia sivuja, joita on hallittava.
Jokerimerkki *
on direktiivi, joka ilmaisee säännön mallien sovittamiseksi.
Sääntö on erityisen hyödyllinen verkkosivustoille, jotka sisältävät paljon luotua sisältöä, suodatettuja tuotesivuja jne.
Esimerkiksi sen sijaan, että estäisit jokaisen tuotesivun alla /products/
osio yksitellen (kuten alla olevassa esimerkissä):
User-agent: * Disallow: /products/shoes? Disallow: /products/boots? Disallow: /products/sneakers?
Voimme käyttää jokerimerkkiä estääksemme ne kaikki kerralla:
User-agent: * Disallow: /products/*?
Yllä olevassa esimerkissä user-agenttia kehotetaan olemaan indeksoimatta mitään sivua /products/
osio, joka sisältää kysymysmerkin “?” (käytetään usein parametroiduissa tuoteluokan URL-osoitteissa).
The $
-symbolia käytetään osoittamaan URL-osoitteen loppua – indeksointirobotteja voidaan ohjeistaa, että heidän ei pitäisi (tai pitäisi) indeksoida URL-osoitteita, joissa on tietty pääte:
User-agent: * Disallow: /*.gif$
” $
“-merkki kertoo boteille, että heidän on jätettävä huomioimatta kaikki URL-osoitteet, jotka päättyvät “”.gif
“.
The #
merkki toimii vain kommenttina tai huomautuksena ihmislukijalle – sillä ei ole vaikutusta mihinkään käyttäjäagenttiin, eikä se toimi ohjeena:
# We don't want any crawler to visit our login page! User-agent: * Disallow: /wp-admin/
Oman robots.txt-tiedoston luominen ei ole rakettitiedettä.
Jos käytät sivustollasi WordPressiä, sinulla on jo luotu robots.txt-perustiedosto – samanlainen kuin yllä esitetyt.
Jos kuitenkin aiot tehdä joitain lisämuutoksia tulevaisuudessa, on olemassa muutamia yksinkertaisia laajennuksia, jotka voivat auttaa hallitsemaan robots.txt-tiedostoa, kuten:
Näiden laajennusten avulla on helppo hallita, mitä haluat sallia ja kieltää ilman, että sinun tarvitsee kirjoittaa monimutkaista syntaksia itse.
Vaihtoehtoisesti voit myös muokata robots.txt-tiedostoasi FTP:n kautta – jos olet varma sen käyttämisestä ja muokkaamisesta, tekstitiedoston lataaminen on melko helppoa.
Tämä menetelmä on kuitenkin paljon monimutkaisempi ja voi aiheuttaa nopeasti virheitä.
Voit tarkistaa (tai testata) robots.txt-tiedoston monella eri tavalla – ensinnäkin sinun tulee yrittää löytää robots.txt-tiedosto itse.
Jos et ole ilmoittanut tiettyä URL-osoitetta, tiedostosi isännöi “https://yourdomain.com/robots.txt” – jos käytät toista verkkosivustojen rakennustyökalua, URL-osoite voi olla erilainen.
Voit tarkistaa, voivatko hakukoneet, kuten Google, todella löytää robots.txt-tiedostosi ja “totella” sitä, jommallakummalla seuraavista tavoista:
Robots.txt-tiedostot voivat olla helposti monimutkaisia, joten on parasta pitää asiat mahdollisimman yksinkertaisina.
Tässä on muutamia vinkkejä, jotka voivat auttaa sinua luomaan ja päivittämään oman robots.txt-tiedoston:
Error: No feed found.
Please go to the Instagram Feed settings page to create a feed.