Robotit .txt-tiedosto sisältää ohjeita hakukoneille. Voit estää sitä hakukoneita indeksoimasta tiettyjä verkkosivustosi osia ja antaa hakukoneille hyödyllisiä vinkkejä siitä, miten ne voivat parhaiten indeksoida verkkosivustosi. Robots.txt-tiedostolla on suuri rooli hakukoneoptimoinnissa.
Kun otat robots.txt-tiedostoa käyttöön, pidä mielessä seuraavat parhaat käytännöt:
Ole varovainen, kun teet muutoksia robots.txt: Tämä tiedosto voi tehdä suurista verkkosivustosi osista hakukoneiden saataville.
Robots.txt-tiedoston tulisi sijaita verkkosivustosi juuressa (esim.
The robots.txt file is only valid for the full domain it resides on, including the protocol (http tai https).
Eri hakukoneet tulkitsevat direktiivejä eri tavalla. Oletusarvoisesti ensimmäinen vastaava direktiivi voittaa aina. Mutta Googlen ja Bingin myötä spesifisyys voittaa.
Vältä indeksointiviive-direktiivin käyttöä hakukoneissa mahdollisimman paljon.
Mikä on robots.txt-tiedosto?
Robots.txt-tiedosto kertoo hakukoneille verkkosivustosi aktivointisäännöt. Suuri osa SEO: n tekemisestä on oikean signaalin lähettämistä hakukoneille, ja robots.txt on yksi tapa kommunikoida indeksointiasetuksesi hakukoneille.
Olemme nähneet vuonna 2019 melko joitain kehityksiä robots.txt-standardin ympärillä: Google ehdotti laajennusta robottien poissulkemisprotokollalle ja hankki avoimen lähteen sen robots.txt-jäsentimestä.
TL; DR
Googlen robotit .txt-tulkki on melko joustava ja yllättävän anteeksiantava.
Jos sekaannusdirektiivejä esiintyy, Google erehtyy turvallisilla puolilla ja olettaa, että osioita tulisi rajoittaa eikä rajoittaa.
Hakukoneet tarkistavat säännöllisesti verkkosivuston robots.txt-tiedoston tarkistaakseen, onko verkkosivuston indeksointiin liittyviä ohjeita. Kutsumme näitä ohjeita direktiiveiksi.
Jos robots.txt-tiedostoa ei ole tai sovellettavia direktiivejä ei ole, hakukoneet indeksoivat koko verkkosivuston.
Vaikka kaikki suuret hakukoneet kunnioittavat robots.txt-tiedosto, hakukoneet voivat jättää robots.txt-tiedoston ohittamatta. Vaikka robots.txt-tiedoston tiedostot ovat vahva signaali hakukoneille, on tärkeää muistaa, että robots.txt-tiedosto on joukko valinnaisia direktiivejä hakukoneille eikä toimeksiantoa.
Robots.txt on arkaluontoisin tiedosto SEO-universumissa. Yksi merkki voi rikkoa kokonaisen sivuston.
LinkedInKevin Indig, VP SEO & Sisältö, G2
robots.txt-tiedoston ympärillä oleva terminologia
Robots.txt-tiedosto on robots-poissulkemisstandardin toteutus, tai sitä kutsutaan myös nimellä robottien poissulkemisprotokolla.
Miksi sinun pitäisi välittää robots.txt-tiedostosta?
Robots.txt-tiedostolla on keskeinen rooli SEO-näkökulmasta. Se kertoo hakukoneille, kuinka he voivat parhaiten indeksoida verkkosivustosi.
Robots.txt-tiedoston avulla voit estää hakukoneita pääsemästä tiettyihin verkkosivustosi osiin, estää päällekkäistä sisältöä ja antaa hakukoneille hyödyllisiä vinkkejä siitä, miten ne voi indeksoida verkkosivustosi tehokkaammin.
Ole kuitenkin varovainen, kun teet muutoksia robots.txt-tiedostoon: tämä tiedosto voi tehdä suurista verkkosivustosi osista hakukoneiden saataville.
Robots.txt-tiedostoa käytetään usein päällekkäisen sisällön vähentämiseen, mikä tappaa sisäisiä linkityksiä, joten ole todella varovainen sen kanssa. Minun neuvoni on käyttää sitä koskaan vain tiedostoihin tai sivuihin, joita hakukoneiden ei pitäisi koskaan nähdä, tai ne voivat vaikuttaa merkittävästi indeksointiin sallimalla ne. Yleisiä esimerkkejä: sisäänkirjautumisalueet, jotka luovat monia eri URL-osoitteita, testialueet tai joissa voi olla useita monipuolisia navigointijärjestelmiä. Ja varmista, että tarkkailet robots.txt-tiedostosi mahdollisten ongelmien tai muutosten varalta.
LinkedInGerry White, SEO-johtaja, Rise at Seven
Suurin osa robots.txt-tiedostoista näkemistäni ongelmista jakautuu kolmeen ryhmään:
Jokerimerkkien väärinkäsittely. On melko tavallista nähdä sivuston estetyt osat, jotka oli tarkoitus estää. Joskus, jos et ole varovainen, direktiivit voivat myös olla ristiriidassa keskenään.
Joku, kuten kehittäjä, on tehnyt muutoksen tyhjästä (usein uuden koodin työntämisen yhteydessä) ja muuttanut vahingossa robots.txt-tiedosto ilman sinun tietosi.
sellaisten direktiivien sisällyttäminen, jotka eivät kuulu robots.txt-tiedostoon. Robots.txt on verkkostandardi, ja sitä on jonkin verran rajoitettu. Usein näen kehittäjien laativan direktiivejä, jotka eivät yksinkertaisesti toimi (ainakaan indeksointirobottien suurimmalle osalle). Joskus se on vaaraton, joskus ei niin paljon.
Paul Shapiro, strategiajohtaja & Innovaatio, katalysaattori
Esimerkki
Katsotaanpa esimerkki tämän havainnollistamiseksi:
Sinä Juuri verkkokauppasivusto ja kävijät voivat käyttää suodatinta hakeaksesi nopeasti tuotteitasi. Tämä suodatin luo sivuja, jotka näyttävät periaatteessa samaa sisältöä kuin muut sivut. Tämä toimii hyvin käyttäjille, mutta hämmentää hakukoneita, koska se luo päällekkäistä sisältöä.
Et halua, että hakukoneet indeksoivat nämä suodatetut sivut ja tuhlaavat arvokasta aikaa näihin URL-osoitteisiin suodatetulla sisällöllä. Siksi sinun on määritettävä Disallow -säännöt, jotta hakukoneet eivät pääse näihin suodatettuihin tuotesivuihin.
Päällekkäisen sisällön estäminen voidaan tehdä myös ensisijaisella URL-osoitteella tai meta-robotti-tunniste ei kuitenkaan käsittele sitä, että hakukoneet voivat indeksoida vain tärkeitä sivuja.
Kanonisen URL-osoitteen tai meta-robotti-tunnisteen käyttö ei estä hakukoneita indeksoimasta näitä sivuja. Se vain estää hakukoneita näyttämästä näitä sivuja hakutuloksissa. Koska hakukoneilla on rajoitettu aika indeksoida verkkosivustoja, tämä aika tulisi käyttää sivuille, jotka haluat näkyvän hakukoneissa.
Toimiiko robots.txt-tiedostosi sinua vastaan?
Väärin asetettu robots.txt-tiedosto saattaa estää SEO-suorituskykyäsi. Tarkista heti, onko kyse verkkosivustollasi!
Se on hyvin yksinkertainen työkalu, mutta robots.txt-tiedosto voi aiheuttaa paljon ongelmia, jos sitä ei ole määritetty oikein, etenkään suuremmille verkkosivustoille. On erittäin helppoa tehdä virheitä, kuten estää koko sivusto uuden mallin tai CMS: n käyttöönoton jälkeen, tai estää sivuston osia, joiden tulisi olla yksityisiä. Suuremmille verkkosivustoille on erittäin tärkeää varmistaa, että Google indeksoi tehokkaasti, ja hyvin jäsennelty robots.txt-tiedosto on välttämätön työkalu prosessissa.
Sinun on käytettävä aikaa ymmärtääksesi, mitkä sivustosi osat ovat parhaiten poissa Googlelta, jotta he käyttävät mahdollisimman suuren osan resursseistaan indeksoimalla sinulle todella tärkeitä sivuja.
Paddy Moogan, Aira Digital
miltä robots.txt-tiedosto näyttää?
Esimerkki siitä, millainen yksinkertainen robots.txt-tiedosto WordPress-verkkosivustolle voi olla näyttävät tältä:
Selitetään robots.txt-tiedoston anatomia yllä olevan esimerkin perusteella:
*: tämä osoittaa, että direktiivit on tarkoitettu kaikille hakukoneille.
Disallow: tämä on direktiivi, joka ilmoittaa, mihin sisältöön user-agent ei ole pääsyä.
/wp-admin/: tämä on path, johon ei pääse user-agent.
Yhteenvetona: tämä robots.txt-tiedosto kehottaa kaikkia hakukoneita pysymään poissa /wp-admin/ -hakemistosta.
Analysoidaan erilaisia robots.txt-tiedostojen komponentit tarkemmin:
User-agent
Estä
Salli
Sivustokartta
Indeksointiviive
robots.txt-tiedoston käyttäjäagentti
Jokaisen hakukoneen tulisi tunnistaa itsensä user-agent. Googlen robotit tunnistavat esimerkiksi Googlebot, esimerkiksi Yahoon robotit Slurp ja Bingin robotit BingBot ja niin edelleen.
user-agent -tietue määrittelee direktiiviryhmän alun. Kaikkia ensimmäisen user-agent – ja seuraavan user-agent -tietueen välissä olevia direktiivejä käsitellään ensimmäisen user-agent.
Direktiivejä voidaan soveltaa tiettyihin käyttäjäagentteihin, mutta niitä voidaan soveltaa myös kaikkiin käyttäjäagentteihin. Tällöin käytetään jokerimerkkiä: User-agent: *.
Estä direktiivi robots.txt-tiedostossa
Voit kertoa hakukoneille, ettei niitä käytetä tietyt tiedostot, sivut tai verkkosivustosi osiot. Tämä tehdään Disallow -direktiivin avulla. Disallow -direktiivin jälkeen seuraa path, jota ei pitäisi käyttää. Jos path -määritystä ei määritetä, direktiivi jätetään huomioimatta.
Esimerkki
Tässä esimerkissä kaikkia hakukoneita kehotetaan olemaan käyttämättä hakemistoa /wp-admin/.
Salli direktiivi robots.txt-tiedostossa
Allow -direktiiviä käytetään torjumaan Disallow -direktiiviä. Google ja Bing tukevat Allow -direktiiviä. Käyttämällä Allow – ja Disallow -direktiivejä yhdessä voit kertoa hakukoneille, että he voivat käyttää tiettyä tiedostoa tai sivua hakemistossa, joka on muuten kielletty. Allow -direktiiviä seuraa path, johon pääsee. Jos path -määritystä ei määritetä, direktiivi jätetään huomioimatta.
Esimerkki
Yllä olevassa esimerkissä kaikki hakukoneet eivät saa käyttää /media/ hakemisto, paitsi tiedosto /media/terms-and-conditions.pdf.
Tärkeää: kun käytetään Allow ja Disallow direktiivejä yhdessä, muista olla käyttämättä jokerimerkkejä, koska tämä voi johtaa ristiriitaisiin direktiiveihin.
Esimerkki ristiriitaisista direktiiveistä
Hakukoneet eivät tiedä mitä tehdä URL-osoitteella . Heille on epäselvää, saako hän käyttää niitä. Kun direktiivit eivät ole Googlelle selkeitä, ne käyttävät vähiten rajoittavaa direktiiviä, mikä tässä tapauksessa tarkoittaa, että ne pääsisivät käyttämään
Disallow rules in a site’s robots.txt file are incredibly powerful, so should be handled with care. For some sites, preventing search engines from crawling specific URL patterns is crucial to enable the right pages to be crawled and indexed – but improper use of disallow rules can severely damage a site’s SEO.
Barry Adams, Independent SEO Consultant, Polemic Digital
A separate line for each directive
Each directive should be on a separate line, otherwise search engines may get confused when parsing the robots.txt file.
Example of incorrect robots.txt file
Prevent a robots.txt file like this:
Robots.txt on yksi niistä ominaisuuksista, joiden yleisimmin näen olevan väärin toteutettu, joten se ei estä sitä, mitä he halusivat estää, tai se estää enemmän kuin he odottivat, ja sillä on kielteinen vaikutus heidän verkkosivustoonsa. Robots.txt on erittäin tehokas työkalu, mutta se asetetaan liian usein väärin.
David Iwanow, Travel Network
Jokerimerkin käyttäminen *
Jokerimerkkiä voidaan käyttää user-agent -määritelmän lisäksi myös vastaa URL-osoitteita. Yleismerkkiä tukevat Google, Bing, Yahoo ja Ask.
Esimerkki
Yllä olevassa esimerkissä kaikilla hakukoneilla ei ole pääsyä URL-osoitteisiin, joissa on kysymysmerkki (?).
Kehittäjät tai sivuston omistajat näyttävät usein ajattelevan voivansa käyttää kaikenlaisia säännöllisiä lausekkeita robots.txt-tiedostossa, kun taas vain hyvin rajoitettu määrä kuvien vastaavuutta on oikea – esimerkiksi jokerimerkit (*). .Htaccess-tiedostojen ja robots.txt-tiedostojen välillä näyttää olevan ajoittain sekaannusta.
Dawn Anderson, Bertey
URL-osoitteen lopun käyttäminen $
URL-osoitteen lopun ilmoittamiseksi voit käyttää dollarin merkkiä ($) path -kohdan lopussa.
Esimerkki
Yllä olevassa esimerkissä hakukoneet eivät saa käyttää kaikkia .php-pääteisiä URL-osoitteita . URL-osoitteet parametreilla, esim. ei kielletä, koska URL-osoite ei pääty .php jälkeen.
Lisää sivustokartta robotteihin. txt
Vaikka robots.txt-tiedosto on keksitty kertomaan hakukoneille, mitä sivuja ei saa indeksoida, robots.txt-tiedostoa voidaan käyttää myös ohjaamaan hakukoneita XML-sivustokarttaan. Google, Bing, Yahoo ja Ask tukevat tätä.
XML-sivustokarttaan tulisi viitata absoluuttisena URL-osoitteena. URL-osoitteen ei tarvitse olla samassa isännässä kuin robots.txt-tiedosto.
Viittaaminen robots.txt-tiedoston XML-sivustokarttaan on yksi parhaista käytännöistä, joita suosittelemme aina tekemään, vaikka olet saattanut jo lähettää XML-sivustokarttasi Google Search Consolessa tai Bing Webmaster Toolsissa. Muista, että hakukoneita on enemmän.
Huomaa, että robots.txt-tiedostossa on mahdollista viitata useisiin XML-sivustokarttoihin.
Esimerkkejä
Useita Robots.txt-tiedostoon määritetyt XML-sivustokartat:
Yksi roboteissa määritelty XML-sivustokartta.txt-tiedosto:
Yllä oleva esimerkki kehottaa kaikkia hakukoneita olemaan käyttämättä hakemistoa /wp-admin/ ja että XML-sivustokartta löytyy osoitteesta
Frequently Asked Questions
Comments are preceded by a # ja voi joko sijoitetaan linjan alkuun tai samalle linjalle annetun direktiivin jälkeen. Kaikki # -kohdan jälkeen ohitetaan. Nämä kommentit on tarkoitettu vain ihmisille.
Esimerkki 1
Esimerkki 2
Yllä olevat esimerkit välittävät saman viestin.
Indeksointiviive robots.txt-tiedostossa
Crawl-delay -direktiivi on epävirallinen direktiivi, jota käytetään estämään palvelimien ylikuormitus liian monilla pyynnöillä. Jos hakukoneet pystyvät ylikuormittamaan palvelinta, Crawl-delay -palvelun lisääminen robots.txt-tiedostoon on vain väliaikainen korjaus. Tosiasia on, että verkkosivustosi toimii huonossa isäntäympäristössä ja / tai verkkosivustosi on määritetty väärin, ja sinun on korjattava se mahdollisimman pian.