Robots.txt hakukoneoptimoijalle: Luo paras tällä 2021-oppaalla

Robots.txt lyhyesti

Robotit .txt-tiedosto sisältää ohjeita hakukoneille. Voit estää sitä hakukoneita indeksoimasta tiettyjä verkkosivustosi osia ja antaa hakukoneille hyödyllisiä vinkkejä siitä, miten ne voivat parhaiten indeksoida verkkosivustosi. Robots.txt-tiedostolla on suuri rooli hakukoneoptimoinnissa.

Kun otat robots.txt-tiedostoa käyttöön, pidä mielessä seuraavat parhaat käytännöt:

Ole varovainen, kun teet muutoksia robots.txt: Tämä tiedosto voi tehdä suurista verkkosivustosi osista hakukoneiden saataville.
Robots.txt-tiedoston tulisi sijaita verkkosivustosi juuressa (esim.
The robots.txt file is only valid for the full domain it resides on, including the protocol (http tai https).
Eri hakukoneet tulkitsevat direktiivejä eri tavalla. Oletusarvoisesti ensimmäinen vastaava direktiivi voittaa aina. Mutta Googlen ja Bingin myötä spesifisyys voittaa.
Vältä indeksointiviive-direktiivin käyttöä hakukoneissa mahdollisimman paljon.

Mikä on robots.txt-tiedosto?

Robots.txt-tiedosto kertoo hakukoneille verkkosivustosi aktivointisäännöt. Suuri osa SEO: n tekemisestä on oikean signaalin lähettämistä hakukoneille, ja robots.txt on yksi tapa kommunikoida indeksointiasetuksesi hakukoneille.

Olemme nähneet vuonna 2019 melko joitain kehityksiä robots.txt-standardin ympärillä: Google ehdotti laajennusta robottien poissulkemisprotokollalle ja hankki avoimen lähteen sen robots.txt-jäsentimestä.

TL; DR

Googlen robotit .txt-tulkki on melko joustava ja yllättävän anteeksiantava.
Jos sekaannusdirektiivejä esiintyy, Google erehtyy turvallisilla puolilla ja olettaa, että osioita tulisi rajoittaa eikä rajoittaa.

Robots.txt-tiedosto kertoo hakukoneille URL-osoitteet ei pääsyä.

Hakukoneet tarkistavat säännöllisesti verkkosivuston robots.txt-tiedoston tarkistaakseen, onko verkkosivuston indeksointiin liittyviä ohjeita. Kutsumme näitä ohjeita direktiiveiksi.

Jos robots.txt-tiedostoa ei ole tai sovellettavia direktiivejä ei ole, hakukoneet indeksoivat koko verkkosivuston.

Vaikka kaikki suuret hakukoneet kunnioittavat robots.txt-tiedosto, hakukoneet voivat jättää robots.txt-tiedoston ohittamatta. Vaikka robots.txt-tiedoston tiedostot ovat vahva signaali hakukoneille, on tärkeää muistaa, että robots.txt-tiedosto on joukko valinnaisia direktiivejä hakukoneille eikä toimeksiantoa.

Robots.txt on arkaluontoisin tiedosto SEO-universumissa. Yksi merkki voi rikkoa kokonaisen sivuston.

LinkedInKevin Indig, VP SEO & Sisältö, G2

robots.txt-tiedoston ympärillä oleva terminologia

Robots.txt-tiedosto on robots-poissulkemisstandardin toteutus, tai sitä kutsutaan myös nimellä robottien poissulkemisprotokolla.

Miksi sinun pitäisi välittää robots.txt-tiedostosta?

Robots.txt-tiedostolla on keskeinen rooli SEO-näkökulmasta. Se kertoo hakukoneille, kuinka he voivat parhaiten indeksoida verkkosivustosi.

Robots.txt-tiedoston avulla voit estää hakukoneita pääsemästä tiettyihin verkkosivustosi osiin, estää päällekkäistä sisältöä ja antaa hakukoneille hyödyllisiä vinkkejä siitä, miten ne voi indeksoida verkkosivustosi tehokkaammin.

Ole kuitenkin varovainen, kun teet muutoksia robots.txt-tiedostoon: tämä tiedosto voi tehdä suurista verkkosivustosi osista hakukoneiden saataville.

Robots.txt-tiedostoa käytetään usein päällekkäisen sisällön vähentämiseen, mikä tappaa sisäisiä linkityksiä, joten ole todella varovainen sen kanssa. Minun neuvoni on käyttää sitä koskaan vain tiedostoihin tai sivuihin, joita hakukoneiden ei pitäisi koskaan nähdä, tai ne voivat vaikuttaa merkittävästi indeksointiin sallimalla ne. Yleisiä esimerkkejä: sisäänkirjautumisalueet, jotka luovat monia eri URL-osoitteita, testialueet tai joissa voi olla useita monipuolisia navigointijärjestelmiä. Ja varmista, että tarkkailet robots.txt-tiedostosi mahdollisten ongelmien tai muutosten varalta.

LinkedInGerry White, SEO-johtaja, Rise at Seven

Suurin osa robots.txt-tiedostoista näkemistäni ongelmista jakautuu kolmeen ryhmään:

Jokerimerkkien väärinkäsittely. On melko tavallista nähdä sivuston estetyt osat, jotka oli tarkoitus estää. Joskus, jos et ole varovainen, direktiivit voivat myös olla ristiriidassa keskenään.

Joku, kuten kehittäjä, on tehnyt muutoksen tyhjästä (usein uuden koodin työntämisen yhteydessä) ja muuttanut vahingossa robots.txt-tiedosto ilman sinun tietosi.

sellaisten direktiivien sisällyttäminen, jotka eivät kuulu robots.txt-tiedostoon. Robots.txt on verkkostandardi, ja sitä on jonkin verran rajoitettu. Usein näen kehittäjien laativan direktiivejä, jotka eivät yksinkertaisesti toimi (ainakaan indeksointirobottien suurimmalle osalle). Joskus se on vaaraton, joskus ei niin paljon.

Paul Shapiro, strategiajohtaja & Innovaatio, katalysaattori

Esimerkki

Katsotaanpa esimerkki tämän havainnollistamiseksi:

Sinä Juuri verkkokauppasivusto ja kävijät voivat käyttää suodatinta hakeaksesi nopeasti tuotteitasi. Tämä suodatin luo sivuja, jotka näyttävät periaatteessa samaa sisältöä kuin muut sivut. Tämä toimii hyvin käyttäjille, mutta hämmentää hakukoneita, koska se luo päällekkäistä sisältöä.

Et halua, että hakukoneet indeksoivat nämä suodatetut sivut ja tuhlaavat arvokasta aikaa näihin URL-osoitteisiin suodatetulla sisällöllä. Siksi sinun on määritettävä Disallow -säännöt, jotta hakukoneet eivät pääse näihin suodatettuihin tuotesivuihin.

Päällekkäisen sisällön estäminen voidaan tehdä myös ensisijaisella URL-osoitteella tai meta-robotti-tunniste ei kuitenkaan käsittele sitä, että hakukoneet voivat indeksoida vain tärkeitä sivuja.

Kanonisen URL-osoitteen tai meta-robotti-tunnisteen käyttö ei estä hakukoneita indeksoimasta näitä sivuja. Se vain estää hakukoneita näyttämästä näitä sivuja hakutuloksissa. Koska hakukoneilla on rajoitettu aika indeksoida verkkosivustoja, tämä aika tulisi käyttää sivuille, jotka haluat näkyvän hakukoneissa.

Toimiiko robots.txt-tiedostosi sinua vastaan?

Väärin asetettu robots.txt-tiedosto saattaa estää SEO-suorituskykyäsi. Tarkista heti, onko kyse verkkosivustollasi!

Se on hyvin yksinkertainen työkalu, mutta robots.txt-tiedosto voi aiheuttaa paljon ongelmia, jos sitä ei ole määritetty oikein, etenkään suuremmille verkkosivustoille. On erittäin helppoa tehdä virheitä, kuten estää koko sivusto uuden mallin tai CMS: n käyttöönoton jälkeen, tai estää sivuston osia, joiden tulisi olla yksityisiä. Suuremmille verkkosivustoille on erittäin tärkeää varmistaa, että Google indeksoi tehokkaasti, ja hyvin jäsennelty robots.txt-tiedosto on välttämätön työkalu prosessissa.

Sinun on käytettävä aikaa ymmärtääksesi, mitkä sivustosi osat ovat parhaiten poissa Googlelta, jotta he käyttävät mahdollisimman suuren osan resursseistaan indeksoimalla sinulle todella tärkeitä sivuja.

Paddy Moogan, Aira Digital

miltä robots.txt-tiedosto näyttää?

Esimerkki siitä, millainen yksinkertainen robots.txt-tiedosto WordPress-verkkosivustolle voi olla näyttävät tältä:

Selitetään robots.txt-tiedoston anatomia yllä olevan esimerkin perusteella:

User-agent: user-agent ilmaisee haun moottorit seuraaville direktiiveille.
*: tämä osoittaa, että direktiivit on tarkoitettu kaikille hakukoneille.
Disallow: tämä on direktiivi, joka ilmoittaa, mihin sisältöön user-agent ei ole pääsyä.
/wp-admin/: tämä on path, johon ei pääse user-agent.

Yhteenvetona: tämä robots.txt-tiedosto kehottaa kaikkia hakukoneita pysymään poissa /wp-admin/ -hakemistosta.

Analysoidaan erilaisia robots.txt-tiedostojen komponentit tarkemmin:

User-agent
Estä
Salli
Sivustokartta
Indeksointiviive

robots.txt-tiedoston käyttäjäagentti

Jokaisen hakukoneen tulisi tunnistaa itsensä user-agent. Googlen robotit tunnistavat esimerkiksi Googlebot, esimerkiksi Yahoon robotit Slurp ja Bingin robotit BingBot ja niin edelleen.

user-agent -tietue määrittelee direktiiviryhmän alun. Kaikkia ensimmäisen user-agent – ja seuraavan user-agent -tietueen välissä olevia direktiivejä käsitellään ensimmäisen user-agent.

Direktiivejä voidaan soveltaa tiettyihin käyttäjäagentteihin, mutta niitä voidaan soveltaa myös kaikkiin käyttäjäagentteihin. Tällöin käytetään jokerimerkkiä: User-agent: *.

Estä direktiivi robots.txt-tiedostossa

Voit kertoa hakukoneille, ettei niitä käytetä tietyt tiedostot, sivut tai verkkosivustosi osiot. Tämä tehdään Disallow -direktiivin avulla. Disallow -direktiivin jälkeen seuraa path, jota ei pitäisi käyttää. Jos path -määritystä ei määritetä, direktiivi jätetään huomioimatta.

Esimerkki

Tässä esimerkissä kaikkia hakukoneita kehotetaan olemaan käyttämättä hakemistoa /wp-admin/.

Salli direktiivi robots.txt-tiedostossa

Allow -direktiiviä käytetään torjumaan Disallow -direktiiviä. Google ja Bing tukevat Allow -direktiiviä. Käyttämällä Allow – ja Disallow -direktiivejä yhdessä voit kertoa hakukoneille, että he voivat käyttää tiettyä tiedostoa tai sivua hakemistossa, joka on muuten kielletty. Allow -direktiiviä seuraa path, johon pääsee. Jos path -määritystä ei määritetä, direktiivi jätetään huomioimatta.

Esimerkki

Yllä olevassa esimerkissä kaikki hakukoneet eivät saa käyttää /media/ hakemisto, paitsi tiedosto /media/terms-and-conditions.pdf.

Tärkeää: kun käytetään Allow ja Disallow direktiivejä yhdessä, muista olla käyttämättä jokerimerkkejä, koska tämä voi johtaa ristiriitaisiin direktiiveihin.

Esimerkki ristiriitaisista direktiiveistä

Hakukoneet eivät tiedä mitä tehdä URL-osoitteella . Heille on epäselvää, saako hän käyttää niitä. Kun direktiivit eivät ole Googlelle selkeitä, ne käyttävät vähiten rajoittavaa direktiiviä, mikä tässä tapauksessa tarkoittaa, että ne pääsisivät käyttämään

Disallow rules in a site’s robots.txt file are incredibly powerful, so should be handled with care. For some sites, preventing search engines from crawling specific URL patterns is crucial to enable the right pages to be crawled and indexed – but improper use of disallow rules can severely damage a site’s SEO.

Barry Adams, Independent SEO Consultant, Polemic Digital

A separate line for each directive

Each directive should be on a separate line, otherwise search engines may get confused when parsing the robots.txt file.

Example of incorrect robots.txt file

Prevent a robots.txt file like this:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Robots.txt on yksi niistä ominaisuuksista, joiden yleisimmin näen olevan väärin toteutettu, joten se ei estä sitä, mitä he halusivat estää, tai se estää enemmän kuin he odottivat, ja sillä on kielteinen vaikutus heidän verkkosivustoonsa. Robots.txt on erittäin tehokas työkalu, mutta se asetetaan liian usein väärin.

David Iwanow, Travel Network

Jokerimerkin käyttäminen *

Jokerimerkkiä voidaan käyttää user-agent -määritelmän lisäksi myös vastaa URL-osoitteita. Yleismerkkiä tukevat Google, Bing, Yahoo ja Ask.

Esimerkki

Yllä olevassa esimerkissä kaikilla hakukoneilla ei ole pääsyä URL-osoitteisiin, joissa on kysymysmerkki (?).

Kehittäjät tai sivuston omistajat näyttävät usein ajattelevan voivansa käyttää kaikenlaisia säännöllisiä lausekkeita robots.txt-tiedostossa, kun taas vain hyvin rajoitettu määrä kuvien vastaavuutta on oikea – esimerkiksi jokerimerkit (*). .Htaccess-tiedostojen ja robots.txt-tiedostojen välillä näyttää olevan ajoittain sekaannusta.

Dawn Anderson, Bertey

URL-osoitteen lopun käyttäminen $

URL-osoitteen lopun ilmoittamiseksi voit käyttää dollarin merkkiä ($) path -kohdan lopussa.

Esimerkki

Yllä olevassa esimerkissä hakukoneet eivät saa käyttää kaikkia .php-pääteisiä URL-osoitteita . URL-osoitteet parametreilla, esim. ei kielletä, koska URL-osoite ei pääty .php jälkeen.

Lisää sivustokartta robotteihin. txt

Vaikka robots.txt-tiedosto on keksitty kertomaan hakukoneille, mitä sivuja ei saa indeksoida, robots.txt-tiedostoa voidaan käyttää myös ohjaamaan hakukoneita XML-sivustokarttaan. Google, Bing, Yahoo ja Ask tukevat tätä.

XML-sivustokarttaan tulisi viitata absoluuttisena URL-osoitteena. URL-osoitteen ei tarvitse olla samassa isännässä kuin robots.txt-tiedosto.

Viittaaminen robots.txt-tiedoston XML-sivustokarttaan on yksi parhaista käytännöistä, joita suosittelemme aina tekemään, vaikka olet saattanut jo lähettää XML-sivustokarttasi Google Search Consolessa tai Bing Webmaster Toolsissa. Muista, että hakukoneita on enemmän.

Huomaa, että robots.txt-tiedostossa on mahdollista viitata useisiin XML-sivustokarttoihin.

Esimerkkejä

Useita Robots.txt-tiedostoon määritetyt XML-sivustokartat:

Yksi roboteissa määritelty XML-sivustokartta.txt-tiedosto:

Yllä oleva esimerkki kehottaa kaikkia hakukoneita olemaan käyttämättä hakemistoa /wp-admin/ ja että XML-sivustokartta löytyy osoitteesta

Frequently Asked Questions

Comments are preceded by a # ja voi joko sijoitetaan linjan alkuun tai samalle linjalle annetun direktiivin jälkeen. Kaikki # -kohdan jälkeen ohitetaan. Nämä kommentit on tarkoitettu vain ihmisille.

Esimerkki 1

Esimerkki 2

Yllä olevat esimerkit välittävät saman viestin.

Indeksointiviive robots.txt-tiedostossa

Crawl-delay -direktiivi on epävirallinen direktiivi, jota käytetään estämään palvelimien ylikuormitus liian monilla pyynnöillä. Jos hakukoneet pystyvät ylikuormittamaan palvelinta, Crawl-delay -palvelun lisääminen robots.txt-tiedostoon on vain väliaikainen korjaus. Tosiasia on, että verkkosivustosi toimii huonossa isäntäympäristössä ja / tai verkkosivustosi on määritetty väärin, ja sinun on korjattava se mahdollisimman pian.

Robots.txt hakukoneoptimoijalle: perimmäinen opas

Mikä on robots.txt-tiedosto?

robots.txt-tiedoston ympärillä oleva terminologia

Miksi sinun pitäisi välittää robots.txt-tiedostosta?

Esimerkki

miltä robots.txt-tiedosto näyttää?

robots.txt-tiedoston käyttäjäagentti

Estä direktiivi robots.txt-tiedostossa

Esimerkki

Salli direktiivi robots.txt-tiedostossa

Esimerkki

Esimerkki ristiriitaisista direktiiveistä

A separate line for each directive

Jokerimerkin käyttäminen *

Esimerkki

URL-osoitteen lopun käyttäminen $

Esimerkki

Lisää sivustokartta robotteihin. txt

Esimerkkejä

Esimerkki 1

Esimerkki 2

Indeksointiviive robots.txt-tiedostossa

Esimerkki:

Milloin robots.txt-tiedostoa käytetään?

Robots.txt parhaat käytännöt

Sijainti ja tiedostonimi

Etujärjestys

Esimerkki

Esimerkki

Vain yksi direktiiviryhmä robottia kohti

Ole mahdollisimman tarkka

Esimerkki:

Kaikkien robottien direktiivit ja myös ohjeet tietylle robotille

Esimerkki

Robots.txt-tiedosto kullekin (ala) toimialueelle

Esimerkkejä

Conflicting guidelines: robots.txt vs. Google Search Console

Monitor your robots.txt file

Älä käytä noindex-tiedostoa robots.txt-tiedostossa

Estä UTF-8 BOM robots.txt-tiedostossa

Esimerkkejä Robots.txt-tiedostoista

Salli kaikille robotteille pääsy kaikkeen

Estä kaikkien robottien pääsy kaikkeen

Kaikilla Google-roboteilla ei ole pääsyä

Kaikki Google-botit, lukuun ottamatta Googlebot-uutisia, eivät voi käyttää

Googlebotilla ja Slurpilla ei ole pääsyä

Kaikilla robotteilla ei ole pääsyä kahteen hakemistoon

Kaikilla robotteilla ei ole pääsyä yhteen tiettyyn tiedostoon

Googlebotilla ei ole pääsyä / admin / ja Slurpilla ei ole pääsyä kohteisiin / private /

Robots.txt tiedosto WordPressille

Robots.txt-tiedosto Magentoa varten

Mitkä ovat robots.txt-tiedoston rajoitukset?

Robots.txt-tiedosto sisältää direktiivejä

Sivut näkyvät edelleen hakutuloksissa

Robots.txt-tiedosto on välimuistissa jopa 24 tuntia

Robots.txt-tiedoston koko

Usein kysytyt kysymykset robots.txt-tiedostosta

🤖 Miltä robots.txt-esimerkki näyttää?

⛔ Mitä Disallow all tekee robots.txt-tiedostossa?

✅ Mitä kaikki sallivat tehdä robots.txt-tiedostossa?

🤔 Kuinka tärkeä robots.txt-tiedosto on hakukoneoptimoijalle?

Lisätietoja

Vastaa Peruuta vastaus