Robots.txt SEO-hoz: Készítse el a legjobbat ezzel a 2021-es útmutatóval

Robots.txt röviden

A robotok A .txt fájl tartalmaz utasításokat a keresők számára. Használhatja annak megakadályozására, hogy a keresőmotorok feltérképezzék webhelye bizonyos részeit, és hasznos tippeket adjon a keresőmotoroknak arra vonatkozóan, hogy miként tudják a legjobban feltérképezni a webhelyet. A robots.txt fájl nagy szerepet játszik a SEO-ban.

A robots.txt telepítésekor tartsa szem előtt a következő bevált módszereket:

Legyen óvatos, amikor módosítja a robots.txt: ez a fájl lehetővé teheti a webhely nagy részeinek hozzáférhetetlenségét a keresőmotorok számára.
A robots.txt fájlnak a webhely gyökérzetében kell lennie (pl.
The robots.txt file is only valid for the full domain it resides on, including the protocol (http vagy https).
A különböző keresőmotorok eltérően értelmezik az irányelveket. Alapértelmezés szerint mindig az első egyező irányelv nyer. De a Google és a Bing esetében a specifikusság nyer.
Kerülje a feltérképezés késleltetésének irányát a keresőmotorok számára.

Mi az a robots.txt fájl?

A robots.txt fájl elmondja a keresőmotoroknak, hogy mik az Ön webhelyének elköteleződési szabályai. A SEO elvégzésének nagy része a megfelelő jelek küldése a keresőmotoroknak, a robots.txt pedig az egyik módja annak, hogy kommunikálják a feltérképezési beállításokat a keresők felé.

2019-ben már eléggé láthattuk néhány fejlesztés a robots.txt szabvány körül: A Google a Robots Exclusion Protocol kiterjesztését javasolta, és nyílt forráskódú a robots.txt elemzőjét.

TL; DR

A Google robotjai A .txt tolmács meglehetősen rugalmas és meglepően elnéző.
Zavaros irányelvek esetén a Google hibát követ el a biztonságos oldalon, és feltételezi, hogy a szakaszokat korlátozás helyett korlátozni kell.

A robots.txt fájl megadja a keresőmotoroknak, hogy milyen URL-ek nem fér hozzá.

A keresőmotorok rendszeresen ellenőrzik a webhely robots.txt fájlját, hogy vannak-e útmutatások a webhely feltérképezéséhez. Ezeket az utasításokat direktíváknak hívjuk.

Ha nincs robots.txt fájl, vagy ha nincsenek alkalmazható irányelvek, akkor a keresőmotorok az egész webhelyet feltérképezik.

Bár az összes nagy keresőmotor tiszteletben tartja a robots.txt fájlt, a keresőmotorok dönthetnek úgy, hogy figyelmen kívül hagyják a robots.txt fájlt (egyes részeit). Míg a robots.txt fájlban található irányelvek erős jelet jelentenek a keresőmotorok számára, fontos megjegyezni, hogy a robots.txt fájl opcionális irányelvek halmaza a keresők számára, nem pedig megbízás.

A robots.txt a legérzékenyebb fájl a SEO univerzumban. Egyetlen karakter egy egész webhelyet felbonthat.

LinkedInKevin Indig, VP SEO alelnök & Tartalom, G2

Terminológia a robots.txt fájl körül

A robots.txt fájl a robotkizárási szabvány megvalósítása, vagy más néven a robotok kizárási protokollja.

Miért érdekelne a robots.txt?

A robots.txt SEO szempontból alapvető szerepet játszik. Megmondja a keresőmotoroknak, hogyan tudják a legjobban feltérképezni az Ön webhelyét.

A robots.txt fájl használatával megakadályozhatja, hogy a keresőmotorok hozzáférjenek a webhely bizonyos részeihez, megakadályozza az ismétlődő tartalmat, és hasznos tippeket adjon a keresőmotoroknak. hatékonyabban tudja feltérképezni a webhelyét.

Legyen óvatos, ha változtat a robots.txt fájlon: ennek a fájlnak az lehet a lehetősége, hogy webhelyének nagy részét elérhetetlenné tegye a keresők számára.

A Robots.txt fájlt gyakran használják az ismétlődő tartalmak csökkentésére, ezáltal megölve a belső linkelést, ezért legyen nagyon óvatos vele. Azt tanácsolom, hogy csak olyan fájlokhoz vagy oldalakhoz használja, amelyeket a keresőmotoroknak soha nem szabad látniuk, vagy ha jelentősen befolyásolhatják a feltérképezést, ha beengedik őket. Gyakori példák: olyan bejelentkezési területek, amelyek sok különböző URL-t generálnak, tesztelési területek, vagy ahol többféle szempontú navigáció létezhet. És ügyeljen arra, hogy a robots.txt fájlban ellenőrizze az esetleges problémákat vagy változásokat.

LinkedInGerry White, SEO igazgató, Rise at Seven

A robots.txt fájlokkal látott problémák nagy része három csoportba esik:

A helyettesítő karakterek helytelen kezelése. Meglehetősen gyakran előfordul, hogy a webhely olyan részeit zárják le, amelyeket le akartak zárni. Néha, ha nem vagy óvatos, az irányelvek is ütközhetnek egymással.

Valaki, például egy fejlesztő, kék színből változtatott (gyakran új kód megnyomásakor), és akaratlanul is megváltozott a robotok.txt az ön tudta nélkül.

Olyan irányelvek felvétele, amelyek nem tartoznak a robots.txt fájlba. A Robots.txt webes szabvány, és kissé korlátozott. Gyakran látom, hogy a fejlesztők olyan irányelveket készítenek, amelyek egyszerűen nem fognak működni (legalábbis a bejárók tömeges többsége számára). Néha ez ártalmatlan, néha nem annyira.

Paul Shapiro, stratégiai igazgató & Innováció, katalizátor

példa

Nézzünk meg egy példát ennek szemléltetésére:

Ön e-kereskedelmi webhelyet üzemeltet, és a látogatók egy szűrővel gyorsan kereshetnek a termékeiben. Ez a szűrő olyan oldalakat hoz létre, amelyek alapvetően ugyanazt a tartalmat mutatják, mint a többi oldal. Ez kiválóan működik a felhasználók számára, de összezavarja a keresőmotorokat, mert duplikált tartalmat hoz létre.

Nem szeretné, hogy a keresőmotorok indexeljék ezeket a szűrt oldalakat, és értékes idejüket pazarolják ezekre az URL-ekre szűrt tartalommal. Ezért be kell állítania a Disallow szabályokat, hogy a keresőmotorok ne férjenek hozzá ezekhez a szűrt termékoldalakhoz.

Az ismétlődő tartalmak megakadályozása a gyűjtő URL-vel vagy a meta robot címke, azonban ezek nem foglalkoznak azzal, hogy a keresőmotorok csak a fontos oldalakat tudják feltérképezni.

A gyűjtő URL vagy a meta robot címke használata nem fogja megakadályozni, hogy a keresőmotorok feltérképezzék ezeket az oldalakat. Csak megakadályozza, hogy a keresőmotorok megjelenítsék ezeket az oldalakat a keresési eredmények között. Mivel a keresőmotoroknak korlátozott idő áll rendelkezésre egy webhely feltérképezésére, ezt az időt olyan oldalakra kell fordítani, amelyeken meg akarnak jelenni a keresőmotorokban.

Ellenáll-e a robots.txt fájlja?

A helytelenül beállított robots.txt fájl hátráltathatja SEO teljesítményét. Azonnal ellenőrizze, hogy ez a helyzet-e a webhelyén!

Ez egy nagyon egyszerű eszköz, de a robots.txt fájl sok problémát okozhat, ha nincs megfelelően konfigurálva, különösen nagyobb weboldalakhoz. Nagyon könnyű hibákat elkövetni, például blokkolni egy teljes webhelyet egy új terv vagy a CMS bevezetése után, vagy nem blokkolni a webhely azon részeit, amelyeknek privátnak kell lenniük. Nagyobb webhelyeknél nagyon fontos a Google hatékony feltérképezése, és a jól strukturált robots.txt fájl elengedhetetlen eszköz ebben a folyamatban.

Időt kell szánnia annak megértésére, hogy a webhely mely szakaszait lehet a legjobban távol tartani. a Google-tól, hogy az erőforrásuk lehető legnagyobb részét az Ön számára igazán fontos oldalak feltérképezésével töltsék el.

Paddy Moogan, Aira Digital

Hogyan néz ki egy robots.txt fájl?

Példa arra, hogy milyen lehet egy egyszerű robots.txt fájl egy WordPress webhelyhez kinézet:

Magyarázzuk el a robots.txt fájl anatómiáját a fenti példa alapján:

User-agent: a user-agent jelzi, hogy melyik keresésre van szükség a következő irányelveket jelentik.
*: ez azt jelzi, hogy az irányelveket az összes keresőmotor számára jelentik.
Disallow: ez egy olyan irányelv, amely jelzi, hogy milyen tartalom nem érhető el a user-agent számára.
/wp-admin/: ez az a path, amely a user-agent számára nem érhető el.

Összefoglalva: ez a robots.txt fájl azt mondja az összes keresőmotornak, hogy maradjanak távol a /wp-admin/ könyvtárból.

Elemezzük a különböző A robots.txt fájlok összetevői részletesebben:

User-agent
Letiltás
Engedélyezés
Webhelytérkép
Feltérképezési késleltetés

User-agent a robots.txt fájlban

Minden keresőmotornak azonosítania kell magát egy user-agent. A Google robotjai például Googlebot, a Yahoo robotjai Slurp és Bing robotjai BingBot és így tovább.

A user-agent rekord meghatározza egy irányelvcsoport kezdetét. Az első user-agent és a következő user-agent rekord között lévő összes irányelv az első user-agent.

Az irányelvek vonatkozhatnak bizonyos felhasználói ügynökökre, de alkalmazhatók minden felhasználói ügynökre is. Ebben az esetben helyettesítő karaktert használunk: User-agent: *.

Az irányelv tiltása a robots.txt fájlban

Megmondhatja a keresőmotoroknak, hogy ne férjenek hozzá webhelyének bizonyos fájljai, oldalai vagy szakaszai. Ez a Disallow irányelv használatával történik. A Disallow irányelvet követi a path, amelyhez nem szabad hozzáférni. Ha nincs megadva path, az irányelv figyelmen kívül marad.

Példa

Ebben a példában az összes keresőmotornak azt mondják, hogy ne lépjen be a /wp-admin/ könyvtárba.

Irányelv engedélyezése a robots.txt fájlban

A Allow irányelv egy Disallow irányelv ellensúlyozására szolgál. A Allow irányelvet a Google és a Bing támogatja. A Allow és a Disallow irányelvek együttes használatával elmondhatja a keresőmotoroknak, hogy hozzáférhetnek egy adott fájlhoz vagy oldalhoz egy könyvtárban, amelyet egyébként nem engedélyeztek. A Allow irányelvet követi a hozzáférhető path. Ha nincs megadva path, az irányelv figyelmen kívül marad.

Példa

A fenti példában minden keresőmotor nem férhet hozzá a /media/ könyvtár, kivéve a /media/terms-and-conditions.pdf fájlt.

Fontos: Allow és Disallow irányelveket együtt, ügyeljen arra, hogy ne használjon helyettesítő karaktereket, mivel ez ellentmondó irányelvekhez vezethet.

Példa ellentmondó irányelvekre

A keresőmotorok nem tudják, mit kezdjenek az URL-lel . Számukra nem világos, hogy hozzáférhetnek-e hozzájuk. Ha az irányelvek nem világosak a Google számára, akkor a legkevésbé korlátozó irányelveket alkalmazzák, ami ebben az esetben azt jelenti, hogy valójában hozzáférnének a

Disallow rules in a site’s robots.txt file are incredibly powerful, so should be handled with care. For some sites, preventing search engines from crawling specific URL patterns is crucial to enable the right pages to be crawled and indexed – but improper use of disallow rules can severely damage a site’s SEO.

Barry Adams, Independent SEO Consultant, Polemic Digital

A separate line for each directive

Each directive should be on a separate line, otherwise search engines may get confused when parsing the robots.txt file.

Example of incorrect robots.txt file

Prevent a robots.txt file like this:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

A Robots.txt egyike azoknak a funkcióknak, amelyeket a leggyakrabban helytelenül hajtottam végre, tehát nem blokkolja azt, amit blokkolni akartak, vagy többet blokkol, mint várták, és negatív hatással van a weboldalukra. A Robots.txt egy nagyon hatékony eszköz, de túl gyakran hibásan állítja be.

David Iwanow, Travel Network

Helyettesítő karakter használata *

A helyettesítő karakter nemcsak a user-agent meghatározásához használható, hanem egyezik az URL-ekkel. A helyettesítő karaktert a Google, a Bing, a Yahoo és az Ask támogatja.

Példa

A fenti példában az összes keresőmotor nem engedélyez hozzáférést kérdőjelet tartalmazó URL-ekhez (?).

Fejlesztők vagy a webhelytulajdonosok gyakran úgy gondolják, hogy a robots.txt fájlban mindenféle szabályos kifejezést felhasználhatnak, míg a mintaillesztésnek csak nagyon korlátozott része érvényes – például helyettesítő karakterek >). Úgy tűnik, hogy a .htaccess fájlok és a robots.txt fájlok időnként összetéveszthetők.

Dawn Anderson, Bertey

Az URL végének használata $

Az URL végének megjelölésére használhatja a dollárjelet ($) a path végén.

Példa

A fenti példában a keresőmotorok nem férhetnek hozzá az összes .php végződésű URL-hez . URL-ek paraméterekkel, pl. A nem lenne tiltva, mivel az URL nem ér véget a .php után.

Webhelytérkép hozzáadása a robotokhoz. txt

Annak ellenére, hogy a robots.txt fájlt azért találták ki, hogy a keresőmotoroknak megmondja, milyen oldalakat nem szabad feltérképeznie, a robots.txt fájlt arra is felhasználhatja, hogy a keresőmotorokat az XML-webhelytérképre irányítsa. Ezt támogatja a Google, a Bing, a Yahoo és az Ask.

Az XML-webhelytérképre abszolút URL-ként kell hivatkozni. Az URL-nek nem feltétlenül ugyanazon a gazdagépen kell lennie, mint a robots.txt fájl.

Az XML-webhelytérképre való hivatkozás a robots.txt fájlban az egyik legjobb gyakorlat, amelyet mindig javasoljuk, annak ellenére, hogy lehet, hogy már elküldte XML-webhelytérképét a Google Search Console-ban vagy a Bing Webmestereszközökben. Ne feledje, hogy vannak további keresőmotorok.

Felhívjuk figyelmét, hogy a robots.txt fájlban több XML-webhelytérképre is hivatkozhatunk.

Példák

Többszörös A robots.txt fájlban definiált XML-webhelytérképek:

Egyetlen XML-webhelytérkép, amelyet egy robotok határoztak meg.txt fájl:

A fenti példa azt mondja az összes keresőnek, hogy ne érjék el a /wp-admin/ könyvtárat, és hogy az XML-webhelytérkép megtalálható a

Frequently Asked Questions

Comments are preceded by a # címen, és vagy a vonal elejére, vagy az ugyanazon a vonalon található irányelv után helyezhető el. A # után mindent figyelmen kívül hagyunk. Ezek a megjegyzések csak emberek számára szólnak.

1. Példa

2. példa

A fenti példák ugyanazt az üzenetet közlik.

Feltérképezési késleltetés a robots.txt fájlban

A Crawl-delay irányelv egy nem hivatalos irányelv, amely megakadályozza a túl sok kéréssel rendelkező szerverek túlterhelését. Ha a keresőmotorok képesek túlterhelni egy szervert, az Crawl-delay hozzáadása a robots.txt fájlhoz csak ideiglenes javítás. A helyzet az, hogy webhelye gyenge tárhelykörnyezetben működik, és / vagy webhelye nincs megfelelően konfigurálva, és ezt a lehető leghamarabb meg kell javítania.

Példa robots.txt fájlra a Bing megadott feltérképezési késleltetésével

A keresőmotorok által az Crawl-delay kezelésének módja eltér. Az alábbiakban elmagyarázzuk, hogyan kezelik a nagy keresők.

Gyakran ismételt kérdések

Feltérképezés késleltetése és a Google

A Google robotja, a Googlebot nem támogatja a Crawl-delay irányelv, ezért ne foglalkozzon a Google feltérképezési késleltetésének meghatározásával.

A Google azonban támogatja a feltérképezési gyakoriság (vagy a „kérési arány”) meghatározását, ha úgy akarja ) a Google Search Console-ban.

Feltérképezési gyakoriság beállítása a GSC-ben

Jelentkezzen be a régi Google Search Console-ba.
Válassza ki a kívánt webhelyet meg szeretné határozni a feltérképezési sebességet.
Csak egy beállítást módosíthat: Crawl rate, egy csúszkával, ahol beállíthatja a preferált feltérképezési sebességet. Alapértelmezés szerint a feltérképezés gyakorisága “Hagyja, hogy a Google optimalizáljon a webhelyemre (ajánlott)” értékre van állítva.

Így néz ki a Google Search Console:

Feltérképezés késleltetése és Bing, Yahoo és Yandex

Bing, Yahoo és Yandex mind támogatják a Crawl-delay irányelv a weboldal feltérképezésének fojtására. A bejárási késés értelmezése azonban kissé eltér, ezért mindenképpen ellenőrizze dokumentációjukat:

Bing és Yahoo
Yandex

A Crawl-delay irányelvet közvetlenül a Disallow vagy Allow irányelvek után kell elhelyezni.

Példa:

Feltérképezés-késleltetés és a Baidu

A Baidu nem támogatja a crawl-delay irányelvet, azonban lehetséges a Baidu Webmestereszközök-fiók regisztrálása amely a feltérképezés gyakoriságát szabályozhatja, hasonlóan a Google Search Console-hoz.

Mikor kell használni a robots.txt fájlt?

Javasoljuk, hogy mindig használjon robots.txt fájlt. Abszolút nem árt, ha van ilyen, és remek hely a keresőmotorok irányelveinek átadására, hogy miként tudják a legjobban feltérképezni az Ön webhelyét.

A robots.txt hasznos lehet annak megakadályozására, hogy a webhely bizonyos területeit vagy dokumentumait feltérképezzék és indexeljék. Ilyenek például az átmeneti webhely vagy a PDF-fájlok. Gondosan tervezze meg, hogy mit kell indexelnie a keresőmotoroknak, és ne feledje, hogy a robots.txt fájlon keresztül elérhetetlenné tett tartalmat továbbra is megtalálhatják a keresőmotorok robotjai, ha a webhely más területeiről vannak linkelve. “00b8013abe”>

Montse Cano, Montse Cano

Robots.txt bevált gyakorlatok

A robots.txt bevált módszereit az alábbiak szerint osztályozzuk:

Hely és fájlnév
Elsőbbségi sorrend
Robotonként csak egy irányelvcsoport
Legyen a lehető legpontosabb
Az összes robotra vonatkozó irányelv, ugyanakkor tartalmazzon egy adott robotra vonatkozó irányelveket is.
Robots.txt fájl minden (al) tartományhoz.
ütköző irányelvek: robots.txt és Google Search Console
Figyelje a robots.txt fájlt
Ne használja a noindex-et a robots.txt fájlban
Az UTF-8 BOM megakadályozása a robots.txt fájlban

Hely és fájlnév

A robots.txt fájlt mindig a th e root egy webhelyen (a gazdagép legfelső szintű könyvtárában), és a robots.txt fájlnevet viseli, például: . Vegye figyelembe, hogy a robots.txt fájl URL-je, mint bármely más URL, megkülönbözteti a kis- és nagybetűket.

Ha a robots.txt fájl nem található az alapértelmezett helyen, a keresőmotorok feltételezik, hogy nincsenek irányelvek, és feltérképezik az Ön webhelyét.

Elsőbbségi sorrend

Fontos megjegyezni, hogy a keresőmotorok eltérően kezelik a robots.txt fájlokat. Alapértelmezés szerint mindig az első egyező irányelv nyer.

A Google és a Bing esetében azonban a specifitás nyer. Például: egy Allow irányelv nyer egy Disallow direktívát, ha a karakterhossza hosszabb.

Példa

A Az összes keresőmotor fölött a példa, beleértve a Google-t és a Binget sem, hozzáférhet a /about/ könyvtárhoz, kivéve a /about/company/ alkönyvtárat.