Informații articol
Robots.txt, fișierul text cu instrucțiuni pentru motorul de căutare. Definește ce zone ale unui website sunt autorizate pentru scanarea și indexarea lor.
Robots.txt, fișierul text cu instrucțiuni pentru motorul de căutare
Robots.txt este un fișier text cu instrucțiuni pentru scanarea din partea motorului de căutare.
Acesta definește ce zone ale unui website sunt autorizate pentru a fi analizate de Googlebot.
Însă, nu sunt denumite în mod explicit de fișierul robots.txt. Mai degrabă anumite zone nu au voie să fie căutate.
Folosind acest fișier text simplu puteți exclude cu ușurință diverse elemente.
Domenii întregi, directoare complete, unul sau mai multe subdirectoare ori fișiere individuale pot fi excluse.
Cu toate acestea, respectivul fișier nu protejează împotriva accesului neautorizat.
Robots.txt este stocat în directorul root al unui domeniu.
Astfel, este primul document pe care roboții îl deschid atunci când vă vizitează website-ul.
Cu toate acestea, fișierul nu controlează doar scanarea.
Puteți integra un link către sitemap. Harta oferă motorului de căutare o imagine de ansamblu asupra adreselor URL.
Cum funcționează fișierul robots
În 1994 a fost publicat un protocol numit REP (Robots Exclusion Standard Protocol).
Acest protocol prevedea că toți roboții motoarelor de căutare trebuie să găsească mai întâi fișierul robots.txt.
Mai apoi, aveau de citit instrucțiunile pe care le conține. Abia după roboții puteau începe indexarea paginii dvs. web.
Fișierul trebuia să fie localizat direct în directorul root al domeniului și să fie scris cu litere mici.
Din păcate, nu toți roboții motoarelor de căutare respectă aceste reguli.
Însă, fișierul funcționează cu cele mai importante motoare de căutare precum Bing, Yahoo! și Google.
Roboții lor de căutare respectă cu strictețe instrucțiunile REP și robots.txt.
În practică, robots.txt poate fi utilizat pentru diferite tipuri de fișiere.
Dacă îl utilizați pentru fișiere cu imagini, împiedică apariția acestor fișiere în rezultatele căutării Google.
Fișierele de resurse neimportante (script, stil și imagine) pot fi blocate ușor cu robots.txt.
Articole recomandate:
În plus, puteți exclude accesarea paginilor generate dinamic de la scanare folosind comenzi adecvate.
De exemplu, paginile cu rezultate ale unei funcții de căutare internă dintr-un magazin online pot fi blocate.
De asemenea, puteți controla accesul roboților la alte fișiere non-imagine (pagini web) folosind fișierul text.
Prin urmare, puteți evita următoarele scenarii:
- roboții de căutare accesează multe pagini similare sau neimportante;
- bugetul dvs. de accesare este pierdut inutil;
- server-ul dvs. este supraîncărcat de roboții de scanare.
Rețineți că robots.txt nu garantează că website-ul sau paginile individuale nu sunt indexate.
Acesta controlează numai scanarea website-ului dvs., nu și indexarea.
Dacă paginile nu trebuie indexate de motoarele de căutare, setați eticheta meta următoare în header:
<meta name="robots" content="noindex>
Cu toate acestea, nu ar trebui să blocați fișierele de relevanță ridicată pentru roboții de căutare.
Rețineți că fișierele CSS și JavaScript ar trebui să fie deblocate.
Ce instrucțiuni sunt utilizate în robots.txt?
Robots.txt trebuie salvat ca fișier text UTF-8 sau ASCII în directorul root al paginii dvs. web.
Trebuie să existe un singur fișier cu acest nume.
Conține unul sau mai multe seturi de reguli structurate într-un format care poate fi citit clar.
Regulile (instrucțiunile) sunt procesate de sus în jos, prin care se disting litere mari și mici.
Următorii termeni sunt folosiți într-un fișier robots.txt:
- user-agent: denumește numele robotului de scanare (numele poate fi găsit în Robots Database);
- disallow: previne scanarea anumitor fișiere, directoare sau pagini web;
- allow: suprascrierile nu permit și permit scanarea de fișiere, pagini web și directoare;
- sitemap (opțional): arată locația sitemap-ului;
- *: înseamnă orice număr de caractere;
- $: reprezintă sfârșitul liniei.
Instrucțiunile (intrările) din robots.txt constau întotdeauna din două părți.
În prima parte, definiți pentru ce roboți se aplică instrucțiunea următoare.
A doua parte conține instrucțiunea (respingere sau permitere).
„user-agent: Google-Bot” și instrucțiunea „disallow: / clients /”. Google nu are voie să caute în / clients /.
Dacă întregul website nu trebuie să fie accesat cu un bot de căutare folosiți: „user-agent: *”, cu „disallow: /”.
Puteți utiliza semnul „$” pentru a bloca paginile care au o anumită extensie.
Instrucțiunea „disallow: / * .doc $” blochează toate adresele URL cu o extensie .doc.
În același mod puteți bloca formate de fișiere specifice n robots.txt: „disallow: /*.jpg$”.
Ce rol joacă fișierul în optimizarea SEO
Instrucțiunile dintr-un fișier robots.txt au o influență puternică în optimizare SEO.
Fișierul vă permite să controlați roboții de căutare.
Însă, dacă agenții sunt restricționați prea mult prin refuz, acest lucru are un efect negativ asupra clasamentului.
De asemenea, luați în considerare că nu veți obține o clasare cu pagini pe care le-ați exclus prin refuzarea robots.txt.
Dacă nu există restricții de interzicere se poate întâmpla ca paginile cu conținut duplicat să fie indexate.
O asemenea situație are un efect negativ în optimizarea SEO și asupra clasamentului acestor pagini.
Înainte de a salva fișierul în directorul root al website-ului trebuie să verificați sintaxa.
Chiar și erori minore pot duce la roboți care nu iau în considerare regulile de interzicere și de accesare.
Astfel de erori pot duce la pagini inaccesibile pentru roboți și URL-uri întregi neindexate din cauza refuzului.
Puteți verifica datele din robots.txt utilizând Google Search Console.
În „Current Status” și „Crawl Errors” veți găsi toate paginile blocate de instrucțiunile de refuz.
Folosind robot.txt în mod corect vă puteți asigura că toate părțile importante ale website-ului sunt accesate.
În consecință, întregul conținut al paginii dvs. este indexat de Google și alte motoare de căutare.
Articole similare