O Robots.txt ideal para o WordPress

r2d2

O arquivo robots.txt controla o que os robôs dos mecanismos de busca podem ou não indexar.

A maioria dos mecanismos de busca seguem corretamente o que está descrito no mesmo e o funcionamento é bem simples..

O padrão do arquivo é:

User-agent:
Disallow:

Onde depois de User-agent, você coloca o nome do robô que deseja barrar e em Disallow, você informa o arquivo ou diretório que deseja barrar.

O comando Allow, pode ser usado para criar exceções ao Disallow.

No lugar do nome do robô, você pode colocar * para indicar que a regra se aplica a todos e em Disallow, quando você bloqueia um diretório, estará bloqueando todos os arquivos dentro dele.

Pensando nessas regras, resolvi criar um arquivo robots.txt que não permitisse a indexação de nenhuma URL que pudesse prejudicar a indexação dos artigos, em blogs que utilizam o WordPress.

[CODE]User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*?*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap

Sitemap: http://www.brpoint.net/sitemap.xml
[/CODE]

Este arquivo, bloqueará todos os diretórios que não devem ser indexados, além de vários arquivos que podem carregar conteúdo duplicado, diluindo o valor dos artigos.

Caso você use uma estrutura de URLs diferente das que eu utilizo, verifique se o arquivo não está bloqueando páginas válidas.

Exemplos:

  • Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.
  • Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
  • Etc…

Em caso de dúvidas, pergunte nos comentários.

No final do arquivo, tomei cuidado para incluir o robô do AdSense, para que páginas não indexadas exibam os anúncios corretamente.

Inclui, também a chamada ao Sitemap que passou a ser aceito no robots.txt pelos maiores mecanismos de busca.

49 Respostas to “O Robots.txt ideal para o WordPress”

  1. Pedro disse:

    Estava mesmo à procura de um destes já meio feito…
    Obrigado

  2. Diego Xavier disse:

    Muito bom, parabéns pelos tutoriais, fazendo de tudo para melhorar a blogosfera!

  3. dudu disse:

    Uau!!! Gracias amigo!

    Nada como um código já mastigado.
    Faz algum tempo que eu queria criar um robots.txt para acabar com a indexação dos feeds mas não sabia por onde começar.

  4. Ostrock disse:

    Como seria um robots.txt para o blogger?

  5. BrPoint disse:

    Pedro, Diego e Dudu, obrigado.

    Ostrock, até onde sei não é possível fazer isso no blogger.

    Abraços

  6. Ale Rocha disse:

    Bruno, mais uma vez parabéns pela iniciativa.

    Notei que, no diretório de instalação do Poltrona.TV no Bluehost, não tenho alguns diretórios como o /tag/ e o /tags/. Sendo assim, posso tirá-los do corpo do robots.txt, correto?

    Outra coisa: uso o Feedburner e habilitei a opção noindex lá. Mesmo assim acha nessária a linha Disallow: /feed/??

    Não entendi muito bem essas recomendações:

    # Para quem usa o formato padrão do WordPress, precisa remover a regra Disallow: /*?*.

    # Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$

    Eu uso a estrutura: http://www.poltrona.tv/postname. O que eu deveria fazer?

    Valeu pelas respostas. Creio que devem ser de grande valia para outros leitores também. Abraços.

  7. Ostrock disse:

    Obrigado pela resposta, vou aproveitar e questionar outra coisa:

    Existe alguma maneira de indicar no site quais partes não devem ser indexadas?

    Vi em um post anterior que o yahoo criou uma classe css para isto, exitee algo do tipo para o google e o SE da Microsoft?

    Pergunto isso por que não quero, por exemplo, que eles indexem minha barra de navegação, minhas tags e ouras coisas do tipo que não são propriamente um conteúdo.

    Obrigado pela atenção.

  8. Bruno,

    Seria interessante também desabilitar o /feed/ de todos os artigos. Como eu conseguiria isto ?

    *./feed/ ?

  9. No meu robots eu inclui também as seguintes linhas, não me lembro a referência…

    Disallow: /wp-rss.php
    Disallow: /wp-rss2.php
    Disallow: /wp-rdf.php
    Disallow: /wp-atom.php

  10. Wilson disse:

    Um dúvida:

    Não tenho acesso à pasta blog do site http://blog.wilson.com.pt porque é um ad-on…

    Para desabilitar o /fedd será que posso colocar no http://www.wilson.com.pt /robots.txt

    Disallow: http://blog.wilson.com.pt/feed/

  11. BrPoint disse:

    Ale, o que você não tiver, pode remover sem problemas.

    As instruções que dei não afetarão seu esquema de URLs.

    Quanto ao feed, se você já usa o noindex, pode retirar.

    Ostrock, até o momento, só o Yahoo implementa esta funcionalidade.

    Rafael, se você usar a regra:

    Disallow: /*feed*

    Resolverá o problema, porém, qualquer página ou artigo que tenha feed no nome também será bloqueada.

    Uma opção para os demais arquivos pode ser a regra:

    Disallow: /wp-*.php$

    Isso removeria todas as páginas do próprio WordPress.

    Wilson, não, o Google interpreta subdomínios como domínios diferentes, precisa estar na raiz do subdomínio.

    Abraços

  12. André disse:

    Será que não seria interessante usar também:

    Disallow: /category/

    ?

    Nas páginas de categorias também há o conteúdo (duplicado) dos posts.

  13. Bira Jones disse:

    Como faço pra colocar o robots.txt pra funcionar no meu blog? Tenho que fazer um upload desse arquivo? Desculpe pela pergunta básica, mas essas coisas ainda me parecem complicadas. Obrigado.

  14. Ostrock disse:

    Migrei meu blog para o WordPress, como faço para inserir este robots.txt? Estou usando o próprio WP, é posível fazer isso?

  15. Bruno Alves disse:

    André, sim, é uma boa opção.

    Eu não havia colocado, pois estava usando excerpts nas categorias, ao invés do artigo inteiro.

    Bira, sim, basta criar um arquivo com o nome robots.txt na raiz do blog.

    Ostrock, WordPress.com ou instalado?

    Se for o .com não tem como se for o intalado, como aqui, basta criar um arquivo com este nome na raiz do blog.

    Abraços

  16. Matt disse:

    Sempre tive uma dúvida, se eu tenho o sitemap já adicionado pelo sistema de sitemaps do google, eu preciso ainda me preocupar com o robots.txt ???

  17. Bruno Alves disse:

    Matt, essa linha é mais para o Yahoo e MSN, que também usam o Sitemaps, entendem a linha no robots.txt, mas não possuem um lugar para que você informe, como faz o Google.

    Abraço

  18. Leonardo disse:

    Excelente artigo.

    Agora, que tal um artigo sobre segurança no WP ?

  19. Bruno Alves disse:

    Leonardo, não há tanta coisa a ser feita nessa área.

    Seria manter o WP atualizado (que raramente faço) e o servidor seguro.

    Abraço

  20. Alex disse:

    Fiz a mudança hoje.
    Vamos ver em alguns dias o resultado.
    Obrigado.

  21. Bruno Alves disse:

    Alex, depois nos conte o resultado.

    Abraço

  22. Cristian disse:

    Você poderia fazer a gentileza de me indicar um artigo sobre simemap, qual plugin usar para criar o meu? Sou blogger iniciante. Muito obrigado pelas dicas do Robots.txt

  23. William disse:

    Tava pesquisando no Google sobre os Robots.txt e me deparei com este site http://www.marketingdebusca.com.br/robots-txt/ ao que indica ele cria o um arquivo Robots.txt personalizado, podendo escolher os rôbos de busca e escolher os diretórios para serem bloqueados

  24. Bruno Alves disse:

    Cristian, uso um polugin do WP para fazer isso, o Sitemap Genarator.

    William, fazendo na mão é possível ter mais controle sobre o arquivo, para quem precisa de um arquivo bem básico, pode ser uma boa ferramenta.

    Abraços

  25. Erivelton L. disse:

    Ô Bruno, quer dizer que se eu criar um arquivo destes os buscadores não vão mais indexar a páginas de feeds?

    Outra coisa, o meu blog tem poucas visitas vindas do yahoo, qual o porquê disto? Isto ocorre com você também.

    Não é verdade que o Yahoo tem mais visitas que o Google?

  26. Bruno Alves disse:

    Evirelton, esse arquivo dirá ao Google para não seguir o endereço do feed, mas se ele já estiver indexado é preciso removê-lo.

    Nas buscas, não, o Google tem acesso muito maior.

    Abraço

  27. TioSolid disse:

    Bruno. uma duvida
    utiilizo o webmasters do google, e gostaria de saber uma coisa: coloquei meu sitemap e meu feed como fontes de sitemap no meu webmasters, porem como o .php do feed esta bloqueado, ele me retornou um erro.. devo desbloquear os feeds para q o webmasters possa acessa-lo? pensei nisso pois imagino que meu site map tenha q ser recriado toda vez q eu fizer um novo post, isso nao eh correto?

  28. Bruno Alves disse:

    TioSolid, use o plugin para criação de sitemap do WP e coloque só ele no Webmaster tools, funciona perfeitamente.

    Abraço

  29. Charles disse:

    Bruno, interessante seu artigo e exemplos sobre robots.txt.
    Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site (feito em WordPress).
    Pensei em criar um robots.txt assim (na raiz):
    User-agent: *
    Disallow: /
    Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (baseado no exemplo deste seu artigo), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
    Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) “agora entrem de novo no meu site/robots.txt”?

  30. Bruno Alves disse:

    Charles, o Google (o único que tenho certeza da freqüência), relê o robots.txt uma vez por dia.

    Quando o blog estiver pronto, altere o robots, e use o plugin sitemap para avisar ao Google que começou a atualizar o blog.

    Vai funcionar sem problemas.

    Abraço

  31. Ostrock disse:

    tem como adicionar um robots através do “@import” da mesma forma que se faz para CSS?

  32. Bruno Alves disse:

    Ostrock, não, precisa ser um arquivo.

    Abraço

  33. Anny Rose disse:

    Bruno, só por curiosidade, resolvi testar o robots.txt no ferramentas para Webmaster, e pelo menos lá (no teste) o Googlebot tinha acesso aos diretórios que supostamente foram bloqueados, achei e estranho e substituí User-agent: * por User-agent: Googlebot , aí sim bloqueou o acesso aos diretórios. De acordo com esse teste o * não esta bloqueando o acesso de todos os user-agents.

  34. Charles disse:

    Bruno, este cara parece ter copiado na maior cara de pau o seu post.
    http://agarrados.org/o-robotstxt-ideal-para-o-WordPress/

  35. Bruno Alves disse:

    Anny, nas estatísticas do Webmasters Tool, mostra as páginas barradas no robots, e o Google está interpretando corretamente, pode ser um erro da ferramenta.

    Charles, aparentemente, sim, ele não faz idéia da besteira que está fazendo.

    Abraços

  36. Edson Luiz disse:

    Olá bruno eu uso o blogger e não posso alterar o robots.txt então gostaria de saber se tem como o bloquear os links do buscapé com algum código parecido com esse…
    [meta content='index' name='robots'/]

  37. Anny Rose disse:

    Edson, você pode usar o nofollow para que o Google não siga o link do buscapé. Basta incluir rel=”nofollow” na tag do link.

  38. Bruno Alves disse:

    Edson, o blogger não permite o uso do robots.txt, terá que fazer como Anny sugeriu.

    Anny, obrigado.

    Abraços

  39. Julio disse:

    cara esse seu robots ai me causou muitos problemas, se ele bloqueia *.php voce vai ter problemas, vc está bloqueando acesso a paginas php

    • Bruno Alves disse:

      Julio, pelo que vi no seu blog, você não usa nenhuma página .php, como o robots pode ter te prejudicado?

      Além disso, eu informo no texto que as pessoas que usam .php no permalink precisam remover esta linha.

      Abraço

  40. joiooiioioi disse:

    .s.sç´lslps.,llsmiomkjm nsjns.sp sisl,ljsdikir jtklfgjfgfkhlj; kjog bi uoiji jiugfjgfk 9 9fiu9ihfukhfkbnfojbkfnjbhfdkhbgnj bijfmnfmngkbvifjig ofjdijgjgiojfingiofjfdi oijfijgiujfijn fkfjigfojmgiddfjifg ikjgijgiffj igjifgjigugkhgjifoy ijigfiufoijifgjin idihjdf.trochasjsdhudhudgfuy

  41. AulaTube disse:

    Olá Bruno,
    existe alguns erros de sintaxe que precisam ser corrigidos. Por exemplo a linha “CODE:” precisaria ser removida. Digo isso, pois chequei em alguns “Robots.txt Syntax Checking”. A propósito seu post e blog são muito importantes para nós, obrigado.

  42. Charles Müller disse:

    Uma dica:
    Quem (eu, por exemplo) não quer que conteúdo velho (e até removido) do site seja obtido via WayBack Machine (www.archive.org) pode usar isto no robots.txt:

    User-agent: ia_archiver
    Disallow: /

  43. Charles Müller disse:

    Olá Bruno. Volto ao seu (famoso) post, agora pretendo implementar no site o modelo de robots.txt que você sugere. Nisto surgiram algumas dúvidas.
    1) Minha estrutura de URL será http://www.meudominio.com/nomedacategoria/nomedopost mas, fico com certo receio em bloquear *.php, os robôs não precisam varrer o conteúdo que estas páginas (scripts) geram?
    2) O mesmo para o caracter ?, se bem que só a URL dos resultados de busca usa-o.
    3) A string /tag/ é usada para formar “índices” das tags (etiquetas de assunto) do blog, bloqueá-las não reduz a exibição nos buscadores?
    4) Pelo que consta no artigo e comentários acima, posso bloquear os feeds via robots.txt ou via opção noindex do Feedburner. Mas, qual a razão de bloquear os feeds? Isto não irá impedir que o site figure no Google Blog Search e no Technorati?
    :) Valeu.

  44. Cultura Livre disse:

    Porque tirar o diretório /tag/ e não o /pages/? A possibilidade de ter o conteúdo duplicado no /pages/ não é maior?

    No meu caso tirei os dois, minha audiência caiu de 1300 por dia para 600 :-(

    E que diretório é este /tags/ no plural que eu n achei? Obrigado!

    Poderia dar uma olhada pra mim: ” target=”_blank”>http://www.culturalivre.com/robots.txt

    E mais textos sobre WordPress podem ser encontrados aqui: ” target=”_blank”>http://www.culturalivre.com/wordpress/

    Obrigado!

  45. Edu Giansante disse:

    Fala Bruno, tudo bom?

    Sempre acompanho o BRpoint por rss, parabéns!

    Estou com um problema no e-dublin (uso wp instalado)

    O blog simplesmente sumiu dos resultados de busca (sempre ocupava primeiras posicoes).

    achei que era um problema depois que instalei o robots
    http://www.e-dublin.com.br/robots.txt

    mas pareec estar correto, apesar de diferente

    sera que por algum motivo fui punido? ele tb sumiu do yahoo, mas no bing esta normal

    fiquei preocupado!

    • Bruno Alves disse:

      Dei uma olhada nas páginas indexadas (no cache) e elas estão completamente diferentes das páginas quando eu acesso direto. Você fez alguma alteração ou tem algum script para mudar o site quando é acessado pelo Google? Se for a segunda opção, está explicado o motivo de sumir das buscas.

      Pelo robots que está no ar, hoje, não tenho como dizer se tinha algum erro.

      Abs

  46. Icaro Alencar disse:

    Bom dia Brunno, gostei muito desse tutorial sobre robots, eu estou com um problema e não sei como resolver, eu despenquei no analytics e hoje eu estou no vermelho literalmente com eles, o que poderia ter dado errado? apareceu muitos erros no google webmasters e eu não sei como resolver… o que poderia ser?

Trackbacks/Pingbacks

  1. Evitando conteúdo duplicado com o Robots.txt » Blog do Ronaldo - [...] um modelo de robots.txt para WordPress no BrPoint, mas achei que faltaram as categorias e o arquivo. Descobri algo ...
  2. Futilidade Pública » Review: BrPoint o blog que duplicou as visitas deste blog | Cybercultura, tecnologia, generalidades e o que mais tiver na reta - [...] uma técnica do BrPoint e, um dia depois, elas viraram 2X+Y. A técnica usada foi a adaptação do robots.txt ...
  3. Tutorial: entenda como os Robots e Spiders trabalham para os mecanismos de busca - celsojunior.net - [...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar ...
  4. Tic Nervoso » Robots.txt milagroso - [...] fui no post do Bruno Alves no brpoint.net e procurei seguir as [...]
  5. Daniel Costa | Eu também mantenho um Blogroll no meu site - [...] concluir, desde que o BrPoint o robots.txt ideal, e eu fiz a mudança sugeridas, as visitas desse site caíram ...
  6. Cuidado com o que você guarda no servidor online - [...] Por descuido, desleixo ou até mesmo total falta de conhecimento, muitos Webmasters, que guardam arquivos pessoais em servidores on ...
  7. Não crie uma gaiola para o Google | BrPoint - [...] freqüência, recebo a seguinte reclamação: Bruno, desde que implementei o robots.txt que você sugeriu, minhas visitas vindas do Google ...
  8. salvadorcamino.com» Blog Archive » Mais um passo: robots.txt e sitemap.xml - [...] cuidar de todos os detalhes. Para fazer seu robots.txt otimizado para blogs, recomendo a leitura deste texto do Bruno ...
  9. EnterNauta - Robots.txt: como usar... Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um ...
  10. As melhores práticas de SEO que você pode adotar em seu web site ou blog para melhorar o posicionamento nos mecanismos de busca | desenvolvimento para web - [...] Para saber mais sobre o arquivo robots.txt, veja a página da Wikipedia que trata sobre o assunto. Para os ...
  11. Bloqueando a indexação das resenhas patrocinadas | SEO e Blogs - Por diversão e Dinheiro | BrPoint - [...] de ler o artigo onde Andy Beard, mostra que bloquear as resenhas patrocinadas, no robots.txt, pode ser uma solução ...
  12. Como otimizar o robots.txt para o WordPress e Google - MUNDO HI-TECH - [...] BRPoint tem um robots bem interessante mas eu precisei fazer algumas mudanças. O código completo está [...]
  13. Blog não é livro | BrPoint - [...] mesmo dia, não acho que precise ser algo nesse estilo, mas não é porque escrevi uma vez sobre o ...
  14. Entenda como os Robots e Spiders Trabalham Para os Mecanismos de Busca | SEO Dicas - [...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar ...

Deixar uma resposta

O seu endereço de email não será publicado Campos obrigatórios são marcados *

*

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Usando WordPress | Design por Elegant Themes