Publicado em 12 de jun.

Como excluir todos os robôs exceto Google e Bing usando meta-tags?

Olá.

Eu quero que todos os robôs de busca, com exceção do Googlebot e do Bingbot, não indexem nem sigam os links em minha página. Eu espero conseguir isso usando o seguinte:

<meta name="robots" content="noindex,nofollow" />
<meta name="googlebot" content="index,follow,noarchive,noodp" />
<meta name="bingbot" content="index,follow,noarchive,noodp,noydir" />

Mas isso só irá funcionar se, ao processar a primeira regra, os robôs do Google e da Microsoft não ignorem a segunda regra e que esta sobrescreva a primeira (index,follow sobrescreve noindex,nofollow). O problema é que não tenho certeza de que isso vá acontecer e não quero correr o risco de testar por conta própria. Alguém aí tem alguma ideia de como esses robôs processam isso?

Obs: Eu sei como fazer isso usando o arquivo robots.txt, mas como há robôs que ignoram o robots.txt e usam apenas as meta-tags, eu quero repetir as regras também nas páginas HTML.

---

Edit:

Eu achei uma questão idêntica a minha no Google Groups.

O participante Chris Hunt levanta algumas questões interessantes...

Google diz que: "Se dois valores conflitam, nós usaremos o que for mais restritivo"

Portanto, se você colocar:

<meta name="robots" content="noindex" />
<meta name="robots" content="index" />

Ele irá usar a regra mais restritiva, ou seja, NOINDEX.

Mas não diz sobre qual dos escopos tem mais procedência, se o genérico ("robots") ou o específico ("gooblebot").

<meta name="robots" content="noindex" />
<meta name="googlebot" content="index" />

Googlebot iria indexar ou não?

"If you want to provide different instructions for different search engines (for instance, if you want one search engine to index a page, but not another), it's best to use a specific meta tag for each search engine rather than use a generic robots meta tag combined with a specific one."

(Se você quer prover diferentes instruções para diferentes motores de busca (por exemplo, se você que um motor de busca indexe a página, mas não outro), é melhor usar uma meta tag específica para cada motor de busca do que usar a tag genérica.)

Isso parece estar dizendo, implicitamente, que a tag genérica tem prevalência sobre as tags específicas.

Por fim, o balde de água fria definitivo:

JohnMu:

For the robots meta tag, the effects are cumulative with regards to the restrictions, eg:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

<META NAME="GOOGLEBOT" CONTENT="INDEX, FOLLOW, NOODP, NOIMAGEINDEX">

would result in Googlebot treating it as a noindex, nofollow, noodp, noimageindex. This is different than the robots.txt file.

You cannot provide more restrictive directives for the generic "robots" setting than for individual crawlers.

Discussão (6)

Entre ou cadastre-se para participar da discussão

Entrar Criar conta

Bruno Scarcella· 13 de jun.

Nunca lidei com nada parecido, pois nunca entrei numa situação em que não queira indexar X no Google mas quero no Bing.

Pelo robots.txt dá pra você configurar os diretórios e quais buscadores, não seria uma solução?

Por curiosidade mangakah, por que fazer isso? Qual a sua necessidade? Fiquei curioso. rs

mangakah· 13 de jun.

>
Nunca lidei com nada parecido, pois nunca entrei numa situação em que não queira indexar X no Google mas quero no Bing.

Pelo robots.txt dá pra você configurar os diretórios e quais buscadores, não seria uma solução?

Por curiosidade mangakah, por que fazer isso? Qual a sua necessidade? Fiquei curioso. rs

Bruno, eu quero fazer isso simplesmente para ter mais controle sobre a indexação das minhas páginas. Entendo que você ache exagero ou inútil, pois a maioria se contenta simplesmente com "noodp,noydir". Mas como 51% do tráfego é 'não humano', e no meu caso não é diferente, eu tenho prestado mais atenção às atividades dos robôs e quero ter mais controle sobre o que eles podem ou não fazer.

Como você sabe, existem duas maneiras de criar regras para robôs: usando o arquivo robots.txt ou usando a meta-tag robots (pode-se bloquear o UA ou o IP no arquivo HTACCESS, mas isso não é criar regras, mas apenas excluir os que não as obedecem e outros mal comportados).

Infelizmente cada uma dessas maneiras é uma solução incompleta e não é possível ter total controle dos robôs. Por exemplo, a maior desvantagem do robots.txt é que as regras dele se aplicam a todo um domínio/subdomínio, a um diretório ou a um tipo de arquivo ou outro padrão que você tenha, mas as opções para criar esses padrões se limitam ao caractere coringa e outros poucos marcadores (não é possível usar expressões regulares, por exemplo). Então a meta-tag robots possibilita um controle melhor sobre a indexação, pois ela vale apenas para uma página, além disso, com a meta-tag você tem a opção de bloquear parcialmente a atividade do robô, como impedir que o armazenamento de suas páginas em cache.

Mas... ao contrários do robots.txt, onde a regras menos restritiva é a que será utilizada, com as meta-tags dá-se o contrário, então não é possível usar um regra geral mais restritiva e usar regras específicas menos restritivas para alguns poucos robôs.

Eu me decidi pelo seguinte:

<meta name="googlebot" content="noarchive,noodp,noimageindex,notranslate" />
<meta name="bingbot" content="nocache,noodp" />
<meta name="slurp" content="noarchive,noodp,noydir" />
<meta name="teoma" content="none" />

Creio que este tópico já pode ser fechado.

Bruno Scarcella· 15 de jun.

Ah entendi, nunca tinha me deparado com tal situação.

É, a melhor maneira então é pelas meta-tags.

paulosebin· 20 de jun.

Olá.

O que você pretende fazer é muito arriscado. Também nunca tive uma situação como essa. Mas tentar bloquear outros robots da maneira que está tentando fazer é muito arriscado que o Google passe a não seguir suas páginas.

Se isso acontecer, você terá um problema sério, pois até o Google ler tudo de novo, é complicado. Você tem certeza que ser fazer isso? Ainda acho que o Robots seja a solução.

Paulo Sebin

Analista SEO e jornalista

Atua na MoBi Móveis de Design

Diego Ivo· 21 de jun.

Trabalhamos com um site que recebia muito SPAM e o Captcha não resolvia, pois quebravam facilmente. Uma solução que encontrei foi bloquear IPs gringos em determinados arquivos, não sei se resolveria para ti.

mangakah· 21 de jun.

@paulosebin e @Diego Ivo, obrigado pelas respostas. Já decidi não fazer como queria pois o Googlebot usa as regras mais restritivas nas meta-tags robots/gooblebot (ao contrário das regras no arquivo robots.txt). Então eu farei apenas como coloquei no final do post #3.