Usamos cookies para medir audiência e melhorar sua experiência. Você pode aceitar ou recusar a qualquer momento. Veja sobre o iMasters.
Olá.
Eu quero que todos os robôs de busca, com exceção do Googlebot e do Bingbot, não indexem nem sigam os links em minha página. Eu espero conseguir isso usando o seguinte:
<meta name="robots" content="noindex,nofollow" />
<meta name="googlebot" content="index,follow,noarchive,noodp" />
<meta name="bingbot" content="index,follow,noarchive,noodp,noydir" />
Mas isso só irá funcionar se, ao processar a primeira regra, os robôs do Google e da Microsoft não ignorem a segunda regra e que esta sobrescreva a primeira (index,follow sobrescreve noindex,nofollow). O problema é que não tenho certeza de que isso vá acontecer e não quero correr o risco de testar por conta própria. Alguém aí tem alguma ideia de como esses robôs processam isso?
Obs: Eu sei como fazer isso usando o arquivo robots.txt, mas como há robôs que ignoram o robots.txt e usam apenas as meta-tags, eu quero repetir as regras também nas páginas HTML.
---
Edit:
Eu achei uma questão idêntica a minha no Google Groups.
O participante Chris Hunt levanta algumas questões interessantes...
Google diz que: "Se dois valores conflitam, nós usaremos o que for mais restritivo"
Portanto, se você colocar:
<meta name="robots" content="noindex" />
<meta name="robots" content="index" />
Ele irá usar a regra mais restritiva, ou seja, NOINDEX.
Mas não diz sobre qual dos escopos tem mais procedência, se o genérico ("robots") ou o específico ("gooblebot").
<meta name="robots" content="noindex" />
<meta name="googlebot" content="index" />
Googlebot iria indexar ou não?
"If you want to provide different instructions for different search engines (for instance, if you want one search engine to index a page, but not another), it's best to use a specific meta tag for each search engine rather than use a generic robots meta tag combined with a specific one."
(Se você quer prover diferentes instruções para diferentes motores de busca (por exemplo, se você que um motor de busca indexe a página, mas não outro), é melhor usar uma meta tag específica para cada motor de busca do que usar a tag genérica.)
Isso parece estar dizendo, implicitamente, que a tag genérica tem prevalência sobre as tags específicas.
Por fim, o balde de água fria definitivo:
JohnMu:
For the robots meta tag, the effects are cumulative with regards to the restrictions, eg:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="GOOGLEBOT" CONTENT="INDEX, FOLLOW, NOODP, NOIMAGEINDEX">
would result in Googlebot treating it as a noindex, nofollow, noodp, noimageindex. This is different than the robots.txt file.
You cannot provide more restrictive directives for the generic "robots" setting than for individual crawlers.
>
Nunca lidei com nada parecido, pois nunca entrei numa situação em que não queira indexar X no Google mas quero no Bing.
Pelo robots.txt dá pra você configurar os diretórios e quais buscadores, não seria uma solução?
Por curiosidade mangakah, por que fazer isso? Qual a sua necessidade? Fiquei curioso. rs
Bruno, eu quero fazer isso simplesmente para ter mais controle sobre a indexação das minhas páginas. Entendo que você ache exagero ou inútil, pois a maioria se contenta simplesmente com "noodp,noydir". Mas como 51% do tráfego é 'não humano', e no meu caso não é diferente, eu tenho prestado mais atenção às atividades dos robôs e quero ter mais controle sobre o que eles podem ou não fazer.
Como você sabe, existem duas maneiras de criar regras para robôs: usando o arquivo robots.txt ou usando a meta-tag robots (pode-se bloquear o UA ou o IP no arquivo HTACCESS, mas isso não é criar regras, mas apenas excluir os que não as obedecem e outros mal comportados).
Infelizmente cada uma dessas maneiras é uma solução incompleta e não é possível ter total controle dos robôs. Por exemplo, a maior desvantagem do robots.txt é que as regras dele se aplicam a todo um domínio/subdomínio, a um diretório ou a um tipo de arquivo ou outro padrão que você tenha, mas as opções para criar esses padrões se limitam ao caractere coringa e outros poucos marcadores (não é possível usar expressões regulares, por exemplo). Então a meta-tag robots possibilita um controle melhor sobre a indexação, pois ela vale apenas para uma página, além disso, com a meta-tag você tem a opção de bloquear parcialmente a atividade do robô, como impedir que o armazenamento de suas páginas em cache.
Mas... ao contrários do robots.txt, onde a regras menos restritiva é a que será utilizada, com as meta-tags dá-se o contrário, então não é possível usar um regra geral mais restritiva e usar regras específicas menos restritivas para alguns poucos robôs.
Eu me decidi pelo seguinte:
<meta name="googlebot" content="noarchive,noodp,noimageindex,notranslate" />
<meta name="bingbot" content="nocache,noodp" />
<meta name="slurp" content="noarchive,noodp,noydir" />
<meta name="teoma" content="none" />
Creio que este tópico já pode ser fechado.
Ah entendi, nunca tinha me deparado com tal situação.
É, a melhor maneira então é pelas meta-tags.
Olá.
O que você pretende fazer é muito arriscado. Também nunca tive uma situação como essa. Mas tentar bloquear outros robots da maneira que está tentando fazer é muito arriscado que o Google passe a não seguir suas páginas.
Se isso acontecer, você terá um problema sério, pois até o Google ler tudo de novo, é complicado. Você tem certeza que ser fazer isso? Ainda acho que o Robots seja a solução.
Paulo Sebin
Analista SEO e jornalista
Atua na MoBi Móveis de Design
Trabalhamos com um site que recebia muito SPAM e o Captcha não resolvia, pois quebravam facilmente. Uma solução que encontrei foi bloquear IPs gringos em determinados arquivos, não sei se resolveria para ti.
@paulosebin e @Diego Ivo, obrigado pelas respostas. Já decidi não fazer como queria pois o Googlebot usa as regras mais restritivas nas meta-tags robots/gooblebot (ao contrário das regras no arquivo robots.txt). Então eu farei apenas como coloquei no final do post #3.
Nunca lidei com nada parecido, pois nunca entrei numa situação em que não queira indexar X no Google mas quero no Bing.
Pelo robots.txt dá pra você configurar os diretórios e quais buscadores, não seria uma solução?
Por curiosidade mangakah, por que fazer isso? Qual a sua necessidade? Fiquei curioso. rs