O robots.txt e o sitemap.xml são dois arquivos que controlam como os buscadores leem o seu site. O robots.txt diz o que os robôs podem ou não rastrear, enquanto o sitemap aponta quais páginas você quer que sejam encontradas e indexadas. Usados juntos e da forma certa, eles guiam o Google para o conteúdo que importa e o afastam do que não deveria aparecer.
O erro mais perigoso aqui é confundir rastreamento com indexação. Bloquear no robots.txt não garante que a página suma da busca. Entender essa diferença evita acidentes graves de SEO.
Aqui você vê como configurar os dois arquivos sem cometer os erros clássicos. Cobrimos sintaxe, exemplos, a diferença entre bloquear e desindexar e como evitar o desastre de bloquear o site inteiro. Tudo voltado para controle preciso do que o Google vê.
O Que É o Robots.txt
O robots.txt é um arquivo de texto na raiz do site. Ele instrui os robôs sobre quais áreas podem rastrear. É a primeira coisa que um buscador consulta ao chegar Vale ler também Core Web Vitals Perfeito no blog..
O arquivo fica sempre no mesmo lugar, em seusite.com/robots.txt. Ele usa uma sintaxe simples de permitir e bloquear. Cada regra direciona o comportamento do rastreador Vale ler também Local Schema Markup no blog. Vale ler também Core Web Vitals Perfeito no blog..
O ponto crucial é entender seu alcance real. O robots.txt controla o rastreamento, não a indexação. Ele diz onde o robô pode entrar, não o que aparece na busca.
Para Que Serve o Robots.txt
O uso principal é economizar o orçamento de rastreamento. O Google tem um limite de páginas que rastreia por visita. Bloquear o irrelevante concentra esse esforço no que importa No artigo HTTPS + HSTS Header, aprofundamos esse tema. No artigo Hierarquia H1-H6, aprofundamos esse tema. Vale ler também Schema markup para SEO local no blog..
Ele também afasta os robôs de áreas técnicas. Pastas de administração, scripts e arquivos internos não precisam ser rastreados. O robots.txt mantém o foco no conteúdo público No artigo Hierarquia H1-H6, aprofundamos esse tema..
O que ele não faz é garantir privacidade. Bloquear no robots.txt não esconde uma página. Para isso existem outras ferramentas mais adequadas.
O Que É o Sitemap.xml
O sitemap.xml é um arquivo que lista as páginas do site. Ele funciona como um mapa entregue ao buscador. Diz ao Google quais URLs você considera importantes.
Ao contrário do robots.txt, o sitemap é um convite, não uma barreira. Ele sugere o que rastrear e indexar. O Google usa essa lista para descobrir conteúdo com mais eficiência.
O sitemap é especialmente útil em sites grandes. Páginas profundas ou novas podem demorar a ser descobertas. O sitemap acelera essa descoberta.
Para Que Serve o Sitemap
A função central é facilitar a descoberta de páginas. Sem ele, o Google depende só dos links internos. O sitemap garante que nada importante fique escondido.
Ele também informa dados úteis sobre cada URL. A data da última atualização ajuda o Google a priorizar. Isso é valioso para conteúdo que muda com frequência.
O sitemap é um sinal, não uma ordem. Listar uma página não força a indexação. Mas aumenta a chance de ela ser encontrada e avaliada.
A Diferença Entre Robots.txt e Sitemap
Os dois arquivos têm funções opostas e complementares. O robots.txt restringe, o sitemap convida. Um diz "não entre aqui", o outro diz "venha ver isto".
Usá-los em conjunto é o ideal. O robots.txt afasta o robô do que não importa. O sitemap o conduz ao que importa.
| Aspecto | Robots.txt | Sitemap.xml |
|---|---|---|
| Função | Restringir rastreamento | Sugerir páginas importantes |
| Natureza | Barreira | Convite |
| Formato | Texto simples | XML estruturado |
| Localização | Raiz do site | Raiz ou informado no robots.txt |
| Controla indexação? | Não diretamente | Não diretamente |
Note o último ponto, que confunde muita gente. Nenhum dos dois controla a indexação de forma direta. Esse é o ponto que vamos aprofundar a seguir.
A Sintaxe do Robots.txt na Prática
O robots.txt usa uma sintaxe enxuta e direta. Poucas diretivas controlam todo o comportamento dos robôs. Dominar essas diretivas é o suficiente para a maioria dos casos.
O arquivo é lido de cima para baixo. Cada bloco começa definindo a qual robô ele se aplica. Depois vêm as regras de permissão e bloqueio.
As Diretivas Essenciais
A diretiva User-agent define a qual robô a regra se aplica. Um asterisco significa todos os robôs. Um nome específico mira um buscador em particular.
A diretiva Disallow bloqueia o acesso a um caminho. A Allow abre exceções dentro de áreas bloqueadas. A Sitemap informa onde está o mapa do site.
| Diretiva | O que faz | Exemplo |
|---|---|---|
User-agent |
Define o robô alvo da regra | User-agent: * |
Disallow |
Bloqueia um caminho | Disallow: /admin/ |
Allow |
Libera exceção em área bloqueada | Allow: /admin/publico/ |
Sitemap |
Aponta o sitemap.xml | Sitemap: https://site.com/sitemap.xml |
Exemplo de Robots.txt Bem Configurado
Veja um arquivo típico e funcional. Ele libera o conteúdo público e bloqueia áreas técnicas. E informa o sitemap ao final.
User-agent: *
Disallow: /admin/
Disallow: /carrinho/
Disallow: /busca/
Allow: /
Sitemap: https://seusite.com/sitemap.xmlO asterisco aplica as regras a todos os robôs. As pastas de administração, carrinho e busca ficam bloqueadas. O resto do site permanece liberado.
A linha do sitemap é uma boa prática. Ela conecta os dois arquivos no mesmo lugar. O robô bloqueia o irrelevante e já recebe o mapa do que importa.
O Uso do Asterisco e do Cifrão
O asterisco funciona como curinga dentro dos caminhos. Disallow: /*.pdf$ bloqueia todos os arquivos PDF. Ele representa qualquer sequência de caracteres.
O cifrão marca o fim de uma URL. Ele garante que a regra atinja só aquele final exato. Usados juntos, dão precisão ao bloqueio.
O cuidado é não exagerar nos curingas. Um padrão amplo demais pode bloquear o que não devia. Sempre teste o efeito antes de publicar.
A Diferença Crítica Entre Bloquear e Desindexar
Aqui está o erro que derruba muitos sites. Bloquear no robots.txt não remove a página da busca. Rastreamento e indexação são coisas diferentes.
O robots.txt impede o robô de ler a página. Mas a URL ainda pode aparecer nos resultados. Especialmente se outros sites linkam para ela.
O resultado é o pior dos mundos. A página aparece na busca, mas sem descrição. O Google sabe que ela existe, mas não pôde ler o conteúdo.
Por Que Bloquear Não É Esconder
Quando o Google encontra um link para uma página bloqueada, ele registra a URL. Ele não lê o conteúdo, mas indexa o endereço. A página vira um resultado vazio na busca.
Esse fenômeno gera o aviso de "indexada apesar de bloqueada". É um sinal de configuração equivocada. A intenção era esconder, mas o efeito foi o oposto.
Para de fato remover uma página da busca, o caminho é outro. É preciso permitir o rastreamento e usar a tag noindex. O robô precisa ler a página para obedecer à instrução de não indexar.
Quando Usar Cada Abordagem
Use o robots.txt para economizar rastreamento em áreas sem valor de busca. Pastas técnicas e parâmetros de URL são bons exemplos. O objetivo ali é eficiência, não privacidade.
Use a tag noindex quando quer que a página realmente não apareça. Páginas de obrigado, filtros e conteúdo duplicado. A página é rastreada, mas fica fora do índice.
| Objetivo | Ferramenta certa | Por quê |
|---|---|---|
| Economizar rastreamento | Disallow no robots.txt | Impede o robô de gastar tempo ali |
| Remover da busca | Tag noindex na página | Robô lê e exclui do índice |
| Conteúdo sensível | Autenticação ou senha | Robots.txt não garante privacidade |
O Conflito Entre Disallow e Noindex
Existe uma armadilha sutil entre as duas técnicas. Se você bloqueia a página no robots.txt, o robô não a lê. Sem ler, ele nunca enxerga a tag noindex.
O noindex só funciona se a página puder ser rastreada. Bloquear e pedir noindex ao mesmo tempo se anula. A página fica bloqueada, mas pode continuar indexada vazia.
Um caso real ilustra o erro. Um site tentou remover páginas de filtro usando Disallow e noindex juntos. As páginas continuaram aparecendo sem descrição, até que o Disallow foi removido e só o noindex permaneceu.
A Estrutura do Sitemap.xml
O sitemap é um arquivo XML com uma estrutura padronizada. Cada página vira uma entrada com sua URL. O formato segue um protocolo reconhecido por todos os buscadores.
A estrutura é simples, mas precisa ser respeitada. Um erro de sintaxe pode invalidar o arquivo inteiro. Por isso a geração automática costuma ser mais segura.
O Formato Básico de uma Entrada
Cada URL fica dentro de uma tag url. O endereço vai na tag loc, que é obrigatória. Outras tags trazem informações complementares.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://seusite.com/</loc>
<lastmod>2026-05-20</lastmod>
</url>
<url>
<loc>https://seusite.com/blog/artigo</loc>
<lastmod>2026-05-28</lastmod>
</url>
</urlset>A tag loc é a única realmente obrigatória. A lastmod informa a data da última modificação. Ela ajuda o Google a priorizar o que mudou.
| Tag | O que indica | Obrigatória? |
|---|---|---|
loc |
O endereço da página | Sim |
lastmod |
Data da última alteração | Não, mas recomendada |
changefreq |
Frequência de mudança | Não, pouco usada |
priority |
Importância relativa | Não, quase ignorada |
O Que o Google Realmente Considera
Nem toda tag tem o mesmo peso hoje. O Google deu a entender que priority e changefreq são amplamente ignoradas. Não vale a pena gastar energia com elas.
A tag lastmod, ao contrário, é levada a sério. Mas só se for honesta e precisa. Datas falsas ou sempre atualizadas perdem a credibilidade.
O foco deve estar na qualidade das URLs listadas. Um sitemap limpo vale mais que tags decorativas. Liste o que importa e mantenha a precisão.
O Que Incluir e o Que Excluir do Sitemap
O sitemap deve listar só as páginas que você quer na busca. Incluir lixo confunde o Google e dilui o sinal. A seleção criteriosa é o que dá força ao arquivo.
A regra de ouro é a coerência. Toda URL no sitemap deve ser indexável. Listar uma página com noindex envia sinais contraditórios.
O Que Deve Entrar
Inclua as páginas de conteúdo importante. Artigos, páginas de serviço, produtos e categorias relevantes. Tudo o que você quer que apareça na busca.
Inclua apenas a versão canônica de cada página. Se há duplicatas, liste só a principal. Isso evita competição interna por ranqueamento.
Use sempre URLs absolutas e com status 200. Páginas que carregam normalmente, sem redirecionamento. O sitemap deve apontar para destinos finais.
O Que Deve Ficar de Fora
Deixe de fora as páginas com noindex. Listar e desindexar ao mesmo tempo é contraditório. Escolha um dos dois caminhos, não os dois.
Exclua redirecionamentos, erros e páginas bloqueadas. URLs com status 301, 404 ou bloqueadas no robots.txt não deveriam estar ali. Elas sujam o sitemap.
Evite páginas sem valor de busca. Resultados de filtro, carrinho e áreas técnicas. Elas não precisam ser indexadas nem listadas.
| Tipo de página | Incluir no sitemap? |
|---|---|
| Artigos e páginas de serviço | Sim |
| Versão canônica de cada URL | Sim |
| Páginas com noindex | Não |
| Redirecionamentos e erros | Não |
| Filtros, carrinho e busca interna | Não |
Como Lidar com Sitemaps Grandes
Um único sitemap tem limites técnicos. Ele aceita até 50 mil URLs ou 50 MB. Sites grandes precisam de uma estratégia de divisão.
A solução é dividir em vários sitemaps menores. Um por tipo de conteúdo costuma funcionar bem. Um para blog, outro para produtos, outro para categorias.
Esses arquivos se reúnem em um sitemap index. Ele é um sitemap que aponta para outros sitemaps. O Google lê o índice e segue para cada parte.
A Vantagem de Dividir por Seção
Dividir facilita o diagnóstico de problemas. Você vê qual seção tem erros de indexação. Um único arquivo gigante esconde esses sinais.
A organização também ajuda na priorização. Você acompanha cada tipo de conteúdo separadamente. Isso dá clareza sobre o que está e o que não está indexado.
Como Enviar os Arquivos ao Google
Criar os arquivos é metade do trabalho. Avisar o Google sobre eles é a outra metade. O Google Search Console é a ferramenta para isso.
O sitemap é enviado na seção própria do Search Console. Você informa a URL do arquivo e o Google passa a monitorá-lo. Ali também aparecem os erros de processamento.
O robots.txt tem um relatório dedicado no Search Console. Ele mostra a versão lida pelo Google e aponta problemas. Conferir esse relatório evita bloqueios acidentais.
Como Validar Antes de Confiar
O Search Console testa o robots.txt em tempo real. Você verifica se uma URL específica está bloqueada ou liberada. Esse teste evita surpresas após a publicação.
Para o sitemap, o relatório mostra quantas URLs foram descobertas e indexadas. A diferença entre enviadas e indexadas revela problemas. Acompanhar esse número é parte da manutenção.
Um caso real mostra o valor da validação. Um site percebeu, pelo Search Console, que metade das URLs do sitemap não era indexada. A investigação revelou um noindex acidental no template, corrigido em seguida.
Os Erros Catastróficos Mais Comuns
Alguns erros de robots.txt derrubam um site inteiro da busca. Eles costumam passar despercebidos por semanas. Conhecê-los é a melhor prevenção.
O mais grave nasce de uma única linha errada. Um bloqueio amplo demais fecha o site para o Google. O tráfego despenca sem aviso óbvio.
O Bloqueio Acidental do Site Inteiro
O erro mais temido é o Disallow: / aplicado a todos. Essa linha bloqueia o site inteiro para os robôs. Nada é rastreado, e a indexação murcha com o tempo.
User-agent: *
Disallow: /Essa configuração é comum em ambientes de teste. O problema é quando ela vai parar na produção por engano. O site sai do ar para o Google sem que ninguém perceba.
A causa frequente é a migração de um site novo. O robots.txt de desenvolvimento é copiado sem ajuste. A primeira verificação após qualquer publicação deve ser essa linha.
Bloquear CSS e JavaScript
Outro erro é bloquear os arquivos de estilo e script. O Google precisa deles para renderizar a página. Sem eles, ele vê uma versão quebrada do site.
Isso prejudica a avaliação de mobile e de experiência. O Google pode interpretar a página como mal estruturada. A correção é liberar o acesso a CSS e JavaScript.
| Erro | Impacto | Correção |
|---|---|---|
| Disallow: / em produção | Site inteiro fora da busca | Remover o bloqueio geral |
| Bloquear CSS e JS | Renderização quebrada | Liberar arquivos de recurso |
| Disallow junto com noindex | Página indexada vazia | Usar só o noindex |
| Sitemap com URLs erradas | Sinais contraditórios | Listar só páginas indexáveis |
| Confundir bloquear com esconder | Falsa sensação de privacidade | Usar autenticação |
O Sitemap Desatualizado
Um sitemap esquecido vira fonte de erros. Ele aponta para páginas que já não existem. O Google perde tempo com URLs mortas.
A solução é manter o sitemap sincronizado com o site. A geração automática resolve isso na maioria dos casos. URLs removidas saem, novas entram.
Checklist de Auditoria Completa
Antes e depois de qualquer mudança, vale auditar os dois arquivos. Uma checklist rápida pega os erros mais perigosos. Conferir leva minutos e evita desastres.
| Item | O que verificar |
|---|---|
| Bloqueio geral | Não existe Disallow: / indevido |
| Recursos liberados | CSS e JavaScript estão acessíveis |
| Coerência com noindex | Páginas com noindex não estão bloqueadas |
| Sitemap declarado | O robots.txt aponta o sitemap |
| URLs do sitemap | Todas indexáveis e com status 200 |
| Validação no Search Console | Sem erros de processamento |
Faça a verificação do bloqueio geral logo após cada publicação. É o erro mais grave e o mais fácil de evitar. Um minuto de conferência protege meses de tráfego.
Perguntas frequentes
Onde fica o robots.txt?
Ele fica sempre na raiz do site, em seusite.com/robots.txt. Esse é o único local que os buscadores consultam. Em qualquer outro caminho ele é ignorado.
Bloquear no robots.txt remove a página da busca?
Não, o robots.txt controla o rastreamento, não a indexação. A página pode continuar aparecendo, mas sem descrição. Para removê-la, use a tag noindex.
Posso usar Disallow e noindex juntos?
Não, isso se anula. Se a página está bloqueada, o robô não lê e nunca vê o noindex. Para desindexar, permita o rastreamento e use só o noindex.
O sitemap garante que a página seja indexada?
Não, o sitemap é um sinal, não uma ordem. Ele aumenta a chance de descoberta, mas não força a indexação. A decisão final é sempre do Google.
Preciso de sitemap se meu site é pequeno?
Não é obrigatório, mas é recomendado. Mesmo sites pequenos se beneficiam da descoberta mais rápida. O custo de ter um é praticamente zero.
Quantas URLs cabem em um sitemap?
Até 50 mil URLs ou 50 MB por arquivo. Sites maiores devem dividir em vários sitemaps. Um sitemap index reúne todos eles.
Devo me preocupar com priority e changefreq?
Não, o Google praticamente ignora essas tags. Concentre o esforço na qualidade das URLs e no lastmod honesto. O resto é decorativo.
Como sei se cometi um erro de bloqueio?
O Google Search Console mostra erros de robots.txt e de indexação. O teste de URL revela se uma página está bloqueada. Conferir após cada mudança evita surpresas.
Posicionamento Final: Controle Preciso É Vantagem Competitiva
O robots.txt e o sitemap são ferramentas de controle, não de configuração esquecida. Quem entende a diferença entre rastrear e indexar evita os erros que derrubam sites. Esse domínio técnico é uma vantagem real.
Os dois arquivos trabalham em direções opostas e complementares. Um afasta o robô do irrelevante, o outro o conduz ao que importa. Juntos, eles guiam o Google com precisão.
Quem domina robots.txt, sitemap e a tag noindex controla exatamente o que aparece na busca. O próximo passo é auditar os dois arquivos do seu site agora. A vantagem fica com quem trata esses arquivos como ferramentas estratégicas, e não como detalhes técnicos esquecidos.
