Você vai entender por que medir lift importa e como montar holdouts que isolam o efeito real da sua campanha. Vai aprender a fazer randomização correta, quando usar amostragem estratificada, como calcular o tamanho do holdout sem prejudicar a performance e como balancear covariáveis. Também verá passos práticos no Google Ads e um roteiro para um script em Python que cria alocações reproduzíveis. Por fim, saberá como validar resultados, evitar viés e separar correlação de causalidade.

Medir lift com grupos de controle mostra se sua campanha realmente mudou o comportamento do público — e não só coincidiu com ele. Sem controle, você pode atribuir vendas, conversões ou tráfego a um anúncio que, na verdade, teria acontecido de qualquer jeito. Isso custa tempo e dinheiro; medir lift te dá a prova concreta do impacto incremental.
Quando você usa um grupo de holdout, fica mais fácil comparar duas realidades paralelas: quem viu sua campanha versus quem não viu. Essa comparação reduz o ruído de eventos externos — promoções sazonais, mudanças no mercado ou influenciadores — e permite avaliar causalidade em vez de mera correlação. Com esses números você decide se vale a pena escalar a campanha e qual é o retorno incremental por real investido.
Comece definindo a população-alvo e a unidade de randomização (usuário, cookie, ID de cliente). Depois, divida esses usuários aleatoriamente entre exposto e holdout. O grupo holdout não deve receber o tratamento da campanha durante o período de teste. No Google Ads isso pode ser feito usando listas de públicos, exclusões por lista ou a ferramenta de Experimentos do Google — veja um passo a passo sobre como configurar Experimentos de anúncios no Google Ads ou explorar alternativas de lances por meio de Experimentos de lances quando for relevante. Veja também o Guia oficial de Experimentos no Google Ads.
Garanta que os grupos sejam grandes o suficiente para detectar o efeito desejado. Meça o mesmo KPI em ambos os grupos no mesmo intervalo — por exemplo, conversões por usuário em 30 dias — e evite alterações na segmentação ou criativos durante o teste; isso contamina o resultado.
Checklist prático:
Tabela resumida:
| Grupo | Recebe anúncio? | Métrica chave | Objetivo |
|---|---|---|---|
| Exposto | Sim | Conversões por usuário | Medir efeito do anúncio |
| Holdout | Não | Conversões por usuário | Linha de base para comparação |
Dica rápida: mantenha o holdout totalmente isolado — sem retargeting, sem e-mails direcionados — para não diluir o sinal. Se sua medição depende de conversões bem rastreadas, vale revisar como está o rastreamento com o Google Tag Manager ou considerar importação de eventos externos via importação de conversões offline.
Medir lift dá confiança para decidir onde cortar ou aumentar verba. Em vez de chutar, você tem números que mostram quantas conversões foram realmente geradas pela campanha. Isso ajuda a priorizar canais e criativos que entregam retorno incremental, não apenas volume, e a comunicar resultados claros para stakeholders. Para atribuição e otimização de budget, integre os resultados ao seu modelo de atribuição — um bom ponto de partida é o guia de atribuição baseada em dados.
Benefícios: incrementalidade clara, melhor alocação de orçamento, argumentos fortes para stakeholders, redução de desperdício.
Corrigir viés começa na randomização: só a aleatoriedade garante que diferenças observadas venham do anúncio e não de características pré-existentes do público. Cuidado com contaminação (quando quem é holdout acaba vendo o anúncio por outro canal) e com mudanças no período do teste. Correlação aponta associações; causalidade exige experimento bem feito — por isso o controle é tão importante. Para técnicas de comparação e validação de resultados, relembre métodos clássicos de A/B testing aplicáveis fora do Ads: métodos de A/B testing e multivariáveis. Considere também orientações sobre métodos experimentais: Métodos experimentais para avaliar intervenções.

Se você busca saber “Como criar grupos de controle e holdout para medir lift de campanhas no Google Ads”, saiba que randomização é a chave para evitar viés. Cada usuário deve ter a mesma chance de entrar em controle ou tratamento. Em escala, isso envolve decisões sobre IDs, janelas de tempo e thresholds. Para referências teóricas, consulte os Fundamentos de randomização e aleatoriedade.
Foque em três pontos: aleatoriedade, tamanho do holdout e balanceamento das características principais (idade, região, histórico). Escolha um método de randomização que possa ser reproduzido e auditar, e faça log de quem entrou em qual grupo.
Dica: antes de rodar o experimento, verifique os logs. Um erro de hash ou timezone pode desequilibrar tudo.
Métodos comuns:
Passos de implementação:
Comparativo rápido:
| Método | Vantagem principal | Quando evitar |
|---|---|---|
| Hash de ID | Consistente entre sessões | IDs faltantes ou rotativos |
| RNG por sessão | Flexível para testes curtos | Não reprodutível entre visitas |
| Cookie | Mantém usuário no grupo | Limpeza de cookies quebra atrib. |
Para organizar testes criativos e garantir que mudanças nos anúncios não confundam os resultados do holdout, consulte boas práticas para montar playbooks de teste: playbooks de teste de criativos e otimização de ativos em campanhas como Performance Max (otimização de ativos em Performance Max).
Use amostragem estratificada quando certas variáveis afetam a métrica e estão desiguais na população (região, faixa etária, histórico de compras). Estratificar evita que um grupo fique sobrecarregado por um segmento e é especialmente útil em amostras pequenas.
Variáveis comuns para estratificar: região, dispositivo, recência de compra, faixa etária. Para exemplos de técnicas aplicáveis ao ambiente digital, veja também testes multivariáveis para landing pages.
Rode um teste prévio: compare médias e proporções das principais variáveis entre grupos usando p-valores básicos. Verifique taxa de cliques, dispositivos e regiões. No lançamento, monitore logs em tempo real nas primeiras horas para detectar bugs.

Você precisa de um holdout grande o suficiente para detectar o MDE (efeito mínimo detectável) sem sacrificar muita audiência. Se o efeito esperado é pequeno, será necessária mais amostra. Use taxa de conversão atual, MDE, nível de significância (ex.: 5%) e poder estatístico (ex.: 80%).
A fórmula básica para proporções:
n = (Zα/2^2 p (1-p)) / d^2, onde p é a taxa base e d é o MDE em proporção. Para incluir poder, combine Zα/2 com Zβ. Use 1.96 para alfa=5% e 0.84 para poder=80% como referência.
Ferramentas úteis: calculadoras online de sample size, scripts em R/Python (pwr, statsmodels) e planilhas — consulte guias práticos como Cálculo prático de tamanho amostral e poder.
Exemplos aproximados de amostras por grupo:
| Taxa base | MDE (absoluto) | Poder | Alfa | Amostra por grupo (aprox.) |
|---|---|---|---|---|
| 1% | 0.2% (20% relativo) | 80% | 5% | 60.000 |
| 5% | 0.5% (10% relativo) | 80% | 5% | 25.000 |
| 10% | 1% (10% relativo) | 80% | 5% | 10.000 |
| 20% | 2% (10% relativo) | 80% | 5% | 5.000 |
Dica: esses números são aproximações para dar noção de escala. Ajuste conforme seu negócio. Para monitoramento do experimento e métricas em produção, siga as recomendações de melhores práticas de monitoramento e crie relatórios consistentes usando guias de relatório (como criar relatórios eficazes).
Ao decidir a proporção (5%, 10%, 20%), equilibre precisão estatística e impacto comercial. Holdouts maiores aumentam precisão; holdouts grandes demais reduzem receita e aprendizagem do algoritmo.
Recomendações práticas:
Fatores a considerar:
Se estiver em dúvida, comece com um holdout pequeno e aumente só quando precisar de mais poder.
Balanceamento de covariáveis evita que diferenças iniciais expliquem o efeito. Escolha 3–6 covariáveis chave (idade, dispositivo, histórico de compra, região) antes da campanha. Use estratificação quando segmentos forem desiguais e pareamento (matching) quando tiver dados ricos por usuário.
Passos práticos:
Para montar segmentos confiáveis no ecossistema Google, considere usar sinais de público gerados no Analytics e públicos do GA4: sinais de público do GA4 e práticas de listas de público (públicos de GA4 no Google Ads).
Estratificação: divide o público por variáveis relevantes e aloca uma proporção fixa para holdout em cada estrato.
Pareamento: junta pares de usuários similares; um ao controle, outro ao tratamento — útil com muitos dados por usuário.
Estratificação no Google Ads exige listas e sinais que você controla (first-party data). Crie listas por estrato fora do Ads (BigQuery, etc.) e envie segmentos alinhados para o Google Ads. Isso preserva a lógica do experimento mesmo com limites da plataforma.
Exemplo de alocação:
| Covariável | Exemplo de níveis | % alocado ao holdout |
|---|---|---|
| Valor do cliente | Baixo / Médio / Alto | 10% cada |
| Dispositivo | Mobile / Desktop | 10% por estrato |
| Região | Norte / Sul / Centro | Ajuste conforme representatividade |
Verifique covariáveis antes e depois da alocação usando diferença média padronizada; se SMD > 0,1, reequilibre. Documente tudo.
Dica rápida: se algo parece fora de linha, corte a amostra pequena ou ajuste percentuais por estrato — é melhor um experimento menor e limpo do que um grande e viciado.

Você pode configurar holdouts no Google Ads ou implementar alocação aleatória fora da plataforma e medir por código. Ambas exigem aleatorização consistente, tamanhos claros e registro de atribuição.
Escolha de acordo com necessidade: rapidez e integração (Google Ads) vs. controle total (código). Para campanhas Performance Max que exigem controle de ativos criativos, veja práticas de teste de ativos e estruturação por categorias: Performance Max para varejo com grupos de ativos e otimização de ativos em Performance Max (otimização de ativos em Performance Max).
Tabela de referência por tipo de campanha:
| Tipo de campanha | Tamanho típico do holdout | Observação |
|---|---|---|
| Branding / Topo de funil | 10–30% | Precisa de amostra maior para detectar percepção |
| Performance / Conversão | 5–15% | Balanceia poder estatístico e receita perdida |
| Testes rápidos / Promoção | 1–5% | Use quando risco de perda de receita é alto |
Dica: dê tempo ao experimento — alguns dias não bastam. Monitore vazamentos entre grupos e sobreposição de públicos; ferramentas de observação e públicos podem ajudar (observação de públicos, observação de públicos — parte 2).
Regra simples em código: escolha uma função de hash (ex.: SHA-256), aplique no ID do usuário e transforme o hash em número entre 0 e 1. Se o número for menor que a proporção do holdout, coloque o usuário no holdout. Garanta idempotência e registre alocações.
Implemente:
Registre cada alocação com: user_id, grupo (exposto/holdout), timestamp, versão do script e parâmetros do experimento. Versione o script no Git e mantenha changelog para alterações que afetem aleatorização. Consolide esses dados em relatórios padronizados para análise posterior (como criar relatórios eficazes).

Para provar que um resultado é real:
Práticas rápidas:
| Método | Objetivo | Vantagem | Limitação |
|---|---|---|---|
| Holdout | Medir impacto real (causal) | Resultado direto e explicável | Requer amostras maiores |
| Cross-validation | Validar desempenho do modelo | Usa todos os dados para teste/treino | Não mede efeito causal direto |
Dica: se a pergunta é “a campanha causou mais vendas?”, use holdout. Se a pergunta é “esse modelo prevê bem?”, use cross-validation.
Para análise estatística e apresentação de resultados, inclua relatórios claros com intervalos e métricas bem documentadas — veja práticas para criar relatórios que facilitem decisões (relatórios eficazes) e métodos de monitoração para evitar surpresas (monitoramento de KPIs).
Calcule lift como diferença percentual entre tratamento e controle e apresente intervalos de confiança além de p-valores. Se o lift varia por segmento (região, canal), documente e explique isso.
Fórmula: Lift = (Taxatratamento − Taxacontrole) / Taxa_controle
Projete o experimento antes de ligar a campanha:
Medir lift não é luxo — é salvavidas para decisões de mídia. Separar um holdout limpo e aplicar randomização reproduzível é essencial: sem isso, você está apostando no escuro. Mantenha o tamanho do holdout alinhado ao seu MDE e ao custo de oportunidade. Use amostragem estratificada ou pareamento quando covariáveis ameaçarem desequilibrar a comparação.
Implemente com cuidado: pelo Google Ads ou por código (hash determinístico logs), registre tudo — IDs, versão do script, timestamps. Teste a randomização antes de lançar. Monitore durante o experimento e não mexa nas regras no meio do caminho. Na análise, apresente lift incremental, intervalos de confiança e impacto em reais. Documente hipótese, métrica primária e critérios de exclusão para transformar achismo em evidência.
Se quiser se aprofundar e ver exemplos práticos, consulte materiais sobre testes criativos, Experimentos de anúncios e otimização de ativos no site da Clinks, inclusive guias sobre otimização de ativos em Performance Max e configuração de Experimentos de anúncios.
Para mais leituras e exemplos práticos sobre configuração de testes e alocação de público, navegue pelo blog da Clinks.
Anuncia no Google de forma autônoma (60) Anuncia via agência Google Partner (53) Anuncia via agência não Google Partner (44) Análise e Monitoramento (115) Anúncios (115) Audio Marketing (4) Branding (9) Campanhas e Campanhas Avançadas (24) Conversões (88) Custos (49) Datas Comerciais (26) Design (29) Dicas (178) Ecommerce (7) Eventos (39) Extensões de anúncios (35) Ferramentas (33) Gerenciamento (58) Glossário (1) Google Ads (3029) Google Analytics (27) Google Shopping (98) Guias Passo a Passo (29) Inbound Marketing (34) Inteligência Artificial (50) Links Patrocinados (3100) Mobile (88) Métricas (1) Notícias (48) Nunca anunciou no Google (57) Otimização (82) Palavra-chave (87) Políticas Google Ads (89) Políticas Google Shopping (23) Políticas YouTube (14) Rede de Display (86) Relatórios (38) Remarketing (48) Requisitos de Anúncios (13) Retrospectiva (16) Segmentação (40) Segmentos do Mercado (76) SEO (33) Social Ads (41) Social Media (7) Street View Trusted (70) Tráfego Pago (3100) Vídeo Marketing (66) YouTube (82)