Prova A / B: Com calcular la mida de la mostra abans de llançar la prova

Suposem que ja heu estat realitzant una prova A / B des de fa una setmana i cada dia us pregunten els vostres agents interessats a la vostra empresa: "Quant temps tenim previst realitzar la prova? Tenim alguna transcendència encara? ”. Aquesta no és una situació insòlita. De fet, tots els gestors de productes tenen problemes amb aquest problema. Excepte que moltes vegades no tenim ni idea de quant de temps haurem d’executar la prova, així que mirem els resultats amb l’esperança que assoleixin importància. El problema es compagina si esteu fent una prova, però no espereu elevació. Això pot ser degut a motius estètics o a ingressos alts. Quant de temps heu d'executar-lo? Trucat no?

Ideal, mai hauríem de començar una prova sense saber quantes mostres recollirem. Per què? En cas contrari, estudiaràs les dades i acabaràs fent "Data Peeking", que està aturant la prova tan bon punt tinguis importància. Aquí teniu un exemple: suposeu que teniu una moneda i la vostra hipòtesi és que és justa. Com ho demostres? Senzill: tira-ho 100 vegades. Però què passa si ho heu llençat 10 vegades i heu vist cues deu vegades. Sembla estadísticament significatiu aturar la prova en aquest moment i rebutjar la hipòtesi nul·la: que la moneda sigui justa. Que ha anat malament? Vau aturar la prova una mica massa aviat. No teníeu ni idea de començar el temps que hauríeu d’haver realitzat la prova. L’altre problema en què podeu trobar-vos si no heu calculat la mida de la mostra és que no podreu dir amb seguretat amb quina durada realitzeu la prova.

Llavors, com ens hi acostem?

Seguiu la primera regla de la gestió del producte: abraceu l’ambigüitat però eviteu la incertesa.

Així és com podem aproximar-nos al càlcul de la mida de la mostra: Suposem que estem executant un test A / B que: La taxa de conversió actual per a un esdeveniment com ara el% d’usuaris que s’inscriuen per correu electrònic és del 10% i esperem un augment del 10% en conversió si el tractament guanya. Aleshores,

Conversió de base: P1 = 20%

Augment en conversió: 10% (és el que heu estimat com a impacte esperat del vostre canvi). Com a part de l’equip de creixement, normalment tenim l’objectiu d’un augment del 20%, però fins i tot d’un 10% pot ser gran segons la maduració del vostre producte. Com més gran sigui la pujada, més aviat assolireu significació.

Conversió esperada del grup de tractament: P2 = 20% * (1 + 10%) = 22%

Nivell de significació: Aquesta és la possibilitat d’un fals positiu, és a dir, al nivell d’un 5% d’importància, quina és la possibilitat que rebutgem la hipòtesi nul·la quan fos en realitat (cosa que mai no sabríeu) que fos certa. Per descomptat, volem minimitzar aquest error, per la qual cosa triem el 5%. Si teniu menys trànsit, potser voldreu augmentar-lo fins al 10% o fins i tot al 20%.

Fals positiu: error de tipus I: rebutja la hipòtesi nul·la quan és certa

Potència estadística: Aquesta és la probabilitat que obtinguis un fals negatiu. Phew! Potència (= 1 - Error de tipus II) és la probabilitat d’evitar un error de tipus II o en altres paraules Potència és la probabilitat que el test detecti una desviació de la hipòtesi nul·la, en cas que existís una desviació d’aquest tipus. Normalment la situem al 80%.

False negatiu: error de tipus II: no rebutjar la hipòtesi nul·la quan és falsa

Ara tenim tot el que realment podem avançar i calcular la mida de la mostra necessària. Podem utilitzar una calculadora en línia, una eina elèctrica G o R. En funció de quina eina que utilitzeu, podeu veure nombres lleugerament diferents, però està bé.

Anem a veure cadascun d’ells un per un:

a) Calculadora en línia com aquesta aquí

b) Utilitzeu l'eina elèctrica G *: descarregueu l'eina des d'aquí. Vés a les proves Z de la família de proves, proves estadístiques com a "proporcions: diferència entre dues proporcions independents" i afegeix P1, P2, Alpha (significació estadística), Potència = 0,8.

Sortida prevista:

c) R: La funció que farem servir és power.prop.test (pàgina home).

power.prop.test (n = NULL, p1 = NULL, p2 = NULL, sig.level = 0,05, power = NULL, alternativa = c ("two.sided", "one.sided"), strict = FALSE)

Vés a qualsevol compilador de R en línia com aquest i escriviu l'ordre següent amb n establert en NULL.

power.prop.test (n = NULL, p1 = 0.2, p2 = 0.22, potència = 0.8, alternativa = "two.sided", sig.level = 0.05)

Aquesta és la sortida que obtindreu en R

Comparació de dues mostres de càlcul de potències de proporcions 
             n = 6509.467 p1 = 0.2 p2 = 0.22 sig.livell = 0.05 potència = 0.8 alternativa = dos.
NOTA: n és número en * cada * grup

Això vol dir que necessitaríem unes 6510 mostres en cada grup. El que significa que necessitaríem 13020 trànsit.

Ara suposem que sabeu històricament que el trànsit del vostre lloc web és de 2000 visitants i, aleshores, sabeu que heu d'executar la vostra hipòtesi de prova durant 6,51 dies o 7 dies.

Punt de bonificació: Sempre és una bona idea cobrir tots els dies de la setmana, ja que la majoria de les empreses tenen una "setmana" segons el seu patró de demanda.

Ara la propera vegada que estigueu a punt de realitzar la prova A / B, calculeu prèviament la mida de la mostra necessària per poder establir les expectatives adequades amb els vostres grups d'interès empresarials.

Per si trobeu la mida de la mostra molt més gran que no creieu que tindreu importància donat el trànsit que té el vostre lloc web, no us preocupeu, en una altra publicació compartiré alguns trucs fantàstics sobre com executar A / B prova quan no tens prou trànsit. Fins llavors, proves A / B feliços.