Intel·ligència artificial - Com es mesura el rendiment: precisió, precisió, recordació, F1, ROC, RMSE, F-Test i R-Squared

Actualment, veiem que s’estan creant molts algoritmes d’IA, però, com podem mesurar el rendiment d’aquests models? Quins són els termes que hem de mirar per detectar-ho?

Aquestes són les preguntes que voldria abordar en aquest article. A partir de “Models de classificació” on es miraran mètriques com ara Precisió, Precisió, Recall, Puntuació F1 i la corba ROC cap a “models de regressió” on abordarem els mètodes Errors quadrats, F-Test i R-Squared.

Rendiment en models de classificació

Sovint, quan estem llegint articles a Internet, veiem que apareix una taula que sembla:

Nota: Nombres extrets de les diapositives Web2Text.

Però, què signifiquen realment? Analitzem bé els diferents termes, a partir de la introducció de la “Matriu de confusió”.

Matriu de confusió

Un concepte clau que cal conèixer abans de poder explicar les mètriques de rendiment és la matriu de confusió.

Definició: Una matriu de confusió és una taula que s'utilitza sovint per descriure el rendiment d'un model de classificació (o "classificador") en un conjunt de dades de prova del qual es coneixen els veritables valors.

Una matriu de confusió serà així:

L'anterior pot semblar "confús", però és realment senzill. La línia superior dicta el "Valor real (= veritat)" mentre que el costat esquerre mostra la "predicció".

Podríem mirar-ho en el sentit que, sempre que preveiem correctament, veurem “True”, mentre que, mentre predicem erròniament, veurem “False” correlacionat amb el valor real positiu o negatiu.

Assetgeu-ho amb els termes que heu completat:

  • Veritable positiu: predicció = veritable, veritat = veritable
  • Fals positiu: predicció = veritable, veritat = fals
  • Fals negatiu: predicció = fals, veritat = veritat
  • Veritable negatiu: predicció = fals, veritat = fals

Mirem un exemple per fer-ho més clar.

Exemple: "Volem mostrar la matriu de confusió per a un classificador que es classifica si un model de reconeixement d'objectes ha detectat un objecte com un cotxe o no". A continuació, podríem veure la matriu de confusió següent per a 1.000 casos de prova:

Mostrant que vam identificar correctament un cotxe en 330 casos, vam detectar un cotxe erròniament dues vegades, vam predir correctament que no era un cotxe 661 vegades i vam predir erròniament que no era un cotxe 7 vegades.

O dit d’una altra manera: hem equivocat 9 vegades i hem corregit 991 vegades (també coneguda com a precisió, però més sobre això més endavant).

Precisió

En resum: La precisió és el funcionament del model

Fórmula: (TP + TN) / (TP + TN + FP + FN) o #CORRECT_PREDICTIONS / #TOTAL

Precisió

En resum: quantes vegades som correctes en la nostra predicció positiva?

Fórmula: (TP) / (TP + FP) o #CORRECT_POSITIVE_PREDICTIONS / #POSITIVE_SAMPLES

Amb Precision volem assegurar-nos que podem dir amb precisió quan ha de ser positiu. Per exemple, en el nostre exemple anterior, volem assegurar-nos que quan diem que és un cotxe, que realment és un cotxe i no algun altre objecte. Això és important, ja que sovint realitzarem accions basades en les nostres deteccions (per exemple, en un cotxe que condueixi per un mateix podríem canviar la velocitat en funció d'aquesta).

Recordem

En resum: quantes vegades hem classificat erròniament alguna cosa com a no certa (= falsa)?

Fórmula: (TP) / (TP + FN) o #CORRECT_POSITIVE_PREDICTIONS / #TRUE_TRUTH_VALUES

Recall destaca el cost de predir alguna cosa malament. Per exemple, en el nostre exemple de cotxe, quan l’identifiquem erròniament com a no és un cotxe, podríem acabar en xocar amb el cotxe.

Puntuació F1

En resum: Utilitzeu la precisió i el record per crear la precisió d'una prova mitjançant la "mitjana harmònica". Es centra en la diagonal de la part inferior esquerra a la dreta a la part superior de la matriu de confusions.

Fórmula: 2 * ((Precisió * Recall) / (Precisió + Recall))

Si fem una ullada a les definicions de Precision and Recall, podem veure que tots dos se centren en casos d’impacte elevat (per exemple, no volem xocar amb cotxes quan hem detectat erròniament que no és un cotxe (= FN) i no volem dir-ho que és un cotxe si no ho és (= FP)). Això és el que fa la puntuació de la F1, que es centrarà en el que més afecta el nostre negoci en comparació amb la puntuació de precisió.

En altres termes, podem dir, doncs, que la puntuació F1 es centra en la diagonal de l’esquerra a la part inferior a la dreta.

Corba ROC

En resum: Aquesta corba ens permet seleccionar el model òptim i descartar-ne els òptims.

Fórmula: False Positive Rate (FPR) = Eix X i Rate Positive True (TPR) = Eix Y

  • FPR: TP / (TP + FN)
  • TPR: FP / (FP + TN)

La curva ROC (= Característica de funcionament del receptor) mostra el rendiment, mentre que la mètrica de rendiment “AUC (= Àrea Sota la Corba)” ens permet descriure això com un valor per mesurar el rendiment dels models de classificació.

Cada vegada que classifiquem un punt, ens permetem que es torni a indicar si coincideix o classifica o no (per exemple, és un cotxe o no). Però, per poder tornar cert o fals, ara hem d’introduir un llindar que converteixi aquesta probabilitat en una classificació.

A partir del llindar seleccionat, podrem construir una matriu de confusió.

Ara discretitzarem el rang del nostre valor llindar (per exemple, fem el nostre rang de [0, 1] a [0,0, 0,1, 0,2, ..., 0,9, 1,0]) per al qual ara podem crear les matrius de confusió respectives. Amb aquestes matrius de confusió, ara calcularem la velocitat positiva veritable (= TPR) mitjançant la fórmula TPR = TP / (FP + TN) i la taxa de positiu fals (= FPR) mitjançant FPR = TP / (TP + FN) i traçarem aquestes .

Això acabarà resultant en una cosa així:

Nota: ens esforcem per tenir un model que tingui un valor AUC alt o una corba ROC que es mostri tant a la part superior esquerra com sigui possible.

Actuació en models de regressió

Per calcular el rendiment dels models de regressió, utilitzem fórmules matemàtiques que compararan el gràfic dibuixat amb els punts que estem predicant.

Un bon model de regressió hauria de centrar-se a minimitzar la diferència entre l'observació i el valor previst, alhora que és imparcial. (Impartit significa que intentem trobar un equilibri entre la sobreestimació i la subestimació)

Error quadrat mitjà arrel (RMSE)

Aquesta és simplement l’arrel de l’error de Square Square:

El que es tradueix en agafar la distància entre el punt real i el punt previst, quadrar-ho i després dividir per la quantitat de punts que tenim per a la mitjana.

Gràficament això sembla:

Prova F

En resum: El test F s’utilitza per comparar models estadístics que s’ajustaven a un conjunt de dades, ens permet identificar el model que s’adapta millor a la població.

Fórmula:

Variació explicada:

Variació no explicada:

On:

  • K = Nombre de grups
  • N = Mida total de la mostra
  • YijYij = j-th observació en el i-th fora dels grups K
  • Ymean = Mitjana general de les dades

Quadrat R

En resum: R-Squared descriu el bé que s’adapta un model per a un model de regressió lineal. Com més gran sigui R, millor s’ajusta.

Fórmula:

La imatge de sota mostra:

  • SStot: vermell
  • SSres: blau

El quadrat R (o també anomenat "Coeficient de Determinació") mostrarà la proximitat de les dades de la línia de regressió ajustada. O dit d’una altra manera, Indica el percentatge de la variància de la variable dependent que les variables independents expliquen col·lectivament.

Aquesta és una mètrica interessant, ja que ens permet comprendre millor si el nostre model s’està equiparant o no.