Système statistique pour la conception de modèles prédictifs

lab-logo

Les statisticiens ont changé le monde: non pas en découvrant de nouvelles techniques, mais en changeant la façon dont nous raisonnons, expérimentons et forgeons nos opinions. –Ian Hacking

Les modèles prédictifs constituent la base du machine learning. De ces modèles théoriques ont émergées de nouvelles approches expérimentales afin de correspondre au mieux à ces modèles avec des jeux de données très différents. Dans ce billet, nous vous présentons les systèmes statistiques utilisés à Digigladd pour constituer nos modèles prédictifs.

 

Photo par Chris Liverani @ Unsplash

Nous définissons un modèle sous certaines hypothèses et certains critères.

  • Nous possédons un vecteur de données d’entrées X composé de p paramètres inconnus.
  • Nous possédons une variable Y représentant la sortie de notre modèle sachant X.
  • Il existe une fonction f permettant d’inférer Y sachant X.
  • Afin de trouver le prédicteur optimal f selon un critère précis, nous définissons une fonction de coût Lf selon ce critère.
  • Plus notre prédiction est proche de la réalité, plus Lf sera minimisée.

Comme la qualité du prédicteur est mesurée par la fonction de coût Lf, le meilleur prédicteur f n’est optimal que pour le critère choisi pour définir Lf. Différentes fonctions de coût amènent différentes solutions optimales.

Il n’est généralement pas possible de trouver un prédicteur qui soit optimal selon tous points de vue. A critère fixé, nous étudierons l’espérance de notre fonction de coût afin de déterminer le prédicteur optimal.

Notons la loi de probabilité et E l’espérance.

 

Selon le théorème de Bayes,

 

Puis, en séparant l’intégrale à deux variables :

 

Il est maintenant possible de trouver f en minimisant le taux d’erreur E(Lf) point par point.
Soit c ∈ ℝᵖ, et L_Id la fonction de coût appliqué à la fonction identité de ℝᵖ. 

 

En minimisant l’espérance ci-dessus analytiquement ou numériquement, nous pouvons trouver le meilleur prédicteur f associé.

Une étude de cas nous aidera à clarifier la manière de trouver f sur une fonction de coût précise.

Etude de cas: Erreur quadratique moyenne (MSE)

La fonction de coût la plus répandue en Machine Learning ou Deep Learning est certainement l’erreur quadratique moyenne:

 

Selon la section précédente,

D’où:

 

La solution au critère de minimisation est f(x) = E(Y|X=x), car :

Nous venons de démontrer que quand la fonction de coût est l’erreur quadratique, le meilleur prédicteur Y en tout point X=x est la moyenne conditionnelle:

 

Ce prédicteur est souvent est souvent désigné sous le terme de régression linéaire. Nous pourrions ensuite déterminer β en injectant f(x) dans l’intégrale à deux variable, puis en déterminant les racines du vecteur dérivé de l’intégrale selon β.

Un autre choix possible pour notre fonction de coût est la valeur absolue de l’erreur:

 

Nous pouvons prouver dans ce cas que le prédicteur optimal est la médiane conditionnelle:

 

La médiane conditionnelle est un différent choix de prédicteur, dont les estimations sont généralement plus robuste que l’erreur quadratique. Malheureusement, sa fonction dérivée est discontinue, ce qui handicape plusieurs algorithmes de minimisation.

Lorsque nous voulons prédire une variable Y qui prend des valeurs discrètres c₁, c₂, …, cₖ pouvant être assimilées à différents choix, on parle de classification.

Notre fonction de coût peut alors être représentée sous la forme d’une matrice K×K, avec K le nombre de classes. Lf(ci, cj) est le coût pour une mauvaise classification de ci à la place de cj.

 

 

Nous pouvons à nouveau calculer l’espérance de notre fonction de coût:

 

Il est à nouveau possible de minimiser point par point cette fonction pour déterminer une expression de f:


Un cas très répendu de fonction de coût est la « 0-1 loss ». Si la prédiction est juste, le coût est de 0, sinon le coût est de 1.

En notant δ la fonction de Kronecker, l’espérance du coût est la suivante:

 

Le choix optimal pour f qui minimise 1−ℙ(f(X)|X) pour tout x est alors:

 

Ce prédicteur est connu sous le nom de classifieur de Bayes. Comme les probabilités ℙ(c|X)   sont généralement inconnues en pratique, ce prédicteur est plus un concept théorique. En revanche, en appliquant le théorème de Bayes en supposant l’indépendance mutuelle de tous les paramètres:

Ceci est le classifieur de Bayes naïf, qui peut lui être implémenté en pratique.

Tous les prédicteurs que nous avons étudiés dans les sections précédentes présentent des inconvénients importants. Si les données d’entrée X possèdent une structure sous-jacente, une simple régression ne peut pas réduire à la fois le biais et la variance des estimations. En outre, une régression peut entraîner des erreurs de plus en plus importantes proportionnellement au nombre de paramètres d’entrée.

Notre objectif sur ce point consiste à trouver une approximation ˆf (x) de la fonction f (x) qui conserve la relation potentiellement structurée entre les entrées et les sorties, et qui fonctionne  dans des dimensions élevées.

Ce problème peut être résolu par deux approches différentes.

L’approche adoptée en mathématiques appliquées et en statistiques utilise l’approximation et  l’estimation des fonctions.

Les entrées et les sorties sont considérés comme des points dans un espace euclidien, et l’estimateur de prédiction cartographie les paires (X, Y) dans un hyperplan de cet espace. L’estimateur s’exprime désormais comme suit:

 

Ces estimateurs seront choisis en imposant de lourdes restriction sur la classe des modèles appliqués. 

De cette approche mathématique sont nées différentes méthodes de résolution. Les plus connues sont : la roughness penalty, les méthodes des kernels et les basis functions.

Cette approche tente d’apprendre f à l’aide d’un superviseur qui tend à minimiser la fonction de coût. L’objectif du superviseur est de produire des sorties ˆf(xi) en réponse aux différentes entrées. À la fin du processus d’apprentissage, nous voulons que les sorties prédites et réeles soient suffisamment proches pour que le superviseur puisse s’adapter aux nouvelles entrées qu’il rencontrera en pratique.

Le Machine Learning tel que nous le connaissons aujourd’hui est issu de cette approche-ci.