Références

L'actualité

Librairie

L'information

Régression linéaire

En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.

Exemple de régression linéaire

Nous savons depuis longtemps que les grillons stridulent plus fréquemment quand il fait chaud que quand il fait froid. Les entomologistes amateurs et professionnels collectent depuis des décennies des données sur le nombre de stridulations par minute et la température. Pour votre anniversaire, votre tante Jeanne vous offre la base de données sur les grillons qu'elle chérit tant, et vous invite à entraîner un modèle qui prédit cette relation pour vous.

La première étape consiste à examiner les données en les traçant sur un graphique :


Figure 1 : Température en degrés Celsius en fonction du nombre de stridulations par minute

Bien évidemment, le graphique montre que la température augmente en même temps que le nombre de stridulations. Cette relation entre les stridulations et la température est-elle linéaire ? Oui. Vous pouvez tracer une droite comme celle-ci pour réaliser une approximation de cette relation :

Figure 2 : Une relation linéaire

Certes, la droite ne passe pas exactement par chaque point, mais elle montre clairement la relation entre les stridulations et la température pour nos données. Avec un peu d'algèbre, vous pouvez décrire cette relation ainsi :
où :

  • y : est la température en degrés Celsius, c'est-à-dire la valeur que nous essayons de prévoir;
  • a : est la pente de la droite;
  • x : est le nombre de stridulations par minute, c'est-à-dire la valeur de notre caractéristique d'entrée;
  • b : est l'ordonnée à l'origine.
Par convention dans le Machine Learning, pour un modèle, l'équation a une forme légérement différente:
où :

  • y' : est l'étiquette prédite (la sortie désirée) ;
  • b : est le biais (l'ordonnée à l'origine).
  • w1 : est la pondération de la caractéristique 1.
    La pondération est un concept identique à celui de "pente" représenté ci-dessus par la lettre "a";
  • x1 : est une caractéristique (une entrée connue).
Pour déduire (prédire) la température y' pour une nouvelle valeur du nombre de stridulations par minute x1, il suffit d'introduire la nouvelle valeur x1 dans le modèle.

Les indices (par exemple w1 et x1) préfigurent des modèles plus sophistiqués reposant sur plusieurs caractéristiques. Par exemple, l'équation suivante décrit un modèle qui repose sur trois caractéristiques :