Comment exécuter une régression multivariée dans Excel

Avant d'apprendre comment effectuer une régression multivariée dans Excel , il est important d'avoir un rappel sur la régression dans son ensemble et la régression multivariée en particulier.

L'une des caractéristiques de l'intelligence humaine est notre capacité à reconnaître les modèles qui nous entourent. C'est ce qui nous fait reconnaître quand deux ou plusieurs choses semblent liées et lorsqu'une chose est probablement la cause ou l'effet d'une autre.

Régression multivariée dans Excel

Supposons, par exemple, que vous décidiez de collecter des données sur les températures moyennes et les précipitations moyennes dans un endroit particulier pendant une année entière, en collectant des données chaque jour. Vous tracez ensuite les données de température et de précipitations moyennes sur un morceau de papier millimétré. Vous pouvez tracer les chiffres de température moyenne sur l'axe des x et les chiffres de précipitations moyennes sur l'axe des y. Chaque point de ce nuage de points aura des coordonnées: une coordonnée x et une coordonnée y. Ces coordonnées le localiseront à un endroit spécial sur le graphique.

Au fur et à mesure que vous tracez les points, vous pouvez commencer à voir un motif émerger. Il peut sembler que - avec l'augmentation des températures moyennes - la pluviométrie moyenne à l'endroit où vous collectez des données augmente. Les deux données que vous avez collectées sont techniquement appelées variables . Dans ce cas, la température moyenne est la variable indépendante tandis que la pluviométrie moyenne est la variable dépendante.

Lorsque vous constatez que les deux variables sont liées, nous disons qu'elles sont corrélées. La corrélation peut prendre plusieurs formes. Si une variable augmente tandis que l'autre diminue, il s'agit d'une corrélation négative . Si une variable augmente en tandem avec l'autre, alors c'est une corrélation positive . S'il ne semble pas y avoir de tendance claire dans les variables, alors nous disons qu'il n'y a pas de corrélation.

Données et corrélations

Une corrélation positive parfaite reçoit une valeur de +1, tandis qu'une corrélation négative parfaite reçoit une valeur de -1. 0, qui est au milieu de ces deux valeurs, ne représente aucune corrélation. Les données peuvent donc prendre une valeur de corrélation n'importe où dans cette plage. La valeur exacte de cette corrélation est connue sous le nom de coefficient de corrélation, qui est calculé à l'aide d'une formule statistique spéciale qui existe dans votre liste de fonctions Excel.

Notez que les statisticiens aiment faire la distinction entre corrélation et causalité. Ce n'est pas parce que deux choses sont corrélées qu'elles ont une relation causale. Dans notre exemple ci-dessus, le fait qu'une augmentation de la température moyenne corresponde à une augmentation de la pluviométrie moyenne ne signifie pas que l'une provoque l'autre. Il se peut qu'un troisième facteur caché cause les deux.

Dans ce cas, il est bien connu des météorologues qu'une augmentation de l'humidité entraîne une augmentation à la fois de la température perçue et des précipitations. C'est pourquoi il est important de comprendre la distinction. Le mappage des corrélations vous montre où les modèles existent; dire qu'il vous montre ce qui fait que ce serait dépasser son mandat.

Vous pourriez ne pas vous sentir heureux d'avoir un nuage de points. Il serait peut-être plus facile de comprendre le fait d'avoir une ligne à travers les données qui montre à quoi ressemble la relation. Ce que vous recherchez, c'est la ligne de régression ou la ligne qui correspond le mieux aux données que vous avez devant vous. Cela implique l'utilisation d'une formule de régression qui utilise le coefficient de corrélation pour trouver la meilleure ligne de régression.

Variables simples et multiples

Le plaisir ne s'arrête pas là. Les formules ci-dessus concernent une seule variable indépendante et une seule variable dépendante. Cependant, comme nous l'avons vu ci-dessus, il peut parfois y avoir plus d'une variable indépendante dans l'équation.

Par exemple, nous avons souligné que le simple fait de représenter la température moyenne par rapport aux précipitations moyennes ne donne pas une image complète. L'humidité moyenne est encore une autre variable indépendante qui influence à la fois la température moyenne et les précipitations moyennes. Ne serait-il pas excellent s'il y avait un moyen de tracer la pluviométrie moyenne comme variable dépendante par rapport aux deux variables indépendantes que sont les précipitations moyennes et l'humidité moyenne?

En fait, c'est exactement ce qu'est la régression multivariée. Il vous permet de relier une seule variable dépendante à plusieurs variables indépendantes sur lesquelles vous avez mesuré et collecté des données.

Analyse de régression multivariée

La régression multivariée est une forme d'analyse de données très puissante et s'avère plus précise lorsqu'elle est appliquée au monde réel. Dans le monde des affaires, en particulier, les situations sont rarement influencées par un seul facteur. Habituellement, de nombreux facteurs travaillent de concert pour créer des résultats. Lorsque vous collectez des données sur certains ensembles de conditions, ce type d'analyse de données vous permettra de prédire les données dans des conditions associées.

Grâce à la puissance de la régression multivariée, vous serez mieux à même de comprendre votre marché et les clients qui y existent.

Analyse de régression dans Excel

Avant de vous précipiter pour acheter le logiciel statistique le plus avancé du marché, vous serez heureux d'apprendre que vous pouvez effectuer une analyse de régression dans Excel.

Lancez Excel

Pour commencer votre analyse multivariée dans Excel , lancez Microsoft Excel. Cliquez sur l'onglet intitulé "Fichier" , puis cliquez sur le bouton "Options". Une boîte de dialogue s'ouvre.

Cliquez sur les options

Sur le côté gauche de la boîte de dialogue se trouve une liste d'options. Cliquez sur les options intitulées " Compléments". Vous pourrez voir les compléments d'application. Dans la liste des compléments inactifs, vous devriez voir un élément intitulé « Analysis ToolPak. " Cliquez dessus, puis cliquez sur le menu déroulant " Compléments Excel ". Cliquez sur le bouton intitulé «Go» en bas et une autre boîte de dialogue intitulée «Add-Ins» apparaîtra.

Cochez la case

Devant l'option intitulée «Analysis ToolPak » se trouve une case à cocher. Cliquez dessus, puis cliquez sur le bouton sur le côté droit de la boîte de dialogue intitulée «OK». Cela activera l'option que vous venez de cocher.

Exécution de la régression

Il est maintenant temps d'effectuer la régression. Vos colonnes auront besoin d'en-têtes, que vous pouvez entrer dans la ligne 1. Les données vont sous l'en-tête. Ayez une colonne spécifiquement pour votre variable dépendante. Il doit s'agir de la première ou de la dernière colonne. Les variables indépendantes peuvent remplir les autres colonnes et doivent être dans un ordre consécutif.

Onglet Données

Sur le ruban, cliquez sur l'onglet intitulé "Données". Dans le groupe intitulé «Analyse», cliquez sur l'élément intitulé «Analyse des données». Une boîte de dialogue sera lancée.

Régression

Dans les outils d'analyse de la boîte de dialogue, recherchez Régression et cliquez dessus, puis cliquez sur «OK».

Variable dépendante

Tapez maintenant l'emplacement de la plage de cellules contenant votre variable dépendante dans le champ intitulé «Plage Y d'entrée».

Variable indépendante

Tapez maintenant l'emplacement de la plage de cellules contenant votre variable indépendante dans le champ intitulé «Input X Range».

Cochez la case

Pour vous assurer qu'Excel sait que la première ligne ne contient que des étiquettes_, cliquez_ sur la case à cocher intitulée «Étiquettes».

Cliquez sur Plage de sortie

Dans la section intitulée Options de sortie , il y a un bouton radio intitulé «Plage de sortie». Cliquez dessus et entrez une plage pour vos données dans le premier afin de déterminer où la sortie de l'analyse de régression apparaîtra. Si vous souhaitez que vos résultats apparaissent dans une feuille de calcul distincte, cliquez sur le bouton radio intitulé «Feuille de calcul Ply». Si vous les voulez dans un nouveau fichier, cliquez sur le bouton radio intitulé "Nouveau classeur".

Résidus

Il y a une section de la boîte de dialogue de régression intitulée "Résiduels". Ce sont des résumés des résultats de votre analyse qui considèrent les résultats au cas par cas. Ils comparent la prédiction au résultat réel. Les résidus normalisés prendront l'écart type de vos résidus et le corrigeront à 1.

Cliquez sur la case à cocher de l'option intitulée «Tracer», et vos résultats seront représentés graphiquement. Si vous choisissez «Tracé des résidus», seuls les résidus seront représentés graphiquement. Si vous choisissez «Line Fit Plot » , la prédiction sera comparée aux résultats réels. Cliquez sur «OK» et votre régression commencera le traitement. Vous pouvez afficher les résultats ultérieurement à l'emplacement que vous aviez précédemment spécifié.