SOSstat 3 - Statistique descriptive¶

Statistique descriptive¶

A l’issue d’une expérience, d’une série d’essais ou d’un prélèvement, on dispose généralement d’un ensemble de données brutes qu’il est souhaitable de traiter pour en avoir une représentation synthétique. L’objet de la statistique descriptive est en effet de fournir des outils pour faire un résumé de cet ensemble de données. On peut découper cette analyse en deux étapes complémentaires : le résumé graphique et le résumé numérique.

SOSstat propose de nombreuses fonctions de statistique descriptive dans ses modules d’analyse.

Statistique descriptive avec SOSstat

Résumés graphiques¶

Les outils graphiques sont très nombreux, mais certains sont incontournables comme :

L’histogramme qui donne une approximation de la distribution des données
Le Boxplot qui propose le découpage de l’échantillon en 4 parties comportant le même nombre d’individus (quartiles). Cette représentation, très synthétique, permet de représenter plusieurs échantillons les uns par rapport aux autres.

Estimation de densité par la méthode des noyaux

Résumé numérique¶

Le résumé numérique consiste à calculer des paramètres représentatifs des caractères spécifiques de la population. On identifie essentiellement trois familles de paramètres : les paramètres de centrage, de dispersion et de forme.

SOSstat peut très simplement calculer les paramètres d’un très grand nombre d’échantillons.

Calcul de paramètre sur des échantillons

Résumé numérique avec SOSstat

Paramètres de Centrage ou de Position¶

Les paramètres de centrage les plus couramment utilisés sont :

La moyenne arithmétique :: Elle représente le barycentre de l’échantillon (elle exprime la grandeur qu’auraient chacun des membres de l’ensemble s’ils étaient tous identiques sans changer la dimension globale de l’ensemble) \(\bar{x}=\frac{1}{n} \cdot \sum_{i=0}^n x_{i}\)
La médiane :: Valeur qui permet de partager une série numérique ordonnée en deux parties de même nombre d’éléments. Pour un échantillon impair, la médiane est définie par la relation \(\tilde{x}= x_{ \left( \frac{n+1}{2} \right)}\) et pour un échantillon pair par \(\tilde{x}= \frac{ x_{\left( \frac{n}{2} \right) } + x_{\left( \frac{n}{2} +1 \right) }}{2}\)

Paramètres de Dispersion ou d’Échelle¶

Les paramètres de dispersion les plus utilisés sont :

Étendue :: distance entre la valeur min et la valeur max d’un échantillon \(R= \max (x_{1} \ldots x_{n}) - min (x_{1} \ldots x_{n})\)
Variance :: Mesure de la concentration des données autour de la moyenne. \(\sigma^2= \frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^2\)
Écart-type :: Racine de la variance \(\sigma = \sqrt{ \frac{ \sum_{i=1}^{n} (x_i-\bar{x})^2}{n-1} }\)

Paramètres de forme¶

Les paramètres de forme sont habituellement appelés Skewness pour la symétrie et Kurtosis pour l’aplatissement, mais sous cette dénomination peuvent se cacher différentes formes de calcul.

Bibliographie¶

DROESBEKE, J. Éléments de Statistique , Éditions Ellipses, 2015, ISBN-13: 978-2340009080 GoogleBooks

SAPORTA, G. Probabilités, analyse des données et statistique , Technip, 2011- 622 pages, ISBN-13: 978-2710809807 GoogleBooks