SOSstat 3 - Statistique descriptive

SOSstat

Statistique descriptive

A l’issue d’une expérience, d’une série d’essais ou d’une prélèvement, on dispose généralement d’un ensemble de données brutes qu’il est souhaitable de traiter pour en avoir une représentation synthétique. L’objet de la statistique descriptive est en effet de fournir des outils pour en faire un résumé de cet ensemble de données. On peut découper les outils en deux familles : les résumés graphiques et les résumés numérique.

Différentes fonction de SOSstat permettent de faire de la statistique descriptive sous forme de résumé numérique ou graphique.

Histogramme et Boxplot avec SOSstat

Statistique descriptive avec SOSstat

Résumés graphiques

Les outil graphiques sont très nombreux, mais certains sont incontournables comme :

  • L’histogramme qui donne une approximation de la distribution des données
  • Le Boxplot qui propose le découpage de l’échantillon en 4 partie comportant le même nombre d’individus (quartiles). Cette représentation, très synthétique, permet de représenter plusieurs échantillon les uns par rapport aux autres.
Méthode des noyaux

Estimation de densité par la méthode des noyaux

Résumé numérique

Le résumé numérique consiste à calculer des paramètres représentatifs des caractères spécifiques de la population. On identifie essentiellement trois familles de paramètres : les paramètres de centrage, de dispersion et de forme.

SOSstat peut très simplement calculer les paramètres d’un très grand nombre d’échantillons.

Calcul de paramètre sur des échantillons

Résumé numérique avec SOSstat

Paramètres de Centrage ou de Position

Les paramètres de centrage les plus couramment utilisés sont :

La moyenne arithmétique :
Elle représente le barycentre de l’échantillon (elle exprime la grandeur qu’aurait chacun des membres de l’ensemble s’ils étaient tous identiques sans changer la dimension globale de l’ensemble) \bar{x}=\frac{1}{n} \cdot \sum_{i=0}^n x_{i}
La médiane :
Valeur qui permet de partager une série numérique ordonnée en deux parties de même nombre d’éléments.

Paramètres de Dispersion ou d’Échelle

Les paramètres de dispersion les plus utilisés sont :

Étendue :
distance entre la valeur min et la valeur max d’un échantillon R= \max (x_{1} \ldots x_{n}) - min (x_{1} \ldots  x_{n})
Variance :
Mesure de la concentration des données autour de la moyenne. \sigma^2= \frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^2
Écart-type :
Racine de la variance \sigma = \sqrt{ \frac{ \sum_{i=1}^{n} (x_i-\bar{x})^2}{n-1} }

Paramètres de forme

Les paramètres de formes sont habituellement appelés Skewness pour la symétrie et Kurtosis pour la l’aplatissement, mais sous cette dénomination peuvent se cacher différentes formes de calcul.

Bibliographie

DROESBEKE, J. Éléments de Statistique , Éditions Ellipses, 2015, ISBN-13: 978-2340009080 GoogleBooks

SAPORTA, G. Probabilités, analyse des données et statistique , Technip, 2011- 622 pages, ISBN-13: 978-2710809807 GoogleBooks