stats
This commit is contained in:
@@ -72,6 +72,7 @@
|
|||||||
- [Statistiques]()
|
- [Statistiques]()
|
||||||
- [Introduction](./bac3/Stats/Introduction.md)
|
- [Introduction](./bac3/Stats/Introduction.md)
|
||||||
- [Statistique déscriptive](./bac3/Stats/StatDesc.md)
|
- [Statistique déscriptive](./bac3/Stats/StatDesc.md)
|
||||||
|
- [Estimation Ponctuelle](./bac3/Stats/EstimPonct.md)
|
||||||
|
|
||||||
- [Cryptographie](./bac3/Crypto/Introduction.md)
|
- [Cryptographie](./bac3/Crypto/Introduction.md)
|
||||||
- [Unix](./bac3/Crypto/Unix.md)
|
- [Unix](./bac3/Crypto/Unix.md)
|
||||||
|
|||||||
11
src/bac3/Stats/EstimPonct.md
Normal file
11
src/bac3/Stats/EstimPonct.md
Normal file
@@ -0,0 +1,11 @@
|
|||||||
|
# Estimation Ponctuelle
|
||||||
|
|
||||||
|
## Estimation
|
||||||
|
|
||||||
|
\\[
|
||||||
|
X^{(n)} = (X_1,...,X_n) \quad X_i iid \sim P_{\theta} \text{ où } \theta \in \Theta \subset \mathbb{R}^k
|
||||||
|
\\]
|
||||||
|
|
||||||
|
- un **Estimateur de \\( \theta \\)** est une *statistique* à valeurs dans \\( \Theta \\)
|
||||||
|
- Le but est de trouver le meilleur estimateur possible de \\( \theta \\) (inconnu)
|
||||||
|
- un **Estimateur de \\( g(\theta) \\)** est une *statistique* à valeurs dans \\( g(\Theta) \\)
|
||||||
@@ -1,4 +1,4 @@
|
|||||||
# Introduction
|
# Introduction ( ne pas étudier )
|
||||||
|
|
||||||
On parle de phénomènes aléatoires car nous ne contrôlons pas tout les paramètres de ces évènements.
|
On parle de phénomènes aléatoires car nous ne contrôlons pas tout les paramètres de ces évènements.
|
||||||
|
|
||||||
@@ -30,6 +30,80 @@ Fournit des modèles théoriques pour l'analyse aléatoire.
|
|||||||
|
|
||||||
Les statistiques utilisent régulièrement les probas.
|
Les statistiques utilisent régulièrement les probas.
|
||||||
|
|
||||||
|
## Statistique descriptive
|
||||||
|
|
||||||
|
### Dimensions 1
|
||||||
|
|
||||||
|
\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé.
|
||||||
|
|
||||||
|
Pour résumer l'information obtenue nous allons fournir.
|
||||||
|
|
||||||
|
- **Indicateur de position**
|
||||||
|
- <u>Moyenne empirique</u>: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\)
|
||||||
|
- <u>Médiane</u>: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\)
|
||||||
|
- <u>Valeur extrèmes</u>: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\)
|
||||||
|
|
||||||
|
- **Indicateur de dispersion**
|
||||||
|
- <u>Variance empirique</u>: \\( s^2 = \frac{1}{n} \sum^n_i(x_i-\overline{x})^2 \\)
|
||||||
|
- <u>Ecart-type</u>: \\( s = \sqrt{s^2}\\)
|
||||||
|
|
||||||
|
Nous préférons la moyenne empirique et la variance empirique
|
||||||
|
|
||||||
|
#### [Paradoxe de simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson)
|
||||||
|
|
||||||
|
Une tendance observée dans 2 groupes de données peut s'inverser si les données sont combinées
|
||||||
|
|
||||||
|
Il faut donc faire attention aux manipulations de données
|
||||||
|
|
||||||
|
### Dimension 2
|
||||||
|
|
||||||
|
\\( n \\) couples d'observations \\( \\{(x_i, y_i) \\} \\)
|
||||||
|
|
||||||
|
- **Indicateur de position**
|
||||||
|
- séparement les \\( x_i \\) et les \\( y_i \\)
|
||||||
|
- \\( (\overline{x}, \overline{y}) \\)
|
||||||
|
- **Indicateur de dispersion**
|
||||||
|
- \\( s_{x}^2 = \frac{1}{n}\sum^n_i(x_i-\overline{x})^2 \\)
|
||||||
|
- \\( s_{y}^2 = \frac{1}{n}\sum^n_i(y_i-\overline{y})^2 \\)
|
||||||
|
- **Indicateur de covariance**
|
||||||
|
- \\( s_{xy} = \frac{1}{n}\sum^n_i(x_i-\overline{x})(y_i-\overline{y}) \\)
|
||||||
|
- Orientation des données
|
||||||
|
- Trouver la droite de régression: \\( d \equiv y = ax+b \\) qui minimise les erreurs
|
||||||
|
- \\( E(a,b) = \sum^n_i\varepsilon_i^2 = \sum^n_i(y_i-(ax_i+b))^2 \\) la somme des erreurs au carré
|
||||||
|
- Trouver les dérivées partielles
|
||||||
|
\\[
|
||||||
|
\frac{\partial E}{\partial a} = -2 \sum^n_i(y_i-ax_i-b)x_i \quad \text{et} \quad \frac{\partial E}{\partial b} = -2 \sum^n_i(y_i-ax_i-b) \\\\
|
||||||
|
\begin{array}{l}
|
||||||
|
\Leftrightarrow
|
||||||
|
\left\\{
|
||||||
|
\begin{array}{l}
|
||||||
|
\frac{\partial E}{\partial a} = 0 \\\\
|
||||||
|
\frac{\partial E}{\partial a} = 0
|
||||||
|
\end{array}
|
||||||
|
\right.
|
||||||
|
\Leftrightarrow
|
||||||
|
\left\\{
|
||||||
|
\begin{array}{l}
|
||||||
|
a\frac{1}{n}\sum_i^nx^2_i = \frac{1}{n}\sum_i^nx_iy_i-b\frac{1}{n}\sum_i^nx_i \\\\
|
||||||
|
nb = \frac{1}{n}\sum_i^ny_i- a\frac{1}{n}\sum_i^nx_i \\\\
|
||||||
|
\end{array}
|
||||||
|
\right.
|
||||||
|
\Leftrightarrow
|
||||||
|
\left\\{
|
||||||
|
\begin{array}{l}
|
||||||
|
a(s^2_x + \overline{x}^2) = (s_{xy} + \overline{x}\overline{y} - b\overline{x})\\\\
|
||||||
|
b = \overline{y} - a\overline{x}
|
||||||
|
\end{array}
|
||||||
|
\right. \\\\
|
||||||
|
\Leftrightarrow as^2_x = s_{xy} \Rightarrow
|
||||||
|
\left\\{
|
||||||
|
\begin{array}{l}
|
||||||
|
a = \frac{s_{xy}}{s^2}\\\\
|
||||||
|
b = \overline{y} - \frac{s_{xy}}{s_x^2}\overline{x}
|
||||||
|
\end{array}
|
||||||
|
\right.
|
||||||
|
\end{array}
|
||||||
|
\\]
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
@@ -1,18 +1,17 @@
|
|||||||
# Statistique descriptive
|
# Statistique déscriptive
|
||||||
|
|
||||||
## De dimensions 1
|
Nous possédons un ensemble de variable aléatoires \\( \\{ X_1, ..., X_n\\} \\) notre échentillon
|
||||||
|
d'observation X^{(n)} = (X_1, ..., X_n) suit une loi de probabilitée \\( P \\) (inconnue pour
|
||||||
|
l'instant)
|
||||||
|
|
||||||
\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé.
|
## Modélisation
|
||||||
|
|
||||||
Pour résumer l'information obtenue nous allons fournir.
|
modèle paramétrique: \\( X_1, ..., X_n \sim P_{\theta} \quad \theta \in \Theta \subset \mathbb{R}^k \\)
|
||||||
|
|
||||||
### Indicateur de position
|
|
||||||
|
|
||||||
- <u>Moyenne empirique</u>: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\)
|
|
||||||
- <u>Médiane</u>: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\)
|
|
||||||
- <u>Valeur extrèmes</u>: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\)
|
|
||||||
|
|
||||||
### Indicateur de dispersion
|
|
||||||
|
|
||||||
|
Une **Statistique** est une fonction \\( T(X^{(n)}) \\) qui ne dépend que des observations
|
||||||
|
- \\( T(X^{(n)}) = X_1 + ... + X_n \\) est une statistique
|
||||||
|
- \\( T(X^{(n)}) = e^{-\lambda(X_1 + ... + X_n)} \\) **n'est pas** une statistique
|
||||||
|
|
||||||
|
L'objectif est de trouver \\( \theta \\) sur base des observations, c'est à dire sur base d'une
|
||||||
|
statistique
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user