stats

2025-12-18 17:11:30 +01:00
parent 8005e2eeec
commit 9f9bfe0aad
4 changed files with 98 additions and 13 deletions
--- a/src/SUMMARY.md
+++ b/src/SUMMARY.md
@@ -72,6 +72,7 @@
 - [Statistiques]()
    - [Introduction](./bac3/Stats/Introduction.md)
    - [Statistique déscriptive](./bac3/Stats/StatDesc.md)
+    - [Estimation Ponctuelle](./bac3/Stats/EstimPonct.md) 

 - [Cryptographie](./bac3/Crypto/Introduction.md) 
    - [Unix](./bac3/Crypto/Unix.md)
--- a/src/bac3/Stats/EstimPonct.md
+++ b/src/bac3/Stats/EstimPonct.md
@@ -0,0 +1,11 @@
+# Estimation Ponctuelle
+
+## Estimation
+
+\\[
+    X^{(n)} = (X_1,...,X_n) \quad X_i iid \sim P_{\theta} \text{ où }  \theta \in \Theta \subset \mathbb{R}^k
+\\]
+
+- un **Estimateur de \\( \theta \\)** est une *statistique* à valeurs dans \\( \Theta \\) 
+    - Le but est de trouver le meilleur estimateur possible de \\( \theta \\) (inconnu) 
+- un **Estimateur de \\( g(\theta) \\)** est une *statistique* à valeurs dans \\( g(\Theta) \\) 
--- a/src/bac3/Stats/Introduction.md
+++ b/src/bac3/Stats/Introduction.md
@@ -1,4 +1,4 @@
-# Introduction
+# Introduction ( ne pas étudier )

 On parle de phénomènes aléatoires car nous ne contrôlons pas tout les paramètres de ces évènements.

@@ -30,6 +30,80 @@ Fournit des modèles théoriques pour l'analyse aléatoire.

 Les statistiques utilisent régulièrement les probas.

+## Statistique descriptive
+
+### Dimensions 1
+
+\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé.
+
+Pour résumer l'information obtenue nous allons fournir.
+
+- **Indicateur de position**
+    - <u>Moyenne empirique</u>: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\) 
+    - <u>Médiane</u>: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\) 
+    - <u>Valeur extrèmes</u>: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\)
+
+- **Indicateur de dispersion**
+    - <u>Variance empirique</u>: \\( s^2 = \frac{1}{n} \sum^n_i(x_i-\overline{x})^2 \\) 
+    - <u>Ecart-type</u>: \\( s = \sqrt{s^2}\\) 
+
+Nous préférons la moyenne empirique et la variance empirique
+
+#### [Paradoxe de simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson)
+
+Une tendance observée dans 2 groupes de données peut s'inverser si les données sont combinées
+
+Il faut donc faire attention aux manipulations de données
+
+### Dimension 2
+
+\\( n \\) couples d'observations \\( \\{(x_i, y_i) \\} \\) 
+
+- **Indicateur de position**
+    - séparement les \\( x_i \\)  et les \\( y_i \\)
+        - \\( (\overline{x}, \overline{y}) \\) 
+- **Indicateur de dispersion**
+    - \\( s_{x}^2 = \frac{1}{n}\sum^n_i(x_i-\overline{x})^2 \\) 
+    - \\( s_{y}^2 = \frac{1}{n}\sum^n_i(y_i-\overline{y})^2 \\) 
+- **Indicateur de covariance**
+    - \\( s_{xy} = \frac{1}{n}\sum^n_i(x_i-\overline{x})(y_i-\overline{y}) \\) 
+        - Orientation des données
+    - Trouver la droite de régression: \\( d \equiv y = ax+b \\) qui minimise les erreurs
+        - \\( E(a,b) = \sum^n_i\varepsilon_i^2 = \sum^n_i(y_i-(ax_i+b))^2 \\) la somme des erreurs au carré
+        - Trouver les dérivées partielles
+\\[
+    \frac{\partial E}{\partial a} = -2 \sum^n_i(y_i-ax_i-b)x_i \quad \text{et} \quad \frac{\partial E}{\partial b} = -2 \sum^n_i(y_i-ax_i-b) \\\\
+    \begin{array}{l}
+        \Leftrightarrow
+        \left\\{ 
+            \begin{array}{l}
+                \frac{\partial E}{\partial a} = 0 \\\\
+                \frac{\partial E}{\partial a} = 0
+            \end{array}
+        \right. 
+        \Leftrightarrow
+        \left\\{ 
+            \begin{array}{l}
+                a\frac{1}{n}\sum_i^nx^2_i = \frac{1}{n}\sum_i^nx_iy_i-b\frac{1}{n}\sum_i^nx_i \\\\
+                nb = \frac{1}{n}\sum_i^ny_i- a\frac{1}{n}\sum_i^nx_i \\\\
+            \end{array}
+        \right. 
+        \Leftrightarrow
+        \left\\{ 
+            \begin{array}{l}
+                a(s^2_x + \overline{x}^2) = (s_{xy} + \overline{x}\overline{y} - b\overline{x})\\\\
+                b = \overline{y} - a\overline{x}
+            \end{array}
+        \right. \\\\
+    \Leftrightarrow as^2_x = s_{xy} \Rightarrow 
+    \left\\{
+        \begin{array}{l}
+        a = \frac{s_{xy}}{s^2}\\\\
+        b = \overline{y} - \frac{s_{xy}}{s_x^2}\overline{x}
+        \end{array}
+    \right.
+    \end{array}
+\\]



--- a/src/bac3/Stats/StatDesc.md
+++ b/src/bac3/Stats/StatDesc.md
@@ -1,18 +1,17 @@
-# Statistique descriptive
+# Statistique déscriptive

-## De dimensions 1
+Nous possédons un ensemble de variable aléatoires \\( \\{ X_1, ..., X_n\\} \\) notre échentillon
+d'observation X^{(n)} = (X_1, ..., X_n) suit une loi de probabilitée \\( P \\) (inconnue pour
+l'instant)

-\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé.
+## Modélisation

-Pour résumer l'information obtenue nous allons fournir.
-
-### Indicateur de position
-
- <u>Moyenne empirique</u>: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\) 
- <u>Médiane</u>: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\) 
- <u>Valeur extrèmes</u>: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\)
-
-### Indicateur de dispersion
+modèle paramétrique: \\( X_1, ..., X_n \sim P_{\theta} \quad \theta \in \Theta \subset \mathbb{R}^k \\) 

+Une **Statistique** est une fonction \\( T(X^{(n)}) \\) qui ne dépend que des observations
+- \\( T(X^{(n)}) = X_1 + ... + X_n \\) est une statistique
+- \\( T(X^{(n)}) = e^{-\lambda(X_1 + ... + X_n)} \\) **n'est pas** une statistique

+L'objectif est de trouver \\( \theta \\) sur base des observations, c'est à dire sur base d'une
+statistique