Wahrscheinlichkeitsrechnung
Autor: Timo KötzingHier lernst du die Grundprinzipien der Wahrscheinlichkeitsrechnung.
Dazu machen wir die folgenden Schritte.
- Grundlagen: Am Anfang war die Definition
- Beispiele: Was kennen wir für Wahrscheinlichkeitsräume?
- Gesetzmäßigkeiten: Wie rechnen wir mit Wahrscheinlichkeiten?
- Mehr Grundlagen: Zufallsvariablen
- Beispiele: Was kennen wir für Zufallsvariablen?
- Zufallsvariablen verstehen: Erwartungswerte und Varianz
Wir setzen fest, dass die natürlichen Zahlen \(\mathbb{N} = \{0,1,2,\ldots\}\) die \(0\) enthalten.
Grundlagen
Zentrales Element der Wahrscheinlichkeitsrechnung ist der Wahrscheinlichkeitsraum. Ein Paar \((\Omega,P)\) ist ein diskreter Wahrscheinlichkeitsraum, falls \(\Omega\) eine abzählbare Menge ist und \(P: \Omega \rightarrow [0,1]\) eine Fuktion, welche jedem Elementarereignis \(\omega \in \Omega\) eine Wahrscheinlichkeit \(P(\omega)\) zuordnet, sodass \(\sum_{\omega \in \Omega}P(\omega) = 1\) gilt. Mit anderen Worten, es passiert genau eine der Möglichkeiten aus \(\Omega\) mit Wahrscheinlichkeit gegeben durch \(P\). Wir nennen Teilmengen von \(\Omega\) Ereignisse. Für ein Ereignis \(A \subseteq \Omega\) schreiben wir \(P(A) = \sum_{a \in A}P(a)\) für die Wahrscheinlichkeit, dass \(A\) eintritt.
Beispiele
Nehmen wir nun als Beispiel \(\Omega = \{1,2,3,4,5,6\}\) mit \(P(\omega) = 1/6\) für alle \(\omega \in \Omega\). Das modelliert einen (perfekten) Würfelwurf: Jedes Resultat von \(1\) bis \(6\) kommt jeweils mit Wahrscheinlichkeit \(1/6\). Allgemeiner nennen wir die einen Wahrscheinlichkeitsraum \((\Omega,P)\), bei dem \(\Omega\) endlich ist und alle Elementarereignisse die gleiche Wahrscheinlichkeit haben, gleichverteilt.
Schauen wir uns nun noch einen Wahrscheinlichkeitsraum an, der nicht endlich ist. Sei \(\Omega = \mathbb{N}\) und für jedes \(n \in \mathbb{N}\) sei \(P(n) = 2^{-n-1}\). Wegen \(\sum_{n=0}^\infty 2^{-n-1} = 1\) (geometrische Summe) definiert das einen Wahrscheinlichkeitsraum.
Gesetzmäßigkeiten
Mit einer derart formalisierten Bedeutung von Wahrscheinlichkeit lässt sich nun gut rechnen. Die folgenden Gesetze sind die Grundpfeiler für alle Berechnungen.
Für Ereignisse \(A,B \subseteq \Omega\) gilt
- falls \(A \subseteq B\), dann \(P(A) \leq P(B)\);
- \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\);
- \(P(\Omega \setminus A) = 1 - P(A)\).
Weiterhin gilt, für jede Sequenz \((A_i)_i\) von Ereignissen,
- \(P(\bigcup A_i) \leq \sum_i P(A_i)\).
Dieses letzte Gesetz nennt man auch die
Union Bound (weil es die Wahrscheinlichkeit der Vereinigung, also der
Union beschränkt). Andere Namen sind
Bonferroni-Ungleichung oder auch
Boolesche Ungleichung.
Diese Gesetze zu kennen ist wichtig. Noch wichtiger ist es, sie zu verstehen. Dabei bist jetzt du gefragt: Kannst du alle vier Gesetze aus den grundlegenden Definitionen ableiten?
Zufallsvariablen
Bei Wahrscheinlichkeiten wird auch viel von Zufallsvariablen gesprochen. Eine Zufallsvariable ist formal eine Abbildung \(X: \Omega \rightarrow \mathbb{R}\). Es wird also einem Ereignis ein Wert zugeordnet. Zwei Zufallsvariablen \(X,Y\) heißen
- identisch, falls \(X = Y\);
- identisch verteilt, falls für alle \(r \in \mathbb{R}\) gilt, dass \(P(X= r) = P(Y=r)\);
- unabhängig, falls für alle Mengen \(A,B \subseteq \mathbb{R}\) gilt, dass \[P(X \in A \wedge Y \in B) = P(X \in A) \cdot P(Y \in B)\ .\]
Falls \(X\) und \(Y\) identisch verteilt sind, dann schreiben wir auch \(X \sim Y\). Wenn Zufallsvariablen
unabhängig und identisch verteilt sind, so kürzen wir das mit
u.i.v. ab, bzw. mit
i.i.d. (Abkürzung des englischen Ausdrucks
independently and identically distributed). Wir nennen eine Sequenz \((X_i)_i\) von Zufallsvariablen unabhängig, falls für alle Sequenzen an Teimengen von reellen Zahlen \((A_i)_i\) gilt \[P(\bigwedge_i X_i \in A_i) = \prod_i P(X_i \in A_i).\]
Für zwei Zufallsvariablen \(X,Y\) defineren wir die Zufallsvariable \(X+Y\) so, dass für alle \(\omega \in \Omega\) gilt, dass \((X+Y)(\omega) = X(\omega) +Y(\omega)\). Ebenso (bildweise) lassen sich alle anderen Operationen (binär oder unär) auf Zufallsvariablen definieren.
Für eine Zufallsvariable \(X\) und eine reelle Zahl \(r\) ist nun "\(X=r\)" ein Ereignis, nämlich \(\{\omega \mid X(\omega) = r\}\). Damit ist \(P(X=r)\) die Wahrscheinlichkeit, dass \(X\) gleich \(r\) ist.
Beispiele
Wir nehmen als Wahrscheinlichkeitsraum \(\Omega = \{1,2,3,4,5,6\}^2\). Als Zufallsvariable definieren wir \(X,Y\) so, dass, für alle \((i,j) \in \Omega\) gilt, dass \(X(i,j) = i\) und \(Y(i,j) = j\). Dann modelliert \(X\) einen Würfelwurf und \(Y\) einen davon unabhängigen. Damit ist dann \(X+Y\) die Summe aus zwei Würfelwürfen.
Die einfachste Verteilung für eine Zufallsvariable \(X\) ist die Bernoulliverteilung. Zu gegebenem Parameter \(p \in [0,1]\) ist dann \(P(X=1)= p\) und \(P(X=0) = 1-p\); die Zufallsvariable nimmt also nur die Werte \(1\) oder \(0\) an.
Eine einfache Zufallsvariable mit unendlichem Wertebereich ist \(X\), sodass für alle \(i \in \mathbb{N}\) \(P(X=i) = 2^{-i-1}\) gilt. Hierbei sieht man auch schön, wie die explizite Angabe von \(\Omega\) mehr und mehr unterdrückt wird. Allgemeiner spricht man von einer geometrischen Verteilung mit Parameter \(p \in (0,1)\), falls für alle \(i \in \mathbb{N}^+\) gilt, dass \(P(X=i) = (1-p)^{i - 1}p\). Das modelliert die Anzahl Iterationen, die man auf etwas warten muss, das mit Wahrscheinlichkeit \(p\) eintritt.
Wenn wir \(n\) i.i.d. Zufallsvariablen \((X_i)_{i \leq n}\) haben, welche bernoulliverteilt mit Parameter \(p\) sind, so ist \(\sum_{i=1}^n X_i\) eine Binomialverteilung mit Parametern \(n\) und \(p\). Wir schreiben dafür auch \(\mathrm{B}(n,p)\).
Erwartungswert
Der Erwartungswert einer Zufallsvariablen \(X\) ist der durchschnittliche Wert von \(X\): \[\mathrm{E}(X) = \sum_{\omega \in \Omega}P(\omega)\cdot X(\omega)\ .\]
Für den Erwartungswert gilt
\[\mathrm{E}(X)
= \sum_{\omega \in \Omega}P(\omega)\cdot X(\omega)
= \sum_{r \in \mathbb{R}} \sum_{\substack{\omega \in \Omega:\\X(\omega)=r}}P(\omega)\cdot r
= \sum_{r \in \mathbb{R}} r \cdot P(X = r)\ .\]
Der Erwartugswert hat eine wunderschöne Eigenschaft: Er ist linear. Das heißt, für zwei Zufallsvariablen \(X,Y\) und eine reelle Zahl \(r\), gilt
- \(\mathrm{E}(X + Y) = \mathrm{E}(X) + \mathrm{E}(Y)\) und
- \(\mathrm{E}(rX) = r \cdot \mathrm{E}(X)\).
Die Varianz einer Zufallsvariablen \(X\) ist definiert als \(\mathrm{Var}(X) = \mathrm{E}\big(\big(X - \mathrm{E}(X)\big)^2\big)\). Damit ist die Varianz ein Maß dafür, wie weit eine Zufallsvariable von ihrem Erwartungswert abweicht.
Für die Varianz gilt (die Gleichungen nutzen die Linearität des Erwartungswerts)
\[
\begin{array}{rl}
\mathrm{Var}(X) & = \mathrm{E}\big(\big(X - \mathrm{E}(X)\big)^2\big)\\
& = \mathrm{E}\big(X^2 - 2X\mathrm{E}(X) + \mathrm{E}(X)^2\big)\\
& = \mathrm{E}(X^2) - 2\mathrm{E}(X)\mathrm{E}(X) + \mathrm{E}(X)^2\\
& = \mathrm{E}(X^2) - \mathrm{E}(X)^2\ .
\end{array}\]
Beispiele
Sei \(X\) eine Zufallsvariable, welche bernoulliverteilt ist mit Parameter \(p\). Dann ist \[\mathrm{E}(X) = 0\cdot P(X=0) + 1\cdot P(X=1) = p\] und \[\mathrm{Var}(X) = \mathrm{E}(X^2) - \mathrm{E}(X)^2 = (0^2\cdot P(X=0) + 1^2\cdot P(X=1)) - p^2 = p - p^2 = p(1-p).\]
Nehmen wir an, eine Zufallsvariable nimmt nur Werte in \(\mathbb{N}\) an. Dann gilt
\[\mathrm{E}(X)
= \sum_{k=1}^\infty kP(X =k)
= \sum_{k = 1}^\infty \sum_{i=1}^k P(X=k)
= \sum_{i = 1}^\infty \sum_{k=i}^\infty P(X=k)
= \sum_{i = 1}^\infty P(X \geq i)\ .\]
Sei \(X\) eine geometrisch verteilte Zufallsvariable mit Parameter \(p\). Dann gilt für alle \(i \in \mathbb{N}\), dass \(P(X \geq i) = (1-p)^{i - 1}\). Deshalb können wir obige Formel für den Erwartungswert anwenden und bekommen \[\mathrm{E}(X) = \sum_{i = 1}^\infty P(X \geq i) = \sum_{i = 1}^\infty (1-p)^{i - 1} = \frac{1}{p}\ .\]
Was haben wir gelernt?
- Kernbegriffe: Wahrscheinlichkeitsraum, Zufallsvariable, Erwartungswert, Varianz.
- Rechenregeln ermöglichen das Handhaben von Wahrscheinlichkeiten.