Text-Repräsentation

Computer verstehen keine Wörter. Sie brauchen Zahlen. Hier lernen Sie drei Wege, Text in Vektoren zu verwandeln.

1

One-Hot Encoding

Jedes Wort bekommt einen eigenen Vektor: genau eine 1, alle anderen Stellen 0.

Klicken Sie auf ein Wort, um seinen Vektor zu sehen. Klicken Sie zwei Wörter, um sie zu vergleichen.

Wählen Sie ein Wort aus, um seinen Vektor zu sehen.

2

Bag of Words

Zähle, wie oft jedes Wort im Dokument vorkommt. Das Ergebnis ist ein Zähl-Vektor.

Gleiches Vokabular, andere Bedeutung:
Satz 1
Satz 2
Identische BoW-Vektoren!

1
2
3
$\vec{d} = (c_1, c_2, \ldots, c_{|V|})$ wobei $c_i$ = wie oft Wort $i$ vorkommt
3

TF-IDF

Nicht alle Wörter sind gleich wichtig. TF-IDF gewichtet seltene Wörter hoch und häufige Wörter herunter.

$\text{tfidf}(t,d) = \underbrace{\frac{c(t,d)}{|d|}}_{\text{TF: Häufigkeit}} \cdot \underbrace{\log\frac{N}{\text{df}(t)}}_{\text{IDF: Seltenheit}}$
Wort in vielen Dokumenten → IDF sinkt → weniger Gewicht. Wort nur in einem Dokument → IDF steigt → mehr Gewicht.