Fertige Embeddings

Trainingsdatenmenge:
groß
mittel
klein

Romane

Romane, 1870–1920

247545 Wörter, trainiert auf 5971030 Sätzen mit insgesamt 103989910 Wörtern

Romane, modern

108556 Wörter, trainiert auf 2411992 Sätzen mit insgesamt 31302507 Wörtern

Presse

Der Spiegel (Spiegel Online)

1064261 Wörter, trainiert auf 32987891 Sätzen mit insgesamt 597960800 Wörtern

Die Tageszeitung (taz)

355102 Wörter, trainiert auf 6021102 Sätzen mit insgesamt 106167932 Wörtern

Die Welt

761042 Wörter, trainiert auf 21810399 Sätzen mit insgesamt 389244351 Wörtern

Die Zeit

450819 Wörter, trainiert auf 10875014 Sätzen mit insgesamt 181334271 Wörtern

Frankfurter Allgemeine Zeitung

333789 Wörter, trainiert auf 4530785 Sätzen mit insgesamt 89212324 Wörtern

Junge Welt

86188 Wörter, trainiert auf 729943 Sätzen mit insgesamt 12037282 Wörtern

Neues Deutschland

548526 Wörter, trainiert auf 11391272 Sätzen mit insgesamt 200219614 Wörtern

pressetext.com

166647 Wörter, trainiert auf 1593473 Sätzen mit insgesamt 29274220 Wörtern

Stern

502093 Wörter, trainiert auf 11800151 Sätzen mit insgesamt 209624853 Wörtern

Süddeutsche Zeitung

638519 Wörter, trainiert auf 18256419 Sätzen mit insgesamt 298236783 Wörtern

PuMa-Daten

Gesetzestexte der Bundesrepublik Deutschland

76707 Wörter, trainiert auf 507587 Sätzen mit insgesamt 17628850 Wörtern

Stellenausschreibungen des öffentlichen Dienstes

155647 Wörter, trainiert auf 4985850 Sätzen mit insgesamt 58092238 Wörtern

Referenzembedding

fertiges Embedding aus dem Internet (testweise)

710288 Wörter, trainiert auf 78219152 Sätzen mit insgesamt 1379000000 Wörtern

footer link 1footer link 2