Fertige Embeddings
Romane
- Romane, 1870–1920
247545 Wörter, trainiert auf 5971030 Sätzen mit insgesamt 103989910 Wörtern
- Romane, modern
108556 Wörter, trainiert auf 2411992 Sätzen mit insgesamt 31302507 Wörtern
Presse
- Der Spiegel (Spiegel Online)
1064261 Wörter, trainiert auf 32987891 Sätzen mit insgesamt 597960800 Wörtern
- Die Tageszeitung (taz)
355102 Wörter, trainiert auf 6021102 Sätzen mit insgesamt 106167932 Wörtern
- Die Welt
761042 Wörter, trainiert auf 21810399 Sätzen mit insgesamt 389244351 Wörtern
- Die Zeit
450819 Wörter, trainiert auf 10875014 Sätzen mit insgesamt 181334271 Wörtern
- Frankfurter Allgemeine Zeitung
333789 Wörter, trainiert auf 4530785 Sätzen mit insgesamt 89212324 Wörtern
- Junge Welt
86188 Wörter, trainiert auf 729943 Sätzen mit insgesamt 12037282 Wörtern
- Neues Deutschland
548526 Wörter, trainiert auf 11391272 Sätzen mit insgesamt 200219614 Wörtern
- pressetext.com
166647 Wörter, trainiert auf 1593473 Sätzen mit insgesamt 29274220 Wörtern
- Stern
502093 Wörter, trainiert auf 11800151 Sätzen mit insgesamt 209624853 Wörtern
- Süddeutsche Zeitung
638519 Wörter, trainiert auf 18256419 Sätzen mit insgesamt 298236783 Wörtern
PuMa-Daten
- Gesetzestexte der Bundesrepublik Deutschland
76707 Wörter, trainiert auf 507587 Sätzen mit insgesamt 17628850 Wörtern
- Stellenausschreibungen des öffentlichen Dienstes
155647 Wörter, trainiert auf 4985850 Sätzen mit insgesamt 58092238 Wörtern
Referenzembedding
- fertiges Embedding aus dem Internet (testweise)
710288 Wörter, trainiert auf 78219152 Sätzen mit insgesamt 1379000000 Wörtern