quadratische strukturen in sprache und schrift ansätze der ... strukturen in... · 0,02 0,04 0,06...

10
1 © G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015 Quadratische Strukturen in Sprache und Schrift Ansätze der angewandten Zahlenlehre VIII zu Literatur und Kryptographie G. Schulz Universität des Saarlandes, Fakultät 7 für Physik und Mechatronik Nov. 2015 "Alle haben den Himmel, die Liebe und das Grab, damit wollen wir uns nicht befassen, das ist für den Kulturkreis besprochen und durchgearbeitet. Was aber neu ist, ist die Frage nach dem Satzbau und die ist dringend: Warum drücken wir etwas aus?" (Gottfried Benn) Noch bevor diese dringliche Frage aus einem Gedicht von Gottfried Benn auch nur angegan- gen werden kann, muss die Frage beantwortet werden: Wie und womit drücken wir etwas aus. Erst wenn die Bausteine von Sprache und Schrift bestehend aus Buchstaben, Wörtern, Sätzen und ganzen Texten und deren Beziehungen zueinander geklärt sind, also die rein materielle Substanz einer Sprache und der zugehörigen Schrift gesichert und erschöpfend dargestellt worden ist, können weitergehende Fragen sinnvoll gestellt werden. Wenn dabei Strukturen hervortreten, die auch in der Zahlentheorie und in zahlentheoretischen Ansätzen zur Quan- tenmechanik, zur naturwissenschaftlich orientierten Neurologie und in der Genetik eine Rolle spielen, dann sollten diese Zusammenhänge nicht übergangen werden, zumal auch die grund- legenden Fragen der Kryptographie von Wörtern und Texten aufs Engste mit eben diesen ma- teriellen Eigenschaften einer Sprache verknüpft sind. In der angewandten Zahlenlehre (Teil I bis VI) konnten Operatoren Ganzzahlteiler und Primteiler entwickelt werden, die geeignet sind, große Mengen an Ziffern und Zahlen nach vorgegebenen Gesichtspunkten extrem schnell und dennoch kontrolliert zu analysieren und zu ordnen. Mit ganz ähnlichen Verfahren sollen hier Leseoperatoren eingesetzt werden, um Buchstaben, Wörter und Sätze in Texten zu untersuchen. Auch hier wird es darauf ankom- men, sehr große Datenmengen so zu bearbeiten, dass die einzelnen Schritte auf ein Ziel einge- stellt und nachvollzogen werden können und die Ergebnisse kontrollierbar bleiben. I. Buchstaben und das Spektrum einer Sprache Die ersten und einfachsten Bausteine einer Sprache oder Schrift sind die Buchstaben des Al- phabets in Groß- und Kleinschreibung. In Abb. VIII.1 ist das Spektrum der deutschen Sprache dargestellt. Darunter verstehen wir die Häufigkeiten H der Buchstaben als Funktion ihrer Stel- lung n im Alphabet, also die Zahlen Z von Buchstaben mit der Nummer n im Alphabet Z(n) bezogen auf die Gesamtzahl N, hier aus einem sehr langen Text mit insgesamt N = 250 000 Buchstaben oder aus einer großen Anzahl von kürzeren Texten, die von deutsch schreibenden Schriftstellern, Wissenschaftlern oder Journalisten erstellt worden sind. Es sei betont: Wir betrachten hier nicht den Inhalt von Texten, sondern lediglich deren materielle Beschaffen- heit. Die Zahl N der Buchstaben muss so groß gewählt werden, dass bei Vergrößerung von N keine (merkliche) Änderung von H(n) mehr eintritt. Dann gilt () → () (VIII,1)

Upload: buiduong

Post on 06-Apr-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

1

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

Quadratische Strukturen in Sprache und Schrift Ansätze der angewandten Zahlenlehre VIII zu Literatur und Kryptographie

G. Schulz

Universität des Saarlandes, Fakultät 7 für Physik und Mechatronik

Nov. 2015

"Alle haben den Himmel, die Liebe und das Grab,

damit wollen wir uns nicht befassen,

das ist für den Kulturkreis besprochen und durchgearbeitet.

Was aber neu ist, ist die Frage nach dem Satzbau

und die ist dringend:

Warum drücken wir etwas aus?"

(Gottfried Benn)

Noch bevor diese dringliche Frage aus einem Gedicht von Gottfried Benn auch nur angegan-

gen werden kann, muss die Frage beantwortet werden: Wie und womit drücken wir etwas aus.

Erst wenn die Bausteine von Sprache und Schrift bestehend aus Buchstaben, Wörtern, Sätzen

und ganzen Texten und deren Beziehungen zueinander geklärt sind, also die rein materielle

Substanz einer Sprache und der zugehörigen Schrift gesichert und erschöpfend dargestellt

worden ist, können weitergehende Fragen sinnvoll gestellt werden. Wenn dabei Strukturen

hervortreten, die auch in der Zahlentheorie und in zahlentheoretischen Ansätzen zur Quan-

tenmechanik, zur naturwissenschaftlich orientierten Neurologie und in der Genetik eine Rolle

spielen, dann sollten diese Zusammenhänge nicht übergangen werden, zumal auch die grund-

legenden Fragen der Kryptographie von Wörtern und Texten aufs Engste mit eben diesen ma-

teriellen Eigenschaften einer Sprache verknüpft sind.

In der angewandten Zahlenlehre (Teil I bis VI) konnten Operatoren – Ganzzahlteiler und

Primteiler – entwickelt werden, die geeignet sind, große Mengen an Ziffern und Zahlen nach

vorgegebenen Gesichtspunkten extrem schnell und dennoch kontrolliert zu analysieren und zu

ordnen. Mit ganz ähnlichen Verfahren sollen hier Leseoperatoren eingesetzt werden, um

Buchstaben, Wörter und Sätze in Texten zu untersuchen. Auch hier wird es darauf ankom-

men, sehr große Datenmengen so zu bearbeiten, dass die einzelnen Schritte auf ein Ziel einge-

stellt und nachvollzogen werden können und die Ergebnisse kontrollierbar bleiben.

I. Buchstaben und das Spektrum einer Sprache

Die ersten und einfachsten Bausteine einer Sprache oder Schrift sind die Buchstaben des Al-

phabets in Groß- und Kleinschreibung. In Abb. VIII.1 ist das Spektrum der deutschen Sprache

dargestellt. Darunter verstehen wir die Häufigkeiten H der Buchstaben als Funktion ihrer Stel-

lung n im Alphabet, also die Zahlen Z von Buchstaben mit der Nummer n im Alphabet Z(n)

bezogen auf die Gesamtzahl N, hier aus einem sehr langen Text mit insgesamt N = 250 000

Buchstaben oder aus einer großen Anzahl von kürzeren Texten, die von deutsch schreibenden

Schriftstellern, Wissenschaftlern oder Journalisten erstellt worden sind. Es sei betont: Wir

betrachten hier nicht den Inhalt von Texten, sondern lediglich deren materielle Beschaffen-

heit.

Die Zahl N der Buchstaben muss so groß gewählt werden, dass bei Vergrößerung von N keine

(merkliche) Änderung von H(n) mehr eintritt. Dann gilt

𝐻(𝑛) → 𝐻𝑎𝑏𝑠(𝑛) (VIII,1)

Page 2: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

2

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

Habs

(n)

n

N > 250 000

Abb.VIII.1 Spektrum der deutschen Sprache. Häufigkeit H(n) der Buchstaben als Funktion ihrer Stel-

lung im Alphabet von a, A ~ n = 1 bis z, Z ~ n = 26

Um zu verdeutlichen, dass das hier gezeigte Spektrum von keinem anderen Parameter als N

bestimmt ist, sind in der Abb. VIII. 2 vergleichsweise die Spektren nach willkürlich heraus-

gegriffenen und relativ kurzen Texten der Schriftsteller Goethe , Grass und Johnson darge-

stellt.

5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

0,20

Goethe (N = 76981)

Grass (N = 97056)

Johnson (N = 94010)

H(n)

n

0 5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

0,20

Gothe (N = 128 000)

(N > 260 000)

H(n)

n

Abb. VI.2a Individuelle Spektren der Abb.VIII.2b Zum Vergleich die Abweichungen

Schriftsteller Goethe, Grass und Jonson. von kurzen und langen Texte eines und

desselben Schriftstellers

Die individuellen Spektren zeigen bei kleinen Gesamtzahlen N von Buchstaben im Text

durchaus noch Unterschiede, die aber um mehr als die Hälfte abnehmen, wenn die Anzahl der

Buchstaben verdoppelt wird. Das bedeutet, dass nicht nur die Division durch die in einem

längeren Text größere Zahl N, sondern auch die Umordnung der Häufigkeiten schließlich zu

einer verallgemeinerten Darstellung des Spektrums der deutschen Sprache führt und sich ein

Grenzwert von H(n) einstellt, wenn N gegen eine sehr große Zahl strebt. Man schreibt dafür

auch:

lim𝑁→∞ 𝐻𝑁(𝑛) → 𝐻𝑎𝑏𝑠(𝑛) (VIII,2)

Alle individuellen Unterschiede verschwinden im Grenzwert des Spektrums einer Sprache.

Goethe

Page 3: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

3

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

Erst die Spektren anderer Sprachen (mit gleichem Alphabet) zeigen bezüglich der Größe der

Spektrallinien wie auch bezüglich ihrer Anordnung größere Unterschiede zum Spektrum der

deutschen Sprache, die nicht auf die Größe des Parameters N zurückzuführen sind. Zum Bei-

spiel sind in den folgenden Abbildungen die Spektren der französischen und der englischen

Sprache (und Schrift) dargestellt:

5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18

Französisch

Habs

(n)

n

5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

0,16

0,18 Habs

(n)

n

Englisch

Abbn. VIII.3 u 4 Spektren der englischen und französischen Sprach zum Vergleich mit VIII.1

Ein Blick auf diese Spektren zeigt sofort, dass jedwede lineare Zuordnung der Buchstaben

des Alphabets zu den Zeichen einer beliebigen anderen Zeichenkette keine wirksame Ver-

schlüsselung eines Textes bewirkt und es wird noch gezeigt werden, dass auch quadratische

Strukturen dazu nicht ausreichen. (Auch Zustände im atomaren Bereich, die durch Quanten-

zahlen charakterisiert werden können, die ihrerseits aber zahlentheoretisch samt und sonders

aus quadratischen Strukturen folgen, kommen für die Kryptografie nicht in Betracht.)

II Wörter und Sprachenräume

Die nächst größeren Bausteine im Material einer Sprache sind die Wörter. Wörter bezeichnen

bestimmte Sachverhalte und Gegenstände oder Zustände und Eigenschaften oder auch zeitlich

Abläufe, aber es sei von Anfang an klargestellt, dass hier nicht die Bedeutungen oder gar wei-

tergehende Komplexionen der Wörter untersucht werden sollen, sondern (zunächst) allein ihr

Beitrag zum Material einer Sprache. Das heißt, die Wörter einer Sprache oder Schrift stehen

für Bezeichnungen, sind Bezeichner. Die einzelnen Bezeichner sind dadurch charakterisiert

und zu erkennen, dass sie durch Leerzeichen oder Satzzeichen voneinander getrennt aus einer

begrenzten Zahl von Buchstaben bestehen, die von einem Redenden oder einem Schreibenden

so, wie sie nun einmal dastehen, zusammengefügt worden sind. Es interessiert nicht, ob sie

aus Gewohnheit benutzt werden oder ob sie von Vorgängern (Vorfahren) erlernt und einfach

übernommen worden sind oder ob sie in einem autonomen schöpferischen Akt erst geschaffen

werden mussten, um dem Redenden oder Schreibenden als Bezeichnung dienen zu können.

Für vergleichende Untersuchungen und erst recht für weitere Schlussfolgerungen in Literatur

und Kryptografie ist es zweckmäßig, die Wörter einer Sprache nach der Anzahl S ihrer Buch-

staben zu ordnen. Wenn außerdem nur die in einem Text voneinander verschiedenen Wörter

mit S Buchstaben gezählt werden, ergibt die Summe über alle Produkte aus der Anzahl S der

Buchstaben im Wort mit der Anzahl k dieser Wörter im Text schließlich die Gesamtzahl der

Buchstaben in einem Text, aus dem die Wörter entnommen worden sind.

In Abb.VIII.5 sind die Produkte Sk = S∙k über S grafisch dargestellt für die Texte dreier

Schriftsteller. Der Bereich, in dem merklich viele Wörter liegen, reicht von S = 2, der im

Deutschen geringsten Buchstabenzahl in einem Wort, bis S = 23. Oberhalb von 23 sind nur

noch ganz vereinzelt Wörter zu finden, die aber für die weiteren Untersuchungen keine Rolle

Page 4: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

4

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

spielen, zum Beispiel: "Universitätsentwicklungsplanbeschleunigungsgesetzentwurf !" Solche

juristischen Entgleisungen werden hier nicht weiter beachtet.

0 5 10 15 20 25

-5000

0

5000

10000

15000

20000

25000

30000

35000

40000

45000 Sk(S)

s

Goethe (N=76981)

Johnson (N=97050)

Grass (N=94010)

Abb.VIII.5 Die Produkte Sk(S) als Funktion von S für die angeführten Schriftsteller Goethe, Grass und Johnson

mit den angegebenen Gesamtzahlen N in ihren Texten

Wenn die Produkte Sk auf die Gesamtzahl der Wörter normiert werden, also

𝑆𝑘𝑁(𝑆) =𝑆𝑘(𝑆)

𝑁 (VIII,3)

gebildet wird, erhält man die Häufigkeit H(S) und bei großen N von N unabhängige, ver-

gleichbare Größen und diese Größen insgesamt nennen wir Basis des Sprachenraums, den die

Schriftsteller im Deutschen einnehmen. Die Basisfläche ist nur scheinbar von Schriftsteller zu

Schriftsteller verschieden, denn die ohnehin geringen Unterschiede werden mit zunehmender

Textgröße rasch kleiner und verschwinden mit wachsendem N schließlich ganz. Abb.VIII.6

zeigt, dass bereits für einen Text mit einer Gesamtzahl von N = 250 000 Buchstaben die Ba-

sisfläche der deutschen Sprache durch die Fläche unter einer Gaußschen Glockenkurve be-

schrieben wird. Die Abweichungen der empirisch ermittelten Werte von der idealen Glocken-

kurve liegen weit unter 0.1 Promille, der Mittelwert x0 = 10.6 kann daher als exakt angesehen

werden.

0 5 10 15 20 25

0,00

0,02

0,04

0,06

0,08

0,10

0,12

0,14

SkN(S) ~ y(x)

S ~ x

Goethe, Johnson N = 250 000

Abb. VIII.6 Die empirisch ermittelte Basisfläche des Sprachenraum nach Texten von Goethe und

Johnson im Vergleich mit der Approximation durch eine Gaußsche Glockenkurve.

Data: Fehlzeichen_C Model: Gauss y=y0 + (A/(w*sqrt(PI/2)))*exp(-2*((x-xc)/w)^2) y0 0.00077 ±0.0021 x0 10.66197 ±0.06865 w 6.59002 ±0.20798 A 0.98663 ±0.04027

Page 5: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

5

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

Die Punkte auf der Gaußschen Glockenkurve geben also an, wie häufig voneinander ver-

schiedene Wörter mit S Buchstaben in einer Sprache benutzt werden. Es ist bemerkenswert,

dass die Schriftsteller, mögen sie in der Wortwahl noch so verschieden erscheinen, in der

mittleren Buchstabenzahl x0 = S0 ≈ 10.6 der von ihnen benutzten Wörter doch völlig überein-

stimmen. Das heißt aber lediglich, dass diese Schriftsteller dieselbe Sprache benutzt haben.

Auch die Basisflächen der französischen und englischen Sprache bilden Gaußsche Glocken-

kurven, allerdings mit deutlich verschiedenen theoretischen wie empirischen Mittelwerten x0

~ S0. Daraus folgt, dass mit einer elektronisch maschinellen Untersuchung eines Textes ohne

jede Wortkenntnis festgestellt werden kann, in welcher Sprache ein Text verfasst worden ist –

mit weitreichenden Folgerungen für Spracherkennung und Kryptographie.

Anmerkung. Es sei an dieser Stelle darauf verwiesen, dass Kinder, Schüler, aber auch

Erwachsene eine fremde Sprache in der überwältigenden Zahl der Fälle anhand des

gesprochenen Wortes in Verbindung mit einer hinweisenden Gebärde erlernen. Die

Gebärde kann auf einen Gegenstand, auf eine Person oder auf das Bild eines Gegen-

standes oder einer Person oder sogar auf deren Tätigkeit mit allen möglichen Bewe-

gungsabläufen hindeuten und von einer Tonfolge begleitet sein, wenn nicht schon das

gesprochene Wort lautmalerisch die Bedeutung eines Wortes einprägsam macht. Je-

denfalls erfolgt dieses Lernen völlig anders als die Durchsuchung einer Basisfläche

mit Tausenden von Wörtern nach einem Mittelwert – mit Hilfe eines Computers. Ein

Computer oder vielmehr ein Mikroprozessor besteht aus Transistoren und Dioden,

Kapazitäten, Widerständen und Induktionsspulen, mikrominiaturisierten Bauteilen, die

mit Leiterbahnen für elektrische Ströme oder neuerdings auch durch Lichtblitze unter-

einander verbunden sind und durch von außen aufgeprägte Schaltungen Zustandsände-

rungen an Speicherplätzen vornehmen. Das können sie inzwischen sehr schnell und

sollen sie in Zukunft noch schneller vermögen, aber es bleiben ewig dieselben vorge-

schriebenen Aktionen, von Ingenieuren dafür konstruiert und von Programmierern so

in Gang gesetzt. Auch das menschliche Gehirn bedarf für seine Funktionen der materi-

ellen Grundlagen in Form von Neuronen und Neuronalen Prozessen, besorgt aber die

Kongruenz von Vorstellungen mit den Tatsachen in unserer Umgebung, wie unsere

Sinne sie uns melden, mit wachsender Geschwindigkeit und in von selbst wachsendem

Umfang auf der Ebene hoher und höchster Komplexionen. Es bleibt die Frage, wo

denn ein großes I beim großen K des Computers zu finden sein sollte.

Die Basierung der Sprachenräume auf die Fläche unter Gaußschen Glockenkurven, die be-

kanntlich zur Beschreibung von Zufallsverteilungen dienen, ist eindeutig. Es kann daher nicht

ausgeschlossen werden, dass die Wortlängen und vielleicht auch die Wörter selbst in den

Sprachen nach dem Zufallsprinzip verteilt sind, und daraus ergibt sich die Frage, ob sie so

auch entstanden sind. Dann könnten einfachere, sehr viel tiefer liegende Strukturen, als heute

bekannt sind, an ihrer Entstehung mitgewirkt haben. Dass sie danach immer willkürlicher und

kunstvoller in Dichtung und Literatur benutzt werden konnten, beruht auf höheren Dimensio-

nen der Sprachenräume, die hier aber (zunächst) nicht zur Debatte stehen.

III Sätze und Satzgefüge

Sätze sind die Träger im Gebäude einer Sprache und Sätze allein vermitteln eine Information,

stellen eine Frage oder eine Antwort, eine Aussage oder sogar einen Ausdruck dar. Aber nicht

diese Eigenschaften der Sätze sollen hier untersucht werden, sondern allein ihre materielle

Beschaffenheit als Baustoff einer Sprache. In diesem Sinne sind Sätze dadurch charakterisiert

und zu erkennen, dass sie in der Regel zu Beginn eines Textes oder nach dem Satzzeichen

Punkt mit einem Großbuchstaben anfangen, aus einer begrenzten Zahl von Wörtern bestehen

und mit einem Punkt enden. Sätze können aus Haupt und Nebensätzen bestehen, die durch ein

Komma zu trennen sind.

Page 6: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

6

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

Anmerkung. Weitere Satzzeichen wie Punkt und Komma sind im Grunde überflüssig

und werden von modernen Schriftstellern auch kaum mehr benutzt, zumal dann nicht,

wenn ihre Werke als E-books erscheinen sollen und es darauf ankommt, mit mög-

lichst wenigen Bytes bei der Übertragung von langen Texten auszukommen, aber auch

aus sprachlogischen Gründen. Ein Beispiel,

Du gehst nach Hause. Gehst Du nach Hause.

Wenn doch schon aus der Anordnung der Wörter im Satz hervorgeht, ob es sich um

eine Aussage oder eine Frage handelt, wozu dann noch Ausrufezeichen oder Fragezei-

chen. Wer anders Fragen von Aussagen nicht unterscheiden kann, sollte vielleicht Le-

sen und Schreiben lernen und vorzutragende Texte vorher auswendig lernen. Anfüh-

rungszeichen unten und Ausführungszeichen oben oder angeblich literarisch erforder-

liche vor und nach gesetzte spitze Doppelklammern sind reine Schnörkel und werden

hier vom Leseoperator automatisch eliminiert, wie übrigens ganz offensichtlich auch

vom menschlichen Gehirn beim Vorlesen.

Wie die Buchstaben und ihre Anzahl für die Wörter einer Sprache konstitutiv sind, so sind die

Wörter und ihre Anzahl für die Sätze konstitutiv. Aber es muss auch hier erst ein notwendiger

Zusammenhang zwischen den Wörtern und den Sätzen hergestellt werden, um zu weiterfüh-

renden Aussagen zu gelangen.

Um den analytischen Zusammenhang zwischen Buchstaben und Wörtern zu finden, war es

sinnvoll, nur die voneinander verschiedenen Wörter in den Texten zu betrachten, wenngleich

dadurch auch jeder Unterschied zwischen den verschiedenen Schreibenden verlorenging.

Doch einzelne Wörter stellen keine Informationen dar und werden deswegen höchstens als

Merkwörter oder zur Hervorhebung eines Begriffs von besonderer Bedeutung in ein und dem-

selben Satz mehrfach benutzt. Für die Verwendung in Sätzen ist die Forderung, dass nur von-

einander verschiedene Wörter betrachtet werden sollten, also nicht erforderlich.

In den Abbn.VIII.7a bis d sind die Häufigkeiten H(m) der Sätze mit einer bestimmten Zahl m

von Wörtern als Funktion eben dieser Zahl ihrer Wörter dargestellt.

H(m) = lim𝑁→∞{𝑍(𝑚)/ ∑ 𝑍(𝑚)}𝑚=𝑁𝑚=1 (VIII,4)

Die Summe aller Häufigkeiten strebt nur im Idealfall N →∞ gegen 1. Aber durch die Länge L

der Texte gemessen in Wörtern kann stets sichergestellt werden, dass sich die Häufigkeiten

nicht mehr wesentlich ändern, wenn die Länge der Texte etwa verdoppelt wird.

0 20 40 60 80

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08 H(m)

m

c.Johnson, Ltot

= 1150

0 20 40 60 80

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

a. Goethe 1150 Sätze

H(m)

m

Page 7: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

7

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

0 20 40 60 80

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

b. Grass, Ltot

= 1150

H(m)

m

0 20 40 60 80

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

d. Musil, Ltot

= 1150

H(m)

m

Abbn VIII..7 a bis d. Häufigkeit der Sätze als Funktion der Anzahl der Wörter.

Man erkennt deutliche Unterschiede zwischen den Satzlängen in den Texten der verschiede-

nen Autoren, insbesondere die Verschiebung von einer relativ breiten Verteilung der Satzlän-

gen bei Goethe über eine wesentlich schmalere bei Grass bis zu einer Verteilung mit noch

kürzeren Sätzen bei Johnson. Das Musilsche Werk liegt definitiv näher bei Goethe als bei den

modernen Schriftsteller Grass und Johnson.

Satzlängen können prinzipiell gemessen werden mit der Anzahl L der Wörter in einem Satz

wie auch mit der Gesamtzahl der Buchstaben k in den Wörtern eines Satzes. Um die notwen-

dige Verknüpfung dieser Maße herzustellen und damit zu verstehen wie aus Wörtern ein

Satzgefüge entsteht, betrachten wir den funktionalen Zusammenhang

𝐹(𝑤) = ∑𝑘/𝐿 (VIII.5)

Darin bezeichnet L die Länge eines Satzes, k die Anzahl der Buchstaben in einem Wort, Σk

die Summe aller Buchstaben k in einem Satz und w die mittlere Wortlänge.

Es ist zwingend, nicht die Summe der Buchstaben ∑𝑘 mit L zu vergleichen, sondern wegen

der unterschiedlichen Länge der Wörter die mittlere Wortlänge w = Σk/L für den Vergleich

heranzuziehen, das heißt, dass die Anzahl der Buchstaben in jedem Wort für sich auf die Län-

ge L des ganzen Satzes zu beziehen ist. So erhält man die grafische Darstellung für die Lö-

sungen der Funktionalgleichung (VIII.5) in den Abbn. VIII, 8 a bis d

0

20

40

60

80

100

0 2 4 6 8 10 12 14 16

a. Goethe, Ltot

= 1150

L = F(w)

w = k/L

0

20

40

60

80

100

0 2 4 6 8 10 12 14 16

c. Johnson, Ltot

= 1150

L = F(w)

w = k/L

Page 8: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

8

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

0

20

40

60

80

100

0 2 4 6 8 10 12 14 16

b. Grass, N = Ltot

= 1150

L = F(w)

w = k/L0

20

40

60

80

100

0 2 4 6 8 10 12 14 16

d. Musil, Ltot

= 1150

L = F(w)

w = k/L

Abbn. VIII.8 a bis d, Die Mannigfaltigkeit der Lösungen von L = F(w) Glg. VIII.5 für Texte ver-

schiedener Schriftsteller

Wie aus den Häufigkeitsverteilungen der Abbn.VIII.7 geht auch aus den Abbn.VIII.8 hervor,

dass die Lösungen von (VIII.5) insbesondere im Goethetext kompakt um einen Mittelwert

liegen, gegen den die Verteilung bei Johnson nach links zu kleineren mittleren Buchstaben-

zahlen und bei Musil nach rechts zu größeren Wortlängen verschoben erscheint. Um die über-

einstimmenden Züge und insbesondere die geometrischen Symmetrien der Verteilungen, die

bei sämtlichen Texten am unteren Rand zu beobachten sind, deutlicher hervorzuheben, ist in

Abb.VIII.9 die Verteilung für die Summe aller Texte dargestellt und zum Vergleich die Ver-

teilung für den Goethetext rot markiert eingetragen.

0

20

40

60

80

100

0 2 4 6 8 10 12 14

L = F(w)

w = k/L

wmittel

~ 5.6

N = 512712

Abb.VIII.9 Verteilung der Lösungen von Glg.VIII.5 für die Summe der Texte a bis d, verglichen mit

der Verteilung für den Goethetext.

Man erkennt den regelförmigen Verlauf der Verteilung am unteren Rand, aber erkennt im

Vergleich mit Abbn.VIII.8 auch, dass erst bei einer Textlänge von mehr als eine halbe Million

Buchstaben die Figuren voll ausgeprägt werden. Diese Figuren können bei entsprechender

Page 9: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

9

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

Vergrößerung bis zu Satzlängen von L ~ 25 verfolgt werden, bis dann anschließend alle Lö-

sungen nur noch eine chaotische (oder lebendige) Vielfalt aufweisen.

In Abb. VIII.10 ist ein Ausschnitt aus Abb.VIII.9 von w = 3.5 bis w = 7.5 und von L = - 1.2

bis L = 40 vergrößert dargestellt

0

10

20

30

4 5 6 7

L = F(w)

w = k/L

y

x

Abb.VIII.10 Ausschnitt aus Abb.VIII.9 mit gedehnten Koordinaten als Erläuterung zum Bildungsge-

setz mit der mittleren Wortlänge w und Δw = 1/L

Die Horizontale mit (L = 1, w = 2) bezeichnet z.B. Sätze mit nur zwei Buchstaben zwischen

den Satzzeichen, also z. B. den Ausruf Oh oder die Abkürzung eines Namens Fr für Fried-

rich, usw. Ein roter Punkt in schwarzem Kreis bei (L = 1, w = 6) heißt, es gibt bei Goethe wie

bei mindestens noch einem Schriftstelle einen Satz zwischen Punkt und Punkt mit im Mittel

sechs Buchstaben. Vielleicht ein Ausruf oder ein Merkwort. L = 2 entspricht im Sprachen-

raum S = 2 und erzeugt alle Wörter auf den Plätzen mit dem Abstand Δw = ½ voneinander

und so auch auf allen anderen Horizontalen mit Δw = 1/L, allerdings mit immer geringerer

und schließlich nur noch vereinzelter Besetzung der möglichen Zustände im Abstand n∙Δw

vom Ursprung der Verteilung.

Das Bildungsgesetz für F(w) ist besonders einfach aus der Girlande am unteren Rand der Ver-

teilung abzulesen und lautet (für die Hyperbeln zwischen den Senkrechten bei den ganzen

Zahlen k = L):

𝑥 = 𝑘 ± 𝑛 ∙ ∆𝑤; ∆𝑤~1

𝐿; 𝑘 ℎ𝑖𝑒𝑟 = 4 𝑏𝑖𝑠 7

𝑦 = 𝑛; 𝑛~𝐿 ; 𝑛 = 0 𝑏𝑖𝑠 40 (VIII.6)

Wenn man unter der Besetzungsdichte Φ die Zahl der tatsächlich besetzten Zustände auf je

einer dieser Horizontalen versteht, dann gilt, dass nach einem kurzen Anstieg der Besetzungs-

dichte Φ am Anfang bis etwa L ~ 5 und einem ebenso langen Abstieg bis L ~ 10 (hier nicht

Page 10: Quadratische Strukturen in Sprache und Schrift Ansätze der ... Strukturen in... · 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 H abs (n) n Englisch Abbn. VIII.3 u 4 Spektren der

10

© G. Schulz: Quadratische Strukturen in Sprache und Schrift, Nov. 2015

eingezeichnet) der weitere Verlauf der Besetzungsdichte, wie in Abb. VIII.11 dargestellt, ex-

ponentiell abnimmt, geradezu so, als sei eine dichtere Besetzung nicht mehr lesbar oder

sprechbar. Es sei darauf hingewiesen, dass ähnliche Symmetrien wie hier im Satzgefüge be-

reits bei der Quantisierung von Nanokristallen (wie überhaupt im Quantenbereich) beobachtet

wurden und dort auf quadratische Strukturen der reinen Zahlenwelt zurückgeführt werden

konnten.

Abb.VIII.11 Abnahme der empirisch bestimmten Besetzungsdichte Φ(L) ~ y als Funktion der Satzlän-

ge L ~ y im Vergleich mit der Approximation y(x) durch eine Exponentialfunktion.

So stellt sich das Satzgefüge der deutschen Sprache schließlich als ein Baum der (noch ziem-

lich unerforschten) Erkenntnisse dar. Denn es dürfte klar sein, dass mit diesen Untersuchun-

gen des puren Materials einer Sprache die eigentliche Arbeit an der Herstellung und Unter-

scheidung von Mitteilung und Ausdruck überhaupt erst beginnt, aber gewiss nicht weiterhin

durch bloßes Erbsenzählen geleistet werden kann. Erst wenn es gelingt, mit anderen, wohlde-

finierten Koordinaten weitere Dimensionen der Sprachenräume über den Basisflächen aufzu-

spannen, können auch weiterführende Fragen sinnvoll gestellt werden, wie es bisher in guten

Analysen ja auch bereits geschehen ist!

Anschließend: Hochsprache: Der Krug geht zum Brunnen, bis er bricht:→Dada: eu-eu-u, i-ei.

0 20 40 60 80 100 120 140 160 180 200

-0,005

0,000

0,005

0,010

0,015

0,020

0,025

0,030

0,035

0,040 (L)

L - 10

Equation: y = A1*exp(-x/t1) + y0 Chi^2/DoF = 1.5117E-6 R^2 = 0.98144 y0 = 0.00005 ±0.00023 A1 = 0.0899 ±0.0038

t1 = 14.03035 ±0.47884