Tutorial - Compiler und Virtual Machine (nicht beschreiben)

puretom · Beitrag von **puretom** » 07.10.2013 16:21

In diesem Thread hier bitte nichts schreiben

Nach Rücksprache mit Moderator NicTheQuick teile ich mein Tutorial in einen Teil, wo nur das Tutorial sein soll und einen anderen Teil mit Diskussionsbeiträgen.

Technisches Vorwort vor dem Vorwort:

Dieser Thread ist der Tutorial-Thread zu [Tutorial] Compiler und Virtual Machine:
- Hier sollte nur das Tutorial sein, sonst nichts.
- Hier bitte nichts beschreiben, keine Anmerkungen und Kritik.
- Moderator NicTheQuick ist so nett und wirft alles, was hier nicht hereingehört, in den Mülleimer!
Der Diskussionsthread zu dem Tutorial hier ist [Tutorial] Compiler und Virtual Machine.
- Anmerkungen und Kritik, Lob sowie sonstige Meldungen bitte im Diskussionsthread!

Viel Spaß mit dem Tutorial und liebe Grüße

Puretom

In diesem Thread hier bitte nichts schreiben

puretom · Beitrag von **puretom** » 07.10.2013 17:09

INHALT IM ÜBERBLICK

TEIL EINS: EINLEITUNG

1. Vorwort und Ziele des Tutorials

2. Literaturempfehlungen

3. Überblick über die Arbeitsweise eines Compilers und einer Virtuellen Maschine

TEIL ZWEI: TINY TOY C

4. Lexikalischer Scanner
5. Kurze Einführung in Assembler/Maschinensprache
6. Compiler TTCC und Parser TTCP

puretom · Beitrag von **puretom** » 07.10.2013 17:29

GESAMTINHALTSVERZEICHNIS

TEIL EINS: EINLEITUNG

1. Vorwort und Ziele des Tutorials
- 1.1. Zu meiner Person
  1.2. Der Plan
  1.3. Aufbau und Konzept des Tutorials

2. Literaturempfehlungen
- 2.1. Literatur, die mir half, meinen ersten Compiler zu programmieren
  2.2. Literatur, die hilfreich ist, wenn man schon eine Ahnung von Compilern hat
  2.3. Literatur, die mir persönlich überhaupt nichts sagte
  2.4. Abschließende zusammenfassende Betrachtungen

3. Überblick über die Arbeitsweise eines Compilers und einer Virtuellen Maschine
- 3.1. Vorbemerkungen
  3.2. Graphischer Überblick über die einzelnen Komponenten des Projekts
  3.3. Erklärung der einzelnen Komponenten
  - 3.3.1. Der Compiler
    3.3.2. Der Assembler
    3.3.3. Die Virtual Machine
  3.4. Zusammenfassung

TEIL ZWEI: TINY TOY C

4. Lexikalischer Scanner
- 4.1. Vorbemerkungen
  4.2. Hintergrundgedanken zum Scanvorgang
  4.3. Das Grundgerüst des Scanners
  4.4. Laden und testen des Character Streams
  4.5. Die ENTER-Taste: das Ende einer Programmzeile
  4.6. Die Is?()-Token-Typ-Erkennungsmacros
  4.7. Die Get-Prozeduren und die Token-Codes
  4.8. Überspringen unnötiger Zeichen
  - 4.8.1. Filtern von White-Zeichen: SkipWhite
    4.8.2. Filtern von Zeilen-Kommentaren
    4.8.3. Filtern von Block-Kommentaren
  4.9. Primitive Fehlerbehandlung
  4.10. Schlussbemerkungen
  4.11. Der Scanner TTCS von Kapitel 4

5. Kurze Einführung in Assembler/Maschinensprache
- 5.1. Vorbemerkungen
  5.2. Was ist Maschinensprache
  5.3. Was ist ein Stack (Stapelspeicher)?
  5.4. Auswerten von mathematischen Ausdrücken in Assembler
  - 5.4.1. Berechnungen in einer Stack Machine
    5.4.2. Berechnungen in einer Registermaschine mit wenig Registern

6. Compiler TTCC und Parser TTCP
- 6.1. Wichige Überlegungen, bevor wir starten
  - 6.1.1. Umfang der Sprache TTC 0.5
    6.1.2. Das Modul-, Include-File- und Aufrufkonzept
    6.1.3. Fehlerbehandlung
  6.2. Das Statement
  6.3. Deklarieren globaler Variablen
  6.4. Ein-/Ausgabe auf unterstem Level
  - 6.4.1. Input (Console)
    6.4.2. Print (Console)
  6.5. Variablenzuweisung (Assignment) an globale Integer-Variablen
  6.6. Mathematische Ausdrücke (Expression) mit Integers
  - 6.6.1. Einfache positive konstante Werte (=Values)
    6.6.2. Variablennamen
    6.6.3. Einfache Ausdrücke (Simple Expressions) mit 2 oder mehr Operanden
    6.6.4. Klammerausdrücke
  6.7. Sprünge
  - 6.7.1. Einleitung
    6.7.2. Goto und Sprungmarken (Labels)
    6.7.3. Gosub und return
  6.8. Die bedingte Anweisung if und die Verzweigungen if-else und if-else if-else
  - 6.8.1. Einige Vorbemerkungen
    6.8.2. If-Statement
    6.8.3. If-else-Statement
    6.8.4. If-else if-else-Statement
  6.9. Blocks von Statements und Schleifen
  - 6.9.1. Blocks von Statements
    6.9.2. Die Schleifen Do-While, Do-Until, Do: Das fußgesteuerte Universalgenie
    6.9.3. Die While-Schleife: Der kopfgesteuerte Klassiker
    6.9.4. Die For-Schleife, kein Befehl für TTC 0.5
    6.9.5. Break und continue
  6.10. Rand und end
  6.11. Abschließende Bemerkungen
  6.12. Code-Teil des Parsers

puretom · Beitrag von **puretom** » 07.10.2013 18:05

TEIL EINS: EINLEITUNG

- 1. Vorwort und Ziele des Tutorials
  2. Literaturempfehlungen
  3. Überblick über die Arbeitsweise eines Compilers und einer Virtuellen Maschine

Ziel von TEIL EINS ist, nach einem kurzen Vorwort, das die Ziele des Tutorials erläutern will, eine Zusammenfassung der Literatur zu bieten, in der ich mir mein Wissen über Compiler, Virtuelle Maschinen und Scripting angelesen habe.

Zuletzt möchte ich gerne einen kurzen Überblick über die Arbeitsweise eines Compilers und einer Virtuellen Maschine geben.

puretom · Beitrag von **puretom** » 07.10.2013 18:05

1. Vorwort und Ziele des Tutorials

1.1. Zu meiner Person

Hi Leute! Ich bin ganz neu in diesem Forum, aber nicht bei Pure Basic, das ich schon seit Ewigkeiten besitze. In diesem Forum lese ich schon seit Jahren mit.
Ich bin mittleren Alters

(Generation Commodore 64!) und programmiere auch schon seit dieser Zeit (also C64-Basic und 6502/6510 Assembler). Ich bin aber ausdrücklich ein Hobbyprogrammierer in der Freizeit, also kein Profi, somit sind alle Angaben, die ich mache, durchaus laienhaft und für den Hausgebrauch.
Alle Angaben sind ohne Gewähr und mit Vorsicht zu genießen. Ich gebe alles aufgrund meiner ureigensten Privatmeinung hier zum Besten.

Nichts davon ist zum kommerziellen Gebrauch gedacht.

1.2. Der Plan

Ich beginne eine Tutorialserie, die sich mit den grundlegenden Techniken der Compilerprogrammierung und der Programmierung einer kleinen Virtual Machine (Abkürzung: VM) beschäftigt.
Der Compiler, den ich vorstelle, soll eine Skriptsprache in eine virtuelle Assemblersprache kompilieren. Eine Virtuelle Maschine soll die Programme dann ausführen.

Das ist ein Konzept, das so ziemlich in jedem heutigen PC-Spiel zur Anwendung kommt, wenn dort Scripting vorgesehen ist. Die meisten Shooter erstellen und steuern auf diese Weise Objekte (Charakter, Gegenstände, Türen, ...). Jedes Adventure arbeitet mit Skripten. Der Flight Simulator von MS arbeitet bei Szenarien damit, uvm.

Einer meiner Beweggründe für dieses Projekt ist auch, dass es eigentlich kaum bis nichts Brauchbares auf Deutsch gibt, diese Lücke würde ich gerne zu schließen versuchen.

Im ersten Teil veröffentliche ich meine ganz persönliche Literaturtippliste an.

Sollte der Wunsch bestehen, dass ich mit meinem Plan weitermache, bitte um rege Nachfrage ausschließlich im Diskussionsthread, dann mache ich weiter.

1.3. Aufbau und Konzept des Tutorials

Das Tutorial soll neben seiner Kapiteleinteilung in so genannte Teile eingeteilt gegliedert werden.

Diese Teile sollen jeweils ein kleines vollständiges Projekt beeinhalten, um recht schnell erste Erfolgserlebnisse zu haben.

Alle Komponenten (also die Skriptsprache, die Virtuelle Maschine, ...), die wir schreiben, sollen das Wort "TOY" vorangestellt haben, was so viel wie Spiel/Spielzeug meint und ausdrücken soll, dass unsere Ergebnisse zu Lern- und Spielzwecken gedacht sind.
Das Wort "TOY" soll aber noch etwas ausdrücken: Es handelt sich bei dieser Programmiersprache um eine Skriptsprache, die man in Spielen zum Scripten einsetzen kann.

Zu Beginn jedes Teiles werde ich in einer kurzen Einführung dessen Ziele erläutern.
Wie in einem Fortsetzungsroman sollen nach und nach neue Teile und Kapitel hinzukommen.

HAFTUNGSAUSSCHLUSS und RECHTLICHE HINWEISE

Wenn jemand das Tutorial brauchbar finden sollte, dann kann jeder, der will, nachdem er mir eine Nachricht zukommen hat lassen, um mich um Zustimmung zu fragen (und nachdem ich die Zustimmung erteilt habe), das Tutorial unter folgenden Bedingungen weiternutzen:

Dieser Thread hier muss zuverlässig verlinkt werden, wenn das Tutorial z.B. woanders gebloggt, ins englische Forum oder in welcher Form auch immer übersetzt wird usw.
Jede Nutzung bedarf allerdings meiner Zustimmung eben über eine Nachricht.
Kommerzielle Nutzung des Tutorials, wie z.B. Druck oder dergleichen, ist ohne meine Zustimmung sowieso ausdrücklich verboten.

Wer die Techniken in seine Programmen benutzt, der wäre sehr fair, mich in den Credits seiner Programme zu erwähnen.

Für Schäden, die aus der Nutzung meiner Angaben und Daten entstehen, übernehme ich sicherlich keinerlei Haftung, ich warne sogar davor, meine Angaben zu nutzen und zu verwenden, sie könnten fehlerhaft sein und sie sind sicherlich auch fehlerhaft!

puretom · Beitrag von **puretom** » 07.10.2013 18:06

2. Literaturempfehlungen

Gerade im Bereich Compilerbau ist es sehr schwer, wirklich brauchbare Literatur zu finden. Natürlich habe ich mir in all den Jahren viel zusammengelesen und bin dann eben zu meiner ganz persönlichen Hit-Liste gekommen.
Viele Bücher in diesem Bereich sind meiner Meinung nach für den Hobbyprogrammierer völlig ungeeignet, obwohl sie tatsächlich immer wieder als Tipps genannt werden. Es stellte sich oft heraus, dass ich nach hunderten Seiten immer noch nicht in der Lage war, einen einfachen Scanner zu programmieren. Woran lag das? Vielleicht an meiner eigenen Begriffsstutzigkeit? Ich habe aber mehrfach gelesen im Netz, dass es nicht nur mir, sondern anderen ebenso erging.

Ein zusätzlicher hemmender Faktor ist, dass die meiste Literatur nur in Englisch vorliegt.
Auch das von mir so hochgelobte Compilerbau-Tutorial von Crenshaw, dem ich eigentlich einen Großteil meines Wissens zu verdanken habe, ist natürlich nur in Englisch zu haben (dafür aber gratis im Internet, was auch ein nicht zu unterschätzender Vorteil ist

).

Mein Ziel ist es ausdrücklich, es mit meinem Tutorial Crenshaw gleichzutun, ich möchte also einen Crenshaw auf Deutsch machen. Nicht mehr - also kein wissenschaftliches Buch - aber auch nicht weniger.

2.1. Literatur, die mir half, meinen ersten Compiler zu programmieren

Diese Bücher halfen mir schließlich meine ersten lauffähigen Compiler mit Pure Basic zu programmieren.

Let's Build a Compiler, von Jack Crenshaw
Für mich eine Offenbarung nach ewigem Suchen, für viele leider auf Englisch. Ich muss zugeben, dass ich durch das Lesen dieses Buches wieder in das Englishlesen hineingekommen bin, ich habe nicht nur Compilerprogrammieren durch Crenshaw gelernt.

Ich werde die Konzepte aus seinem Tutorial hier einfließen lassen.

Crenshaw kompilert im Original auf Motorola 68000 (der Amiga und der ATARI ST hatten eine CPU auf dieser Grundlage).
Außerdem verwendet er die Programmiersprache Pascal. Im Netz sah ich auch mal eine C-Version, aber ich gebe offen zu, dass die Pascal-Version für mich lesbarer ist als C.

Die Originalseite, Motorola 68000
PDF-Version, besser als im Original formatiert
besser formatiert, übersichtlich und X86-Code, für mich die derzeit beste Version (derselbe Link wie in der Überschrift)
Blunt Axe Basic: Let's Build a Scripting Engine-Compiler, von S. Arbayo

Wenn man Crenshaw verstanden hat, dann ist das das Werk der Wahl.
Es ist in C verfasst, daher für mich ungleich schwerer zu lesen. Somit hätte ich es als Erstlingswerk nicht so wirklich verstanden, vor allem wegen der C-mäßigen Stringbehandlung, mit der ich mich sehr quäle, aber Geschmäcker sind ja bekanntermaßen verschieden.
Aber als Zweitbuch war es toll für mich. Basiert in seinen Techniken sehr stark auf Crenshaw - ist also etwas wie eine Crenshaw-Variante, compilert auf X86-Assembler bzw. interpretiert im ersten Teil den Code als reiner Interpreter (auch eine interessante Variante).
Compiler Tutorial in Pure Basic, von unbekannt

Wer Crenshaw verstanden hat, dem wird hier ein kurzes und knappes und sehr gutes Tutorial in Pure Basic (!!!) geliefert, das ich besonders toll finde.
Der Compiler in diesem Tutorial kompiliert auf eine Registermaschine, noch dazu auf die echte x86-CPU. Das ist eine interessante Alternative für diejenigen, die keinen Stack Code wie ich in meinem Tutorial, sonder einen Registercode komplieren wollen.
Guten Appetit!
Compiler Construction, von Niklaus Wirth

Das ist der Mann der Eidgenössischen Technischen Hochschule (ETH) Zürich, der Pascal erfunden und programmiert hat.
Er hat die englische Version seines Buches auf die ETH-Homepage gestellt. Dieses Buch - als Kaufversion bei Amazon nach wie vor auf Deutsch erhältlich, ich habe es schließlich gekauft - hat mir, nachdem ich Crenshaw verstanden und mit einigen Toy-Compilern schon weiterexperimentiert habe, enorm weitergeholfen, vor allem das Kapitel mit der Virtual Machine (Er compiliert auf eine virtuelle Registermaschine).
Wirth ist knapp und dirty, ich hätte ihn ohne Crenshaw so von vornherein nicht verstanden, auf Englisch schon gar nicht, verwendet aber, wenn man unter die Motorhaube schaut, sehr ähnliche und in vielen Bereichen sogar dieselben Compilertechniken wie Crenshaw.
Die deutsche Kaufversion, die neben mir am Tisch liegt, ist nach wie vor bei Amazon erhältlich (Tipp: in Amazon ins Inhaltsverzeichnis schauen unter "Hier klicken Blick ins Buch" in der rechten Ecke des Fotos des Buchcovers!)
Compilers and Compiler Generators an introduction with C++, von P.D. Terry, Rhodes University, 1996

Vor allem die Kapitel 4, 6 und 7 haben mir beim Thema Virtual Machines und Assembler recht brauchbar weitergeholfen.

2.2. Literatur, die hilfreich ist, wenn man schon eine Ahnung von Compilern hat

Game Scripting Mastery, von Alex Varanese

Dieses enorm teure Buch auf Englisch ist dann eine Bibel, wenn man schon mehrere erfolgreiche Compiler-Gehversuche hinter sich hat und im Lernen voranschreitet.
Beginnt auch bei Adam und Eva, ist aber etwas schwerer verständlich als Crenshaw, aber wirklich enorm und unglaublich potent, wenn es um Virtuelle Maschinen, Scripting Systeme für z.B. Ego-Shooter bzw. Role Games oder dergleichen geht, ist ein Grundlagenwerk mit ca. 1272 Seiten und behandelt Compiler und Scripting von Grund auf. Wärmstens zu empfehlen unter der Voraussetzung, dass man schon Vorwissen hat, denn seine Techniken sind - na ja - nicht immer durchsichtig.

Kann natürlich auch, allein schon wegen des Umfangs und durch die genauesten Erklärungen, durchaus als Einsteigerwerk gelten, ich empfehle dennoch Crenshaw zuerst, weil er übersichtlicher ist zu Beginn, zumal Varanese C benutzt und ich persönlich Pascal übersichtlicher finde, aber wie oben gesagt: Geschmäcker ...
Die Kaufversion bei Amazon ist nach wie vor erhältlich, außerdem könnte man Glück haben und eine günstigere, aber dadurch auch nicht billige, Version ergattern.
(Tipp: in Amazon ins Inhaltsverzeichnis schauen unter "Look inside" in der rechten Ecke des Fotos des Buchcovers!)
Compiler Design: Virtual Machines, von Reinhard Wilhelm, Helmut Seidl

Für das Verstehen einer Stack Machine sehr hilfreich. Kapitel 2 und 5 waren für mich sehr brauchbar. Ist sicher kein Muss, trägt aber durchaus zum Erkenntnisgewinn bei.
Das Buch gibt es bei Amazon zu kaufen.
(Tipp: in Amazon ins Inhaltsverzeichnis schauen unter "Look inside" in der rechten Ecke des Fotos des Buchcovers!)
Using Peephole Optimization on Intermediate Code, von Andrew S. Tanenbaum, Hans van Staveren, Johan W. Stevenson, Vrije Universiteit, Amsterdam, The Netherlands

Wenn man seinen Stack Machine Code mit einem Peephole Optimizer optimieren will oder muss, dann ist dieses kurze wissenschaftliche Paper zwar uralt, aber bibelverdächtig.
Natürlich gibt es bereits viele neuere Techniken, die aber für einen solch klassischen Compileraufbau wie den unsrigen nicht notwendig sind.

Ich habe einige dieser Optimierungen in einem kleinen Testprogramm für mich angetestet, die in diesem Paper dargestellt werden, und diese funktionierten sehr gut. Sehr empfehlenswert für Stack Machines.
Language Implementation Patterns: Create Your Own Domain-Specific and General Programming Languages, von Terence Parr

Ist in Java verfasst, womit ich es persönlich schwer habe. Sicher kein Einsteigerwerk, aber das Kapitel Stack Machine ist interessant, aber nicht unbedingt notwendig.
Ist brauchbar, wenn man sich schon gut auskennt, aber nicht zwingend erforderlich, war für mich aber interessant.
Auch hier kann man bei Amazon ins Inhaltsverzeichnis schauen.

2.3. Literatur, die mir persönlich überhaupt nichts sagte

Compiler: Prinzipien, Techniken und Werkzeuge, von Alfred V. Aho, Monica S. Lam, Ravi Sethi, Jeffrey D. Ullman

Der englische Titel dieses Werkes lautet Compilers: Principles, Techniques, and Tools, by Alfred V. Aho, Monica S. Lam, Ravi Sethi, Jeffrey D. Ullman.

Ich möchte hier bitte keinen Glaubenskrieg (Flame War), aber das vielgelobte Drachenbuch aka. Dragon Book, das deshalb einmal so benannt wurde, weil auf alten Ausgaben (auf den neueren nicht mehr) ein Drache abgebildet war, hat mir bis heute nicht wirklich weitergeholfen, um ehrlich zu sein. Überall im Internet findet man die eindringlich vorgebrachten Tipps, sich doch endlich sein Drachenbuch zu kaufen. Ich besitze es, war aber enttäuscht.

Ich führe es vollständigkeitshalber an, weil es in jeder Literaturliste zum Compilerbau zumeist sogar als das Top-Werk auftaucht und dort gemeint wird, das sei die Bibel.

Wer einmal hineinschnuppern will, der kann ein Probekapitel auf Deutsch, das vom Verlag zur Verfügung gestellt wird, lesen. Es handelt sich um ein gutes Kapitel (Unten auf "Probelesen" gehen, dann kann man Inhaltsverzeichnis und ein Kapitel gratis als PDF runterladen).

2.4. Abschließende zusammenfassende Betrachtungen

Die echten Bibeln sind für mich für ...

Compilerbau: Crenshaw, Wirth, das PB Tutorial des unbekannten Autors, Varanese
Game Scripting: Varanese
Virtual Machine allg.: Varanese, Reinhard Wilhelm und Helmut Seidl
Virtual Stack Machine: Reinhard Wilhelm und Helmut Seidl, sowie Tanenbaum et al. zum Optimieren

puretom · Beitrag von **puretom** » 07.10.2013 18:37

3. Überblick über die Arbeitsweise eines Compilers und einer Virtuellen Maschine

3.1. Vorbemerkungen

Ein Compiler besteht aus mehreren Teilen, die einerseits eng ineinander greifen, teilweise aber auch nacheinander stehende eigene Programme sind. Ich plane hier keine wissenschaftliche Abhandlung über Compilertheorie, sondern einen praktischen Ad-Hoc-Ansatz.
Für moderne Compilertheorie verweise ich auf die entsprechende Fachliteratur, die ich als Hobbyist und die meisten anderen Personen ohne (wie die Englischsprechenden sagen) 'Degree in Computer Science' (zumeist Bacc. aufwärts) nur schwer verstehen.

Aus diesem Grund sind die Techniken, die ich hier vorstellen möchte, natürlich zum Teil veraltet und Ho-Ruck-mäßig, aber sie funktionieren. Man kann mit ihnen vermutlich keinen kommerziellen Compiler schreiben (oder doch?), aber für eine Scriptsprache in z.B. einem Role Game oder in einer Point&Click-Adventure-Engine oder dergleichen reichen sie aber haushoch.

Wenn man allerdings zuerst die Grundlagen zu Fuß erlernen möchte, um dann in einige Jahren DEN Supercompiler nach viel Dazulernen zu programmieren, dann ist man zunächst gut beraten, bei den primitivsten Grundlagen zu beginnen.
Nun, das ist das Ziel des Tutorials: Die allerprimitivsten Grundlagen.

Es folgt ein kurzer Überblick über das Gesamtprojekt.

3.2. Graphischer Überblick über die einzelnen Komponenten des Projekts

Aufbau eines Compiler-Gesamtpakets bis zur Virtuellen Maschine: