[Tutorial] Compiler und Virtual Machine

puretom · Beitrag von **puretom** » 19.09.2013 19:19

*** KAPITEL 3 ***

3. Das große Bild

3.1. Einleitung

Ein Compiler besteht aus mehreren Teilen, die einerseits eng ineinander greifen, teilweise aber auch nacheinander stehende eigene Programme sind. Ich plane hier keine wissenschaftliche Abhandlung über Compilertheorie, sondern einen praktischen Ad-Hoc-Ansatz.
Für moderne Compilertheorie verweise ich auf die entsprechende Fachliteratur, die ich als Hobbyist und die meisten ohne (wie die Englischsprechenden sagen) 'Degree in Computer Science' (zumeist Bacc. aufwärts) nur schwer verstehen. Aus diesem Grund sind die Techniken, die ich hier vorstellen möchte, natürlich zum Teil veraltet und Ho-Ruck-mäßig, aber sie funktionieren. Man kann mit ihnen vermutlich keinen kommerziellen Compiler schreiben (oder doch?), aber für eine Scriptsprache in z.B. einem Role Game oder in einer Point&Click-Adventure-Engine oder dergleichen reichen sie aber haushoch.

Es folgt ein kurzer Überblick über das Gesamtprojekt, wobei natürlich in den Kapiteln später die einzelnen Komponenten genauer erklärt und auch Programmcode gezeigt werden soll.

3.2. Überblick über die Teile des gesamten Projekts

3.2.1. Der Compiler

Ein Compiler ist ein Programm, das eine Hochsprache (also C oder eben Pure Basic) in Assembler (ASM) umwandelt. Das macht auch der Pure Basic Compiler. ASM ist aber noch Textform, d.h. es muss danach ein Programm geben, das ASM in Textform in maschinenlesbare Zahlen umwandelt (=Assembler).

Es gibt auch Compiler, die direkt in Maschinensprache in Zahlenform übersetzen (Wirth z.B übersetzt direkt in die Maschinenesprache seiner virtuellen RISC-Maschine). Das ist aber ungemein komplizierter und wie häufig solche Direktcompiler sind, weiß ich nicht, vielleicht kann jemand im Thread aushelfen.
Leichter ist es, in ASM als Text zu übersetzen und dann einem weiteren Compiler, den man in diesem Fall Assembler nennt, die Arbeit zu überlassen, in Maschinensprache in Zahlenform zu übersetzen.

Ein Compiler besteht zumeist aus folgenden Komponenten:

lexikalischer Scanner, Scanner, Lexer, Tokenizer (das ist alles dasselbe, sind nur verschiedene Begriffe)

Das Source-File ist ein Strom von Ascii-Zeichen (Characters, Character Stream, Anm.: auch andere Kodierungen wie z.B. Unicode oder UTF-8 sind selbstverständlich möglich, siehe PB-Hilfe), die aber natürlich nicht willkürlich sind, sondern sich zu zusammengehörenden Teilen (Lexeme/Objekten) zusammenbauen.
Das können zum Beispiel Zahlen (Number), Zeichenketten in Anführungszeichen (String), Operatoren (Op: z.B. +,-,=,*,<>, ...), Bezeichner (Identifier) von Variablennamen/Kommandowörtern/Procedure-Namen (Name) usw. sein, nur um einen kurzen Überblick anzudeuten.

Der Tokenizer erkennt im Zeichenstrom zusammengehörende Teile/Lexeme/Objekte.
Er ordnet dem Objekt ein Token zu, das ist eine Code-Zahl, die angibt, welcher Art das Objekt war, also zum Beispiel ein Name.
In einen String mit dem Fachausdruck Lexem speichert er das Objekt dann selbst.

Anmerkung zu Benennung der Variable "Lexem":
Lexem bedeutet "sprachliche Bedeutungseinheit", also etwas, das zusammengehört.

Ein Beispiel:
Code: Alles auswählen
```
Zeichenstrom: Im Source-File steht:

Var=22

|V|a|r|=|2|2| ---> 6 Zeichen/Character 

---> 3 Token-Lexem-Paare:

Token.i = #Name |  Lexem.s = "Var"
Token.i = #Op   |  Lexem.s = "="
Token.i = #Num  |  Lexem.s = "22"
```
Selten wird das Source-File vom Lexer vollständig untersucht und dann diese Token-Lexem-Paare gespeichert.
Zumeist sind der Lexer und der Parser so eng verzahnt, dass der Parser, immer wenn er ein neues Token-Lexem-Pärchen braucht, das vom Lexer anfordert und geliefert bekommt.
Lexer und Parser sind also - so wie ich meinen Compiler programmieren möchte - keine 2 getrennten und hintereinander ausgeführte Programmteile, sondern 2 Komponenten, die gleichzeitig ablaufen und ineinander greifen.

http://de.wikipedia.org/wiki/Tokenizer

Es gibt auch Programme, mit denen man Parser und Compiler generieren kann. Mit diesen habe ich aber noch nicht gearbeitet und will ich auch nicht, weil ich etwas über Compilerbau per Hand lernen wollte.
Der Vollständigkeit halber:

http://de.wikipedia.org/wiki/Lex_(Informatik)
http://de.wikipedia.org/wiki/Yacc
Parser

Während den Scanner nur die einzelnen Buchstaben interessieren, aus denen er Lexeme und Token macht, untersucht der Parser, wie ein Programm aufgebaut ist.

Der Parser schaut, ob die While-Schleife richtig vom Programmierer aufgebaut ist, der Parser untersucht einen mathematischen Ausdruck nach Punkt-vor-Strich-Rechnung/ Klammern usw.
Ein Beispiel zeige ich beim Codegenerator etwas weiter unten.

Viele kommerzielle Parser bauen einen sogenannten Parsebaum (Parse Tree, Syntaxbaum, Ableitungsbaum) aus dem Source-Code, den sie dann an einen Codegenerator übergeben.

In meiner Implementation gibt es zwar ein Modul Code, das aber eng mit dem Parser verzahnt ist. Anders gesagt, der Parser erzeugt bereits selbst Code, indem er Aufträge an den Codegenerator gibt. In der praktischen Umsetzung wird das dann klarer, keine Sorge.

Genauere Informationen zur akademischen Compilertheorie, die weit über meinen rein praktischen Ad-Hoc-Ansatz hinausgeht, wie zum Beispiel verschiedene Parsingtechniken, siehe folgende Links:

http://de.wikipedia.org/wiki/Parser
http://de.wikipedia.org/wiki/Parsebaum
Codegenerator

Mein Codegenerator ist eng verzahnt mit dem Parser. Er erzeugt auf Anweisung und im Auftrag des Parsers Byte Code für die Virtuelle Maschine.

Ein Beispiel:

Im Source-Code steht: < Var = 3+12 >

Der Parser parst jetzt Token/Lexem für Token/Lexem-Paar und erzeugt folgenden Byte Code, den der Compiler als Text-File (nennen wir es Object-File) abspeichert.
- Der Parser sieht Token =#Name, Lexem ="Var":
  Ist es ein Schlüsselwort/Kommandowort wie z.B. 'if', 'while', ...? --> Nein.
  Ist es ein Procedure-Name (schaut z.B. in einer Map nach)? --> Nein.
  ==> es muss ein Variablenname sein, der Parser vermutet, dass jetzt eine Variablenzuweisung folgen wird, also ein "=", ruft die entsprechende Prozedur auf und merkt sich den Namen "Var".
- Der Parser sieht Token =#Op, Lexem ="=":
  Genau das hat der Parser erwartet. Wäre jetzt kein "=" gewesen, hätte er eine Fehlermeldung ausgegeben.
- Der Parser sieht Token =#Num, Lexem ="3":
  Genau das hat der Parser erwartet. Wäre jetzt kein #Num gewesen, hätte er eine Fehlermeldung ausgegeben.
  Da ich eine Stack Machine bauen will, gibt der Parser dem Codegenerator den Befehl, dass er die Nummer "3" auf den Stack legen soll (push 3).
- Der Parser sieht Token =#Op, Lexem ="+":
  Genau das hat der Parser erwartet. Wäre jetzt kein #Op gewesen, hätte er eine Fehlermeldung ausgegeben.
  Durch den rekursiven Parser (dazu viel später mehr), merkt er sich das "+".
- Der Parser sieht Token =#Num, Lexem ="12":
  Genau das hat der Parser erwartet. Wäre jetzt kein #Num gewesen, hätte er eine Fehlermeldung ausgegeben.
  Da ich eine Stack Machine bauen will, gibt der Parser dem Codegenerator den Befehl, dass er die Nummer "12" auf den Stack legen soll (push 12).
- Der Parser erkennt aufgrund seiner rekursiven Natur, dass der mathematische Ausdruck zu Ende ist.
  Er hat sich gemerkt, dass "+" noch nicht ausgeführt wurde und gibt dem Codegenerator den Befehl zu addieren (add).
  Weiters weiß er, dass er eine Zuweisung an eine Variable durchführen muss. Dazu hat er sich ja oben "Var" gemerkt und gibt dem Codegenerator den entsprechenden Befehl (pull Var).
  
  Der erzeugte Bytecode (in Textform) schaut jetzt folgendermaßen aus (in Klammer sind die Schritte, die die Virtual Machine ausführt, wenn der Code abläuft):
  Code: Alles auswählen
```
push 3      // lege 3 auf den Stapel (Stack) 
push 12     // lege 12 auf den Stapel (Stack) 
add         // hole 12 und 3 (oberstes + nächstes Element) vom Stapel         
               addiere sie und lege Ergebnis auf Stapel
               ganz oben am Stapel liegt jetzt 15
pull Var    // hole 15 (=oberstes Element) vom Stapel 
               speichere es in Variable "Var" ab
```
In der Endausbaustufe der Virtuellen Maschine wird der Code etwas genauer sein (z.B. float, integer wird unterschieden werden), aber ich denke, das Beispiel zeigt die Richtung, in die es geht.
Optimizer, Optimierer, Optimierungsstufe

Der erzeugte Code ist nicht effizient. Auf den ersten Blick sieht man, dass man "12+3" eigentlich schon beim Kompilieren ausrechnen hätte können, weil es ja Konstanten sind. Man nennt das Constant Folding.

Für eine einfache Scriptsprache, bei der es nicht um Speed geht, empfehle ich diesen Schritt sogar wegzulassen, denn der User wird schlicht keinen Unterschied merken. Schauen wir mal, wie weit ich mit dem Tutorial komme und ob ich diesen Schritt herzeige. Ich habe damit selbst erst experimentielle Grundlagentests durchgeführt. Wenn, dann mache ich das als Letztes, frei nach dem Spruch (weiß nicht, wer das gesagt hat, habe ich mal aufgeschnappt): Optimiere funktionierenden Code nie, es sei denn, du musst unbedingt (so oder so ähnlich).

Der Optimizer ist jetzt tatsächlich ein eigenständiger Programmschritt, liest also nochmals das Object-File ein und sucht nach bestimmten Mustern (Pattern) im Code (und er benutzt dabei wieder unseren Scanner), in diesem Fall ist das:
- PUSH einer beliebigen Konstante
- PUSH einer beliebigen Konstante
- MATHEMATISCHER BEFEHL wie z.B. "add" hier in unserem Beispiel
Findet also der Optimizer dieses Muster (push const, push const, Mathe), dann optimiert er, indem er sofort das Ergebnis ausrechnet und dieses auf den Stack legt. Er verändert also das Object-File folgendermaßen:
Code: Alles auswählen
```
push 15     // lege 15 (=12+3) auf den Stapel (Stack) 
pull Var    // hole 15 (=oberstes Element) vom Stapel 
               speichere es in Variable "Var" ab
```
Constant Folding ist eine der einfachsten Optimierungen, in meiner Literaturliste sind im Paper von Andrew S. Tanenbaum eine Vielzahl erklärt.
Niklaus Wirth beschreibt diese Optimierung schon als Teil des Codeerzeugens, also ohne eigenständigen Optimizer, geht auch, mir ist nachträgliches Optimieren lieber, weil es das Programm für mich lesbarer macht und auch kompliziertere Optimierungen zulässt.

Jetzt ist die Arbeit des eigentlichen Compilers, also Hochsprache wie C oder Pure Basic in Assembler (ASM) umzuwandeln, abgeschlossen.

Als Endprodukt erhalten wir ein Text-File (=Object-File), in dem der Byte Code als Text gespeichert ist. Dieser kann so natürlich nicht in der Virtual Machine ablaufen, denn die versteht nur Zahlen.

3.2.2. Der Assembler

Das als Text vorliegende Object-File muss jetzt in Zahlen gegossen werden.
Ein Assembler ist ein Compiler. Er übersetzt ein Assemblerprogramm (=Maschinensprache als Text, ASM in Pure Basic) in Maschinensprache als Zahl.
Maschinensprache sind die Befehle, die der Mikroprozessor wirklich versteht.
(siehe sehr gut dargestellt in: http://de.wikipedia.org/wiki/Assemblersprache)

Ein Compiler, der eine Hochsprache wie Pure Basic in Assembler (ASM) übersetzt, ist ein Compiler, einer der Assembler als Text in Maschinensprache als Zahl übersetzt, heißt zumeist nicht Compiler, obwohl er das ist, sondern Assembler.

Wenn ich nicht direkt in ASM meines Prozessors übersetze, sondern mir einen Prozessor erfunden habe, diesen also später simuliere, dann habe ich eine Virtuelle (=nicht echte, simulierte, erfundene, emulierte, ...) Maschine.
Die Sprache dieses erfundenen Mikroprozessors nennt man zumeist Byte-Code-Maschinensprache in Analogie zum echten Mikroprozessor, das Übersetzungsprogramm in Zahlen auch wie beim echten Assembler.

Der Assembler braucht wieder einen Lexer und Parser in sich, denn er arbeitet wieder mit Lexemen (z.B. "push") und Tokens wie #Num usw.
Diese sind aber einfacher als beim Compiler für Hochsprachen (v.a. der Parser), da Assembler einfacher und geradliniger ist.

Ein Beispiel:

Unser Assembler übersetzt unseren Code in folgende Zahlenfolge (die Zahlen sind einfach mal angenommen):