Witzig, ich habe tatsächlich erst letzte Woche darüber nachgedacht. Ich habe mich gefragt, warum eigentlich Grafikprogrammierung so viel schwieriger ist, als Soundprogrammierung. Man sieht das alleine schon am technologischen Fortschritt den wir erleben, da hat sich über die Jahre echt immer wieder super viel getan. Beim Sound hingegen, nun, es gibt natürlich auch hier Fortschritte, aber halt lange nicht so viel. Richtig offensichtlich war das in einem Video über die Star-Wars PC Spiele der letzten 30 Jahre, die halt alle seit immer die ikonischen Blaster- und Lichtschwertsounds verwenden, und somit alle irgendwie komplett gleich klingen. Ich vereinfache hier etwas, aber es sollte klar sein, was ich meine: Du konntest vor 30 Jahren einen Sound aus dem Film kopieren und für dein Spiel benutzen und das selbe kannst du heute quasi immer noch machen. Du konntest auch vor 30 Jahren ein Sprite aus dem Film kopieren, aber wenn du das heute machen willst, nunja, da wirst du eben ausgelacht, weil die Grafik schlecht ist.
Und das ist interessant, denn physikalisch betrachtet ist Schall eigentlich nicht einfacher als Licht. Beides kann man als Wellen beschreiben, aber bei Schall sind Welleneffekte viel interessanter, da man Szenen in der selben Größenordnung wie Schallwellen hat (bei Licht hat man dann eher Dinge wie Oberflächenunebenheiten im Nanometerbereich, die dann eben für diffuse statt spekulare Reflektionen sorgen). Es gibt auch Sound-Rendering, mit dem man z.B. berechnet, welchen Ton ein Becken erzeugt, wenn man dagegen schlägt (indem man seine Schwingung abhängig von seiner Geometrie und seinem Material berechnet), das sind dann aber in der Regel 3D-Voxel Simulationen die weit davon entfernt sind, in Echtzeit lauffähig zu sein. Kurz: Sound ist eigentlich überhaupt nicht einfacher als Grafik, es interessiert sich nur irgendwie kaum jemand ähnlich ernsthaft dafür.
Meine Antwort darauf war, dass Menschen eben hauptsächlich visuell arbeiten. Nun, die allermeisten zumindest. Blinde Menschen müssen fehlende Sehkraft mit anderen Sinnen kompensieren und diese dann entsprechend viel bewusster benutzen. Ein Raum klingt ja auch anders, wenn er verputzt ist, oder Fließen an der Wand hat, oder Teppich. Und Soundquellen klingen anders, wenn etwas zwischen ihnen und dem Hörer ist. Was mich da interessiert wäre, inwieweit ein Blinder sich damit tatsächlich orientieren kann. Könnte man z.B. mithilfe von Geräuschquellen durch eine Art Labyrinth laufen und hören, wo sich Wände befinden und dementsprechend vermeiden, in sie hinein zu laufen? Funktioniert das auch noch mit einer Säule inmitten eines großen Raumes? Wie dick müsste die dafür sein?
Naiv würde ich denken, dass man nur mit Schall alleine nicht wirklich auskommt, jedenfalls nicht so wie es eine Fledermaus tut. Man muss z.B. viele Dinge einfach ertasten. Und Tasten ist ja so ein Sinn den man in Videospielen trotz des VR-Booms noch so überhaupt nicht gut abdecken kann.
Hm, was ich mir vlt. noch realistisch vorstellen könnte wäre ein Spiel wie "Legend of Grimrock", also ein tilebasiertes Spiel aus der Egoperspektive, mit Surround-Sound und Geräuschquellen an den meisten Wänden und gut simuliertem Hall. Zusammen mit den sehr eingeschränkten Bewegungsmöglichkeiten (man kann die Anzahl der Tiles zählen, fast alle Räume sind kleiner als 10 Tiles) könnte das schon für eine rein audio-basierte Navigation ausreichen. Spannendes Thema.
Ich hab übrigens mal ein Video über einen blinden Zocker geschaut. Er hat Oddworld gespielt, ein Jump and Run mit "tile-basierter" Spiellogik (d.h. man kann immer nur diskrete Schritte nach links und rechts machen und somit nur an bestimmten Stellen stehen bleiben) und recht umfangreicher Soundkulisse. Dennoch war er viel auf auswendiglernen und Quicksaves angewiesen:
https://www.youtube.com/watch?v=jKOxsGpgzbQ
So viel zu meinen Gedanken. Um jetzt mal auf deine Frage einzugehen: So wie ich das verstehe geht es dir ja überhaupt nicht darum, nur anhand von Sounds zu Spielen, sondern sie nur zu nutzen um das Spielgeschehen interessanter zu machen, das macht es natürlich etwas leichter.
Aber egal ob man es jetzt Engine nennt oder nicht, jedes Spiel braucht eine interne Repräsentation des Spielablaufs. Der Grafikteil ist vielleicht in vielen Spielen die aufwändigste Komponente, aber das bedeutet ja nicht, dass der Rest trivial ist. Ich würde dein Projekt am ehesten mit einem Spiel mit 2D-Sprite-basierter Grafik vergleichen. Für die 'Darstellung' musst du für Spielobjekte die richtigen Sounds an der richtigen Stelle abspielen (anstatt die richtigen Sprites an der richtigen Stellen anzuzeigen), aber die Simulation der Spiellogik bleibt ansonsten gleich. Das Kampfsystem, die Charakterwerte, Gespräche, Quests, Gegenstände, etc..
Es gibt ja fertige Engines für Point-n-Click Adventures und auch für Textadventures findet sich bestimmt was. Aber gerade wenn du z.B. ein komplexes Kampfsystem willst, könnte sich eine eigene Engine anbieten. Anstatt einer Grafikausgabe brauchst du ja mindestens eine gute Möglichkeit, die aktuelle Szene als Text zu beschreiben. Du musst eben den aktuellen Spielzustand in Text übersetzen, anstatt in Pixel.
Für Soundeffekte gibt es ja hinreichend viele Bibliotheken die 3D-Sound ermöglichen, und das sollte man dann natürlich auch nutzen. Sprich, auch wenn du rudenbasierte Kämpfe hast sollten alle Charaktere 3D-Positionen haben damit man hört wer von wo Angreift oder vlt. sogar Geschosse von links nach rechts fliegen hört. Und anstatt Hintergrundgrafiken hätten diese Arenen dann Soundkulissen, je nachdem ob man im Wald oder im Dungeon oder in einer Stadt ist. Man könnte vlt. sogar analog zu einem Point-and-Click Adventure '2D' Räume haben die dann entsprechend viele Soundeffekte haben und die Mausbewegung definiert die Hörerposition, so dass man den 'Bildschirm' wie in einem Point-and-Click Adventure absuchen kann und dann mit den Soundquellen interagieren kann. Für Smartphones könnte man ggf. den Lagesensor verwenden und sich in Richtung eines Sounds drehen müssen um mit ihm zu interagieren (so augmented reality mäßig).