Die synthetische Erzeugung von Musik hat in den vergangenen Jahren zwar enorme Fortschritte gemacht, doch gerade Gitarren blieben ein Problemfall. Ihre Klangvielfalt, Spieltechniken, Phrasierungsnuancen sind nur schwer zu modellieren, vor allem wenn lediglich MIDI-Daten als Basis dienen. Ein Forschungsteam der Queen Mary University of London hat (in einem Paper mit dem Titel „GuitarFlow: Realistic Electric Guitar Synthesis From Tablatures via Flow Matching and Style Transfer„) nun ein Verfahren vorgestellt, das diese Schwierigkeiten auf überraschend effiziente Weise überwindet. Der Ansatz heißt GuitarFlow und basiert auf Flow Matching und einem gezielten Style-Transfer zwischen künstlich erzeugten und echten Gitarrensignalen. Klingt erstmal kompliziert, ist es nach Meinung der Verantwortlichen aber gar nicht.
Tablaturen statt MIDI
Denn während klassische KI-Modelle meist mit MIDI arbeiten, nutzen die Wissenschaftler für GuitarFlow ausschließlich Gitarren-Tabulaturen als Eingabe. Der Vorteil liegt auf der Hand: Tabs können Spieltechniken wie Bends, Slides, Legatos, Dead Notes oder Strumming detailreich abbilden. Solche Nuancen kommen in MIDI Daten nur sehr eingeschränkt vor. Die Forschenden erzeugen nun aus den Tabs zunächst ein einfaches, samplebasiertes Audiofile mittels eines virtuellen Instruments. Dieses dient jedoch nur als Rohmaterial.
Vom Rohklang zum realistischen DI-Signal
Im nächsten Schritt wandelt GuitarFlow diesen künstlichen Rohklang in ein realistisches E-Gitarren-DI-Signal um. Dazu setzt das Modell auf sogenanntes Flow Matching: Es lernt, wie sich ein synthetisches Beispiel über die Zeit hinweg in Richtung eines echten Gitarrensignals bewegen muss. Die Besonderheit: Als Trainingsmaterial genügen echte Gitarrenaufnahmen aus dem sogenannten GOAT-Datensatz. Dieser enthält „ungefähr 5,75 Stunden von bei 44,1 kHz aufgenommenem Gitarrensignal und die dazugehörigen Tabulaturen. Die KI benötigt lediglich zwölf Minuten Trainingszeit auf einer einzelnen GPU (Graphics Processing Unit). Das stellt im Vergleich zu bisherigen diffusionsbasierten Synthesemodellen einen drastisch reduzierten Aufwand dar.
Messbar besser – vor allem mit Verstärker
In objektiven Tests zeigen sich deutliche Verbesserungen gegenüber dem Ausgangsmaterial. Berechnungen zu Fréchet Audio Distance (FAD), Kernel Audio Distance (KAD) und Rekonstruktionsfehlern belegen, dass die erzeugten Signale näher am echten Gitarrensound liegen als die reine Tab-Rendering-Version aus Guitar Pro. Wie die Verantwortlichen ausführen bestätigt dies ein Hörtest mit 16 Teilnehmenden. Besonders mit Verzerrung über einen digitalen Gitarrenverstärker wird der Output als klar realistischer wahrgenommen. Verzerrung verdeckt hörbare Artefakte, die bei den rohen DI-Signalen die Illusion sonst stören würden.
Stärken und Schwächen
GuitarFlow überzeugt wohl vor allem bei Akkordspiel und Strumming, also einem Bereich, in dem viele virtuelle Gitarreninstrumente seit Jahren Schwierigkeiten haben. Bei einzelnen Noten treten dagegen gelegentlich hörbare KI-Artefakte auf. Die Forschenden vermuten Timing-Abweichungen zwischen den virtuellen und real aufgenommenen Einzelnoten als Ursache. Der Ansatz zeigt aber, dass realistische Gitarrensynthese nicht zwangsläufig auf gigantische Datenmengen und stundenlange Trainingsphasen angewiesen ist. Gleichzeitig bleibt die größte Hürde bestehen: Für noch bessere Ergebnisse müssten mehr Paardaten aus echten Gitarrenaufnahmen und präzisen Tablaturen gesammelt werden – ein zeitaufwendiges Unterfangen. Künftige Arbeiten könnten hier unüberwachte Lernverfahren oder größere synthetische Pretraining-Datensätze nutzen.
