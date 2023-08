Der Weg zum KI-Sommerhit (3/6) – Tag 3: Google gegen Meta – der grosse Song Contest Beim Versuch, mit der künstlichen Intelligenz den diesjährigen Sommerhit zu erschaffen, setzen wir auf zwei Weltkonzerne. Sie bringen uns an den Rand der Verzweiflung. Ane Hebeisen

Zwischen Neugier und Fassungslosigkeit: Redaktor Ane Hebeisen und Computerexperte Stefan Fuhrer. Foto: Raphael Moser

Ich habe schlecht geschlafen. Die Arbeit mit der künstlichen Intelligenz zeigt erste Nebenwirkungen. In einem Albtraum bin ich durch die Stadt spaziert und bin ausschliesslich auf Menschen gestossen, die nur noch zusammenhanglose Floskeln von sich gaben. So in etwa kann man auch das umschreiben, was uns die KI bisher musikalisch angeboten hat: Floskeln.

Unser erster Versuch, mit dem bekannten KI-Musikgenerator Boomy einen Boden für unseren Sommerhit zu produzieren, ist kläglich misslungen und hat uns bestenfalls ein paar hüpfende Beats beschert, die wir extrahieren konnten. Also wechseln wir den Anbieter: Ein weiterer KI-Musikgenerator heisst Soundraw und wirbt mit dem gar nicht mal so knackigen Slogan «Hör auf, nach dem Song zu suchen, den du brauchst. Mache ihn!» Also rein ins Vergnügen.

Wir kommen ins Sinnieren. Die neue Musikwelt ist nur noch in diese zwei Dimensionen unterteilt: Stil und Mood.

Zunächst finden sich da, wie auf fast all diesen KI-Musik-Tools der ersten Generation, Kacheln, mit denen sich der gewünschte Musikstil und der Mood eingeben lassen. Wir kommen ins Sinnieren. Die neue Musikwelt ist ohnehin nur noch in diese zwei Dimensionen unterteilt: Stil und Mood. Das kennt, wer schon einmal einen Song auf Spotify geladen hat. Da gilt es zu entscheiden, ob das eigene Lied nun «angry», «euphoric» oder «hopeful» ist, «Indie», «Soul» oder «World» – was unwiderruflich darüber entscheiden wird, was algorithmisch später aus ihm werden könnte.

Telefon-Warteschleifen-Musik

Im Soundraw-Kontext entscheiden wir uns draufgängerisch für «sexy» und «Latin». Aus diesen dürren Parametern spuckt der Generator bereits 15 Songideen aus, die jedoch nicht wirklich nach Sommerhit tönen. Vielmehr klingen sie wie diese lizenzfreie Nichtsnutz-Stimmungsmusik, die man zuweilen in Lobbys von Hotelanlagen oder in Telefon-Warteschlaufen vorgesetzt bekommt und mit denen sich bestenfalls irgendwelche Heimvideos von den letzten Ferien vertonen lassen.

Womit wir wieder beim grössten Problem der derzeitigen KI-Musikwelt sind: Da die Musikindustrie ihren Musikschatz nicht zu Lernzwecken zur Verfügung stellt, wird die künstliche Intelligenz mit ebendieser lizenzfreien Telefon-Warteschleifen-Musik gefüttert und klingt auch dementsprechend unchic. Das Verdikt von Kollege Steff: «Unbrauchbar.»

Wir sind uns einig: Jetzt hilft nur noch die Wunderwaffe. Kaum hat Google nämlich sein künstlich-intelligentes MusicLM-Programm vorgestellt, das aber bloss ausgewählten Personen zum Testen angeboten wird, hat der mächtige Meta-Konzern den KI-Musikgenerator MusicGen aufgeschaltet. Und der ist offen für alle (die es schaffen, das Ding zu installieren…).

Das Gesicht von Assistent Steff hat sich verfinstert. Er hat den halben Tag damit zugebracht, das neue Tool dazu zu bewegen, brauchbare Musik zu kreieren.

An unserer Morgensitzung formt Steff ein Gesicht, wie er es vermutlich letztmals formte, als das Internet erfunden wurde. Es ist ein für Computerexperten-Verhältnisse ausgesprochen zuversichtliches Gesicht. Er habe bereits Videos und Berichte von ersten Quervergleichen gesichtet, und die seien alle zum Ergebnis gekommen, dass der Meta-Generator bereits besser sei als der wenige Wochen ältere von Google. Das Versprechen ist ungefähr das gleiche: MusicGen soll Musik nach einer textlichen Umschreibung kreieren können. Und wir sind optimistisch: Wer gerade dabei ist, ein virtuelles Paralleluniversum zu erschaffen, der wird ja wohl auch einen brauchbaren Musikgenerator bauen können.

Als wir uns am Abend wiedersehen, hat sich das Gesicht von Assistent Steff merklich verfinstert. Er hat den halben Tag damit zugebracht, das brandneue (zum Zeitpunkt unseres Experiments erst seit zwei Tagen aufgeschaltete) Tool dazu zu bewegen, brauchbare Musik zu kreieren, und sieht nur noch so lala zuversichtlich aus. «Dieser Musikgenerator ist noch wie ein Bébé», schimpft er. Zwar habe man ihn mit 20’000 Stunden Musik trainiert, und man habe ihm 390’000 Instrumentalstücke aus irgendeinem Stock-Archiv zum Lernen unterbreitet.

Er mache derzeit jedoch noch Dinge, die niemand so recht verstehe. «Aber wehe, wenn dieses Teil einmal in Fahrt kommen wird…», sagt Steff und schaut in die nicht vorhandene Ferne seines Kellerstudios: «Dann wird in der Musikproduktion nichts mehr so sein wie zuvor.»

Wie in einer Szene aus «Per Anhalter durch die Galaxis»

Also ran ans Eingabefenster! Der Auftrag ist klar: «Reggaeton mit Ukulele und Kate-Bush-Flair», wir drücken «Generate», und schon verbindet sich der Meta-Generator mit seinem neuronalen Netzwerk. Der Rechner kommt ins Glühen.

Es dauert ein bisschen, und wir erinnern uns an eine Szene im Buch «Per Anhalter durch die Galaxis», als der letzte überlebende Mensch einen Bordcomputer dazu bewegen will, ihm eine Tasse Tee zuzubereiten. Das verlangt diesem dermassen viel Denk- und Rechenleistung ab, dass das Raumschiff keine Energie mehr hat, während eines feindlichen Angriffs die Schutzschilder hochzufahren.

Im Keller von Steff droht – ausser schlechter Musik – keine unmittelbare Gefahr, und nach einiger Zeit spuckt die künstliche Intelligenz von MusicGen ein erstes Resultat aus. Wir sind erwartungsfroh wie zwei Kinderchen an Weihnachten, die sich dann aber mit selbst gestrickten Wollsocken in ungünstiger Farbe konfrontiert sehen. Der erste Vorschlag von MusicGen ist eine relativ unheimliche Sache. Man erkennt im 30-Sekunden-Snippet verschwommen eine Ukulele, auch schien die künstliche Intelligenz um eine Harmonie bemüht und um einen Beat, der karibisch hüpft, aber brauchbar ist das Ergebnis nicht.

Wir fordern von der KI «Reggaeton mit Ukulele und Kate-Bush-Flair» und erhalten dies. Video: MusicGen

Also füttern wir den Generator – das kann man – mit dem Intro von Kate Bushs «Running Up That Hill», was ihm tatsächlich ein bisschen auf die Sprünge hilft. Nach circa 40 Versuchen und Feinjustierungen unsererseits generiert er eine Melodie, die wir mit viel Fantasie auf unserem Keyboard nachempfinden können. Aber uns wird an diesem Abend schmerzlich bewusst: Allein wird die KI uns noch keinen Sommerhit generieren können. Wir werden ein bisschen helfen müssen.

