Künstliche Intelligenz

„KI“, die geheime Zutat, die aktuell allerhand Produkte und Dienste auf magische Art und Weise verbessert und Lösungen für noch nie dagewesene Probleme bereitstellt. Es ist ein sehr interessantes Thema, welches jedoch an vielen Stellen nicht so richtig greifbar ist. Oftmals ist es auch nur ein Marketing-Werkzeug, wie bei der KI-Cola…
Ich habe mir in letzter Zeit ein paar Open-Source Projekte angeschaut, welche künstliche Intelligenz bzw. trainierte Datenmodelle nutzen, um beispielweise Bilder zu generieren oder natürlich auf Fragen zu antworten. Mein persönlicher Fokus lag dabei auf Lösungen, welche lokal auf dem PC laufen, also keine aktive Internetverbindung benötigen. Entsprechend potente Hardware wird jedoch vorausgesetzt.

Vorab sei gesagt, dass die Installation bzw. die Konfiguration vieler Tools noch nicht sonderlich einsteigerfreundlich ist und mit einigen Tücken daherkommen kann. Arbeiten mit der Kommandozeile, Einlesen in Dokumentationen/Wikis, sowie Kämpfen mit Python Abhängigkeiten kann erforderlich sein. Zum Glück gibt es mittlerweile gefühlt für alles entsprechende Anleitungen auf Youtube.

Bilder generieren

Stable Diffusion kann vereinfacht gesagt aus Text Bilder generieren oder bestehende Bilder verändern. So wird beispielweise aus dem Prompt „the legend of zelda and halo crossover link armor and big triforce logo on chest“ folgendes Bild:

Hierbei gilt: je genauer die Beschreibung, desto besser das Ergebnis. Du musst jedoch ein wenig mit den Eingaben und den Parametern herumspielen. Ein Zufallsmechanismus sorgt dafür, dass der gleiche Befehl jedes Mal ein unterschiedliches Resultat ausgespuckt. Es lohnt sich also, mehrere Vorschläge gleichzeitig generieren zu lassen. Manchmal erhältst du jedoch unfreiwillig auch Albtraum-Material.

Die AUTOMATIC1111/stable-diffusion-webui bietet den komfortabelsten Weg, Stable Diffusion zu installieren und zu nutzen. Das darin enthaltene Installationsskript installiert alle benötigten Softwarekomponenten und startet eine browserbasierte Benutzeroberfläche. Rechne allerdings so mit ca. 20 GB Speicherplatz für das gesamte Projekt.

Upscaling

Kurz: „Aus einem kleinen Bild ein großes Bild machen“. Für digitale Bilder gibt es schon seit Jahren verschiedene Algorithmen, welche dies bewerkstelligen, allerdings haben alle das gleiche Problem: Sie können nur die vorhandenen Bildinformationen (Pixel) aufblähen, sodass das Ergebnis zwar größer, aber dafür auch unscharf bzw. verwaschen wird.

KI, bzw. trainierte Modelle arbeiten nach einem anderen Prinzip. Sie versuchen, extremst vereinfacht ausgedrückt, Details hinzuzuerfinden. In dem unteren Beispiel siehst du links einen klassischen bikubischen Vergrößerungsalgorithmus und rechts die „intelligente“ Herangehensweise mittels Real-ESRGAN Ultrasharp. Du kannst auf das Bild klicken, um es zu vergrößern.

Das rechte Ergebnis sieht deutlich schärfer und detailgetreuer aus. Verschiedene Upscaling-Modelle funktionieren je nach Bildtyp unterschiedlich gut. Das hier gezeigte Ultrasharp eignet sich für Fotos oder Zeichnungen. Bei Vektorgrafiken bzw. Anime ist z.B.  realesrgan-x4plus-anime besser.

Du kannst die verschiedenen Upscaling-Arten über die zuvor vorgestellte Weboberfläche von Stable Diffusion testen. Einfacher und benutzerfreundlicher geht es jedoch über das Programm Upscayl, welches für Windows, Mac und Linux zu Verfügung steht.

Text zu Sprache und Stimme ersetzen

Kommen wir nun von Bild zu Ton. AI Voice Cloning erlaubt es dir, beliebigen Text vorlesen zu lassen und als Audio-Datei abzuspeichern. Anders als bei älteren Text-To-Speech-Anwendungen klingt die Stimme natürlicher und nicht wie ein Roboter. Die Benutzeroberfläche besteht auch hier aus einer lokalen Webseite, ähnelt aber wegen seiner vielen Regler und Schalter eher einem Flugzeugcockpit.

Ein englisches Audio-Beispiel hört sich so an:

Wie der Name vermuten lässt, ermöglicht AI Voice Cloning auch eigene Stimmen für die Sprachausgabe zu verwenden. Dazu benötigst du möglichst viele Sprachsamples in guter Qualität und ohne Hintergrundgeräusche. In meinen Tests waren die Ergebnisse jedoch eher suboptimal. Das Projekt Retrieval-based-Voice-Conversion-WebUI liefert hier bessere Ergebnisse, benötigt allerdings auch deutlich mehr Rechenleistung-/Zeit für die Erstellung eines eigenen Sprachmodells. Coqui TTS wäre eine weitere Alternative für die Umwandlung von Text-Zu-Sprache.

Chatbot

Der Hype um künstliche Intelligenz hat so ziemlich mit der Vorstellung von ChatGPT angefangen, einem Chatbot, der scheinbar auf jede Frage eine Antwort weiß und auch Tipps, Kochrezepte und Witze parat hat. Er kann sogar einfache Dinge programmieren bzw. nahezu syntaxfehlerfreien Quellcode ausspucken. Was gibt es als lokale Alternative? Tatsächlich eine Menge, jedoch eher mit durchwachsener Qualität. Die aktuell populärste Kombination ist vermutlich die oobabooga/Text generation web UI in Verbindung mit dem Llama 2 Sprachmodell von Meta.

Wie schlägt sich das Kamel? Als Schulnote würde ich eine 3- vergeben. Es ist immer noch erstaunlich, dass dieses System Fragen interpretieren und selbstsicher beantworten kann, allerdings liegt es auch häufiger mal daneben oder versteht die Frage nicht. Wenn du die Antwort selbst validieren kannst, ist das nicht weiter tragisch. Als verlässliche Informationsquelle ist es allerdings (noch) nicht zu gebrauchen.

Hier geht meine Empfehlung eher an den kostenlosen (online) Bing AI Chat, welcher auf GPT-4 basiert und auch das Internet nach zusätzlichen Informationen durchsuchen kann. Dieser ist noch eine ganze Ecke präziser, auch wenn du „ihm“ trotzdem nicht alles glauben solltest ;)

Fazit

Ich finde es erstaunlich, was mit KI jetzt schon alles möglich ist und wie schnell sich die verschiedenen Projekte weiterentwickeln. Es wird nicht mehr lange dauern, bis die Technologien dahinter von der breiten Masse genutzt werden können. Die Einsatzbereiche und der Nutzen sind vielfältig, leider aber auch das Missbrauchspotential.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert