Revolutionäre KI: Gemini Live ermöglicht interaktive Gespräche mit KI-Chatbot

Google hat auf der Google I/O 2024 eine neue Funktion namens “Gemini Live” vorgestellt. Dabei handelt es sich um eine verbesserte Art der Sprachinteraktion, die es zahlenden Abonnenten ermöglicht, mit dem KI-Chatbot Gemini auf ihren Smartphones “in-depth” Sprachgespräche zu führen. Benutzer können Gemini sogar mitten im Satz unterbrechen, um Klarstellungsfragen zu stellen. Die KI passt sich in Echtzeit an die Sprechmuster der Benutzer an und kann auch auf die Umgebung der Benutzer reagieren, sei es durch Fotos oder Videos, die von den Smartphone-Kameras aufgenommen wurden1.

Ähnlich wie OpenAI mit ChatGPT-4o hat Google mit Gemini Live eine KI entwickelt, die ohne Verzögerung auf Anfragen, Einwände und Wünsche reagiert. Während OpenAI eine fiktive Einschlafgeschichte vorführte, sieht Google Anwendungsmöglichkeiten für Bewerbungsgespräche. Die KI kann Tipps zur Gesprächsführung geben und betonen, welche Fähigkeiten ein Bewerber hervorheben sollte. In zukünftigen Versionen soll Gemini Live sogar mit einer Kamera kombiniert werden können, um die Umgebung des Gesprächspartners zu verstehen1.

Unter dem Codenamen “Project Astra” arbeitet Googles KI-Tochter DeepMind an KI-Agenten, die den Google Assistant ersetzen sollen. Systeme wie Gemini haben Fortschritte bei der multimodalen Verarbeitung von Bildern, Texten, Videos und Sprache gemacht. Die Herausforderung besteht nun darin, diese Systeme so schnell zu machen, dass natürliche Gespräche zwischen Mensch und Maschine möglich sind1. In einem Beispiel wurde gezeigt, wie Gemini Live mit einem Smartphone durch einen Raum ging und auf Anfrage sofort eine Lautsprecherbox erkannte. Später half es dabei, eine verlegte Lesebrille im Büro aufzuspüren1.

Es ist spannend zu sehen, wie KI-Modelle wie Gemini Live und ChatGPT-4o die Interaktion zwischen Mensch und Maschine weiterentwickeln und neue Anwendungsmöglichkeiten eröffnen.