Funktionsweise
Gemini verarbeitet Text, Bilder, Audio und Video mit Hilfe der multimodalen Transformer-Modelle von Google. Die Nutzer interagieren per Chat, Sprache oder durch das Hochladen von Dateien. Das Modell kann Bilder analysieren, Text generieren, Code schreiben und debuggen und über komplexe Themen nachdenken. Dank der tiefen Google-Integration kann es auf Gmail, Docs, Drive und andere Dienste zugreifen, wenn dies erlaubt ist. Das Kontextfenster mit 1 Mio. Token ermöglicht die Verarbeitung extrem langer Dokumente und ganzer Repositories.