Ich habe getestet wie gut Suchmaschinen, LLMs und klassische Voice Assistants darin sind Fragen zu beantworten. Nur Bing Chat konnte überzeugen und schlägt ChatGPT, Google und Siri um Längen.

Ergebnisse

Bing (Suche & Chat) haben nie falsch geantwortet. Am nächstbesten war Google Home mit 2%.

Siri und Cortana haben am häufigsten die Antwort verweigert (58%), gefolgt von der Bing Suche (46%).

Der Bing Chat hat am häufigsten geantwortet (84%), gefolgt von ChatGPT (74%) und You (70%).

You lag mit 10% am häufigsten falsch, gefolgt von ChatGPT und Siri (je 6%).

Details

Bing Chat, ChatGPT und You haben 95% aller Wissens-Fragen korrekt beantwortet. Am schlechtesten haben Siri und Cortona abgeschniutten mit je unter 30% vollständigen und korrekten Antworten und je 10% falschen Antworten.

Bei Fragen, die Kontext (mein aktueller Standort) und/oder Zugriff auf Live-Informationen benötigen liegt die Google Suche mit 55% korrekt beantworteten Fragen vorne. Das Schlusslicht ist ChatGPT mit 0% korrekten und 18% falschen Antworten.

Bei simplen Fakten haben Bing Chat und ChatGPT zu 100% richtig gelegen, gefolgt von der Google Suche, You und Google Home (je 80%).

Bing Chat und ChatGPT haben garkeine Probleme mit verschachtelten Fragen. Siri und Cortana hatten einen Totalausfall.

Außer Google Home, Siri und Cortana konnten alle Systeme bei Fragen zur korrekten Schreibweise bestimmer Begriffe helfen.

Nur ChatGPT hat alle Kinder-Rätsel gelöst.

Bing Chat, ChatGPT und You haben alle Quatsch-Fragen als solche erkannt. Am schlechtesten hat Google abgeschnitten und sogar eine der Fragen falsch beantwortet.

Fragen nach meiner oder der eigenen Identiät haben Bing Chat, Google Home und Siri überzeugt.

Entwicklung seit 2017

Google Home, Cortana und Siri haben sich seit meinen ersten Tests in 2017 und 2018 weiterentwickelt. Google Home und Siri können heute 11% - bzw 14% - mehr Fragen beantworten. Corta sogar 27% mehr - allerdings ware Cortana in jedem Test (2017, 2018, 2023) das Schlusslicht.

Die Studie

  • Im März 2023 habe ich die Bing Suche, den Bing Chat, ChatGPT, den You Chat, die Google Suche, Google Home, Cortana und Siri mit 50 Fragen in deutscher Sprache getestet.
  • 32 der Fragen sind identisch zu meinen Voice Asssistant Studien aus 2017 und 2018.
  • Eine korrekte Antwort gab +2 Punkte, eine halb-richtige +1 und eine falsche -2.
  • Am Ende wurde auf eine lineare Skala von -5 bis +5 normiert.

Prognose

Ich gehe davon aus, dass zwei Dinge passieren werden:

  • Innerhalb weniger Wochen wird ChatGPT mit dem Bing Chat gleich ziehen. Dafür muss nur das Live Web Crawling an alle Nutzer ausgerollt werden.
  • Innerhalb von 5 Jahren wird Siri (oder ein neues System von Apple) auf Platz 1 landen. Mit GPT3 vergleichbare LLMs laufen bereits auf aktuellen MacBook. Spätestens mit der übernächsten iPhone-Version werden wir GPT4 und Midjourney v6 in der Hosentasche haben. Die Kombination aus lokaler Rechenleistung, Standort, Kamera und Privatsphäre ist quasi nicht zu schlagen.