Splitter: »AI Search Has A Citation Problem« (Columbia Journalism Review)

Jan-Felix Schrape | 11. März 2025

Das Columbia Journalism Review hat prominente KI-Chatbots mit einer einfachen Aufgabe auf die Probe gestellt: In der Studie (siehe auch: Daten auf GitHub) wurde jedem der System ein Zitat aus einem Artikel vorgelegt und der Chatbot wurde gebeten, den Artikel zu finden, einen Link dazu zu liefern und die Überschrift, die ursprünglich veröffentlichende Organisation und das Veröffentlichungsdatum zu nennen:

»We randomly selected ten articles from each publisher, then manually selected direct excerpts from those articles for use in our queries. After providing each chatbot with the selected excerpts, we asked it to identify the corresponding article’s headline, original publisher, publication date, and URL […]. We deliberately chose excerpts that, if pasted into a traditional Google search, returned the original source within the first three results. We ran sixteen hundred queries (twenty publishers times ten articles times eight chatbots) in total. We manually evaluated the chatbot responses based on three attributes: the retrieval of (1) the correct article, (2) the correct publisher, and (3) the correct URL.«

Getestet wurden OpenAI ChatGPT Search (4o), Perplexity, Perplexity Pro, DeepSeek-V3 Search, Microsoft Copilot, xAI Grok-2, xAI Grok-3 (beta) und Google Gemini (2.0 Flash). Verhältnismäßig am besten abgeschnitten haben Perplexity Pro, Perplexity und ChatGPT; fast nur inkorrekte Ergebnisse lieferten Grok und Gemini. Was laut der Studie überraschte, war das durch die Bank hohe Maß an vermittelter Sicherheit der Antworten der Chatbots, oft ohne auf mögliche Unzuverlässigkeiten hinzuweisen:

»Overall, the chatbots often failed to retrieve the correct articles. Collectively, they provided incorrect answers to more than 60 percent of queries. Across different platforms, the level of inaccuracy varied, with Perplexity answering 37 percent of the queries incorrectly, while Grok 3 had a much higher error rate, answering 94 percent of the queries incorrectly. Most of the tools we tested presented inaccurate answers with alarming confidence, rarely using qualifying phrases […], or acknowledging knowledge gaps […]. ChatGPT, for instance, incorrectly identified 134 articles, but signaled a lack of confidence just fifteen times out of its two hundred responses, and never declined to provide an answer. With the exception of Copilot—which declined more questions than it answered—all of the tools were consistently more likely to provide an incorrect answer than to acknowledge limitations.«