Kimi | AI搜索与传统可信度

“请分析 AI 搜索和传统搜索引擎在信息可信度上的差异，并引用可靠来源”

AI搜索与传统搜索引擎可信度比较分析

用户要求分析AI搜索和传统搜索引擎在信息可信度上的差异，并引用可靠来源。这是一个需要联网搜索获取最新、权威信息的任务。

我需要：

搜索AI搜索和传统搜索引擎在信息可信度方面的对比研究
搜索相关的权威来源（学术论文、权威机构报告、知名媒体分析等）
整理分析结果

让我先进行网络搜索，获取相关信息。

AI搜索与传统搜索引擎信息可信度对比 2025 2026 AI search vs traditional search engine credibility reliability study 大模型幻觉搜索引擎准确性权威研究

37 results

DeepSeek-R1幻觉率高联网搜索显著降低效果

用户要求分析AI搜索和传统搜索引擎在信息可信度上的差异，并引用可靠来源。

我已经获得了搜索结果，现在需要整理这些信息，构建一个结构化的分析。让我先识别最权威的来源：

PMC/NCBI文章 (web_search:1#3) - Authority: S，关于健康信息可信度的对比研究，使用DISCERN和JAMA标准评估Google、Bing、ChatGPT、Gemini
arXiv论文 (web_search:1#0) - Authority: S，关于AI搜索的认知影响，提到AI搜索引用更少高可信度来源
华盛顿大学CIP文章 (web_search:1#7) - 关于生成式搜索引擎的信息来源可追溯性问题
东吴证券研报 (web_search:1#12) - Authority: B，AI搜索行业深度分析
国信证券研报 (web_search:1#1) - Authority: A，关于AI幻觉率
海南大学文档 (web_search:1#9) - Authority: A，DeepSeek与AI幻觉

我需要将这些信息组织成一个清晰的分析，涵盖：

信息来源可追溯性（Provenance）
幻觉/准确性问题
信息多样性与偏见
用户行为与过度依赖
特定领域（如医疗健康）的表现差异

文章卡片应该包含S级来源。web_search:1#0 和 web_search:1#3 是S级。让我看看是否还有其他S级... 看起来只有这两个是S级。

让我构建回答结构：

文章卡片（S级来源）
核心差异分析
- 1. 来源可追溯性与验证机制
- 1. 幻觉与准确性
- 1. 信息多样性与偏见
- 1. 用户认知与过度依赖
- 1. 领域特异性表现
总结与建议

我需要确保引用格式正确，使用

格式，并且将引用放在段落末尾。

让我再仔细看看搜索结果中的关键数据：

从web_search:1#3 (PMC):

Google DISCERN: 3.33 ± 0.53; JAMA: 3.70 ± 0.44
Bing: DISCERN 3.13 ± 0.91; JAMA 3.48 ± 0.92
Gemini: DISCERN 2.67 ± 0.87; JAMA 3.15 ± 1.15
ChatGPT: DISCERN 2.20 ± 1.32; JAMA 2.38 ± 1.44
结论：Google最可靠，生成式AI工具有显著局限性

从web_search:1#0 (arXiv):

AI搜索结果在每个信息类别中表现出的响应多样性显著低于传统搜索
AI搜索引用的高可信度信息源显著更少，低可信度信息源显著更多
AI搜索引用显著更少的左倾来源，显著更多的右倾和中立来源
LLM搜索工具在模型正确时准确率相似，但在模型错误时诱导过度依赖

从web_search:1#7 (华盛顿大学):

生成式搜索引擎模糊了信息的来源（provenance）
Liu等人的研究发现：平均只有51.5%的生成句子得到引文的完全支持，只有74.5%的引文支持其关联的句子
效率-可靠性权衡（efficiency-reliability trade-off）

从web_search:1#1 (国信证券):

DeepSeek-R1幻觉率14.3%（Vectara HHEM测试）
推理增强模型可能产生更多幻觉

从web_search:1#12 (东吴证券):

AI搜索在网址导航方面表现欠佳
医学问题上AI搜索回答不够严谨
科普性问题上AI搜索内容更完整结构化

从web_search:1#9 (海南大学):

联网搜索能降低幻觉率
DeepSeek V3通用性测试幻觉率从2%降至0%，事实性从29.67%降至24.67%
DeepSeek R1通用性从3%降至0%，事实性从22.33%降至19%

现在让我组织回答。

arXiv.org

nih.gov

The Reliability Gap: How Traditional Search Engines ... - PMC

AI 搜索与传统搜索引擎在信息可信度上的差异分析

信息可信度（Information Credibility）的核心维度包括准确性、来源可追溯性、偏见控制和用户验证机制。基于现有研究，AI 搜索与传统搜索引擎在这些维度上存在系统性差异。

一、来源可追溯性：从"透明链路"到"黑箱合成"

传统搜索引擎的核心设计哲学是引导用户至原始信息源。用户通过"10个蓝色链接"可以直接访问 BBC、PubMed、政府官网等来源，自主判断信息可信度

。这种机制天然保留了信息的来源谱系（Provenance）。

而生成式 AI 搜索（如 ChatGPT、Gemini、Perplexity）将多源信息合成为单一叙事，用户往往无法追溯某一句具体论断来自哪个原始页面。华盛顿大学信息学院的研究指出，这种"来源模糊化"是生成式搜索的根本性缺陷——当搜索引擎从"帮助找到信息"转变为"直接回答问题"时，它承担了本不属于它的"仲裁真相"责任

。

一项针对四大生成式搜索引擎（BingChat、NeevaAI、Perplexity AI、YouChat）的评估发现，平均仅 51.5% 的生成句子得到引文的完全支持，仅 74.5% 的引文真正支持其关联的句子

。

二、准确性与"幻觉"风险

AI 搜索的可信度危机集中体现在大语言模型幻觉（Hallucination）上。模型通过概率最大化生成文本，而非基于逻辑关系或事实验证，这导致其在冷门问题上"宁可编造细节也不回答不知道"

。

行业权威测试 Vectara HHEM 的数据显示，DeepSeek-R1 的幻觉率高达 14.3%，而 DeepSeek-V3 为 3.9%

。研究进一步发现，推理增强型模型（如 GPT-o1、DeepSeek-R1）的幻觉率通常高于普通版本，因为其"流畅回答"的训练目标优先于"谨慎求证"

。

不过，联网搜索功能可显著降低幻觉率。测试显示，开启联网后 DeepSeek-V3 的事实性测试幻觉率从 29.67% 降至 24.67%，DeepSeek-R1 从 22.33% 降至 19%

。

三、信息多样性与来源质量偏见

一项基于 2024-2025 年收集的 280 万条全球搜索结果的大规模分析发现：

Table

维度	AI 搜索	传统搜索
响应多样性	显著更低，"以单一声音回答"	更高，呈现多源观点
高可信度来源引用	显著更少	更多
低可信度来源引用	显著更多	更少
政治光谱覆盖	更少左倾来源，更多右倾/中立来源	更均衡

这意味着 AI 搜索不仅压缩了用户接触的信息广度，还存在系统性来源质量降级——倾向于引用可信度较低的信息源来构建答案。

四、领域特异性表现：以医疗健康为例

在消费者健康信息领域，一项使用 DISCERN 和 JAMA Benchmark Criteria 的独立双盲评估（评估酒糟鼻相关信息）给出了量化对比：

Table

平台	DISCERN 质量评分 (满分5)	JAMA 可信度评分 (满分4)
Google	3.33 ± 0.53	3.70 ± 0.44
Bing	3.13 ± 0.91	3.48 ± 0.92
Gemini	2.67 ± 0.87	3.15 ± 1.15
ChatGPT	2.20 ± 1.32	2.38 ± 1.44

结论：Google 在 16 项 DISCERN 类别中的 12 项表现最佳；ChatGPT 在所有质量指标上得分最低，存在"归因不一致"和"语言过于复杂"的问题。研究者建议临床医生引导患者优先使用传统 Google 搜索结果，将 AI 生成内容仅作为"一般背景知识"参考

。

东吴证券的测评也显示，在医学问题上多数 AI 搜索产品"回答不够严谨"，尽管部分产品（如 360 AI 搜索）会提示年龄、性别等变量差异

。

五、用户行为风险：效率与可靠性的权衡

AI 搜索通过对话式交互、直接生成答案，将用户任务时间缩短了一半，查询次数也大幅减少

。但这种效率提升伴随着可靠性折损（Efficiency-Reliability Trade-off）：

过度依赖（Over-reliance）：当模型正确时，AI 搜索准确率与传统搜索相当；但当模型出错时，用户因信任其"权威口吻"而更容易被误导，缺乏交叉验证动机
。
确认偏误强化：AI 的"观点化语气"倾向于强化用户原有立场，减少接触对立观点的机会
。
零点击困境：约 60% 的搜索通过 AI 摘要直接完成，用户不再访问原始网页，失去了验证信息的第一道防线
。

六、总结与建议

Table

评估维度	传统搜索引擎	AI 搜索
来源可追溯性	✅ 高，用户可直接访问原始页面	⚠️ 低，合成叙事模糊来源
事实准确性	✅ 依赖页面本身质量，但可交叉验证	⚠️ 存在幻觉风险，尤其是推理模型
信息多样性	✅ 高，呈现多源异质观点	⚠️ 低，"单一声音"效应显著
来源质量	✅ 高可信度来源占比更高	⚠️ 更易引用低可信度来源
用户验证机制	✅ 天然支持用户自主验证	❌ 抑制验证行为，诱导过度依赖
效率与体验	⚠️ 需自行筛选整合	✅ 直接生成结构化答案

实用建议：

高风险决策（医疗、法律、投资）：优先使用传统搜索引擎，直接访问权威来源（如 .gov、.edu、Peer-reviewed journals）。
快速概览与启发式查询：可使用 AI 搜索，但应启用"联网模式"以降低幻觉率，并主动点击引用链接核实关键事实
。
双 AI 验证：对关键信息使用多个模型交叉验证，或结合 Perplexity 等强制引注工具与 You.com 的信任评分系统
。

简言之，传统搜索引擎是"信息的地图"，AI 搜索是"信息的导游"——前者让你自己选择路径并判断路况，后者高效带你直达目的地，但可能隐瞒了它并不总是认识路的事实。