New Chat
  • Slides
  • Websites
  • Docs
  • Deep Research
  • Sheets
  • Agent Swarm
Kimi Code
Kimi Claw
Chat History
  • Get App
  • About Us
    • Visit Moonshot AI
    • Kimi Platform
    • Features
    • Terms of Service
    • Privacy Policy
  • Language
  • User Feedback

AI搜索与传统可信度

“请分析 AI 搜索和传统搜索引擎在信息可信度上的差异,并引用可靠来源”
AI搜索与传统搜索引擎可信度比较分析
用户要求分析AI搜索和传统搜索引擎在信息可信度上的差异,并引用可靠来源。这是一个需要联网搜索获取最新、权威信息的任务。
我需要:
  1. 搜索AI搜索和传统搜索引擎在信息可信度方面的对比研究
  2. 搜索相关的权威来源(学术论文、权威机构报告、知名媒体分析等)
  3. 整理分析结果
让我先进行网络搜索,获取相关信息。
Search
AI搜索与传统搜索引擎信息可信度对比 2025 2026 AI search vs traditional search engine credibility reliability study 大模型幻觉 搜索引擎准确性 权威研究
37 results
DeepSeek-R1幻觉率高 联网搜索显著降低效果
用户要求分析AI搜索和传统搜索引擎在信息可信度上的差异,并引用可靠来源。
我已经获得了搜索结果,现在需要整理这些信息,构建一个结构化的分析。让我先识别最权威的来源:
  1. PMC/NCBI文章 (web_search:1#3) - Authority: S,关于健康信息可信度的对比研究,使用DISCERN和JAMA标准评估Google、Bing、ChatGPT、Gemini
  2. arXiv论文 (web_search:1#0) - Authority: S,关于AI搜索的认知影响,提到AI搜索引用更少高可信度来源
  3. 华盛顿大学CIP文章 (web_search:1#7) - 关于生成式搜索引擎的信息来源可追溯性问题
  4. 东吴证券研报 (web_search:1#12) - Authority: B,AI搜索行业深度分析
  5. 国信证券研报 (web_search:1#1) - Authority: A,关于AI幻觉率
  6. 海南大学文档 (web_search:1#9) - Authority: A,DeepSeek与AI幻觉
我需要将这些信息组织成一个清晰的分析,涵盖:
  1. 信息来源可追溯性(Provenance)
  2. 幻觉/准确性问题
  3. 信息多样性与偏见
  4. 用户行为与过度依赖
  5. 特定领域(如医疗健康)的表现差异
文章卡片应该包含S级来源。web_search:1#0 和 web_search:1#3 是S级。让我看看是否还有其他S级... 看起来只有这两个是S级。
让我构建回答结构:
  • 文章卡片(S级来源)
  • 核心差异分析
      1. 来源可追溯性与验证机制
      1. 幻觉与准确性
      1. 信息多样性与偏见
      1. 用户认知与过度依赖
      1. 领域特异性表现
  • 总结与建议
我需要确保引用格式正确,使用
格式,并且将引用放在段落末尾。
让我再仔细看看搜索结果中的关键数据:
从web_search:1#3 (PMC):
  • Google DISCERN: 3.33 ± 0.53; JAMA: 3.70 ± 0.44
  • Bing: DISCERN 3.13 ± 0.91; JAMA 3.48 ± 0.92
  • Gemini: DISCERN 2.67 ± 0.87; JAMA 3.15 ± 1.15
  • ChatGPT: DISCERN 2.20 ± 1.32; JAMA 2.38 ± 1.44
  • 结论:Google最可靠,生成式AI工具有显著局限性
从web_search:1#0 (arXiv):
  • AI搜索结果在每个信息类别中表现出的响应多样性显著低于传统搜索
  • AI搜索引用的高可信度信息源显著更少,低可信度信息源显著更多
  • AI搜索引用显著更少的左倾来源,显著更多的右倾和中立来源
  • LLM搜索工具在模型正确时准确率相似,但在模型错误时诱导过度依赖
从web_search:1#7 (华盛顿大学):
  • 生成式搜索引擎模糊了信息的来源(provenance)
  • Liu等人的研究发现:平均只有51.5%的生成句子得到引文的完全支持,只有74.5%的引文支持其关联的句子
  • 效率-可靠性权衡(efficiency-reliability trade-off)
从web_search:1#1 (国信证券):
  • DeepSeek-R1幻觉率14.3%(Vectara HHEM测试)
  • 推理增强模型可能产生更多幻觉
从web_search:1#12 (东吴证券):
  • AI搜索在网址导航方面表现欠佳
  • 医学问题上AI搜索回答不够严谨
  • 科普性问题上AI搜索内容更完整结构化
从web_search:1#9 (海南大学):
  • 联网搜索能降低幻觉率
  • DeepSeek V3通用性测试幻觉率从2%降至0%,事实性从29.67%降至24.67%
  • DeepSeek R1通用性从3%降至0%,事实性从22.33%降至19%
现在让我组织回答。
arXiv.org

nih.gov

The Reliability Gap: How Traditional Search Engines ... - PMC

AI 搜索与传统搜索引擎在信息可信度上的差异分析

信息可信度(Information Credibility)的核心维度包括准确性、来源可追溯性、偏见控制和用户验证机制。基于现有研究,AI 搜索与传统搜索引擎在这些维度上存在系统性差异。

一、来源可追溯性:从"透明链路"到"黑箱合成"

传统搜索引擎的核心设计哲学是引导用户至原始信息源。用户通过"10个蓝色链接"可以直接访问 BBC、PubMed、政府官网等来源,自主判断信息可信度
。这种机制天然保留了信息的来源谱系(Provenance)。
而生成式 AI 搜索(如 ChatGPT、Gemini、Perplexity)将多源信息合成为单一叙事,用户往往无法追溯某一句具体论断来自哪个原始页面。华盛顿大学信息学院的研究指出,这种"来源模糊化"是生成式搜索的根本性缺陷——当搜索引擎从"帮助找到信息"转变为"直接回答问题"时,它承担了本不属于它的"仲裁真相"责任
。
一项针对四大生成式搜索引擎(BingChat、NeevaAI、Perplexity AI、YouChat)的评估发现,平均仅 51.5% 的生成句子得到引文的完全支持,仅 74.5% 的引文真正支持其关联的句子
。

二、准确性与"幻觉"风险

AI 搜索的可信度危机集中体现在大语言模型幻觉(Hallucination)上。模型通过概率最大化生成文本,而非基于逻辑关系或事实验证,这导致其在冷门问题上"宁可编造细节也不回答不知道"
。
行业权威测试 Vectara HHEM 的数据显示,DeepSeek-R1 的幻觉率高达 14.3%,而 DeepSeek-V3 为 3.9%
。研究进一步发现,推理增强型模型(如 GPT-o1、DeepSeek-R1)的幻觉率通常高于普通版本,因为其"流畅回答"的训练目标优先于"谨慎求证"
。
不过,联网搜索功能可显著降低幻觉率。测试显示,开启联网后 DeepSeek-V3 的事实性测试幻觉率从 29.67% 降至 24.67%,DeepSeek-R1 从 22.33% 降至 19%
。

三、信息多样性与来源质量偏见

一项基于 2024-2025 年收集的 280 万条全球搜索结果的大规模分析发现:
Table
维度AI 搜索传统搜索
响应多样性显著更低,"以单一声音回答"更高,呈现多源观点
高可信度来源引用显著更少更多
低可信度来源引用显著更多更少
政治光谱覆盖更少左倾来源,更多右倾/中立来源更均衡
这意味着 AI 搜索不仅压缩了用户接触的信息广度,还存在系统性来源质量降级——倾向于引用可信度较低的信息源来构建答案。

四、领域特异性表现:以医疗健康为例

在消费者健康信息领域,一项使用 DISCERN 和 JAMA Benchmark Criteria 的独立双盲评估(评估酒糟鼻相关信息)给出了量化对比:
Table
平台DISCERN 质量评分 (满分5)JAMA 可信度评分 (满分4)
Google3.33 ± 0.533.70 ± 0.44
Bing3.13 ± 0.913.48 ± 0.92
Gemini2.67 ± 0.873.15 ± 1.15
ChatGPT2.20 ± 1.322.38 ± 1.44
结论:Google 在 16 项 DISCERN 类别中的 12 项表现最佳;ChatGPT 在所有质量指标上得分最低,存在"归因不一致"和"语言过于复杂"的问题。研究者建议临床医生引导患者优先使用传统 Google 搜索结果,将 AI 生成内容仅作为"一般背景知识"参考
。
东吴证券的测评也显示,在医学问题上多数 AI 搜索产品"回答不够严谨",尽管部分产品(如 360 AI 搜索)会提示年龄、性别等变量差异
。

五、用户行为风险:效率与可靠性的权衡

AI 搜索通过对话式交互、直接生成答案,将用户任务时间缩短了一半,查询次数也大幅减少
。但这种效率提升伴随着可靠性折损(Efficiency-Reliability Trade-off):
  1. 过度依赖(Over-reliance):当模型正确时,AI 搜索准确率与传统搜索相当;但当模型出错时,用户因信任其"权威口吻"而更容易被误导,缺乏交叉验证动机
    。
  2. 确认偏误强化:AI 的"观点化语气"倾向于强化用户原有立场,减少接触对立观点的机会
    。
  3. 零点击困境:约 60% 的搜索通过 AI 摘要直接完成,用户不再访问原始网页,失去了验证信息的第一道防线
    。

六、总结与建议

Table
评估维度传统搜索引擎AI 搜索
来源可追溯性✅ 高,用户可直接访问原始页面⚠️ 低,合成叙事模糊来源
事实准确性✅ 依赖页面本身质量,但可交叉验证⚠️ 存在幻觉风险,尤其是推理模型
信息多样性✅ 高,呈现多源异质观点⚠️ 低,"单一声音"效应显著
来源质量✅ 高可信度来源占比更高⚠️ 更易引用低可信度来源
用户验证机制✅ 天然支持用户自主验证❌ 抑制验证行为,诱导过度依赖
效率与体验⚠️ 需自行筛选整合✅ 直接生成结构化答案
实用建议:
  • 高风险决策(医疗、法律、投资):优先使用传统搜索引擎,直接访问权威来源(如 .gov、.edu、Peer-reviewed journals)。
  • 快速概览与启发式查询:可使用 AI 搜索,但应启用"联网模式"以降低幻觉率,并主动点击引用链接核实关键事实
    。
  • 双 AI 验证:对关键信息使用多个模型交叉验证,或结合 Perplexity 等强制引注工具与 You.com 的信任评分系统
    。
简言之,传统搜索引擎是"信息的地图",AI 搜索是"信息的导游"——前者让你自己选择路径并判断路况,后者高效带你直达目的地,但可能隐瞒了它并不总是认识路的事实。