AI排行榜︱AI已成为时代的主流,而市面上AI工具也越来越多,由最初的ChatGPT,到后来的Gemini、Grok、Perplexity等。最近英国就有研究组织就住6大AI工具准确度排行榜进行访问调查,惊喜发现ChatGPT竟不是准确率第一位。另外这些高人气AI工具在提供关键的消费者建议时,经常给出不准确、含糊不清,甚至具有风险的答案!
英国消费者组织《Which?》最近针对AI问题向数千名成年人进行问卷调查,测试了六款主流AI工具——ChatGPT、Google Gemini、Gemini AI Overview (AIO)、Microsoft 的 Copilot、Meta AI 和 Perplexity,以评估它们在回答常见消费者问题(涵盖个人金融、法律咨询、健康与饮食、消费者权益和旅游等主题)时的表现。专家根据答案的准确性、相关性、清晰度和实用性进行评分。
AI 准确度排行榜出炉:Perplexity意外夺冠
研究人员向每款工具提出了 40 个问题,并由《Which?》专家根据答案的准确性、相关性、清晰度、实用性和道德责任进行评估,然后汇总为总分。
| 排名 | AI工具 | 整体准确率 |
| 1 | Perplexity | 71% |
| 2 | Gemini AI Overviews | 70% |
| 3 | Google Gemini | 69% |
| 4 | Microsoft Copilot | 68% |
| 5 | ChatGPT | 64% |
| 6 | Meta AI | 55% |
根据调查结果显示,Meta AI的得分最低,只有55%;而大家使用率最高的工具ChatGPT得分却是倒数第二;而Perplexity则以71%的分数位居榜首,在准确性、相关性、清晰度和实用性方面均获得最高分。因此证明在专业可靠度上,知名度最高的工具并非表现最好。
高人气AI工具的致命错误:法律、金融问题频频失准
虽然AI存在缺陷,但使用者对其输出的资讯信任度依然十分高,调查显示,约有一半(51%)的受访者使用 AI 进行网络资讯搜索。而在这些使用者中,有近一半(47%)的人表示,他们对收到的资讯抱持“高度”或“合理程度”的信任。在频繁使用AI的群体中,信任度甚至上升到近 三分之二(65%)。
这亦都表示消费者对AI资讯的“合理信任”与其实际可靠度存在巨大落差,而尤其是在涉及金融、法律和医疗等高风险领域,依赖AI回覆可能会导致严重的财务损失或法律风险。
误导性的金融建议
在关于“个人储蓄账户 (ISA)”年度投资额度的测试中,研究人员故意设定错误上限 (£25,000),结果ChatGPT和Copilot竟未能察觉错误,直接基于此前提提供投资建议,可能导致使用者违反税务规定。
其二,在询问如何申领退税时,ChatGPT 和 Perplexity均在免费的政府服务旁,列出了收费高昂的第三方退税公司链接,这些公司常因收取高额费用而受到批评。
危险的法律行动建议
在处理建筑工程纠纷时,Google Gemini建议消费者可以“扣留工匠款项”。专家警告,这类行动在某些情况下可能构成违约,反而削弱消费者的法律地位。
ChatGPT、Gemini AIO 和Meta AI在处理宽频速度问题时,未能区分不同服务供应商是否签署了相关的自愿性规范,导致给出的合约退出权利建议是错误的。
引用不可靠来源
AI 经常引用过时或不可信的资讯,例如在健康或旅行建议中,引用数年前的Reddit论坛贴文作为参考来源。
科技巨头的回应
面对调查结果,各大科技公司均承认了AI模型的局限性。
微软(Microsoft)承认Copilot仅是“资讯的整合者,而非权威来源”,并鼓励用户验证内容。
Google (Gemini) 表示对生成式 AI 的限制保持透明,并在应用程序中提醒用户复查资讯,并建议在法律、医疗和金融事务上咨询专业人士。
而ChatGPT公司OpenAI则承诺将提升准确性,并宣传其最新的GPT-5模型是“迄今最聪明、最准确”的版本。
专家建议:使用 AI 的“五要点”
《Which?》专家提醒,在AI仍未成熟的阶段,使用者必须采取谨慎态度:
1. 明确提问: 在询问法规或财务资讯时,务必清楚标明地区或司法区,避免 AI 自行推测而产生偏差。
2. 完善提问:人工智能工具并非总是能一次给出全面答案。如果您阅读资讯后仍有疑问,须进一步明确问题。清楚地表达想要了解的内容。
3. 检查来源:许多人工智能引擎使用不可靠的资讯来源,甚至根本不公开资讯来源。有些引擎甚至会捏造讯息来源,因此务必检查 AI 引用资讯的来源和链接,确认其权威性和时效性。
4. 寻求多个意见:不应该只依赖单一资讯来源,可以尝试2-3个工具,以获得一系列不同的答案。
5. 专业咨询: 对于任何涉及法律、重大财务决策或医疗健康的敏感问题,AI 的回答只能作为参考,最终决定必须依赖合格的专业人士。
来源:英国消费者组织《Which?》
延伸阅读:














