如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?

已经第一时间氪金到了 claude 3 Pro,准备接下来停用GPT-4(直到GPT-4.5出来),日常工作完全用Claude 3 Opus。


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第1张


我最关心的是,是不是真的如Claude官方宣称的:在智能层面,超越其他所有模型。尤其是Code、Math、GPQA(研究生水平的推理能力)


直观感受!


就是当前最强模型!(可能暂时的,等GPT-4.5)


在一个群里和大家一起测试,大家看完一些测试以后的感觉是:


  • 太牛逼了!(回答了一个社会问题以后)

  • 相同提示词,Claude 的效果更老王(老王是一个虚拟的人设)

  • 数学和代码感觉确实强不少

  • 推理能力变强了(数学问题)

  • 思路清晰(数学问题)

  • 这个不错,我故意没加学习率(设计一个深度学习的神经网络,算法问题)


哪些升级值得关注?


  • 同时推出了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 三款模型


  • 已上线Opus 和Sonnet模型,Claude.ai 升级Pro会员可以直接体验最强大的Opus模型(目前使用Opus最便宜的方式)


  • Opus 超越了GPT-4,尤其是推理、写代码、数学,自称:在智能层面,超越其他所有模型。

  • 支持最长1M的超长窗口,准确率提升,超长窗口的回忆能力表现尤为出色

  • MMLU / GSM8K / HumanEval 没有区分度,Top3 都一样的

  • 金融和医疗是 claude 进步最大的领域


实际测试


大文件中准确获取文字


两个电子书,分别有8M大小,精确的从第二个文档中找到了原文。


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第2张


从PDF中找到图形并分析


并且可以精确的从第二个文档中找到一张图,并进行解释:


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第3张

这张图在PDF的最开始。


读论文

这是一篇5M左右的论文,精准度令人印象深刻。可能是用过的最好的Chat PDF(来自我家领导的


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第4张


将PDF作为知识库


长窗口里面上传一个文档作为知识库好爽。


我创建的GPTs里面引用了文档,很少能引用成功。但是Claude Pro很意外的自己动引用了。


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第5张


分析统计图


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第6张


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第7张


不但完美分析,而且给出了一个疫情的原因,震惊!


写前端代码


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第8张


克劳德了一张GPT Store的页面截图,输出了完整的前端代码,可以直接运行,甚至还适配了移动端和按钮的点击特效。对比GPT-4在尝试了3次并且进行了简单提示以后才输出类似页面。


测试写文章


能感觉到文字风格相比GPT-4会好一些,这篇文章完全由Claude3生成:


识图并推理关系


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第9张


对比GPT-4,Claude 倾向于只从图片中获取信息,GPT-4的推理加入了一些图片外的知识和分析进去。


测试API


Cluade的API申请秒开,开通后绑定海外的手机号,会赠送$5。


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第10张


填一下海外的手机号,很快就到账了。现在已经可以使用其中两个模型:


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第11张


快速的用API测了几个case以后,直观感受是:更便宜的 sonnet API 在大部分场景可以平替GPT-4 API。opus价格太贵了,API 用不起。


其他问题


Claude3使用限制


每8小时可以使用100次Opus模型。


怎么氪金的?


GPT-4.5可能也要发布了,没有特殊需求最好是等那个。


我有张美国的信用卡,直接付的费;去年为了稳定续费GPT-4卖了海外电话卡。所以没有遇到封号,氪金也是秒氪。


还有什么想测试的问题,可以留言我来测。


文章来自于知乎 “blueeon”


如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?  第12张