如何看待Anthropic公司在ChatGPT4.5推出前,宣布推出Claude 3?
已经第一时间氪金到了 claude 3 Pro,准备接下来停用GPT-4(直到GPT-4.5出来),日常工作完全用Claude 3 Opus。
我最关心的是,是不是真的如Claude官方宣称的:在智能层面,超越其他所有模型。尤其是Code、Math、GPQA(研究生水平的推理能力)
直观感受!
就是当前最强模型!(可能暂时的,等GPT-4.5)
在一个群里和大家一起测试,大家看完一些测试以后的感觉是:
- 太牛逼了!(回答了一个社会问题以后)
- 相同提示词,Claude 的效果更老王(老王是一个虚拟的人设)
- 数学和代码感觉确实强不少
- 推理能力变强了(数学问题)
- 思路清晰(数学问题)
- 这个不错,我故意没加学习率(设计一个深度学习的神经网络,算法问题)
哪些升级值得关注?
- 同时推出了 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 三款模型
- 已上线Opus 和Sonnet模型,Claude.ai 升级Pro会员可以直接体验最强大的Opus模型(目前使用Opus最便宜的方式)
- Opus 超越了GPT-4,尤其是推理、写代码、数学,自称:在智能层面,超越其他所有模型。
- 支持最长1M的超长窗口,准确率提升,超长窗口的回忆能力表现尤为出色
- MMLU / GSM8K / HumanEval 没有区分度,Top3 都一样的
- 金融和医疗是 claude 进步最大的领域
实际测试
大文件中准确获取文字
两个电子书,分别有8M大小,精确的从第二个文档中找到了原文。
从PDF中找到图形并分析
并且可以精确的从第二个文档中找到一张图,并进行解释:
这张图在PDF的最开始。
读论文
这是一篇5M左右的论文,精准度令人印象深刻。可能是用过的最好的Chat PDF(来自我家领导的
将PDF作为知识库
长窗口里面上传一个文档作为知识库好爽。
我创建的GPTs里面引用了文档,很少能引用成功。但是Claude Pro很意外的自己动引用了。
分析统计图
不但完美分析,而且给出了一个疫情的原因,震惊!
写前端代码
给克劳德了一张GPT Store的页面截图,输出了完整的前端代码,可以直接运行,甚至还适配了移动端和按钮的点击特效。对比GPT-4在尝试了3次并且进行了简单提示以后才输出类似页面。
测试写文章
能感觉到文字风格相比GPT-4会好一些,这篇文章完全由Claude3生成:
识图并推理关系
对比GPT-4,Claude 倾向于只从图片中获取信息,GPT-4的推理加入了一些图片外的知识和分析进去。
测试API
Cluade的API申请秒开,开通后绑定海外的手机号,会赠送$5。
填一下海外的手机号,很快就到账了。现在已经可以使用其中两个模型:
快速的用API测了几个case以后,直观感受是:更便宜的 sonnet API 在大部分场景可以平替GPT-4 API。opus价格太贵了,API 用不起。
其他问题
Claude3使用限制
每8小时可以使用100次Opus模型。
怎么氪金的?
GPT-4.5可能也要发布了,没有特殊需求最好是等那个。
我有张美国的信用卡,直接付的费;去年为了稳定续费GPT-4卖了海外电话卡。所以没有遇到封号,氪金也是秒氪。
还有什么想测试的问题,可以留言我来测。
文章来自于知乎 “blueeon”
全部评论
留言在赶来的路上...
发表评论