最佳回覆
“咻韩漫登录界面” Kimi、通义千问、Claude“变身”马斯克,它们这样评价雷军。SAOA121AFOAJEFDN23AK
长文本对咻韩漫登录界面大模型而言为何重要?
200万字,意味着什么?《埃隆·马斯克传》30万字,《红楼梦》70万字,《后宫甄嬛传》100万字。如果凭据20分钟看1万字的阅读速度来盘算,1小时阅读3万字,那么200万字大提要读66.67个小时。
而这样马拉松式的阅读,或许率是囫囵吞枣。
3月18日,海内AI创业公司月之暗面(MoonshotAI)宣布在大模型长上下文窗口技术上取得新的突破,Kimi智能助手已支持200万字超长无损上下文,并于克日起开启产品“内测”。此后,各至公司跟进,卷起了文本长度。22日,阿里通义千问向所有人免费开放1000万字的长文档处理功效;23日,360智脑宣布内测可处理500万字功效。
也就是说,现在,10分钟左右Kimi、通义千问、360智脑等产品就
实际上,
那这些数字和标准究竟意味着什么?
Antrophric的Claude,此前一直以抢眼的长文本处理能力被人认可;阿里的通义千问目前可处理1000万文字,字数量级属于ayx爱游戏梯队;Kimi因长文本上下文处理能力让月之暗面在海内AI创业中首次出圈。
ayx爱游戏步:把Kimi、通义千问、Claude“喂成”马斯克
“如果有时机,我虽然愿意和雷军交流。”Kimi化身马斯克对我说道。
来源:Kimi截图
为了更好地测评长文本上下文处理能力,我们同时给Kimi、通义千问、Claude输入约37万字的《埃隆·马斯克传》,并让它们用马斯克的思维和语气来和我们进行对话。
当我们输入文档时,三者解析条件和所用时间相似。
通义千问解析文档,可同时上传100个文件,每个不凌驾150MB,支持PDF、Word、Excel、Markdown、EPUB、Mobi、txt等形式。
Kimi解析文档可同时上传最多500个,每个不凌驾100MB,支持doc、xisx、PPT、txt、图片等文件形式。值得注意的是,Kimi需要申请长文本上下文能力内测资格,申请通事后即可免费使用。
Claude解析文档可同时上传最多5个文件,每个文件不凌驾10MB,支持docs和images文件形式。因此当文档较大时,我们需将其剖析成几个不凌驾10MB的docs文件开始解析。
来源:通义千问截图
我们划分输入了约100万字的《后宫甄嬛传》小说,并对它们进行提问。“你认为《甄嬛传》中谁最有可能成为一个乐成的企业家?”几秒钟后我们划分获得了这样的回覆。
Kimi给出了甄嬛、沈眉庄、华妃、端妃、皇后五个谜底,并对每个谜底进行了剖析。如,甄嬛是因为“能够在庞大的后宫情况中生存并逐步提升自己的职位”,沈眉庄是因为“稳重和深思熟虑”,华妃是因为“在后宫中拥有较高的职位和权力”,皇后是因为“作为后宫之主”。
Kimi的这一回覆中,给端妃的理由比较有趣,在书中没有直接写到。Kimi认为端妃是因为“虽然在小说中不如甄嬛和华妃那样显眼,但她能够在后宫中坚持一定的职位和影响力,说明她在人际关系和个人生长上的‘投资’也相对乐成”。
来源:
而Claude却给出了一个在《后宫甄嬛传》中不保存的角色——纯妃,并给纯妃设定了有洞察力、判断力、虚心求教、勤奋勤学、擅优点理人际关系、勇于立异、坚韧等品格设定。
3月18日,Kimi在官方宣布直播中,月之暗面AIInfra卖力人许欣然提到了一万小时定律,即要想成为一个领域的专家,我们至少需要学习一万小时。而现在只需要10分钟,Kimi就能接近任何一个新领域的初级专家水平。
在直播中,许欣然还现场输入了约100万字的《倚天屠龙记》复印件、100万字的《甄嬛传》剧本,不到10分钟,Kimi就成了“倚学家”“甄学家”。
我们继续测试。
我们在未向Kimi提供《埃隆·马斯克传》时,输入了“请以马斯克的思想和语气与我对话”。
Kimi在开始和最后都强调了本次回覆是“模仿马斯克的作风”,并不代表其自己和相关公司的真实看法。面对这个问题,化身为马斯克的“K斯克”是这样评价雷军和小米SU7的。它认为,“雷军是一位很是精彩的企业家”“小米SU7汽车是一个很是有趣的产品”。最后还给出了建议,“作为一家新进入电动汽车领域的公司,小米另有很长的路要走。他们需要在技术立异、生产效率、供应链治理等方面不绝努力。
Kimi阅读《埃隆·马斯克传》之前的回覆版本。
我们又将该书“喂”给了Kimi,解析此书后,它给出相似的回覆。
Kimi阅读《埃隆·马斯
我们重复了上一步,将同样的问题给到通义千问。通义千问给到的回覆中,关于小米SU7的内容为:“虽然具体型号和细节在现实中可能不保存,但基于小米进入电动汽车领域的假设……”
通义千问阅读《埃隆·马斯克传》之后的回覆版本。
如法炮制,继续测试Claude,结果与通义千问相似。
据了解,作为大模型产品,Kimi除了文档解读,另有联网功效。这意味着,Kimi不但可以使用既定资料剖析,还可以凭据问题搜索全网信息作为数据剖析依据。目前,ChatGPT3.5、Claude2.0不支持这项功效。
为了测试Kimi、通义千问、Claude的文档内容理解功效,在向三者都输入了《埃隆·马斯克传》之后,我们针关于书中的内容进行了提问。
来源:Kimi回覆截图
来源:通义千问回覆截图
来源:Claude回覆截图
针对该书同一个问题,
在一个聊天框中输入的内容被称之为“上下文”。
例如,如果用户在对话中提到了特定的话题或问题,具有上下文能力的AI可以记着这些信息,并在后续的对话中引用它们,以提供连贯和相关的回覆。这种能力关于创立自然、流畅的对话体验很是重要。
为测试三者上下文文本处理功效,我们提问了马斯克12岁时的学校经历后,追问了“马斯克的性格是怎么样的”。
Claude给出了狂热执着、冷酷无情、戏剧化、顽强坚韧、双重性格等特征,同时,针对这些特征一一进行了剖析。如狂热执着是因为“他对现实雄伟目标如开发电动车、登岸火星等怀有先知般的狂热和使命感。这种狂热忽视了他的鸠拙,也促使他勇于冒险并担负极高的危害”
通义千问也提到了弘大愿景、推动普及电动车、移民火星等内容。区别是,通义千问将这些“理想主义与远见卓识”,将马斯克形容为“坚信通过科技可以解决人类面临的问题”。
长文本,AI“登月”ayx爱游戏步
长文本对大模型而言为何重要?
“为什么长文本是‘登月’ayx爱游戏步?它很实质。它是新的盘算机内存。”月之暗面首创人、CEO杨植麟曾在腾讯科技的采访中体现,长文本(LongContext)是大语言模型(LLM)的基础能力。
此前,
2023年10月,Kimi上线,其时可以支持无损上下文长度最多为20万汉字。5个月内,升级至200万字,月之暗面直接将长文本能力提高至10倍。凭据AI领域的盘算标准,200万汉字的长度约莫为400万token。而其时长文本水平在ayx爱游戏梯队的谷歌Gemini1.5、Claude3支持100万token,Kimi200万汉字上下文长度逾越了外洋顶尖大模型水平。
与权衡手机、电脑性能时的“跑分”类似,大模型也有专属的“跑分”标准,被称之为token。它是一个大模型输入、输出的基本单位。以OpenAI的相关准则来看,1k的token即是750个英文单词、500其中文汉字。tokenayx爱游戏,文本处理能力越强。据了解,目今ChatGPT4的token是32k,Claude3的token是100w,Kimi的token是400w。
也就是说,可处理的文本越长,可提取内容时的素材越多,资助用户处理信息时则越准确。
制表:孙欣(信息来源:各AI产品公司官网介绍)
据统计,长文档处理长度之最来自于阿里云的通义千问,上下文长文本处理能力最强的是来自于月之暗面的Kimi,谷歌的Gemini、Kimi均支持联网功效,不过Ultra大会员需付费,价格是每月19.99美元。
值得注意的是,目前海内的主流长文本处理产品通义千问、Kimi等均为免费申请内测即可使用,随着用户用量的增加,意味着大模型的“训练”数据也在增加,AGI长文本处理赛道正在开卷。
参考资料:
《“Kimi看法”降温,长文本“担不起”大模型的下一步》,腾讯科技
《爆火的Kimi,抢了谁的生意?》,定焦
责任编辑:郝欣煜
【编辑:黄强辉】