不走Transformer寻常「元始智能RWKV」获数万万轮融
2025-02-07 07:44
目前,RWKV曾经完成了从0。1B到14B的模子锻炼,且海外社区已发布了32B的预览模子。正在过去两年中,RWKV也实现了主要的手艺冲破:架构从RWKV-4逐渐迭代至RWKV-7。
OpenAI旗下的ChatGPT于2022年11月发布,并掀起全球生成式AI海潮后,曾经有两年多的时间。而支持起ChatGPT的Transformer架构以及Scaling Law(缩放定律),恰是这场的手艺成长从线。
正在将来,元始智能打算正在2025年推出70B及以上参数的RWKV-7和终端摆设方案,并通过连系新型推理框架和新型芯片,摸索更大规模的模子。罗璇暗示,跟着现在Scaling Laws转向,估计2025年上半年将送来新架构的迸发期,届时元始智能也会加快贸易化落地。
狂言语模子(LLM)之所以可以或许出现智能,简而言之,是由于让AI模子的参数规模从本来的亿级扩大到了现在的千亿、万亿,正在进修了脚够多的数据后,模子出现出了智能。
“正在音乐生成等创意范畴,RWKV的架构更接近人脑的回忆演绎机制,不是简单检索过去的消息,而是通过不竭更新和沉组来‘演绎’,从而发生新的内容。”罗璇注释。
RWKV高效推理的机制,相当适合用于小模子、端侧等场景中——大模子虽然机能强,但计较层面仍然面对不少枷锁:无论是手机仍是电脑,硬件层面若是没有脚够强大的计较单位,也没有法子让模子正在当地运转,而是要依赖云端的计较,这就降低了利用体验。
正在软件侧,RWKV面向C端市场推出了AI音乐生成使用。而正在To B范畴,元始智能选择了具体智能和新能源两大范畴,为企业供给模子授权,目前已告竣的合做客户包罗国度电网、有鹿机械人等企业。
RWKV的创始人彭博结业于大学物理系,曾是量化买卖专家。彭博从2020年起头,就选择开辟RWKV这个立异架构和开源项目。2022岁尾,RWKV发布首个模子,到现在2023年6月正式成立贸易公司,团队已从最后3人成长至近20人的规模。
“RWKV采用的类RNN架构更接近人脑和的运做体例,通过高效的消息压缩机制,使模子可以或许正在无限资本下实现持续进修和进化。”罗璇暗示。
彭博认为,这并不是RWKV架构的缺陷。正如,虽然人类大脑本身没有完满的回忆力,但人类通过少量复读和外部回忆,同样能够具有完满的回忆力。RWKV能够通过引入RL(强化进修)的方式,来从动判断正在必需的时候从头阅读前文,这比Transformer“把所有工具都记住”的效率要高得多。
取依赖巨额算力和数据的Transformer架构分歧,RWKV选择了一条愈加沉视效率和矫捷性的手艺线。
“简单而言,目前支流的Transformer架构,相当于每次对话中,模子每输出一个Token,都需要把前文从头全数‘读’一遍,而且需要一直记实前文每个token的形态(即 KV Cache)。” 元始智能结合创始人罗璇暗示。这也必定了Transformer不是一个高效的消息处置架构,并且需要大量的算力。
元始智能(RWKV)的成立,恰是但愿探索一条可以或许超越Transformer架构的新。并且是一家有能力持续实现AI模子底层架构立异的“黑科技”公司。元始智能结合创始人罗璇暗示。
RWKV-7的回忆力,比起之前的RWKV也显著更强。例如,0。1B的RWKV-7正在4k上下文窗口下锻炼,就能从动处理16k的大海捞针问题。
当前,元始智能的公司营业分为两大部门,一是将模子开源,这一部门将持续连结全开源和免费——正在GitHub上,RWKV的焦点开源项目RWKV-LM已收成了跨越12900的star,而且逐渐成立起开辟者生态,当前已有包罗腾讯、阿里、浙大、南方科技大学正在内的多家高校和公司利用了RWKV;二是贸易实体。正在2024年,RWKV做了不少产物侧的测验考试,同时笼盖To B和To C。
但大模子也有本人的“阿喀琉斯之踵”——、精确率几乎是无法完全处理的问题。正在方才过去的2024年,跟着大模子迭代放缓,无论是学界仍是工业界,都送来了对Transformer架构,以及Scaling Law(缩放定律,指添加算力、数据规模,模子机能会响应提高,获得更多智能)的大会商。
RNN(轮回神经收集)并不是一个新手艺。虽然它的推理效率高于Transformer,但正在RWKV之前,大师遍及认为RNN的能力衰于Transformer。但RWKV的呈现,证了然改良后的RNN不单效率连结高于Transformer,且同样具有很强的言语建模能力。
同时,RWKV的特征也有益于正在部门场景的使用和落地,音乐生成等创意性场景,模子产出的成果会更立异,“AI味”更弱。
36氪获悉,大模子架构立异公司元始智能(RWKV)已于12月完成数万万人平易近币轮融资,投资方为天际本钱。本轮融资后,公司估值较此前种子轮翻倍,而本轮融资将次要用于团队扩充、新架构迭代以及产物贸易化落地。
持续进修,也是RWKV-7版本的一个主要手艺冲破。比起支流模子采用的“锻炼-推理分手”机制,RWKV可以或许让模子“边推理边进修”,更好地进修前文中的的纪律。
最新发布的RWKV-7模子,正在划一参数规模下,能够全面超越Transformer架构的机能。这种劣势表现正在多个维度:例如,RWKV-7能比颠末充实优化的Transformer架构更快地提拔精确度。而利用不异参数和锻炼数据的环境下,正在焦点benchmark如英语和多言语测试中,RWKV-7也能表示更优。
但RWKV最大的手艺冲破正在于,模子不需要一直记实每个Token的形态——也就是不需要每次对话都“从头读全文再给答复”,计较量大大削减。这相当于将Transformer的高效并行锻炼、取RNN的高效推理能力相连系。