Llama2发布一夜之间,大模型竞争来到_壁虎生活环境

当前位置： 壁虎 >> 壁虎生活环境 >> Llama2发布一夜之间,大模型竞争来到

Llama2发布一夜之间,大模型竞争来到

发布时间:2025/5/2 10:27:48

大语言模型的市场格局变了。

文丨贺乾明编辑丨龚方毅

当一家公司的新技术遥遥领先，眼看要独占一个行业，追赶者们应该怎么办？

年，iPhone发布后一年，各大手机厂商奋力研发操作系统追赶苹果。微软有WindowsMobile、黑莓有BBOS、诺基亚基于Linux系统开发了Maemo、Palm在秘密研发WebOS……

又过了不到五年，还卖得动的智能手机要么来自苹果，要么装着开源的Android系统。现在，苹果的竞争对手们不再有属于自己的操作系统，但它们占据着超过80%的智能手机市场。

一整个行业围绕开源技术，协力对抗领先者，这一幕在今天的技术竞争中不断发生。

Windows系统难以挑战，不满微软的科技行业将Linux变成了网站和互联网应用的操作系统。亚马逊AWS开创了云计算行业，阿里云、IBM等竞争公司将Google的Kubernetes（K8S）开源技术奉为标准。几乎所有移动处理器都依赖ARM架构，于是RISC-V正得到广泛的投资支持。

昨夜Meta又贡献了一个这样的例子。他们宣布将大语言模型Llama2有条件地开源给商业使用（月活用户超过7亿需要单独申请），正是在牵头做大模型时代的开源标准。而OpenAI的密切合作伙伴微软，这一次成了Llama2的首要合作伙伴。

微软是在同一天举行的Inspire大会宣布这项合作的，而且就在宣布的2分钟前，微软还在一张PPT上画着“微软OpenAI”。微软与有竞争关系的闭源OpenAI和开源Llama2两头牵手，反映了如今大模型激烈的技术竞赛之外，多变的商业合纵连横。

微软CEO萨蒂亚·纳德拉（SatyaNadella）发布会上强调微软与OpenAI关系亲密（上）。MetaCEO马克·扎克伯格（MarkZuckerberg）与纳德拉的合影（下），图片来自扎克伯格的社交媒体。

ChatGPT去年底亮相后，全球大小科技公司和各类研究机构都在奋力追赶，造出了上百个大模型。而在Meta开源Llama2之后，这些模型中的大多数还没有商用就已经过时。

“Llama2看起来非常强大（超越GPT-3），经过微调的聊天模型看起来与ChatGPT处于同一水平。”HuggingFace机器学习科学家内森·兰伯特（NathanLambert）说，“对开源来说是一个巨大的飞跃，但对闭源的大模型公司是一个巨大打击，这个模型（Llama2）将满足大多数公司对更低成本和个性化的需求”。

水平在GPT-3到GPT-3.5之间

今年2月，ChatGPT发布3个月，Meta就开源了第一版Llama大语言模型。当时开发者能拿到的只是Llama预训练模型、且只被允许用作研究，而不是一个像ChatGPT那样针对特定任务或者需求训练过的应用。

支持商用的Llama2看上去更强。本次Meta一共发布70亿、亿和亿三种参数规模的模型，其公布了模型训练数据、训练方法、数据标注等大量细节，展示了Llama2的水平：

同等参数规模，Llama2能力超过所有的开源大模型；

亿参数的模型在推理层面接近ChatGPT背后的GPT-3.5，但写代码的能力还有较大差距。

多位测试过Llama2模型的开发者基本证实了Meta的说法：“代码测试环节挺不了15分钟”。70亿参数的模型可以在Mac上运行，每秒钟能处理6个字符，比Google发布的PaLM2最小的模型“壁虎”慢70%。但Google并没有公布“壁虎”的具体参数。

根据Meta公布的信息，Llama2的训练数据（都来自公开数据）提升到2万亿个Token（指一个常用单词、标点或数字），较第一代多40%。其上下文长度扩展到了个字符，对文本语义的理解更强。

Meta还像OpenAI那样，借助人类反馈强化学习（RLHF）机制，用万人类标记数据训练出了类似ChatGPT的对话应用。这也是开源社区过去几个月微调训练Llama的常用方法。Meta称“大语言模型的卓越写作能力，从根本上是由RLHF驱动的。”

训练Llama2可能并不便宜。HuggingFace机器学习科学家内森·兰伯特估算Llama2的训练成本可能超过万美元，不比OpenAI三年前训练GPT-3的花费少。他说，有充足的迹象表明，Meta还在继续训练更强的Llama。

Meta的Llama2在多个数据集上表现好过其他开源模型。图片来自Meta。

“改变大语言模型的市场格局”

作为基础设施，大模型在产品中处于底层。用户使用大模型应用，感受到的就是对话框和大模型处理过的内容，不会看到用的什么大模型、什么技术。

大模型的这个特点，一定程度上决定了它竞争局面——只要有更符合用户或企业需求的大模型出现，换起来的障碍并不高，甚至不会对用户造成太多负面影响。“如果大模型能力相差不大，只需要做一些调度工作就可以解决，开发量不大。”一位AI开发者说。

有了Llama2这样的开源大模型，自研的意义更小了。连竞争对手OpenAI的研究科学家、特斯拉前人工智能总监安德烈·卡帕西（AndrejKarpathy）都说，Llama2的发布是人工智能和大模型发展过程中的重要一天，“Llama2是任何人都可以拿到模型权重（参数特征，一个模型最关键的信息）的最强大语言模型。”

Meta副总裁、人工智能部门负责人杨立昆（YannLeCun）说，Llama2将改变大语言模型市场的格局。一位中国大模型创业公司高管解释了这句话：“很快就能看到许多开发大模型应用的公司，把基础模型换成Llama2”。

多位人工智能研究者认同杨立昆的说法，随着Llama2发布，Meta可以用开源、支持商用的策略会改变大模型的格局和生态。

今年6月，美国红杉资本发现在其投资的33家创业公司和上市公司中，65%已经上线了大模型应用、94%正用OpenAI的大模型接口（API）开发应用。

它们使用大模型的方法大多较为简单：直接调用ChatGPT的接口处理私有数据完成特定任务，如多语言互译、生成文本或者网页内容摘要等。很少有公司会做更深入的开发，比如用大量数据微调模型。

在中国，许多公司选择从头收集数据或者用公开数据集训练大模型，过去半年发布了80多个大模型，不乏有公司和机构开源模型，把支持商用当做竞争点，然后做起生意。

《晚点LatePost》了解到，中国一家备受

转载请注明:http://www.aideyishus.com/lkgx/9239.html

------分隔线----------------------------

上一篇文章：比亚迪,豪赌仰望
下一篇文章：直播带货逃过315某头部主播70单量靠

热点文章

科学家对壁虎脚部吸附力有了新发

Llama2发布一夜之间,大模型竞争来到

最新文章

热点文章

推荐文章