对话王小川:决议大模型的输赢,钱很重要,人更重要

liukang202414小时前热心吃瓜759

王小川的百川智能,又发了新的大模型。

迷人的对话王小川:决定大模型的胜负,钱很重要,人更重要的图片

6 月和 7 月先后发布 70 亿参数的 baichuan-7B 和 130 亿参数的 baichuan-13B 后,百川智能在 8 月 8 日发布了 530 亿参数的大模型 baichuan-53B。这家建立不到半年的创业公司,曩昔三个月里发布了三个大模型。

「百川智能开源模型中文的作用在国内开源模型是抢先的,英文的作用也很好,只和 LLaMA-2 差一点。中英文的作用都能做的比较好,来自于咱们关于数据这块配比规划,包含数据学习次序,这些作业上咱们有自己的了解和技能在的。」百川智能的联合创始人,也是大言语模型的技能担任人陈炜鹏表明。

而新发布的 baichuan-53B,王小川描绘其最大的优势有两点:写作才干好,文科方面博学。而能做到这一点,其间重要原因之一是来自模型在底层运用了查找的才干,「咱们最清楚我国互联网哪里有最好的数据」。

百川智能官网能够请求内测 53B 大模型

商业上,与前两代大模型不同,baichuan-53B 没有开源。王小川说这是由于参数量大(530 亿)运用本钱较高,所以采取了闭源的方法。但与之前相同,百川仍然把大模型产品的服务目标定在 B 端,称现在已有超越 150 家企业请求试用。不过他也在会上泄漏新的方案,称年末会发布一个 ToC 的超级运用。

8 月 8 日 发布 53B 后的媒体交流会上,王小川和联合创始人陈炜鹏,接受了极客公园等多家媒体的群访。不只答复了新大模型产品和商业化层面的问题,还共享了曩昔几个月,他们看到的百川智能和大模型赛道的展开和改变。

以下是极客公园收拾的对话内容。

01

新的大模型,

为什么不开源了

问:新大模型的特色是什么?

答:53B 的模型,跟之前的模型比较的话,参数规划大了许多。在咱们自己的点评里,写作才干是在最好的方位里边。别的咱们评测,常识上也比较博学。

常识能够分为两种,一种是叫做八卦性的常识,比方「刘德华的老婆谁啊?」,另一种是事实性的常识,比方「原子核多大?」。咱们点评咱们的模型文科很好,那么这次而言的话文科就更好了。咱们的模型现在在文科范畴中走到比较前面的方位。

比方像孩子的姓名怎样取,怎样解读,咱们的模型能很好了解言语泛化背面的含义,把各种概念联接,代表了文科里边的笼统、类比还有相关,咱们就做得不错。

问:查找增强是此次发布的 53B 大模型的一个亮点。能详细讲讲百川智能的查找技能与大模型的结合吗?

答:百川智能在查找增强系统中交融了多个模块,包含指令意图了解、智能查找和成果增强等要害组件,经过查找结合大言语模型技能来优化模型成果生成的可靠性。

OpenAI 跟微软是两个独立的实体,关于查找这块,它是把查找作为一个黑盒去运用的这种方法。咱们的查找跟模型的结合是从十分底层的当地就开端交融了。

咱们 53B 的模型,用户当有 query 进来之后,它不仅仅调模型去答复,假如发现这些模型里边没有内涵信息的时分,它终究就会去调用查找。详细调用哪家的查找,咱们现在先不揭露。

问:查找是一个长时刻的技能思路,仍是现在预练习大模型方面无法常常做更新,找一个来弥补现在当下才干问题的方法?

答:一切的大模型,只需搭建在 Transformer 在这个架构上,便是有错觉的,便是有非时效性的问题。

我以为,大模型未来变成一个好的服务,需求有多个技能栈在一块,而不是从一个模型直接变成一个服务。你刚刚提的问题背面,含义是模型够好,仅仅需求一些东西来做补丁。

我以为能够换个视点,终究的服务,大模型仅仅其间一种技能。模型它天然就有它的瓶颈,它或许会有进步,可是我以为它实质的当地没有变。

模型和查找会以新的方法交融在一块,而不是模型代替查找,相似的问题便是一个坑。

问:新的 53B 的大模型是一个通用大模型,在笔直范畴的体现怎样?

答:咱们发布的是通用的版别,可是测起来的话,医疗方面会比其他家好一些。

问:为什么没有继续开源?

答:模型变大之后没有走开源的这样一种方法,由于咱们布置起来本钱也会十分的高,便是运用闭源让咱们网上调用的方法。在咱们的官网,咱们现已能够请求内测试用了。在咱们的方案里,咱们后续 53B 也不会开源。

问:闭源有代表商业形式的改变吗?

答:开源和闭源不是对立的。不管是 7B 仍是 13B,仍是 53B,都是为 ToB 的职业服务做准备的,往下的话,下个月咱们就能敞开 API,乃至后边会开端敞开一些其他的组件,协助咱们更好地去做后边的对齐,乃至做强化,也有向量数据库等等。把这些 TOB 的一些独立的服务优先给做起来。

问:闭源的优点是什么?

答:就关于企业和客户来说,闭源的话关于咱们来讲,首要是能够做更大的模型,而更大的模型推理布置的要求很高,开源给企业自己布置运用,企业布置难度也很大。咱们以为闭源其实能够供给更简略的接口,做这样的一个调用。它的这个指令的精准度方面会更好,能处理更杂乱的问题会多一些。

问:闭源大模型的本钱很高,怎样确保竞赛力?

答:我以为这中心有两件作业,一个是模型作用满足好,拼的是你的这样一个模型的才干。第二个,你得把你的这个推理的本钱给降下来,这是世界性的难题。我觉得这里边还有许多功课要去做。

问:闭源大模型的算力怎样处理?

答:经过云厂商完成。包含腾讯云、阿里云都有供给算力。

问:OpenAI 也阅历过从开源(注:GPT-1 和 GPT-2)到闭源(注:GPT-3 和 GPT-4),百川闭源和开源的规范是什么?

答:我觉得和巨细相关,参数大的布置本钱现已开端添加,这种状况下咱们就挑选走闭源的这样一个服务。但这个开闭的话我觉得不是同一个意思。本来「开」说的是把你的这个论文也敞开了,代码也敞开了让他人去复刻你,咱们这个开源的意图是能够供给给咱们更好的去用的,自身它就不是同一个词。

真实的对话王小川:决定大模型的胜负,钱很重要,人更重要的照片

OpenAI 之前是开代码的,它的 GPT-1 和 GPT-2 是有论文、有代码看的。所以咱们其实历来没说要开个论文,开个代码,咱们这边仅仅敞开模型的才干,让 B 端都能够用到,不管是开源还闭源都能用到你的模型才干。这是和 OpenAI 不相同的形式。

问:有人以为今日在国内做开源是有一些营销的意图,你怎样看?

答:我觉得必定程度上是对的,我以为今日说开源应该有几层含义。

第一层的话我觉得便是一个营销行为。要告诉我行不行,有用没用,所以我觉得关于一个后发者开源是挺好的一个挑选。这种开源的路途在 OpenAI、LLaMA 面前,也叫后发制人,开源之后是更简单使朋友多多,能够让咱们敏捷去评测了解,所以营销行为肯定是有的。

第二层的话,开源有时是为了商业化做储藏的,自身你有了各种用处之后,有了生态之后,那么其他有更高要求,比方对可靠性的要求,或许需求更好的参数的模型,更大的窗口的时分,我手上有能够能接得上的这种东西,就有了从开源到收费。我以为这件作业在国外是有探究的,在我国尽管之前不成功,但仍然是能够学习这样的一个思路。

02

一家公司

不或许把赛道做完

问:百川智能在模型练习方面接下来是怎样方案的?

答:我觉得现在是个爬坡的状况。关于模型来说,咱们以为有三点很重要:一个是大模型自身的才干,特别指的是预练习的才干,一个是查找的才干,一个是强化的才干,这三个作业便是一起推进大模型的前进。

从实操视点讲,查找其实作用是最显着的。强化这件事,是比较有难度的。预练习其实是在进步模型的归纳才干。

咱们最早讲 Q3 就会发布万亿参数,做到我国最好的对标 GPT 的模型,这意味着关于预练习模型的寻求是无法停下来的,未来还会继续去做更大的模型。

可是除此之外,意味着咱们关于查找和强化的技能寻求,也会有自己的高度。让咱们既能做万亿参数,后边还有自己的差异化。

问:百川智能在 B 端和 C 的战略是什么?

答:一家公司不或许把一切赛道都做完。在 B 端,咱们挑选先做开源模型,B 端企业和中心层的公司,比方做模型二次开发的公司,能够根据这个模型去适用场景。咱们的逻辑是咱们不去一步做究竟,坚持满足敞开。

C 端的话,本年内部团队开端布置 C 端的超级运用。咱们在考虑怎样追上 GPT-4,考虑大模型究竟能给 C 端带来哪些运用,一起咱们了解到网信办发车牌放行的作业本年必定会被铺开。

咱们比 OpenAI 在两端都走的更远一点,OpenAI 现在 B 端便是 API 调用,C 端便是 ChatGPT,咱们在 B 端更敞开,C 端对超级运用有更多的产品界说。

问:在 C 端的超级运用方面,有什么能够泄漏的吗?

答:在这方面咱们有许多自己的考虑。

在这种创业公司里边,咱们从搜狗过来,在几个干流创业公司里边是仅有一家做过超级运用的公司。咱们做过两个,一个是查找,一个是输入法,并且这两个还都是把言语 AI 用到极致。这些言语 AI 和交互式探究里边的各种经历教训也都能够在百川里边能够继续去发扬光大。

问:百川智能为什么能够做到跑的这么快?

答:大模型这个作业是相对归纳的作业,涉及到几个环节。

第一个环节你的数据从哪儿来,咱们都知道互联网的网页或许是万亿量级的,可是实践是用到模型去练习大约也便是百亿的量级。咱们之前这个团队布景是做了许多年的查找,所以咱们对整个我国互联网里边哪里有好的数据,咱们这个团队肯定是最清楚的,怎样把这些数据搜集回来,并且把它的质量做好,辨认出来,这些咱们其实曾经有一个很强的堆集和方法论。咱们现在注重到现在许多的言语模型除了中文的数据也好,英文的数据,咱们曾经在翻译这块也有很强的堆集,怎样样能整合中英文的数据,这块咱们曾经做过许多相关作业,有一些堆集。

第二个问题,关于这个模型自身的练习,咱们之前在 7B 也发布过,咱们整个并行战略调校的水平十分好,在国内也是比较抢先的水平。

方才说到整个模型的练习其实是一个相对杂乱的系统,涉及到数据、练习结构、模型自身,需求对整个杂乱系统系统有很强的经历,这些咱们之前都会有一些堆集。

咱们做这个作业自身有很强的号召力,除了曾经来自搜狗的人才储藏以外,也有许多来自头部企业凶猛的同学参加咱们团队,这个或许是构成了咱们为什么能跑得很快的最主要的原因。

问:百川智能计划开端进行商业化吗?

答:咱们并没有将咱们发的头两款大模型商业化。像智谱、MiniMax 这样的公司,更早参加了大模型创业,在咱们之前现已干了几个月乃至一年的时刻,有他们商场的影响力。咱们作为后发者进入到商场,所以开源对咱们来讲的话,咱们首要是能够先给我国的商业生态做一些奉献,添补一个空白,也是展示咱们的一个技能实力。咱们信赖后边的技能会展开十分快,尽管咱们开源了,只需继续不断有后边的这种技能迭代,就会有自己的商业形式呈现。

7 月 28 日,洪涛入职百川智能担任商业化方向,咱们商业化的作业也会开端展开起来。一方面会凭借现在的开源引擎,但也有一些更大参数的模型。除此之外,背面的一套组件也在研制傍边,能够一致的去做供给布置。

今日在这个体量的公司在今日这个年代里边,咱们以为多条线里边都有许多时机,咱们对自己团队过往的才干也好,经历也好,是有决心的,能一起打好几场仗:首要模型方面,咱们到现在发了三款模型,感觉立住了。其次团队也是在不断的这样的一个扩大进程傍边。到了咱们建立的第 100 天 咱们有 100 个人。到今日是 113 个人,基本就一天招一个人的速度往下走,速度或许还会再昂首。

在这个中心我会很注重,你这个安排是否有满足多优异的人才,有杰出的这种安排才干和分工。有这个才干,哪场仗都能打。

问:百川智能现在的人员构成是什么样的?

答:技能人员大约占总人数 70% 到 80% 吧,来自搜狗的旧部大约占到 30%-40%。

问:百川智能更喜爱什么样的大模型人才?

答:比较倾向于两种类型的,一种是自身关于处理杂乱问题,有很强的问题拆解才干。然后是关于算法或对技能有很好的技能审美,也便是他自身要有很强的判别力,这的确是一个十分重要的点。特别在算法这个范畴,咱们每天都会有许多新的 idea 出来,那关于整个算法的考虑是有系统的,有没有一个很好的技能审美,其实是一个十分重要的作业。

第二种,咱们会比较倾向于说这个同学他自身的技能才干要很厚实,包含他的 coding 的才干,或许是写算法的才干,他自身的技能基本功是十分厚实的,关于咱们要做的这个作业,他听到后两眼放光,觉得是十分神往、十分巴望这种状况。那我觉得这样的人对咱们来说,是能够十分好的融入咱们的团队,一看就知道和咱们是一路人。

问:大厂身世的人,为什么会挑选百川智能这样的创业公司?

现代的对话王小川:决定大模型的胜负,钱很重要,人更重要的照片

答:我觉得大厂小厂的人,他们都是技能人员。他们挑选百川智能有各种原因,首要第一个是有技能抱负的,留在大厂里或许没有时机完成,比方做的东西没被选中。其间也有一些是由于安排架构的原因,给他的岗位和作业才干不能匹配。

大厂其实是有人才的,可是鉴他人才的才干由于各式各样的原因总是会有短缺,乃至有动作的走形。所以一些人才就会觉得创业公司里或许会有更好发挥自己才干的时机。

而之前创业公司的问题,是有些作业是创业公司做不来的,你的规划不行,空间不行大。但这件事(大模型),有满足的吸引力,空间也满足大,那么这个作业时机对大厂人才也就有满足的吸引力。

问:今日咱们的本钱中,算力要占到多大的份额?

答:练习阶段算力本钱是挺贵的,不同厂商状况或许不相同,职业里 40% 以上或许都得给算力了。我大约猜一下,百川或许到在 40% 到 70% 之间,终究算进来,是包含了 GPU 网络联通。

问:百川现在自己做模型也计划做运用,既做运动员也做裁判,会不会构成一些时机的损失?

答:现在我觉得不严峻。我觉得现在还算不上是一个裁判员的身份,我觉得这个比如还无法完好仿制过来。今日我觉得还没到那样一个状况,便是 ToB 的话你是满足敞开去做,然后 C 端你就选一两款自己进行。实践上英伟达也是各层都有,你看它既在里边去做底层的 GPU,也会做一体的云服务。所以我以为在各层里你分隔去做会有自己的竞赛力,今日(大模型)商业上讲还不是这个裁判员的问题。

问:百川智能的融资状况怎样?

答:融资十分顺畅,但现在还不能发布状况。

03

关于大模型职业

问:怎样看待现在我国的大模型职业全体的状况?

答:现在我国的大模型职业,从现象上看,的确咱们都在下场在做,每个有技能抱负的企业都必定要自己试一下这件作业。所以其实这样就卡的资源不行用。

今日不管是十家、百家、千家,终究必定要看两件事,第一个是否能拿出满足好的 AGI 来,像 GPT3.5、GPT4 去比肩,这件作业咱们有相应的间隔,咱们现在也没做到,往下看本年内有哪些企业能到达 3.5 乃至迫临 4 的才干,现在没有看到之前你很难去判别。二,是否能做出超级运用来,大模型很烧钱,是否能够存在一个超级运用。这两个作业现在还都还看不清。

阶段功能看清的当地便是开源这件作业,咱们能够自己做评测,在这个范畴里边的话,我国这方面是或许优先到达一个世界水准的。第二的话便是咱们的这种超级运用有或许会比美国快,我国做这种科学问题会差一点,但做运用问题的确是咱们的强项。

我到美国去之后发现他们这边做技能的确得不错,可是做运用才干实在不怎样样。许多工程师并没有运用的经历。我去之前,我其时说到的是在抱负上比 OpenAI 慢半步,在落地上快半步。我回来之后改了,「抱负上慢一步,落地上快三步」。

他们满眼放光跟我讲,他们在规划怎样把 1000 万颗 GPU 联在一块做模型架构。咱们知道今日训 GPT-4 大约是 2 万颗 GPU,GPT-5 或许是 5 万颗。他们考虑规划 1000 万颗 GPU 做联接结构,你跟他们拼抱负这个是没完没了的。你说处理错觉问题,他们说模型大 10 倍错觉就下来一些,他们走的不是往落当地向,OpenAI 便是这样的状况。你跟着它走是不行的,因而抱负上的确拼不过,可是落地上咱们跑得快。

问:创业型公司在这场这个里边该怎样玩?钱在这里边有多重要?

答:今日咱们看到一个状况,咱们一起步公司就几亿美金,今日就 5 亿多美金。第二轮或许便是 10 亿美金的状况,其他几家大公司都是这种状况,所以这种竞赛不是小新鲜,三两个优异的小同学坐在一块,给你 3 年、5 年的时刻。你要敏捷进入到大的战争里边。一方面创业公司拿到许多钱去相互卷,还有大厂之间的竞赛,大厂有更多的钱,更多的人,更多的算力进来,这种状况下敏捷构成一个战斗力。

我国跟美国不太相同,美国通用大模型闭源模型其实头部几家现已定下来了,OpenAI,Google 都有一张门票,在美国做开源大模型做通用现已没有悬念,出资也不会再去投。可是在我国不是,我国谁做最好的大模型现在并没有定论,有一个咱们争夺的时机,并且还不必定落在大厂里边。

决议输赢的话,我觉得钱是十分重要的一件作业,但终究决议才干的仍是人才团队,特别包含人的才干和安排才干。大厂钱多,人多,算力多,但安排功率不必定够好。创业公司安排功率或许好,也或许欠好。

像咱们,管理过 3000 人的公司,现在变成 100、300 人,十分简单把功率提上去。因而安排才干对咱们来讲不是挑战性的作业,一起也有大厂相对完好的经历,假如在钱上能确保的话,咱们的才干仍是很强的。

问:现在大模型有同质化的趋势,咱们怎样看待这个问题,有没有一些躲避的办法?曩昔说有五张船票,现在还有几张?

答:我觉得现在阶段性的会有同质化的问题,现在仍是在一个叫做分型复刻的阶段。在这种状况下,你对标的东西就只要一个,便是 OpenAI,那么不行避免的职业会呈现同质化。这个阶段过了之后,就开端看你的技能里是否有独有的才干。像咱们对查找的了解,对强化的了解,咱们的模型会逐渐走出差异化来,这需求一个时刻,那更多当地便是在运用里边,那咱们就千差万别了。

所以同质化这个作业,今日仍是蛮正常的一个现象。才刚开端,那你肯定是向他人先学习,然后才干发挥自己的东西。人生就叫以正和以奇胜,对吧?

船票的话现在仍然仍是有 5 张,假如只要 2 张咱们也会在这个船上。这 5 张并不扣除大公司,创业者是没有 5 张船票的。

问:现在许多运用开发者都是一起运用多个大模型,这个会是长时刻趋势仍是短期现象?

答:现在我却是觉得这种现象是我国特有的比较好的、比较敞开的状况,相互之间没有本来的「二选一」这样相互架空,这是一个好的状况。

第二是咱们现在关于模型的了解都还不是许多。这种状况下,多试几家的也有;非要自己下场试一下的也有。现在职业还没有到一个这个咱们构成根底一致的状况,而到未来的时分我觉得渐渐会分层,就各自专心的自己的作业,现在仍是一个叫做「群魔乱舞」的状况傍边。

问:怎样看大模型在 B 端商场的远景?

答:我以为 B 端天花板不高,但确定性是挺清楚的,便是的确许多企业都有这样的一个需求,仅仅它的对接门槛很高,每个企业有自己的私有数据跟你怎样连。所以假如你没一个好的协作形式的话,终究或许把两边都拖垮掉。一个是信赖的问题,一个是 ToB 到后边的一个研制本钱会十分高。

咱们是需求有中心层的企业来做服务的,既有 B 端的实在场景,也有中心层做服务的,也有后边是做模型的,应该是三层这样一个结构。由于 B 端公司许多技能才干不强,所以中心有各种集成商,有后边的大模型服务商。在银行职业,在保险职业,都有许多中心的公司在给供给服务,这不是个技能问题,而是要能够去联接职业客户的需求和客户的出售。

问:怎样看待开源和闭源?

答:今日咱们评论开源闭源的话,它不像是安卓或许 iOS 相同的,是二选一的,手机里要么装安卓,要么装 iOS。而今日的话,这个从 ToB 的视点里边是开源、闭源都需求,不是这样的竞赛联系。

咱们以为,未来 80% 企业会用开源的模型,在自己的数据里去优化。由于你闭源的话,这个东西无法对产品做特别好的适配。并且开源模型能够做的十分的细巧,由于在许多产品里边并不需求大模型去做数学题。实操里边的话,其实开源模型在许多当地是十分好用的。

咱们刚刚说到自身在做 7B、 13B 的时分,收到过一些企业的反应,他们以为它们现已比闭源的 GPT 更好用了。能够看出,不同产品需求不同的储藏,但咱们觉得不是一个竞赛联系,而是在不同场景有互补的联系。

咱们更多地注重是 B 端怎样做,C 端怎样做的问题,而不是把问题停留在开源和闭源上。我乃至以为这个问题也不是现在咱们想不明白,难以构成一致的当地了,这个问题的一致现已在构成傍边了。

本文源自:极客公园

告发/反应

相关文章

抢夺万米高空:波音空客的我国商战与输赢

  一场高海拔的战役。文丨华商韬略 李慕白  1965年3月,周恩来总理出访罗马尼亚。  当专机下降的那一刻,在场的罗马尼亚人交头接耳:别国领导人乘坐的都是本国飞机,唯有我国领导人的飞机是从巴基斯坦租...

全球首个人形机器人“半马”开赛在即,比赛怎么判输赢

中国青年报客户端北京4月17日电(中青报·中青网记者 尹希宁)4月19日,全球首个人形机器人半程马拉松将在北京亦庄开跑。今日,赛事组委会发布《人形机器人半程马拉松竞赛规矩》(以下简称“规矩”)。根据规...

友情链接: