“超强阵容”献计,国产大模型如何突围?
“一个国产大模型要如何才能成为市场主流?需要跨越哪些关键的挑战?”11月16日下午,在由科技部、深圳市人民政府共同主办的“2023西丽湖论坛”平行分论坛,一场以“AI大模型的开源创新与赋能应用”为主题的高峰对话正在进行,清华大学计算机系陈文广教授向百川智能创始人兼CEO王小川提出了一个所有大模型创业者都十分关心的问题,也引发了与会嘉宾的热议。
今年以来,人工智能大模型掀起了澎湃的科技创新与创业浪潮,许多科技巨头与创业公司都在研发自身的大模型,形成了“百模大战”的局面。在高峰对话当中,来自政府、企业、高校的领军人物围绕国产大模型的突围之道,进行了热烈的讨论。
除了目前市场普遍关心关注的可靠算力问题,记者梳理与会嘉宾的观点发现,国产大模型要在全球竞争当中实现突围,有三个重要的关键词:优质数据、繁荣生态、产研合作。
中国外文局副局长高岸明表示,根据研究,目前在国际信息流当中,英文的内容占到60%,而中文的信息流只占到大约2%,不仅远远低于英文,而且也低于很多非通用语种,高质量中文语料的缺失为国内大模型的训练带来挑战。“我们需要有海量、精准、可靠的中文语料数据来训练我们的大模型。”高岸明表示。
作为大模型创业公司中的佼佼者,百川智能发布的Baichuan-7B/13B两款开源大模型累计下载量已超过600万次。其背后的成功原因,离不开王小川“搜索”出身带来的数据优势。记者注意到,在ChatGPT推出不久之后,王小川就曾公开指出,搜狗输入法和搜狗搜索的数据制备和产品形态与ChatGPT接近,都是把互联网上的全部语言数据收集、清洗,压缩成数据并构建超级产品。
“我可以很自豪地说,在开源大模型里面,百川智能的水平在中文方面已经超越了LLaMA。”王小川说。目前,Meta公司的开源大模型ChatLLaMA是国际上最为主流的开源大模型之一。王小川表示,百川智能采用的是搜狗从搜索引擎时代开始就积累的万亿级数据,在其中选取最优质的数据,从而取得了良好的训练效果。
当前,国内外竞逐大模型都采取开源和闭源两条腿并行的模式。开源即开放源代码,允许开发者查看、修改和分发开源代码;而闭源则与之对应,用户只能对产品有使用的权利,没有修改的权利。业内普遍认为,闭源契合知识产权保护,顺应投资与获取利润的逻辑,而开源则有助于技术的快速迭代与创新,形成繁荣的生态。
“两种技术路线有各自的逻辑,不能简单判断哪一种更好,但是我认为事物的发展必须要有多样性。在大模型研发的生态环境中,既会有开源的做法,也会有闭源的做法。”中国工程院院士、鹏城实验室主任高文说。他进一步表示,鹏城实验室与百川智能在开源大模型方面开展了密切合作,并将模型提供给全社会使用,从而助力打造更加活跃与繁荣的生态。
大模型时代中,产研合作的作用变得更为突出。由于大模型研发需要投入巨额的算力,目前该领域的创新主要来自于资金实力更为雄厚的企业。北京邮电大学人工智能学院教授何召峰曾公开表示,在大模型领域,高校不太可能与大企业竞争,但二者之间有广阔的合作空间,紧密的产研合作能助力国产大模型实现更快的发展,二者应结合各自优势,进行针对性的合作。
据了解,鹏城实验室与百川智能合作研发了“鹏城-百川·脑海33B”长窗口大模型。这一大模型也在此次高峰对话后正式发布。据介绍,该大模型是国产算力平台的最长上下文窗口模型,实现了段落、句子粒度的自动化数据过滤、选择和配比,能支持128K的上下文窗口长度,即一次可容纳相当于300多页文本内容的提示词,后续还将升级至192K。值得注意的是,不久前ChatGPT发布了最新迭代版的GPT-4 Turbo产品,其中的一个变化便是上下文窗口长度由32K扩展至128K。
“在去年ChatGPT发布后,国内整体处于比较焦虑的状态,如今已经比年初好很多了。”王小川表示,目前无论是科技巨头还是获得资本加持的创业公司,都在加速向前迈进,他期待国内大模型的突围能够在明年到来。
责编:万健祎
校对:姚远