声明:本文来源于微信公众号 硅星人Pro(ID:Si-Planet),作者:油醋,授权站长之家转载发布。
12月19日,百川智能基于搜索增强的Baichuan2-Turbo系列API宣布开放,包括Baichuan2-Turbo-Baichuan2192K-Turbo。9月底,Baichuan2-53B第一在向外界打开API后,百川智能在B端的进一步行动。
7月,洪涛作为搜狗CMO加入了这家大型创业公司,第一与王小川同时出现在自己商业化产品的发布现场。这家公司7月份刚超过100人,现在规模接近200人。
B端百川智能布局加快,搜索能力融入更深,文本能力长的Baichuan2-Turbo 与前者相比,API具有更多的现实意义。
金融、医疗等一些行业和大型模型的需求已经开始形成。统计显示,中国230多个大型模型群落中,15%服务于金融领域。
洪涛与客户接触的经验是,B端经常遇到客户不知道大模型能做什么,或者想象力超出了大模型的能力范围。
这本身就是大模型本身的问题。它似乎有能力讨论问题,但在许多情况下,它无法提供准确可靠的解决方案。人们希望它能独自解决所有问题,但它的定义是空洞的。缺乏明确的角色定位,这使得大型模型在进入实际场景时遇到许多障碍,也突出了大型模型本身的幻觉和及时性问题。
在王小川看来,搜索增强能力是企业实施大模型的前提。然而,在进一步匹配搜索增强能力后,大型模型需要一个更灵活的外部数据库来补充实际场景。
与Baichuan2-Turbo系列的发布同时,百川智能发布了新的搜索,以增强知识库的能力,这意味着企业现在可以从私有化部署到云上传知识,制作插件数据库,连接Baichuan2大模型,为基本大模型添加行业知识。然而,与原来的行业大模型不同,这种方法并没有培训基本的大模型本身。理论上,这是一种成本较低的方式,在及时性方面更灵活,不会增加幻觉的可能性。
百川智能在B端的商业化道路正式开始,从搜索增强能力注入到知识库功能的推出。
在长度和广度之间找平衡
最近Andrej Karpathy的言论似乎重新定义了“幻觉”。
Andrej Karpathy是OpenAI的创始人之一。他在人工智能领域的地位很高,也是特斯拉之前 AI 导演,他于今年2月从特斯拉回归OpenAI。Karpathy最近发布了一个观点:大语言模型的所有工作都是制造幻觉,大模型是“梦机”。
图源:X
“大模型是在做梦,这就是幻觉问题的原因。相比之下,搜索引擎根本不做梦,所以它有创造力问题——因为它的逻辑是根据输入提示直接返回数据库中最相似的“培训文档”,也就是说,它永远不会提供新的回应。”
理论上,如何定义幻觉仍然是一个开放的问题,但可以肯定的是,ToB不喜欢幻觉。
相对清晰的人工智能实践场景,如金融、医疗和法律,需要极高严谨性,这种严谨性是基于巨大的文本量——研究报告、医疗报告或法律文件。在这些大模型中最先在探索场景中,避免幻觉的前提是在输入和输出两端的上下文长度和知识广度之间找到平衡。
如果大型模型+搜索增强被视为大型模型时代的新计算机,那么大型模型类似于计算机的CPU,通过预培训将知识内化到模型中,然后根据用户的Prompt生成结果;上下文窗口可以被视为计算机的内存,存储当前正在处理的文本;大型模型时代的硬盘由互联网实时信息和企业完整的知识库组成。
在Baichuan2Turbo系列API发布的背后,逐步建立了一个完整的大型技术栈,延续了类似的逻辑。
王小川第一今年7月,我们提出了类似技术栈的想法:
“举个最简单的例子,模型肯定会遇到幻觉问题和及时性问题。幻觉和及时性可以通过大型模型本身来解决。有些人用扩展参数、万亿和十万亿来解决幻觉;或者用强化学习。但事实上,最直接的方法是带来搜索和信息检索。只有将大型模型与这些模型结合起来,才能形成更完整的技术栈。”
他认为,美国现在对应用层感到困惑,中国目前的问题是缺乏模型能力。如今,许多模型初创公司也将自己的视角局限于大型模型,对其他技术堆栈了解不多。当时,百川智能刚刚发布了130亿参数开源大型Baichuan-13B。
之后,这家大模型公司的整体进展可以描述为对整个技术栈的补充。
王小川今年8月第一第二次,Baichuan-53B提出了搜索增强的概念。Baichuan模型中的搜索增强系统集成了多个关键组件,包括指令意图理解、智能搜索和结果增强。王小川说,与其他大型模型相比,搜索增强“(Baichuan-53B)搜索与模型的结合从非常底层的地方开始融合 ”。
一个月后,百川智能表示,Baichuan2-53B已成为国内幻觉处理能力最优秀的模型。
到10月,百川智能将Baichuan2的上下文窗口长度扩大到192K,一次可以吃掉一本35万字的《三体》,集中在长文本评价基准LongEval的10个评价中获得7个SOTA。(最优模型)。
知识库能力在搜索能力和长文本能力之后,此时推出的是整个技术栈的最后一块拼图。
要打开B端市场,还有成本的重要维度。知识库与搜索的结合将逐渐被证明是容量、成本、性能和效率最佳选择和尊重这两者也意味着行业大模型的概念开始被放弃。
图源:百川智能官网
不要移动基本模型
大模型是一种参数化的知识容器,知识内化在模型内部,不清楚,是提炼出来的跨学科通用知识。
但实际场景需要实时更新。在垂直领域,特别是在不容易公开获得知识的领域,模型本身的领域知识严重不足。这使得大型模型必须与企业数据相结合,才能解决实际应用。如何补充大型模型的及时性,在B端发挥作用,有两条路线。
之前的路线是做一个行业大模型,也就是用行业知识预训练或者微调训练大模型。
但基于特定数据预培训或微调垂直行业大模型需要高密度的技术人才团队,大量的计算支持,每次更新数据培训或微调模型,不仅成本高,灵活性差,更重要的是不能保证培训的可靠性和应用的稳定性,多次培训后仍会出现问题。
王小川说:“此外,大多数企业数据都是结构化数据,不适合SFT。模型不能准确地记住结构化信息,这会带来幻觉。”。
另一条道路是与外部数据库相匹配,而不接触基本模型。这条更轻的技术路径逐渐成为大型模型开发者的新共识。
OpenAI于2021年发布了WebGPT,首次它显示了加入搜索能力后大模型能力的好处。WebGPT是基于GPT-3模型的创新。它利用互联网响应开放式查询,大大提高了答案的准确性和可靠性。这是人工智能领域的一个重要转折点,显示了人工智能未来提供更透明、更可靠答案的可能性。
WebGPT的工作过程类似于人类在线查询和回答。它首先提交搜索查询,然后跟踪链接并浏览网页以收集信息。这种独特的方法有效地提高了答案的准确性。在减少幻觉的同时,WebGPT开始在长问答任务中与人类表现相当。
今年11月,OpenAI 开始提供RAG(Retrieval-Augmented Generation)在不修改底层模型本身的基础上,产品Retrieval检索工具允许用户引用额外的数据源,而不仅限于ChatGPT的原始训练集,从而提高输出的准确性和相关性。
搜索能力与外部数据库的结合也有机会将国内人工智能公司从NLP开始、在CV同途同归的项目制泥潭中挣脱出来。
百川智能技术联合创始人陈伟鹏说:“我们今天发布的知识库是产品。事实上,我们希望通过产品实现企业低成本定制,解决过去高成本项目体系的问题。这是我们的想法。”。
然而,目前,企业建立自己大型知识库的主流方法仍然是向量检索。向量模型的效果过于依赖于培训数据的覆盖,培训数据未覆盖的领域的泛化能力将显著降低。此外,用户prompt与知识库中文档长度的差距也给向量检索带来了巨大的挑战。
在向量数据库和长窗口的基础上,百川智能集成了稀疏检索和Rerank模型,实现了稀疏检索与向量检索并行。语义上的向量检索它会更接近,但在embedding之后,会有很多漂移和泄漏。稀疏检索在召回和语义漂移方面具有优势。这种独特的并行检索方法的实现取决于稀疏检索的技术积累,而后者来自于基于符号的搜索方法的技术团队的经验。
这种并行检索方法可以将Baichuan2模型的目标文档召回率提高到95%,市场上主流开源向量模型的召回率为80%。
对于大型模型,由于引用数据不准确,与大型模型不匹配,模型的“幻觉”加剧。在RAG技术的基础上,百川智能开创了Self-Critique大型自省技术。该技术允许大型模型从相关性和可用性的角度反思检索到的内容最优有效提高材料的知识密度和广度,降低检索结果中的知识噪声。
ToB,局限于文本吗?
GPT-4之后,无论是Meta的AnyMAL还是谷歌最新Gemini开始体现对多模态模型能力的重视,国内百度也是如此。早在今年5月,与百川智能同一栋楼的智谱AI就开源了多模态大型VisualGLM-6B。
在百川智能目前展示的场景示例中,有多达20个细分场景,包括问答、信息提取、咨询分析等,但仍然完全集中在文本生成领域。多模态能力尚未出现在Baichuan系列模型中。
从语言到多模态,百川智能显得克制。
在王小川看来,最终的文本能力代表了大模型的智力水平,这是目前百川智能唯一聚焦的方向。
“我们认为,在追求模型智力或追求世界领先的大模型时,我们把文本放在文本上第一该公司正在长期发展。所以今天,如果公司首先考虑音频、图像、视频等,它就不再在这条追赶的道路上了。
追赶文本能力是每个人最应该关注的事情,而多模态是最接近应用程序的事情,但后者可以用更小的模型来推广。”
最近出现了,Phi-22.7B和Mistral7B以非常小的尺寸击败了Llama2-7B和13B,甚至Mistral7B在数学和代码生成方面的表现也超过了Llama-34B,这也让人们重新考虑了模型参数和模型能力之间的关系。
自4月份成立以来,百川智能公司迅速打造大型产品。模型参数规模从7B和13B迅速扩展到53B,突破100B(1000亿)的大型研发计划以前也被披露。对于百川智能公司来说,该模型的参数规模仍然是一座需要攀登的山。
王小川说:“对于ToB来说,由于私有化的必要性,参数规模太大,企业成本太高。在这方面,由于插件知识库的技术,参数规模对模型能力的影响不是很担心,”。
“在总体规划中,我们制作7B和13B模型作为开源,但主要模型仍将达到100亿和1000亿。”
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云