图片来源:视觉中国
夸克发布大模型一周之后,11月22日,夸克技术负责人蒋冠军,在阿里中心举办的闭门会上分享了关于夸克大模型更多的技术和发展细节。
夸克大模型是阿里巴巴智能信息事业群于11月14日发布的全栈自研的大模型,是基于Transformer架构的,具有千亿级参数的多模态大模型。
此次闭门会所处的房间,墙上贴着很多弹幕热词、影视作品台词以及歌词作为装饰,其中一句是“让年轻人的快乐更阳光”。年轻人,正是夸克大模型始终在强调的关键词之一。在会上,蒋冠军分享了一个数字——现在夸克的用户中,25岁以下的年轻用户占比达到一半,他表示,“我们一开始做夸克,就是希望把夸克做成年轻人或刚工作白领群体的智能助手”。
打开夸克APP,在搜索框下面有7个板块,分别是夸克网盘、夸克扫描王、夸克学习、夸克日报、夸克文档、夸克热搜以及更多。蒋冠军表示,“在大家的工作、生活和学习过程中,无外乎是先找资料,再存资料,并且最好有一个能云端编辑和加工的智能产品,帮用户去解决工作学习中的具体问题”。而夸克大模型正是在这一基础上,对搜、用、存进行智能化升级。
在今年阿里Q3的财报会议上,公司明确将1688、闲鱼、钉钉和夸克定义为阿里巴巴第一批战略级创新业务,集团会支持其3-5年,这意味着夸克必须在3-5年内自己养活自己。据蓝鲸财经获悉,夸克所属的智能信息事业群在过去几年内已保持了小规模的盈利的状态。
在具体介绍夸克大模型的技术优势的时候,蒋冠军从数据、平台、人才和知识增强四个方面进行了展开。其中值得注意的是,蒋冠军表示,夸克大模型在科普回答上的幻觉率为25%,通过知识增强降低到15%,具体到医疗领域,这一数值则可以降低到5%。
所谓幻觉,可以简单粗暴地理解成人工智能中存在的“胡说八道”的现象,幻觉率低代表的是准确性高。而准确性,是现在通用人工智能能力最核心的问题之一。蒋冠军表示,其所处的团队是通过对大模型的预训练、人类对齐以及模型改进和模型参数规模增加等方式去降低幻觉率。
11月16日,复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA,对业界包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等在内的24个主流大模型进行了评估。
其中,在幻觉消除上,具备检索增强能力的大模型优势明显,而在所有评测的模型,文心一言排名第一,整体无幻觉率为69.33%。而GPT-4整体中文无幻觉率为53.11%,排名第六。
同样地,蒋冠军也在强调夸克团队此前通用搜索的技术和经验,使得夸克大模型具有数据和平台上的优势。
具体来讲,通用搜索在数据的数量、完整性和丰富性都为大模型核心的三要素之一——数据提供了支持。而传统搜索引擎与大模型同样都需要庞大的算力,“搜索引擎本身就是海量的网页数据,我们的数据库里有千亿级网页,这意味着需要有一个非常好的离线系统或工程系统,去处理大规模的网页数据,去做对齐、去重、分析等工作”。事实上,夸克的前身是夸克浏览器,而夸克则是由被阿里收购的UC团队于2016年10月打造。
国内同为搜索引擎出身,进军大模型领域的百度,于今年3月就推出了大语言模型文心一言。据近期百度发布的Q3财报,文心一言用户数达7000万,覆盖场景4300个。此外,百度三季度的研发费用为61亿元,同比增加6%,主要是由于支持文心一言研究投入的服务器的折旧开支及服务器托管费增加。
来自清华大学的新闻学院新媒体研究中心的主任沈阳也参与了此次闭门会,他对于搜索引擎和大模型之间的关系进行了进一步的阐释。
沈阳表示搜索引擎和大模型之间有着天然的适配性,包括搜索引擎本身具有的数据量大,内容安全上经过了长时间的考验的特点,以及搜索引擎具有的交互功能适配大模型的同时可以通过大模型进一步升级改造。沈阳还表示,未来5-10年后,将会没有搜索引擎的概念,而只有大模型的概念,“因为你有任何问题,会习惯于问大模型,不再用搜索引擎”。
至于具体的应用场景,会议上着重强调了医疗和教育这两个领域。其中在医疗领域,蒋冠军表示,夸克大模型不只可以做出科普性的回答,还会追问,具有进一步的推理能力。而在教育领域,蒋冠军则通过具体的案例介绍了夸克大模型在中英双语上的理解和输出能力,以及对于解题思路进一步解释的能力等。
在夸克大模型公布之初,就有媒体报道过夸克大模型将衍生出通识、医疗、教育等垂类模型,可以提供AIGC、智能检索的专业服务。但由于夸克大模型还未拿到备案,具体的应用产品尚未披露,更远的商业化场景也还未明晰。
相较之下,近期基于文心大模型4.0的“文心一言专业版”也已经上线,并针对专业人士需求开放收费使用,跑了半年的文心一言大模型,正在商业化的道路上大步迈进。
同为阿里系大模型,更早之前,阿里巴巴已经推出通义千问大模型。通义千问属于阿里云,夸克大模型则属于智能信息事业群。
大模型烧钱,是众所周知的事实,那为什么夸克要另起炉灶呢?对此,蒋冠军表示,二者之间的目的是不同的,通义千问更多的是ToB,而夸克大模型是为了解决夸克的智能化问题,为C端用户打造一个智能工具助手。如果只在通用大模型的基础上做样本的精调,并不足够应对差异化的场景。