大模型年代解析周志华教授的“学件”思维：小模型也可做大事

BOB电竞体育综合

电话：0971-6151401

手机：18809715888

ＱＱ：527415099

邮箱：[email protected]

地址：青海省西宁市城西区胜利路33号

新闻中心

Products

BOB电竞体育综合:大模型年代解析周志华教授的“学件”思维：小模型也可做大事

发布时间：2024-05-14 03:02:24 作者：bob电竞体育app下载出处：bob电竞下注

　　毫无疑问，咱们正在进入一个大模型年代，各种开源或闭源的大模型不断涌现，处理一个又一个的运用，添补一个又一个的空白。而在此之前现已有了许多「满足好的」小模型。所以关于用户来说，要找到适宜的模型就愈加困难了。

　　南京大学周志华教授在 2016 年提出的学件思维或许能成为这一问题处理计划。经过「模型 + 规约」构建学件商场，用户挑选模型有望变得像从运用商铺下载软件相同简略，一起还能躲避数据隐私等许多问题。

　　概括地说，计算机由硬件（hardware）和软件（software）构成。跟着技能的开展，硬件和软件都在快速迭代演进，乃至让计算机具有了被称为「机器学习」的才能。这项才能能让计算机运用高速的硬件和精妙的软件有用发掘出许多数据中蕴藏的方式，然后协助其「学习」国际的运作方式然后完结实践使命。

　　近些年机器学习现已取得了十分多可谓改动国际级的成果，比方颠覆性的图画生成 AI 和大型言语模型。现在市面上的机器学习模型已有许多，其间有商业公司供给的方便运用的产品，也有研讨团队发布的开源模型，还有不同开发者和用户针对不同使命需求优化的专用模型。

　　这个纷繁杂乱的模型生态却给用户造成了困扰：假定我有个使命，想运用机器学习模型来协助处理，我又不是 AI 专业人士，我该怎样挑选适宜的模型？

　　实践上这个问题现已成为普通用户有用运用 AI 的最大阻止 —— 要知道许多人都不知道该怎么向 ChatGPT 等大型言语模型（LLM）提出正确的问题（乃至由此诞生了 prompt 工程师这一工作），更甭说为自己的使命找到适宜的模型了。

　　针对这一问题，南京大学周志华教授在 2016 年提出了一种名为「学件（learnware）」的新范式。相似于用户获取后便能直观学会运用的硬件和软件，用户也能经过学件的方式为自己的使命找到适宜的机器学习模型。

　　做一个简略的类比，假定用户想要购买一把好用的切肉刀，她能够向商场提交自己的需求，商场会依据她的需求，匹配描绘最一起的产品，然后引荐给她。但这个引荐或许与她的需求并不彻底匹配，比方引荐的是一把适宜切瓜的刀。但这把刀也不是不能用，她能够挑选直接用来切肉或运用其它办法将其打磨一番，让其变得愈加尖利，更适宜切肉。

　　周志华提出的学件方式也是相似：用户向学件商场提交自己的需求，商场引荐适宜的模型，然后用户运用自己的数据优化该模型，使之更适宜自己的使命。

　　除了能协助用户找到适宜自己使命的模型，学件还有什么用？依据周志华团队最新发布的相关论文《Learnware: Small Models Do Big》，学件能够处理许多机器学习运用问题：

　　缺少练习数据：假定模型是依据功用优秀的学件构建的，那么即便使命仅有少数数据，也仍然能取得强壮的机器学习模型。大多数用例其实只需求少数数据来进行习惯和精细化。

　　缺少练习技能：假定用户能得到功用优秀的学件的协助，而不是自己从头开始打造模型，那么即便缺少练习技能的普通用户也能取得强壮的机器学习模型。

　　灾难性忘记：一旦学件商场承受了一个学件，那么它就会被永久包容在该商场中，除非其各方面功用都被其它学件代替。因而，学件商场中的旧常识一直会被保存。什么都不会被忘记。

　　继续学习：由于开发者会不断提交用不同使命练习的体现杰出的学件，因而学件商场能自然地完结继续学习和终身学习；学件商场中的常识会不断得到丰厚。

　　数据隐私 / 专有权：开发者提交模型时无需同享数据，因而数据隐私 / 专有权可得到很好的维护。虽然不能彻底扫除对模型进行逆向工程的或许性，但与许多其它隐私维护计划比较，学件的危险十分小。

　　计划外的使命：学件商场向一切合法的开发者敞开。因而，除非一切合法开发者都没做过该使命，不然商场中总是会存在有用的学件。此外，关于一些新使命，就算没有开发者专门为其构建模型，但能够经过挑选和拼装一些现有的学习器来处理。

　　碳排放：拼装小型模型或许就足认为大多数运用供给满足好的功用；因而，人们或许不太有爱好练习太多大模型。由于能复用其他开发者的模型，所以能有助于削减重复开发。此外，就算一个模型对某位用户来说不好用，但对另一位用户或许会很有用。不会糟蹋练习本钱。

　　下面咱们详细看看周志华团队提出的学件规划思路。首要咱们能够直观地了解在机器学习运用方面，存在三个重要实体：开发者、用户和商场。

　　开发者通常是机器学习专家，他们所做的是生产出体现优秀的已练习机器学习模型并将这些模型共享或出售出去。

　　学件商场则是从开发者那里获取或购买体现优秀的已练习模型，让它们进入商场，再经过辨认和复用学件来向用户供给或出售服务，然后协助用户处理他们手头的使命。其根本操作能够分为两个阶段，如图 2 所示。

　　在提交阶段，开发者能够自发地将练习好的模型提交到学件商场。商场能够经过一些机制（比方验证功用）来确保必定质量，然后决议是否能够承受已提交的模型。假定一个学件商场现已接收了数以百万计的模型，那么新用户应当选用什么办法找到或许对自己有用的模型？

　　咱们当然不能要求用户将自己的数据提交到商场来试验模型，由于这会很费事，而且本钱很高，更严峻的问题是这或许导致用户数据走漏。比较用户数据和原始练习数据之间的相似度等简略直接的办法也是不可行的，由于学件的提议考虑到了这一现实：由于隐私或专有权等问题，不管是开发者仍是用户，都不乐意走漏自己的数据。因而，周志华团队的规划依据这样一个约束条件：学件商场既无法获取开发者的原始练习数据，也无法获取用户的原始数据。此外，他们还假定用户并不是很了解商场中已有的模型。

　　为了应对这一问题，周志华团队提出的处理计划的中心在于规约（specification）。一旦学件商场决议承受一个已提交模型，就会为该模型分配一个规约，其能以某种格局传递该模型的特长和用处，一起不会走漏模型的原始练习数据。为了简略起见，下面咱们会运用简略符号来表明模型的相关概念：假定模型对应于某种函数联系，其可将输入域 X 映射到输出域 Y，这期间考虑的方针为 obj；也就是说，这些模型在这个函数空间内：F : X→Y w.r.t. obj。每个模型都有一个规约。一切规约构成一个规约空间，其间有助于完结同一使命的模型的规约互相附近。

　　学件商场中存在具有不同 X 和 / 或不同 Y 和 / 或不同 obj 的不同模型。假定咱们把包含一切或许的函数空间中一切或许的模型的规约空间称为规约国际（specification world），那么就能把对应于一个或许函数空间的每个规约空间称为一个规约岛（specification island）。现在，研讨者还很难规划出能掩盖整体规约国际的简练高雅的规约格局，一起还能有用且充分地辨认出一切或许的模型。周志华团队依据实践状况，选用了以下规划。每个学件的规约都由两部分构成，其间榜首部分解说了该学件坐落哪个规约岛，第二部分则会提醒其坐落岛中哪个方位。

　　榜首部分能够经过一个字符串完结，其间包含一组描绘 / 标签，触及使命、输入、输出和方针等状况。然后，依据用户要求中供给的描绘 / 标签，能够有用又精确地定位相应的规约岛。一般来说，学件商场的规划者能够编写一个初始描绘 / 标签调集；当商场承受一些无法归入现有函数空间的新模型时，该调集还能增大，创立出新的函数空间及对应的规约岛。

　　规约岛还能兼并成更大的岛，如图 3 所示。原则上，假定 X 、Y 和 obj 中有一起成分，就能够兼并标准岛。能够幻想，当一切或许的使命都存在时，一切规约岛会连接成一个非碎片化的一致规约国际。

　　在布置阶段，用户向学件商场提交需求，然后商场会辨认并回来一些有用的学件给用户。其间存在两个问题：1. 怎么辨认满意用户需求的学件，2. 怎么复用回来的学件。

　　学件商场可包容上百万个模型。不同于之前的与模型复用或范畴习惯有关的机器学习研讨（其间假定一切预练习模型都会有用），或许只会有十分少部分学件对当时用户使命有用。不同于多使命学习（其间练习阶段能运用这些不同使命的数据）和与范畴无关式学习（其间能够运用源域的有标示数据），学件商场并不假定能取得这些信息。实践上，有用区分适宜的学件是十分困难的，特别考虑到学件商场无法获取原始练习数据和当时用户的原始数据。

　　经过规约规划，学件商场能够要求用户运用描绘 / 标签集来描绘自己的需求，这能够经过一个用户接口或某种有待未来规划的学件描绘言语完结。依据这些信息，用户使命就能够简化成怎么从规约岛中辨认出某个有用的学件。学件商场能够在对应于规约岛的函数空间中供给一些锚学件，要求用户测验它们并回来一些信息，然后依据这些信息辨认出或许有用的学习器。

　　一旦找到了有用的学件并交付给用户，用户就能以各种方式复用它们。对照前述的类比，用户能够直接运用这些模型，也能够用自己的数据进一步对它们进行优化，使之更贴合自己的使命。

　　抱负状况下，学件规约应该表达 / 编码学件商场中每个模型的重要信息，以便将来的用户能够有用和充分地辨认它们。如前所述，周志华团队现在的规约规划由两部分构成。榜首部分是一个字符串，这是学件商场依据开发者提交的信息给出的描绘 / 标签，其方针是定位模型地点的规约岛。不同的学件商场企业或许选用不同的描绘 / 标签。

　　规约的第二部分则是为了在函数空间 F : X→Y w.r.t. obj 中定位模型的方位。针对这一部分，周志华团队提出的办法名为 RKME（Reduced Kernel Mean Embedding / 精简核均值嵌入），其依据 KME（核均值嵌入）的精简集。KME 是一种强壮的技能，可将一个概率散布映射到 RKHS（再生核希尔伯特空间）中一个点，其间精简集在保存了表征才能的一起不会露出原始数据。

　　编码了模型的函数；也就是说其供给了该模型的函数表征。留意，也能够向模型馈送 x_i 之外的其它 x 以得到更透彻的表征。周志华团队之前运用这一思维学习过一个相对简略的模型，而且其功用体现与原始杂乱模型适当。该团队表明之后 Geoffrey Hinton 等提出的常识蒸馏（knowledge distillation）思维与之相似。这一思维作为基础，构成了 RKME 规约的榜首部分。为了简略起见，这儿令 z_i 表明

　　，而且该模型的函数编码在 z_i 的散布中。然后，商场会经过最小化依据 RKHS 范数测定的间隔来生成精简集表征：

　　其间 k (・,・) 是对应于 RKHS 的核函数，它们都由学件商场决议并会被交给开发者。解出的 (β, t) 可供给不同于原始数据 z 的远远更为精简的表征；开发者将把它们提交用作模型规约的第二部分。

　　在布置阶段，假定用户有许多练习数据，商场能够协助构建要提交的 RKME 需求。然后，经过匹配 RKME 规约与用户需求，商场能够辨认并回来 RKHS 中范数间隔最小的学件。假定有多个学件的 RKME 规约的加权组合与用户需求的间隔最小，那么商场还能够辨认出多个有用的学件。假定用户没有满足的练习数据来构建 RKME 需求，学件商场也能够向用户发送多个锚学件。用户可将自己的数据输入这些锚学件，然后生成一些信息（例如精确度和召回率或其它功用指标），这些信息会回来商场。这些信息可协助商场辨认出潜在有用的模型，例如，经过发现远离锚学件的模型体现差，接近锚学件的模型体现好，可在规约岛中找到适宜的模型。

　　为了验证这一思路的可行性，周志华团队规划了一种学件商场的原型，其用户界面如下图所示。

　　该商场包含 53 个运用不同数据集练习的不同类型的出售猜测模型，但它们的输入空间、输出空间和方针是相同的。因而这些模型的规约坐落同一规约岛。

　　试验进程是模仿一位新用户，其想要在学件商场的协助下构建自己的出售猜测模型。

　　试验成果如下所示，比较于用户运用自己的数据从头构建模型，借助学件商场能取得不错的功用提高，特别是当用户数据较少时。

　　自 2016 年学件（learnware）思维提出以来，AI 范畴现现已历了巨大的改变，语音、图画、视频、文本、多模态等各式模型层出不穷，让人眼花缭乱。关于不专精于此范畴的普通用户而言，想要为自己的特定使命找到适宜的模型绝非易事，由于实践运用总是需求考虑多方面的问题，包含模型功用、运用本钱、响应速度等等。

　　假定学件商场能够成功大规模地布置到实践运用环境中，那么可望敞开 AI 的真实遍及之门。到时，当为特定使命构建人工智能模型时，只需求查找学件商场即可，不再需求从头开始构建，就像现在的程序员在写软件时会在 GitHub 等代码库查找有用的代码相同。

　　近来完结大规模运用的大型言语模型还让咱们看到了新的或许性。想象一下，假定学件商场中的模型装备了优秀的文档并整合了用户谈论机制，那么用户乃至能够运用自然言语描绘自己的使命需求。这样一来，或许即便彻底没有相关经历的新用户也能为自己的使命找到适宜的模型。

　　本文为汹涌号作者或组织在汹涌新闻上传并发布，仅代表该作者或组织观念，不代表汹涌新闻的观念或态度，汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。

上一篇:冲击病毒 OPPO软件商铺下载APP更定心
下一篇:华为快运用中心全新晋级供给更懂你的快捷服务