如何测评大模型？学术派or市场化？这场分享会给出判断

最新信息

2023-10-14 12:04:00

《科创板日报》10月14日讯（记者张洋洋）“面对大模型市场的高速发展，我的压力不是如何使用大模型，而是如何选择大模型，以及如何识别相应的风险。”在刚刚过去的2023沙利文新投资大会上，商汤科技战略研究主任刘亮在现场分享了这样一段某商业银行技术负责人与他的对话。
　　大模型已然成为今年产业热点，也正是在这场投资大会上，沙利文设立了单独的数字经济分论坛，11项议程中，AI大模型就占了7项。
　　在更大范围的供给市场里，根据中国科学技术信息研究所今年5月发布的不完全统计数据，国内10亿参数规模以上的模型产品数已达79个，头部科技公司更是早已跑步入场。
　　但，面对复杂的需求，多元且迭代迅速的技术，以及提供大模型的厂商格局又是如此多变，如何精准鉴别大语言模型的优劣，寻找到最优的解决方案从而做出采购决策，企业客户们又备受其扰。
　　刘亮说，中国厂商提供了不同的大模型应用，但最近他们接触越来越多的企业用户发现，这些客户都很困惑，到底要如何去评测和比较大模型？一个合格的大模型应该具备哪些能力？有没有一个可以衡量大模型好坏的基准？
　　测评是目前而言较为全面的解法。据刘亮介绍，经过半年的发展，大模型测评市场已经形成两派：一类是传统的学术评测集，这个实际在ChatGPT之前就已存在；另一类是因ChatGPT火爆而兴起的市场化榜单。
　　学术评测主要由全球各个高校或知名厂商主导，这种可以简单理解为题库考试，用几万道题甚至几十万道题去问大模型，涵盖语言分析、阅读理解、数学推理，代码生成以及安全伦理和价值观等方面，从而得到一个正确率。
　　在刘亮看来，这种测评方式其实就是把大模型当作人来看待，它到底有没有达到跟人类智商相当的位置，只是考察了模型本身的能力。
　　市场化测评则是由第三方机构主导，其区别于学术测评集的点就在于，会有横向对比，它不仅评估了大模型本身的能力，还对大模型提供商的综合能力进行评估，涵盖算力、数据、算法、生态建设和战略愿景等多个维度。
　　刘亮表示，通过市场化榜单测评，基本上能够看清楚当下各个大模型的实力水平，这也是商汤作为厂商角度会比较关注的领域，更愿意去观察和配合以及合作此类评测机构。
　　不过，不管何种方式，目前的大模型测评还是会出现同一大模型在不同榜单测评结果得分差异大，甚至业内人称还有“刷榜”的存在，如此种种一定程度上也反映了目前大模型测评的乱象。
　　对此，刘亮认为，未来良性的大模型测评趋势，首先应该是“开卷闭卷”结合的方式，避免刷榜和测评结果不够权威性的问题。其次是主观题和客观题相结合，既要有选择题去考察大模型本身的能力，至少还要有一些主观因素去考量其情商等。最后还包括人工阅卷、多轮追问等方式，去全面评测。
（文章来源：财联社）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。