这十年来玩腻了老滚5的玩家都在期盼老滚6游戏发售吧,但是按照B社的习惯,这游戏有得等了,Xbox负责人之前不小心暗示游戏要到2028年才能发售,索性在此之前可能会等来老滚4——《上古卷轴4》的重制版。
爆料这一消息的是reddit用户,他是维塔士游戏工作室的前员工,称公司内部正在展开5个项目,其中最大的一个代号是Altars,描述是“湮灭的remaster/remake”。
湮灭是老滚4的游戏名字,后面两个英文虽然都有重制的意思,但是程度不同,remaster相当于翻新,而remake就是利用原有游戏重新打磨了,改动大得多。
虽然爆料者的原帖已经删了,但他的身份被确认是维塔士游戏工作室的前员工,所以我们可以相信这个事是因为太真实才被删除。
至于老滚4的重制,预计会在2024年底或者2025年初发布,使用UE5虚幻5引擎,同时团队还开发了新的匹配系统,可以使用原有的代码库。
考虑到B社的习惯,他们是很少出重制版游戏的,老滚5算是个例外,官方出了周年及10周年纪念版,现在的精力除了新游戏《星空》,恐怕就是全力开发老滚6了。
但是爆料的是维塔士工作室前员工,意味着B社采用外包的方式交给第三方打造老滚4重制版,综合下来可信度很高,而且他们确实需要一款游戏填补老滚6发售前的空白。
毕竟老滚5的冷饭炒得太多了,老滚4的口碑及玩法也很好,值得来一个重制版。
这十年来玩腻了老滚5的玩家都在期盼老滚6游戏发售吧,但是按照B社的习惯,这游戏有得等了,Xbox负责人之前不小心暗示游戏要到2028年才能发售,索性在此之前可能会等来老滚4——《上古卷轴4》的重制版。
爆料这一消息的是reddit用户,他是维塔士游戏工作室的前员工,称公司内部正在展开5个项目,其中最大的一个代号是Altars,描述是“湮灭的remaster/remake”。
湮灭是老滚4的游戏名字,后面两个英文虽然都有重制的意思,但是程度不同,remaster相当于翻新,而remake就是利用原有游戏重新打磨了,改动大得多。
虽然爆料者的原帖已经删了,但他的身份被确认是维塔士游戏工作室的前员工,所以我们可以相信这个事是因为太真实才被删除。
至于老滚4的重制,预计会在2024年底或者2025年初发布,使用UE5虚幻5引擎,同时团队还开发了新的匹配系统,可以使用原有的代码库。
考虑到B社的习惯,他们是很少出重制版游戏的,老滚5算是个例外,官方出了周年及10周年纪念版,现在的精力除了新游戏《星空》,恐怕就是全力开发老滚6了。
但是爆料的是维塔士工作室前员工,意味着B社采用外包的方式交给第三方打造老滚4重制版,综合下来可信度很高,而且他们确实需要一款游戏填补老滚6发售前的空白。
毕竟老滚5的冷饭炒得太多了,老滚4的口碑及玩法也很好,值得来一个重制版。
作者:gentle_zhou
原文链接:https://bbs.huaweicloud/blogs/396627
华为云CodeArts Check(原CodeCheck),是自主研发的代码检查服务。建立在华为30年自动化源代码静态检查技术积累与企业级应用经验的沉淀之上,为用户提供代码风格、通用质量与网络安全风险等丰富的检查能力,提供全面质量报告、便捷的问题闭环处理帮助企业有效管控代码质量,助力企业成功:感兴趣的小伙伴可以点此体验服务>>https://www.huaweicloud/product/codecheck.html
本期5个用户声音:1、代码检查如何支持项目缺陷报告导出?2、怎么创建自定义规则集?3、为什么不能升级新版?4、请问代码检查的规则集可以修改名称吗?5、创建检查任务时,任务名称不能自己输入
“聆听客户并采取行动来解决他们的问题是客户成功的第一步。这就是为什么客户之声(VoC,Voice of the Customer)是推动全公司为客户提供价值和实现客户满意的关键组成部分。包括旨在获取客户洞察,客户反馈闭环,确定产品改进优先级,进而让客户成功和满意。”
1、代码检查如何支持项目缺陷报告导出?代码检查服务当前支持缺陷报告的导出,可以全选任务或则仅选择部分,点击“更多操作”-“导出任务告警”,然后会弹窗“导出任务”(会有提示:未检查的任务当前不支持导出),同时可以选择导出报告里展示哪些维度(工具名称,缺陷类型,代码片段,问题描述等等)。
2、怎么创建自定义规则集?在“规则集”标签页面里,选择“新建”按钮,然后输入规则级名称,描述(可选),选择检查语言,继承/复制于现有某个规则集(可选);自定义规则集就创建完毕了。
3、为什么不能升级新版?如果是1/13之后开通服务的新用户无需关心此问题;使用旧版本的老用户,处于安全及业务影响的考虑,针对深度用户,我们做了升级按钮隐藏的处理。当前正在逐批升级。如果很需要升级新版,也可以文章底下联系我们或则华为云工单提出需求哦!
4、请问代码检查的规则集可以修改名称吗?系统默认规则集不可以;自定义规则集允许。
5、创建检查任务时,任务名称不能自己输入代码检查和代码仓是强绑定的;在初识创建任务的时候会自动默认使用代码仓名称,同时允许用户在创建完之后编辑修改。
机器之心报道
机器之心编辑部
超多平替,按需选取。
近年来,生成式预训练模型(如 GPT)的兴起彻底颠覆了自然语言处理领域,其影响甚至已经延伸到其他多种模态。然而,像 ChatGPT 和 GPT-4 这样的模型,由于其巨大的模型规模与计算复杂度、复杂的部署方式以及未开源的训练模型,这些因素都限制了他们在学术界和工业界的推广与应用。因此,易于计算和部署的语言模型成为了人们关注的焦点。
论文地址:http://arxiv/abs/2308.14149项目地址:https://github/GPT-Alternatives/gpt_alternatives本文将从以下几个方面,对 GPT 的平替模型进行研究,从多个维度出发,进行大量实验验证,只为得到更全面更真实的模型测评结果,帮助研究者和从业者更加深入地理解这些模型的基本原理、发展趋势和主要的挑战,并且根据不同需求选择合适的模型。
1. 总结了平替模型的架构、设计方式以及效率与性能的权衡;
2. 梳理了现有的公开数据集并分析了预训练数据源、数据质量、数量、多样性、微调数据(包括指令数据、对齐数据),以及特定领域数据的特点;
3. 介绍了高效训练与部署大规模语言模型的方式,并总结了现有的开源平替模型;
4. 评测了不同平替模型在多个常用基准数据集上的效果;
5. 设计了人工评测任务,并在不同平替模型上进行了人工评估;
6. 讨论和评测了大规模语言模型在图文多模态领域的研究现状及模型表现;
7. 评测了各个平替模型在科学研究领域的基准数据集上的性能。
大规模语言模型发展历程
GPT 的平替模型
持续更新在 github……
开源工具
近年来,深度学习的飞速发展与开源社区的繁荣息息相关。本节中,我们整理了大规模语言模型相关的开源工具库,这些工具库包含了训练、部署、加速、模型评测等方面。
基准数据集评测
为了全面评估各种语言模型在不同任务上的性能,我们首先从不同角度在多个常用的测试基准上进行了详尽的评估。选定的任务旨在测试模型的常识推理、信息抽取、文本理解、数学解题以及跨学科知识的能力。
评测方式
我们采用了两种评测方式:
1.Zero-shot 方式。该方式主要关注模型在未见过的新任务上的性能,即 zero-shot 学习。在没有给定与任务相关的训练样本的情况下,模型需要依赖其在大规模语料库中学到的知识和理解,来给出准确的答案。这种方式对模型的归纳、推理以及泛化能力都提出了很高的挑战。
2.Few-shot 方式。小样本学习方式要求模型在仅给定少数示例答案的情况下,能够产生合适的回答。这种评估方式主要测试模型的迁移和泛化能力。在实际应用中,这种能力尤为重要,因为它允许模型在数据稀缺的情境中仍然表现出色。
评测数据集
在 Zero-Shot 设定下,我们测试了 BoolQ, Hellaswag, WinoGrande, PIQA, ARC, OpenbookQA, RACE, DROP 和 G8K 数据集。在 Few-Shot 设定下,我们测试了 MMLU 和 TriviaQA 数据集。
实验结果
上图展示了不同语言模型在 zero-shot 设定下的测试结果。值得注意的是,尽管本研究分析的许多模型都基于 LLaMA-7B 架构,但它们的个体性能差异显著。这些模型之间的性能差异主要归因于它们在开发过程中采用的调优方法,这凸显了调优策略在决定模型性能上的核心作用。此外,这些结果也揭示了语言模型在不同任务中的效能差异。没有单一模型可以在所有数据集和任务上完全占优。另外,这些语言模型在涉及带有选项的任务中表现得相对较好,但在生成任务中则有所不及。这种差异是可以理解的,因为生成连贯、与上下文相符的内容远比简单的分类任务更为挑战,它需要模型具备更深入的语言和上下文理解能力。
该图为我们呈现了模型在 few-shot 设置下的表现。从表格中,我们可以观察到几个显著的特点。首先,这些语言模型的性能并没有随着示例数量的增加而明显上升。这可以归因于模型相对较小的规模以及其有限地利用样本学习的能力,导致模型难以从所给示例中充分吸取知识。其次,模型在不同的示例设置下的性能相对稳定。因此,如果某模型在 zero-shot 设置下已经表现得很好,那么在其他设置下,它很可能也能保持这种优势。
不过,需要承认的是,部分经过测试的语言模型并未达到最佳表现。这些模型可能需要更合适的提示或进一步的微调来获取必要的知识并提高其整体性能。
人工评测
现有的基准数据集通常用于评估传统的语言模型,但它们往往只专注于某一特定的任务或主题。与此同时,大规模语言模型展现出的多样化能力,很难仅通过这些基准数据集来进行全面的评价。为了更深入地了解这些模型的性能,我们继续对现有的平替模型进行了人工评测。
评测方式
人工评价模型性能的关键在于评测问题的选择与评测人员的客观性。为此,我们采用常见的两两对比的方式来评测模型的表现。与直接打分或排序相比,两两对比的方式降低了参与测试人员的评测难度,从而提高了评测结果的客观性和准确性。我们设计了 50 个问题,涵盖了 9 个不同的方面,包括:日常问答、书面能力、推理、编程、数学、物理、化学、生物和有害内容检测。在 16 个模型上进行了这些问题的评估,并采用 Elo 评分系统对测试结果进行了最终的模型得分计算。
评测结果
上图展示了各个模型的 Elo 得分,所有模型的初始 Elo 分数均为 1000,且我们采用了 K 因子为 16 来控制评分的最大波动。在这 16 个模型中,Vicuna-7B 位列榜首,其 Elo 得分高达 1222。ChatGLM 和 Moss 分别位居第二和第三。值得注意的是,从第 7 名到第 15 名的模型,它们的表现相差无几,都非常接近。从另一个角度看,Elo 评分系统确实具有显著的区分能力,这意味着各模型在性能上存在着明显的层次差异。
我们还可以利用 Elo 分数来预测模型两两之间的胜率。在一定的区间内,Elo 分数每相差 10 分,胜率就会有大约 1.5% 的变化。因此,我们基于 Elo 分数绘制了一对一胜率的热图,如图(b)所示。同时,图(a)展示了代表各模型间实际胜率的热图。显然,Elo 分数能够很好地反映模型之间的性能差异。例如,Vicuna-7B 与 ChatGLM 之间大约有 50 分的 Elo 分数差距,而 Vicuna-7B 对 ChatGLM 的胜率为 57%。这与实际胜率 55% 非常接近。
我们展示了不同模型在书写任务上的例子,排名最高的 Vicuna-7B 无论是在内容上还是在格式上都要显著地优于其他的方法。为了确认不同评测人员之间回答的一致性,我们随机选取了 20 个问题进行了人工一致性评测(Human Consistency)。评测指标为 tie-discounted 准确率:当两名评测人员的答案完全相同时,得 1 分;若其中一名评测人员给出的答案为 tie,则得 0.5 分;两者答案完全不同则得 0 分。经过评测,我们获得了 80.02 的一致性得分,这表明不同的评测人员之间的评估标准是大体一致的。
图文多模态模型
随着大规模语言模型在自然语言处理领域的大放光彩,越来越多的研究开始探索如何将这些模型与多模态信息融合。在本节中,我们将探讨并评估近期一些图文多模态大语言模型在常见基准上的性能。
模型简介
常见的多模态大语言模型一般由三部分组成:视觉编码器(Vision Encoder)、视觉 - 语言转换器(Vision-to-Language Converter)和大规模语言模型。视觉编码器旨在从图像中提取视觉信息,它通常采用如 CLIP 和 Flamingo 这类视觉 - 语言预训练模型初始化的 ViT 结构。视觉 - 语言转换器的作用是将视觉嵌入映射到语言嵌入空间,其设计目的是最大程度地减少视觉和语言之间的模态差异。而大规模语言模型则利用从视觉和语言两个模态中获得的信息来生成最终的答案。
评测方式
本节中,我们采用 ScienceQA 数据集来评测多模态模型在科学领域的推理能力。ScienceQA 数据集包含约 2 万道选择题,覆盖了丰富的学科领域。同时,大多数问题提供了相应的知识背景(Context),有助于模型进行思维链式推理。评测方式上,我们采用 2-Shot 的实验设置,即给定两个示例回答,要求模型根据示例回答给出最终答案。每个问答中,我们给出了问题文本(Q)、背景知识(C)和多个选项内容(M),要求模型给出答案(A)。
实验结果
首先,我们对纯语言模型和多模态模型在整个测试集上的准确率进行了评估。结果显示,Vicuna 模型及其微调版本 MiniGPT4 在各自的领域中取得了最好的成果。
针对测试集中包含图片的样本,我们进一步测试了多模态模型的表现。在这方面,基于 Vicuna 的 MiniGPT4 和 VPGTrans 模型在各自的评价指标上分别取得了最好的成绩。
科学领域模型
如何将 AI 技术与科学研究相结合是研究的热点之一。近年来,通过对大规模自然语言模型在特定科学数据集上进行微调,使其更加适应科学研究的需求,已逐渐成为研究的新趋势,尤其在药物发现和材料设计等领域。在本节,我们将深入研究 GPT 平替模型在科学研究中的表现,并对其性能进行评估。
评测方式
我们对大规模语言模型在 MedQA、MedMCQA、PubMedQA、NLPEC 和 SciQ 等数据集上进行了评估。特别地,对于 MedQA 数据集,我们还考虑了不同的 few-shot 设置以及不同语言的数据。评估结果主要以准确率为指标进行展示。
在这里,为了探究提示指令对模型性能的影响,我们使用了标准提示指令 “Results with standard prompts” 和模型默认系统指令 “Results with specific system meta instructions” 两种方式对模型进行了评估。
实验结果
上表展示了各模型在 MedQA 数据集上的表现。得益于数据集的多语言支持,我们对模型在英文、简体中文和繁体中文三种语言上的性能进行了评估。在中文数据集评测中,ChatGLM-6B 和 BELLE-7B 的表现优于其他模型,其中在 “ 简体中文(5-Shot)” 和 “ 繁体中文(4-Shot)” 的测试中,准确率分别达到了约 34% 和 30%。这表明,这两款专为中文语料设计的模型在处理中文问题时具有明显的优势。而在英文数据集的评测中,LLaMA 2-13B 的性能尤为突出,其在 “ 英文(5-Shot)” 和 “ 英文(4-Shot)” 的测试中,准确率分别高达约 33% 和 42%。
如上表所示,我们使用相同的模型在其他科学领域的数据集上也进行了评估。在 MedMCQA 数据集中,LLaMA 2-13B 和 Vicuna (FastChat)-13B 的表现超过了其他模型。而在 PubMedQA 数据集上,Stanford Alpaca-7B 和 Alpaca-LoRA 的性能尤为突出。在 NLPEC(英语 / 中文)和 SciQ 数据集上,LLama 2-13B 和 ChatGLM-6B 均展现了出色的性能。值得注意的是,在不同的 few-shot 设置中,部分模型的表现有所上升,但也有部分出现了下降,这说明:(1)并非所有模型在与 few-shot 的设置相结合时都一定会有更好的表现;(2) 性能并不一定会随着 few-shot 实例数量的增加而提高。
此外,对比两种提示词设置的结果,我们发现,在使用模型默认系统指令时,某些模型如 Stanford Alpaca-7B、Vicuna (FastChat) 13B、StableLM-Tuned-Alpha-7B 和 Databricks Dolly-v2-7B 展现了更佳的性能。这些模型对指令提示非常敏感,并能有效地利用这些指令优化输出。然而,也有如 BELLE-7B 这样的模型,在此设置下并未获得明显的性能提升,甚至可能有所下降。
从实验结果中,我们可以清晰地看到,尽管规模较小的模型(如 6B、7B、13B)在某些任务上表现不错,但它们在整体数据集上的表现仍然有限,距离达到 100% 或 50% 的准确率还有很长的路要走。这些模型的一个主要限制因素是其参数数量,这直接影响了它们的处理能力和泛化性能。
主要挑战与发展方向
根据上述的整体调研,以及我们大量的实验验证,我们也提出了未来值得注意的发展方向。
1. 实现模型规模与性能之间的平衡,比如探索更高效的模型架构以及轻量化方法;
2. 提高数据的利用效率以减少数据收集和标注的成本;
3. 增强模型的可解释性;
4. 提高模型的安全性与隐私性;
5. 更加详细且用户友好的使用说明。