SegmentFault 网易云音乐技术团队最新的文章

AI Code 在团队开发工作流的融合思考

2024-07-25T10:32:14+08:00

本文作者: 景庄

在云音乐，我们探索借助 AI 来升级现有的开发工作流，从协助个人到协助团队，从大前端到服务端，借助 AI Code 能力与 Tango 能力的连接来提升设计、开发、交付全流程的效率与体验，持续降低由于技能差异导致的开发门槛，支持开发团队向高效能团队转型。

2024 已过去大半，生成式人工智能（Generative AI）在软件工程领域中的应用已经变得越来越广泛和深入，传统的软件开发和交付过程正伴随着 AI 能力的介入而获得增强与革新。一方面，在源码开发模式中，AI Code 能力逐步渗透到开发工作流的每个环节中，包括建模，编码，测试，文档等；另一方面，低代码开发模式如何与大模型能力有机集合也成为低代码厂商新的命题，此外还面临诸多挑战，例如如何快速响应客户需求变化，满足客户大量的自定义需求等。

对于 AI Code 能力在软件开发流程中的影响，可以总结为三个方面：

从单一的辅助编码，到辅助完整的软件生命周期。
AI Code 能力与垂直场景的 LowCode/NoCode 能力结合，可以更加高效的辅助内容生产和功能交付。
AI Code 能力从个人的开发工作流向团队开发工作流渗透，逐步成为企业IT基础设施中的核心组成部分。

传统低代码模式所面临的挑战

在网易云音乐技术团队内部，我们一直在探索 LowCode 与团队既有研发工作流的结合，解决传统软件交付过程中的高门槛，低效率等问题。Tango 是一个我们面向传统的源码开发场景推出的 LowCode 解决方案，它并不主张取代源码开发，而是以源码为基础，可以在源码库的基础上构建可视化开发界面，简化传统的源码开发过程，并降低开发者对于编程语言和应用框架层的关注度。Tango 提供了类似于 Github Copilot 的辅助开发能力，将关注点聚焦到降低开发者的开发门槛上，减少开发者编写模式化的重复代码，同时开发者仍然可以借助源码来实现自定义的扩展和快速响应需求的变化。

对于传统的专业型低代码平台而言，通常提供了高度封装的可视化界面，使得用户无需关注任何底层代码，只需要在预设的可视化界面和指令界面进行操作即可完成应用的搭建工作，这类平台在缺少信息化能力的企业可以提供极大的软件生产便利。但在互联网技术团队中，这类平台存在的种种限制往往受到专业开发者的诟病，例如无法快速满足定制化需求，无法提供高阶的服务端抽象能力，无法提供灵活的扩展能力，过于强调可视化所带来的效率损失，例如实现一个跨多个服务的用户登陆流程，在可视化的逻辑表达中可能涉及到几十个节点的组装和连线操作。

专业型低代码平台在大模型能力的利用上也会存在一定的成本，由于通常使用私有的搭建协议，在使用大模型的过程中需要通过自然语言到编程语言的转换，再通过编程语言转换成私有的搭建协议，在这个过程中也会损失较大的精度。当然某些产品也可以通过训练自己的私有小模型解决这个问题，这意味着额外的成本，并且参数过少的模型很难与大模型的效果相提并论，大模型通常拥有海量的参数，能够更精准地捕捉数据中的模式和特征，在处理复杂任务时会得到更好的表现。并且商业化的大模型服务已经是一片蓝海，通过商业化大模型扩展团队开发工作流会是一个高性价比的选择。

图：飞速发展的大语言模型

代码仍是核心技术资产，AI Code 仍在快速演进

在软件工程领域中，代码仍然是最核心的技术资产，AI Code 的辅助生成能力仍然依赖于对既有代码的学习和训练。大模型的训练依赖于海量的人类既有知识库，例如Github Copilot 使用的大语言模型 codex 基于 github 上大量的开源项目代码学习和训练。对于研发团队而言，AI Code 的能力也仍然在持续演进，软件开发的过程仍然依赖人类开发者来介入和交付，拥抱社区并采用主流的技术方案将有助于我们提升 AI Code 带来的效用。

AI Code 能力演进和趋势分析

随着 AI Code 能力的深入发展，了解并掌握 AI Code 已经成为开发者的基础入门课程。对开发者而言，借助 AI Code 可以更低成本的构建软件工程，更高效率的编写软件代码。下面，不妨选取一些业界比较有代表性的 AI Code 产品进行分析，梳理其中的共性和亮点，供我们在工作过程中持续思考如何改进我们现有的工作模式。

AI驱动的软件全生命周期管理

AI 能力已经逐步渗透到软件开发的每个环节中，各类 AI Code 工具也越来越关注 AI 与工作流节点的互动，以增强开发者体验和效率。

AI 开发助手：Github Copilot + 插件市场

https://github.com/features/copilot

GitHub Copilot在软件开发生命周期中提供上下文化的帮助，从IDE中的代码补全和聊天辅助到GitHub中的代码解释和文档答疑等。通过Copilot 可以提升开发者的工作流程，Copilot 扩展使开发人员能够使用他们喜爱的工具和服务，以自然语言构建并部署到云端，而无需离开 IDE 或 GitHub.com。有了 Copilot 和现在的 Copilot 扩展，开发人员可以更长时间地保持流畅，提升技能水平，加快创新速度。

AI 驱动的云端协作式IDE：Replit

https://replit.com

Replit是一个协作式的基于浏览器的集成开发环境，允许您在50多种编程语言中编写和运行代码。它提供了强大的编译器和解释器，使得开发软件变得简单，不需要任何设置要求。Replit 将 AI 作为开发环境的一等公民。为了实现这一愿景，Replit 正在将AI工具与 IDE 紧密结合。

AI辅助的全栈在线开发平台：Google Project IDX

https://developers.google.com/idx

Project IDX 是一个 AI 辅助的在线 IDE，适合在云端进行全栈、多平台应用开发。IDX 支持众多框架、语言和服务，还可以与相应的 Google 产品集成，可简化开发者的的开发工作流程，让开发者可以快速、轻松、高效地跨平台构建和发布应用。Project IDX承诺未来建立开发环境就像打开浏览器一样简单。凭借其简化复杂开发格局的重点，它是一项有可能彻底改变我们对编码方式看法的计划。

AI代码质量保证：Sonar

https://www.sonarsource.com/solutions/ai/

AI 辅助编程的一大潜在问题是代码安全风险。Sonar 面对这一问题提供了可行的解法，它包括 SonarQube 和SonarCloud 集成到 CI 管道中，同时在IDE中可以集成 SonarLint 提供代码质量检测和保障。使用Sonar，可以扫描并检测代码中的错误和漏洞，指导开发者在 IDE 中修复代码问题，或在 DevOps 工作流中修复问题。Sonar还提供了强大的静态代码分析功能，提供内置的审查工作流和报告，以及质量门禁用来控制执行定义的代码质量标准。

AI驱动的垂直场景代码生成能力

AI 在各类垂直领域场景中也分别发挥着其独有的优势，由于领域相对确定，转型的任务和工作流相对稳定，借助大模型能力，可以极大的改进已有的工作流。

AI驱动设计稿代码生成：Quest AI

https://www.quest.ai/

Quest AI 的模型可以基于设计稿或草图生成真实、有用的代码。它包含所有专业开发人员关心的事情。使用我们的聊天提示来修改样式、编写业务逻辑并连接到您的后端。
Quest是为开发者设计的。它自动化了构建应用程序的繁琐部分，同时又让您拥有完全的控制权，这样您就可以构建任何您想要的东西。

AI增强接口测试效率：HTTPie AI

https://httpie.io/blog/ai

HTTPie AI 助手使用大模型来提高开发者在测试和与 API 交互时的效率，例如你可以通过简单的自然语言快速地从海量文档中发现并创建相应的请求。

AI生成前端UI：Vercel V0

https://v0.dev/

v0是一个由 Vercel 提供支持的基于 AI 的生成式用户界面系统。它基于 shadcn/ui 和 Tailwind CSS 生成易于复制粘贴的 React 代码，供人们在其项目中使用。v0 使用 AI 模型根据简单文本提示生成代码。在提交提示词后，它会为你提供三份由 AI 生成用户界面。你可以选择其中一个并复制粘贴其代码，或进一步完善它。要进行完善，你可以选择生成的 UI 的各个部分来微调您的创建。准备好后，您可以复制、粘贴并发布。
V0 是根据 Vercel 团队编写的自定义代码与开源和合成数据集混合训练的。Vercel 可能会使用用户生成的提示和/或内容作为第三方提供商的模型和学习系统的输入，以改进他们的产品。

AI驱动的团队开发工作流

AI 项目协作工具：GenPen.AI

https://genpen.ai/

GenPen.AI 是一个项目协作与代码生成工具。它可以将设计提示转化为REST API，并自动生成文档。核心功能包括：代码生成、基于AI的多模式VLLM转换器、OpenAPI集成、自动化Git、代码和文档管理、多个AI代理用于响应汇总。它的目标是加快调试速度，减少开发时间，并简化项目管理。GenPen AI自动化重复任务，利用AI转换器，并根据模型生成代码，从而减少开发时间。

一站式智能研发工作台：CodeMaker

CodeMaker 网易内部的是一站式智能研发工作台，其使命是把AI集成到游戏开发的每个环节，为开发团队量身定制AI时代的游戏开发解决方案。当前产品提供了Code Completion（代码智能补全）、Code Chat（代码智能操作）、Code Generate（代码智能生成）、Code Search（代码语义检索）、Code Review（代码智能 review）、Code Scanner（代码检测）、Sunshine Flow 等功能。

AI工作流程编排：LangBase

LangBase 为用户提供了一站式的 AI 应用管理和运维服务，降低用户创建 AI 应用的成本。因此 LangBase 不仅在底层提供提供了模型和应用的管理，也在应用平台之上多提供了一层业务接入层，最大化的降低用户创建和使用 AI 应用的成本。

AI 辅助的团队开发工作流思考

在网易云音乐内部，结合我们对业务需求特点的梳理，和开发者的实际诉求，我们构建了渐进式的低代码能力，专注于降低技能门槛，减少编写重复代码。我们从2023年4月开始探索 AI Code 能力与开发者个人工作流的结合，包括引入 Github Copilot 提升源码开发体验，通过 Tango 与 GPT 系列大模型的连接来提供 AI 驱动的 Low Code 能力。

在2024年，我们进一步的开始探索借助 AI 来升级现有的团队开发工作流，从大前端场景覆盖到服务端源码开发场景，在内部协同 LangBase 来提供 DevAgent（生成页面，生成组件，生成代码片段）、DesignAgent（抠图，生图，设计稿转代码）等能力，与 CodeMaker 共建的方式来逐步取代 Github Copilot，为团队定制专属代码补全模型，并持续探索 AI Code 能力与团队开发工作流的深度集成和定制。

图：Tango + AI Agent Workflow

如上图所示，在大前端的开发工作流场景中，海豹D2C 提供了基于设计稿直接生成项目源码的能力，目前支持 React, ReactNative, Vue 等多种框架，支持内部核心的C端场景覆盖，借助 DesignAgent 能力，我们增强了对设计稿的识别精度，提升了出码还原度。在 Tango 这一层，我们并没有一味追求可视化开发的思路，而是通过衔接既有的源码开发工作流，并借助 LangBase 提供的 DevAgent 来增强代码生成能力，在本地开发流程中通过完善源码开发环节的 DevTools 和 CodeMaker 能力来改善开发者体验。

图：云音乐海豹D2C外部社区分享与成果

当前我们正尝试从四个方面将 AI Code 能力融入到团队开发工作流中，具体包括训练自定义补全模型（针对不同的开发者画像提升补全覆盖率和接受率）、CM插件扩展（集成核心的工具设施到IDE，实现对话式信息获取和配置生成）、CM工作流扩展与自定义（复用和下发既有的Agent能力）、AI向导（提供特定领域内容的自动化生成能力）等四个方面。

图：云音乐 AI Code 能力建设

AI 正在超过我们想象的速度在发展，无论是在商业领域，还是在企业内部的工作流中。现阶段，寄希望于 AI 解决整个软件工程问题还为时尚早，但从协助个人，到协助团队，并逐步渗透到团队工作流中的每一个核心节点，AI Code 能力正在逐步发挥威力。

图：面向团队的 AI Code 工作流设计

总结

我们已经发现业界有大量的技术产品和效能工具在尝试融入 AI 能力，无论是本地的 AI IDE，还是云端的智能开发环境。要想充分发挥其效用，仍然有待在组织中进一步的尝试将大模型能力与开发工作流和工具链的集成和融合。现阶段，通过持续评估 AI 的能力和兼容性，将 AI 与团队开发工作流的集成，使 AI 作为核心节点的助手，将会有助于持续改进团队的开发质量和效率。

最后

更多岗位，可进入网易招聘官网查看

云音乐服务端大规模自动化升级实践

2024-07-17T14:39:00+08:00

本文作者：邵东风

在贵州机房迁移项目中，面临着大量的组件升级，云音乐服务端通过自动化升级平台建设，节省约500人日，实现升级效率约83%的提升。此文介绍其在大规模自动化升级上的实践。

一、背景

1. 痛点

在服务端推进升级是一件比较困难的事情，面临的困难点包含但不限于：

稳定性风险：组件自身兼容性的问题或不正确升级带来的兼容性问题，可能带来线上稳定性风险。
升级投入&成本：组件升级至少需要研发执行升级、QA执行测试，测试通过后再逐步灰度发布，直至全量发布。整个过程需要研发、QA投入一定的研发、测试、观察的人力，单次升级时间至少以周为单位来计量。
升级推进成本：因以上投入成本&稳定性风险等其他因素影响，业务研发团队对组件的升级意愿较低。此外，升级进度还受团队排期、研发排查&解决问题的能力、多团队的协调参与、多角色的协调参与等因素影响。在大规模推进升级时，需要投入大量的项目管理、协调成本。

2. 现状

云音乐应用规模大，且线性增长：随着微服务的发展，服务拆分细化，叠加云音乐各业务快速发展，云音乐仅服务端应用总数早已突破千级，当协调多个团队、千级别的应用升级时，整个升级事项的投入是巨大的。
Jar包风险治理率低：在目前架构风险巡检中，Jar包相关的风险因投入产出比低，其治理率在全部的风险治理中几乎垫底。Jar包的稳定性风险隐患随着业务的发展而逐步增大。
新技术落地周期长，多版本维护成本高：当应用规模相对较小时，我们可以针对少量应用，执行技术升级，但是当应用规模较大时，整体推进升级的难度较大，新技术落地的周期较长，在此过程中，多版本的维护成本高，带来额外的人力消耗。

3. 作用

在贵州机房迁移的背景下，云音乐面临着大批应用升级的问题，此前一次升级中，全部团队基本升级完，总体用了约1个多月的时间。
对此，我们研发了自动升级平台，其核心解决升级自动化的问题。

在稳定性上

通过大范围的自动化部署/测试真实应用，提高组件的测试样本覆盖，提前发现并解决组件可能出现的兼容性、稳定性等问题。

自动解决多组件升级的问题，避免因不正确升级带来兼容性、稳定性问题。

在升级投入&成本上

对于需变更代码的升级，通过自动升级工具，串联自动代码修改、自动测试环境部署、自动CI验证，自动帮助研发完成大部分的代码修改以及验证工作。大部分情况下，无需测试介入，研发仅需合并代码，执行线上发布发布流程即可。

在升级推进成本上

通过自动升级平台，支持对任务的分发、中断、配置、信息收集等等，升级过程、进度管控完全可视化，大部分升级工作可以闭环在中心化执行，降低了多团队、多角色的协作成本。

4. 使用场景

场景1：技术架构升级

通过自动升级平台，可以自动化完成大范围应用的技术架构升级。例如：JDK升级、贵州机房迁移升级等场景。

场景2：组件风险治理

当组件存在风险时，可以借助自动升级平台，推进完成风险治理。

场景3：组件/Agent 兼容性测试

新发布组件/Agent时，目前主要在指定的测试工程里进行兼容性测试，覆盖场景可能存在不足，可以借助自动升级平台完成大范围的兼容性、稳定性等测试。

二、技术实践

1. 升级分类

升级分类
因整体架构的不同，升级可分为如下几类：

组件升级
- 即传统的Jar包升级，此种升级一般需要改动业务代码才能完成，也是目前整体占比最大的一类。
Sidecar模式升级
- 边车模式，组件与业务应用解耦，组件侧的升级变更无需业务代码变更或仅需少量变更。例如：JavaAgent、ServiceMesh等方式。

什么是Sidecar模式
Sidecar 模式是一种常见的微服务架构模式，它通过在主应用程序旁边部署一个辅助应用程序（称为 Sidecar），来扩展主应用程序的功能。Sidecar 模式允许您在应用程序旁边添加更多功能，而无需额外第三方组件配置或修改应用程序代码。

此文中，我们取更为广义的Sidecar定义，将JavaAgent等作为一个辅助应用程序看待，也被视为Sidecar模式的一种实现方式。

Sidecar 模式优势&特点

可扩展性：通过添加 Sidecar 应用程序，可以轻松地扩展主应用程序的功能。
灵活性：Sidecar 应用程序可以独立于主应用程序进行部署、升级和维护。
可重用性：Sidecar 应用程序可以在多个主应用程序之间共享，从而提高代码重用率。

两者的差异点和共同点

组件升级相较于Sidecar式升级，整体升级流程上会存在些许差异，但也存在较多重合流程节点。
组件升级和Sidecar式升级，均需要考虑整个升级流程中的稳定性、兼容性、可维护性、升级规范性等问题。

2. 能力全景图

考虑到目前云音乐微服务架构未全面推进sidecar化，在贵州迁移中，主要涉及组件自动升级，此文主要对组件自动升级进行详细阐述，而Sidecar升级能力在未来规划中。

这部分主要介绍一下组件自动升级的能力全景，其包括底层通用能力、组件升级能力、升级任务等模块的核心能力，整体如下图所示：

底层通用能力部分，我们主要基于Git、发布平台、部署平台、自动化测试平台、代码分析&检索平台、线上监控，构建了底层的代码变更、测试部署、测试验证、线上发布、结果检测的能力。
组件升级能力部分，支持各类类型文件的变更。
在升级任务部分，我们基于自定义任务流编排和升级规则配置，支持自定义升级任务编排和多版本升级插件，以及多种维度的任务统计。
在使用场景上，自动升级平台可用于：JDK升级、技术架构升级、组件风险治理、组件/Agent 兼容性测试等场景。

3. 底层通用能力&流程编排

目前主要有以下5大底层通用能力：

升级变更。基于Git，实现分支创建/删除、代码提交/拉取、提交/关闭MergerRequest等能力。
测试部署。基于发布平台、部署平台、测试环境，实现测试环境创建、测试环境部署、资源释放释放/限流等能力。
测试验证。基于自动化测试平台、Sonar、部署平台，实现代码CI检测、自动化测试用例、部署验证等能力。
线上发布。基于发布平台，实现灰度发布、发布流程标准化、Agent发布等能力。
结果检测。基于代码分析、线上监控，实现代码升级检测、线上升级检测、Agent升级检测等能力。

以上通用能力在整合时，自动升级平台重点做了如下方面的设计

流程编排。为了适用不同场景的升级，自动升级对以上通用能力进行流程节点的细化，并支持编排。
资源释放&限流。在大规模升级时，需要占用大量的资源进行升级、部署、验证工作，为了避免对线上环境造成影响，自动升级平台对任务进行了限流，并在测试验证通过时释放部分资源、整个任务完成时，释放全部资源。
幂等&衰减重试机制。若需对底层平台进行读写轮询操作，需要注意操作的幂等，并且衰减重试，避免产生脏数据或对底层平台的请求压力过大。
可观测性设计。正常情况下的关键信息和异常情况下的异常信息，均需要详细记录，并可视化观测，减少升级时的问题排查成本。

4. 组件升级能力

4.1 必要性

以云音乐当前的现状来看，整体距离Sidecar升级（例：ServiceMesh、Agent、MultiClassloader）仍然相差较远，同时后续升级推进JDK21、ServiceMesh也需要自动升级平台的协助。

即使有了Sidecar，大范围业务代码的修改也可能是无法避免，变更代码式的自动升级和不变更代码的升级均需要，自动化变更代码的方式仍然是必须的基础建设。

4.2 核心特性

中心化操作：圈选应用后，根据升级任务配置，自动创建Git分支、自动创建测试环境并部署、验证。验证通过后，提交MergerRequest
团队研发操作：合并MergerRequest，在devops发布平台走发布流程
中心化操作：验证各个应用的Master分支升级情况、线上部署情况

4.3 能力介绍

组件自动升级插件基于OpenRewrite做了二次开发。这里简要介绍一下OpenRewrite：

OpenRewrite支持大规模分布式源代码重构，以进行框架迁移、漏洞补丁和API迁移。
OpenRewrite基于 Lossless Semantic Trees (LST)，来实现代码的变更。

目前除支持对普通Java项目中的java、props、properties、xml、pom.xml，也支持Spring、Micronaut、Quarkus、Jakarta、JDK17、JDK21的升级。
支持对变更的明细的观测&记录。

4.4 升级流程

以下为升级流程介绍，在此过程中加入了升级稳定性、兼容性保障的设计

创建代码分支。
- 拉取新代码分支：不污染Master分支，不影响研发流程。
版本升级。
- 分支升级。在新的代码分支，调用升级插件，实现升级
- 分支验证。再次验证分支升级的结果，避免升级错误。
测试部署节点。
- 会对各团队创建升级任务单，同时提前打通上线流程。
- 创建新的测试环境，并检查是否部署成功。确保不影响研发流程的同时，验证升级结果。
测试验证节点。
- 触发自动化测试用例并验证。验证业务逻辑是否正常。维护自动化测试用例是QA侧的日常工作，若不存在自动化测试用例，流程会卡住，可通知QA侧进行维护，或自行测试。
- 代码CI验证。验证代码CI正确。
- 此节点下，每步的执行结果无论是否成功，均需直接释放测试集群，避免在大批量升级时，占用过多的测试机器资源。当执行不成功时，需要将异常日志完整保存，方便问题排查。
代码合并
- 当前置所有节点通过后，可以认为自动升级已经成功完成了：升级、部署、验证的工作，此时会自动发起代码合并请求。
- 业务研发在Review后，将代码合并至Master分支
合并检测
- 系统会持续离线检测Master分支的组件依赖情况，从而检测是否完成升级
线上检测
- 系统会持续离线检测线上机器的组件依赖情况，从而检测是否完成升级并已上线。
释放资源
- 当所有检测通过后，认为该升级任务已完成，会执行各节点的释放资源方法，释放资源。例如：删除代码分支、再次检查并释放机器资源等。

除此之外，在每次大规模升级前，会先对指定范围内的应用提前预升级，从而提前摸查该次升级中的兼容性、稳定性问题。进而保障升级的准确性、升级推进时的效率。

以下为系统实现示例图：

点击应用名，可查看该升级任务中各个流程节点的详情数据。详情数据包括成功情况、变更明细、失败日志、失败原因、重试间隔、最大重试次数、当前重试次数、研发操作指引，以及一些基础信息展示等。以下为系统示例图：

5. 任务编排&非功能性设计

为了适用不同场景的升级，自动升级对通用能力进行流程节点的细化，并支持编排，整体能力如下图所示：

在任务编排中，我们重点做了如下设计：

支持任务编排。通过自定义配置实现节点顺序编排。
稳定性设计
- 幂等执行。消息可能存在重复消费，因此必须支持幂等消费。
- 资源释放&限流。在大规模升级时，需要占用大量的资源进行升级、部署、验证工作，为了避免对线上环境造成影响，自动升级平台对任务进行了限流，并在测试验证通过时释放部分资源、整个任务完成时，释放全部资源。
支持按异常类型自定义重试策略。因在升级、部署验证过程中，可能会出现各种异常导致不成功，自动升级平台支持按照不同的异常类型来自定义重试策略，包括：重试间隔时间、最大重试次数。
基于MQ的消息通知机制，进行任务节点的自动流转、任务路由、执行异步化。
过程信息、异常信息可视化。因任务依赖的系统/组件较多，对于过程信息、异常信息需要记录并可视化，降低任务的理解成本、问题排查成本。
扩展性设计。每个流程节点均支持异步的通知扩展，以及同步的前置/后置Hook调用。单个流程节点分为5个阶段：前置处理、前置hook、处理逻辑、后置hook、后置处理。每个阶段均可独立扩展。

6. 任务管控&功能性设计

自动升级平台支持任务的管控、统计，能力如下图所示

支持升级范围的圈选。除支持按照应用、团队圈选应用外，还支持按照使用的Jar来圈选应用（即：若应用依赖某个Jar，则会自动纳入圈选）。
支持Jar包源&目标版本的设置，精准控制，避免升级错误。以下为示例图：
与自动升级插件联动，支持升级规则的配置、升级插件版本的配置，支持不同的任务可执行不同的升级规则。
支持升级任务编排。每个任务可独立定制自己的任务流程。
支持任务的重试、跳过、关闭（包含资源释放）、重新开始等管控功能。
支持任务统计。
- 支持团队、应用、任务阶段维度的统计。
- 支持结果检测统计。
- 支持执行时长、进度维度的统计。

三、运行数据

1. 支持事项

自动升级平台在近半年的时间里，支撑了贵州机房迁移测试环境演练升级、贵州机房迁移全量应用升级、网关ZK拆分升级三大事项。

2. 运行数据

一次性升级成功率约50%。在小范围、标准化的应用升级任务中，一次性升级成功率较高，在贵州机房全量应用升级中，一次性升级成功率约在50%左右。未能一次性升级成功的应用，研发也可借助升级平台进行问题排查&解决，提升升级效率。
贵州迁移约节省人日约500人日，效率提升约83%。自动升级平台按照1000个应用且仅升级一次保守统计，总体节省人力约500人日，升级效率提升约83%
- 节约人力：0.6d（研发+QA升级并验证单个应用的平均耗时） 1000（应用数） - 0.1d（自动升级平台升级并验证单个应用的平均耗时） 1000（应用数） = 500d
- 效率提升：500/600 = 83%
数据对比如下：

3. 问题总结

对于未能一次性升级成功的原因，归纳主要有：

应用组件版本过于陈旧，不符合升级最低版本要求。
- 因版本跨度较大，有太大兼容性问题，自动升级平台不再予以支持。此部分应用在贵州机房迁移过程中，也大都不再升级，而是由各业务自行迁移。
测试环境配置维护不足，自动部署成功率低。
- 测试环境配置维护不足主要体现在：应用的构建、发布配置上，例如：健康检查未配置、启动类设置错误、内存参数设置不合理、期望启动时间设置不合理等等。
组件依赖的使用方式多样，也存在非标准的使用方式，升级工具覆盖不足。
- 非脚手架的老应用，组件依赖的的使用方式较为多样，也存在非标准的使用方式。
- 升级工具基于OpenRewrite进行二次开发，从实际运行的效果来看，OpenRewrite的一些开源规则仍有可完善的空间。
新发布组件，因带来新的依赖变更或依赖版本变更，带来新的兼容性问题。
- 例如：dts-sdk，在3.x除部分类路径、类名发生变更外，又新引入了servlet-api、jsp-api、logback、commons-beanutils-core等Jar包依赖，与云音乐技术中心的应用、组件存在普遍的不兼容问题。
查询的启动结果不准确。
- 部分应用可能因启动时间过长、多次自动重启，导查询的启动结果不准确
少量应用未接入自动化测试用例。

四、未来展望

以下为能力规划全景图：

提升一次性升级成功率。
增加Sidecar升级能力的支持。
支持组件发布、版本管理、风险治理与自动升级的联动。降低组件自身风险、同时提升组件侧、治理侧的效率，形成整体的闭环

最后

更多岗位，可进入网易招聘官网查看

云音乐贵州机房迁移总体方案回顾

2024-07-11T15:57:25+08:00

本文作者：邵东风

贵州机房迁移是云音乐历史上规模最大、人员最多、难度最高的技术项目，此文对总体方案进行回顾。

一、背景

2023年确定要将云音乐整体服务搬迁至贵州机房，项目需要在各种限制条件下，保障2000+应用、100w+QPS的服务稳定迁移，是云音乐历史上规模最大、人员最多、难度最高的技术项目。在此过程中，解决了大量历史技术债务，同时化解了大量新增系统性风险。以下为总体方案回顾。

二、项目难点

迁移规模大
- 此次需要云音乐以及旗下独立App的服务均整体迁移至贵州。涉及2000+应用、100w+QPS的稳定迁移，同时涉及中间件、存储、机房、三方依赖服务等整体的搬迁，搬迁规模大。
业务复杂度高
- 场景复杂。迁移规模大，带来更广的业务场景覆盖。而不同的场景对数据一致性要求不同、延迟敏感度不同。迁移方案需要考虑各种场景带来的问题，并提供标准化的解决方案。
- 服务间依赖复杂。此次带来约2000+应用的搬迁，各服务间的调用和依赖情况复杂，在分批迁移方案中需要协调，以及解决迁移期间跨机房30msRT上升带来的问题。
历史积弊多
- 贵州迁移前，存在诸多历史技术积弊，影响着全站整体的稳定性。
新增风险大
- 贵州迁移带来诸多新增风险，且风险大、解决难度高。
- 部分场景无法做到真实环境全流程预演。
- 在基础技术建设上，也有一些不足的情况，影响整体搬迁执行效率、迁移准确性。
限制条件严苛
- 云音乐有着大量的用户基数，此次搬迁要求：不停机迁移、不产生P2及以上事故。除此之外还有机器、网络带宽、网络稳定性、网络RT、迁移方案等限制条件。
事项推进&协调难度大
- 此次搬迁规模大，同样，参与人员规模大，整体协调难度大
- 此外带来较多的人因风险。可能因极小的细节未执行到位，就会造成全局事故。

三、重点限制&要求

尽可能少采购或不采购额外的机器，贵州和杭州无法完全对等部署。
杭州与贵州的长传带宽控制在200Gbps以内，且存在闪断的可能性，各迁移方案需要重点考虑闪断带来的影响。
贵州机房与杭州机房之间网络延迟约30ms，各方迁移方案需重点考虑机房延迟带来的影响。
业务可用性要求：不影响核心重点业务场景的可用性，不出现P2及以上事故。
控制迁移方案对业务代码的侵入。

四、分批方案

1. 分批的原则

1.1 团队/领域间解耦

大团队/领域之间的迁移方案尽可能解耦，分不同批次搬迁。好处：

可以将问题拆分、领域清晰。
大数据、算法、云音乐技术中心串行搬迁，可以实现机器资源池共享，降低机器采购成本。
降低单一团队/领域切流时问题处理复杂度。

1.2 服务端流量自闭环

云音乐服务端需要将流量闭环在同一个机房，避免产生跨区域调用。

云音乐经过微服务之后，目前存在千+服务，各服务间依赖复杂。在贵州机房与杭州机房之间网络延迟约30ms的背景下，每产生一次跨区域调用，则RT上升30ms。

1.3 C端优先

优先迁移C端相关的应用及其资源，其次B端。

关于此处，会有同学认为优先B端可能会更稳，但优先采用B端优先，会有如下问题：

B端服务搬迁后，腾挪的机器有限。
B端服务与C端服务相差较大，即使B端服务先行搬迁无问题，也不足以证明C端服务就一定没问题。

对于如何保障C端服务搬迁的稳定性，在文章后续章节展开。

1.4 在可用资源范围内

迁移期间，需要在贵州准备与杭州同等规模的机器资源，因此批次不可能不受到资源的限制。其主要受限制资源为：

机器资源
贵州&杭州的长传带宽资源

因此，按照以上原则进行分批后，若资源仍不足，再根据团队/领域拆分出第二批

2. 最终分批方案

基于以上原则，最终分批方案如下所示

大数据、算法、技术中心串行搬迁。
心遇因强依赖云信IM服务，与云信服务独立搬迁
技术中心应用基本一批次全部搬迁完成。
技术中心的转码、公技侧后台、质量侧系统在第二批次搬迁完成。

五、切流方案

1. 切流的原则

1.1 可灰度

能够按照用户ID、设备ID、IP、流量标几个维度逐步灰度切流。

利于预热。在服务启动后，缓存、连接池需要随请求逐步预热，若流量直接全部打过来，可能会将服务打垮。
利于测试。能够灰度测试整体功能，避免大面积异常。

1.2 可回滚

尽管做了各种稳定性保障来避免回滚，但是如遇到极端情况，仍有整体回滚的可能性。因此搬迁方案必须可回滚。

1.3 控制长传带宽

在切流过程中，杭州和贵州之间会有大量的服务访问、数据传输，从而可能突破长传带宽200Gbps的限制。因此切流方案中必须减少不必要的跨区域流量。

2. 切流方案

2.1 切流点选择

服务端整体通用架构简化后，如上图所示，因此有如下几个切入点：

客户端切流。客户端通过动态切换域名配置，可实现流量的切换。切流算法可以与网关使用保持一致，我们在贵州迁移中就采用了此方案，从而大幅降低贵州与杭州的长传带宽。
DNS切换。因DNS存在缓存过期，不适合作为流量控制的主要手段。在贵州迁移中，我们主要用其作为长尾流量的切换的手段。
四层LB切流、Nginx切流。主要由SA侧负责，因自动化和操作复杂度等因素，在贵州迁移中，四层LB切流只用于辅助切流手段，Nginx因过高的人工操作复杂度，不用于切流。
网关切流。网关作为服务端广泛接触的首要流量入口，其系统建设相对完善、自动化程度较高，因此作为主要切流手段。在此次迁移中，网关支持按用户ID、设备ID、IP进行按比例切流。
定时任务、MQ切换。主要用于定时任务、MQ的流量切换。
RPC流量控制。RPC流量路由策略与网关保持一致，依据切流比例，进行RPC流量调用。从而避免跨机房RT的不可控。
存储层切换。主要负责存储的切换。

2.2 存储层迁移策略

云音乐业务场景较多，不同场景下对数据一致性的要求也不一样，例如：营收下的订单类场景需要数据强一致性，而点赞需要数据最终一致性即可。

在涉及不同的存储时，也有着多种多样的迁移策略。对此，中间件以及各存储层支持了不同的迁移策略选择，各个业务基于不同的场景，选择正确的策略。迁移策略主要如下：

类型	迁移策略
DB	读本地写远程、读远程写远程、读本地写本地、禁写
Redis	读写远程+需要禁写、读本地写远程+需要禁写、读写本地
Memcached	异步双写、同步双写、不同步

2.3 切流步骤

对以上切入点再次进行分类，可再次简化为流量层切流、存储层切换。在正式切流时，我们按照如下步骤进行切流。

3. 回滚方案

先存储层按序切换，然后流量层按序切换。

六、稳定性保障&治理

1. 全域的稳定性风险

全域的稳定性风险。我们在做一般的活动稳定性保障时，一般从活动的主链路出发，再梳理相关依赖，从而整理出稳定性保障&治理的重点。而这种方法确不适用于贵州机房迁移，从前面的分批概览图可得知：此次贵州机房迁移带来全域的稳定性风险。
墨菲定律："如果一件事情有出错的可能性,那么它最终一定会出错。"
业界没有类似的经验可参考

因此整个项目组也在摸着石头过河，在此过程中，既有大的方案的设计，也有细枝末节的问题发现和推进处理。总结起来，我们总共从以下几个方面着手进行稳定性保障：

信息梳理&摸查
新增风险发现&处理
历史技术债务处理
标准化接入
监控告警增强
应急预案保障
业务侧技术方案保障
杭州集群下线保障

2. 信息梳理&摸查

盘点梳理机器资源情况、网络带宽、迁移期间服务可用性要求等全局限制条件，从而确定分批方案、迁移思路。

2.1 机器资源盘点

主要盘点核数、内存。在此过程中，也推进了资源利用率优化、废弃服务下线等事宜。
通过如下公式计算机器资源缺口：搬迁机器缺口 = 搬迁所需数量 -（可用数量+可优化数量）

2.2 长传带宽盘点

需要控制云音乐的长传带宽总量 <= 相对安全的带宽量
相对安全的带宽量 = (长传带宽总量 / 2 x 0.8) - 已被占用带宽量

2.3 迁移期间服务可用性要求

若业务允许全站停服迁移、或仅保障少量核心服务不挂，那么整体迁移方案会简单很多。因此业务对迁移期间的可用性要求，关乎着搬迁方案如何设计。
最终讨论后确定，需要：迁移不产生P2及以上事故

2.4 服务间跨区域调用RT摸查

基于Trace链路，预测分批情况下RT增长情况。

3. 新增系统性风险

此次贵州迁移主要带来的新增系统性风险是：

因公网质量问题，带来迁移后用户体验差的风险。
因跨机房延迟30ms ，带来的业务侧应用雪崩风险。
因跨机房传输网络不稳定，带来的整体系统性风险。
因杭州和贵州机房同时部署，带来的服务节点数量、API数量、RPC数量翻倍风险
因大规模数据变更，带来的系统性能风险。
因新机房建设、搬迁，带来的底层基础设施风险。
因全域团队协作、大范围配置变更&发布，带来的人因操作、协作风险。

3.1 因公网质量问题，带来迁移后用户体验差的风险

贵州公网质量如何？迁移至贵州之后是否会因公网质量问题，导致用户体验差？由于云音乐用户基数大，且注重用户体验，这个是必须提前摸清的问题。若公网质量真的存在较大问题，云音乐可能会停止贵州迁移项目。

对此，我们通过如下方式进行了公网质量验证和保障：

通过客户端预埋逻辑，抽样检测同时请求杭州和贵州机房的RT差异。
通过RT的差异，再下钻分析杭州和贵州机房的差异点。
解决或排除机房、客户端、域名配置等差异，最终得出公网质量的差异。
在正式切流前，解决完成客户端、机房等差异，保障整体网络请求质量。
通过QA侧的整体测试。

3.2 因跨机房延迟30ms ，带来的业务侧应用雪崩风险

云音乐C端服务当前的RT普遍在5~70ms之间，若增加30ms，可能会导致请求堆积、线程池打爆等风险。为避免此风险，我们从如下几个方面入手：

尽可能同一批次搬迁，避免长期跨机房调用。
同一批次应用，基于用户ID、设备ID、IP进行Hash，实现同机房调用优先。
无法同一批次搬迁的应用。
- 确保会只跨一次，避免因循环调用等原因导致的多次跨机房。
- 需提供降级方案，对服务弱依赖。
服务需通过QA侧的测试。

3.3 因跨机房传输网络不稳定，带来的整体系统性风险

跨机房网络的现状和参考数据：

共计2条线，单条带宽为：100Gbps，但建议保持单条利用率在80%及以下。
参考网易北京与杭州的长传带宽质量。
- 可能会出现单条中断的情况，在网络侧的表现为网络抖动。若单条线中断，那么发生故障的请求会重连至另一条线。
- 极低概率出现2条线全部中断的情况。

基于以上现状，需要重点考虑并解决：

各中间件、存储在切流期间，长传网络出现问题时的表现、应对和兜底措施。例如ZK重连、重连失败后的重连风暴问题。
各服务在切流完成后，若仍长期使用长传网络，若长传网络出现问题的表现、应对和兜底措施。

在贵州迁移项目中，我们对以上重点问题进行了梳理和解决，并制定了各种应急预案和极端情况下的回滚方案。

3.4 因杭州和贵州机房同时部署，带来的服务节点数量、API数量、RPC数量翻倍风险

因杭州和贵州机房同时部署，带来的服务节点数量、API数量、RPC数量翻倍风险

在服务节点数量、API数量、RPC数量翻倍后，主要对底层依赖带来连接、重连上的冲击，以及原有连接数上限的冲击。

在我们实际搬迁中，也因遗漏了这一点，导致线上ZK出现瓶颈，进而ZK挂掉的问题。其主要表现为在网关场景下存在数据推送瓶颈。最终通过网关侧的ZK拆分解决该问题。

除此之外，DB、Memcached、Redis、MQ等资源的连接数也可能会超过原先设定的上限，需要评估后进行调整。

3.5 因大规模数据变更，带来的系统性能风险

大规模数据变更的场景包含但不限于：

批量调整配置中心值，因达到配置中心的性能瓶颈，导致配置变更时间过长，或服务挂掉。
批量的服务部署、重启，因达到K8S、构建机的性能瓶颈，导致部署、重启时间过长，或服务挂掉。
对迁移当晚核心路径上的服务进行集中访问、操作，因达到服务的性能瓶颈，导致访问超时、白屏、数据延迟、或服务挂掉的问题。

针对以上风险，我们重点对配置中心、K8S、贵州迁移管控平台等系统进行了性能优化，以支撑整体迁移。

3.6 因新机房建设、搬迁带来的底层基础设施风险。

因新机房建设、搬迁带来的底层基础设施风险包含但不限于：

同城双活能力的缺失。为应对此风险，我们在逻辑上继续保留同城双活的能力，并暂时通过机房不同楼层的部署架构，来尽可能弥补同城双活能力的缺失。
机器上架、环境搭建、网络传输等需确保达到验收标准。为应对此风险，运维侧提供相关方案保障整体环境，并最终通过业务侧QA验收。

3.7 因全域团队协作、大范围变更&发布，带来的人因操作、协作风险

在贵州迁移前，已经有多次发生因配置变更错误带来的事故。而此项目带来从未有过的全域迁移，全域协作，大范围变更&发布，风险不可谓不高。在此过程中，通过了许多方式来保障事项的落地，其中比较关键的点，也是项目成功的关键点包括：

各部门领导与同事的支持。
分工明确。在战略、战术、细节、事项推进等多个点均有相关人员把控，各司其职。
各项信息的细化梳理&定位。
定期的沟通协作会议，通过敏捷式项目管理，进行滚动式问题发现。
问题发现、治理、验证必须闭环。
尽可能中心系统化、自动化处理。无法自动化的，则提供标准化实施手册。
重点问题，case by case，one by one。

4. 历史技术债务处理

在贵州迁移项目中，比较突出的历史债务处理有：

ZK强依赖问题
在线业务Kafka迁移Nydus。
配置硬编码
服务间依赖改造
资源优化&控制
心遇依赖拆分
元信息不准确
组件版本过于陈旧问题
测试环境自动化部署成功率低
租户多集群拆分为多应用

4.1 ZK强依赖问题

ZK的不稳定已导致云音乐最高出现P1级事故，在贵州迁移项目中，因网络环境、机房环境、迁移复杂度等因素，ZK服务挂掉的概率极大，因此必须不能对其强依赖。

最终中间件侧对其改造，支持ZK发生故障时，其注册信息降级到本地内存读取。并推进相关依赖方进行升级改造。

4.2 在线业务Kafka迁移Nydus。

Nydus作为云音乐主力MQ产品，相较开源Kafka有更好的监控、运维等能力，Kafka在云音乐在线业务中已不再推荐使用。在贵州迁移中，MQ也需要进行两地切换/切流。

主要收益：

在线业务稳定性
Kafka机器资源回收
MQ切流特性&历史债务收敛

在推进层面：

第一里程碑：生产者完成双写
第二里程碑：消费者完成双消费
第三里程碑：完成废弃TOPIC下线、代码下线等收尾工作

4.3 配置硬编码

在贵州迁移项目中，需要做大量的配置迁移、变更。其主要为：机房名、集群名、机器IP、机器Ingress域名的变化。而这些在配置中心、代码、自动化脚本、JVM参数中均有存在，此外，IP黑白名单还可能涉及到外部厂商的改造变更。

在具体推进上，采用自动化扫描+人工梳理结合，并辅以标准化改造指引文档。

自动化扫描：通过代码扫描、配置中心扫描、JVM参数扫描、连接扫描等方式进行问题发现。
人工梳理：外部厂商、不受Git管控的脚本、以及运维侧的配置（例如：存储层访问权限的黑白名单等）、以及自动化扫描可能的遗漏，由各研发、运维人员再次自行梳理。

4.4 服务间依赖改造

核心应对杭州与贵州跨机房30ms RT和长传网络不稳定的风险。对循环调用、不合理依赖、强依赖进行改造。

减少不必要依赖。
必须不能出现服务跨机房强依赖。
不能因循环调用导致跨机房RT飙升。

4.5 资源优化&控制

因贵州需要与杭州同等容量部署，可能存在资源不足的情况。对此需要：

统一服务的资源利用率标准，推进资源利用率改造
对部分服务进行合并、下线、缩容处理。

4.6 心遇依赖拆分

因心遇强依赖云信，且云信IM为心遇核心业务功能，最终确定心遇为独立批次搬迁。因此心遇依赖的中台服务、存储、算法&大数据相关任务，均需拆分出来，不能与云音乐耦合，否则会产生跨机房调用，影响服务稳定性。

4.7 元信息不准确

在此次迁移中，存在较多的元信息不准确的问题，例如：

不足项	解释
应用的元信息需要补充、更新	1. 应用归属的团队信息不准确 2. 应用的废弃、待废弃状态未知 3. 测试应用、非业务应用信息偏杂乱
应用团队归属信息多处维护，未统一	应用在多个平台均有维护，且均存在维护不准确的问题
应用的各项依赖信息不全	应用依赖的db、redis、memcached资源，以及在配置中心的key无法全面准确拉取
应用的各项依赖信息可视化、系统化建设不足	1. 应用依赖的组件版本、依赖的存储资源等，缺乏友好的可视化查询能力。 2. 各项信息之间的关联性建设不足
底层中间件、存储元信息不全	1. 不同的ZK集群的用处缺乏统一维护。 2. 各项元信息反查调用源IP、集群、应用、团队、负责人的能力不足

以上问题在迁移中，通过脚本、1对1沟通确认、手动梳理等多种方式进行了临时处理，在贵州迁移后，仍需再全面的系统性规划。

4.8 组件版本过于陈旧问题

有较多的应用长期不升级，与最新版本跨度较大，存在较多的兼容性问题，需要人工进行升级处理。升级流程大致如下：

在迁移中期，我们进行了自动升级平台建设，基本支持以上升级流程自动化。

4.9 测试环境自动部署成功率低

因此次迁移涉及全部的应用在不同环境的部署，全部人工操作的效率过低，因此我们在非线上环境均由脚本自动化部署，而测试环境由于维护不足，部署成功率较低。

4.10 租户多集群拆分为多应用

当前贵州迁移时整体会按照应用维度进行迁移、切流到贵州。因此对于中台租户型应用、多地域注册类型的应用需要拆分。

5. 标准化接入

除了以上提到的历史技术债务处理和新增系统性风险，公共技术侧大都提供了标准化的接入、改造治理方式。例如：

贵州迁移中间件方案汇总。涵盖所有涉及中间件的迁移、切流、迁移策略、接入等指导方案。
贵州迁移升级指导。涵盖自动升级与手动升级、脚手架应用与非脚手架应用的升级方案。
贵州迁移线上部署指导。涵盖贵州线上部署前的各项必要准备事项，以及特殊应用的注意事项。
贵州迁移监控大盘观测指导。涵盖各类迁移监控的观测指导。
中台、多地域注册拆分指导。涵盖中台租户、多地域注册类型应用的拆分指导方案，以及整体的拆分流程、验证要点等。
ddb、redis、memcached、KSchedule等非标治理。涵盖各中间件、存储的非标风险列表、处理办法等。
杭州集群下线指导。涵盖杭州集群如何观察、缩容、下线、机器回收的指导方案。

6. 监控告警

在监控告警层面，主要提供了：

贵州迁移整体大盘监控。提供了迁移相关全局比例，异常流量，异常比例，能够区分是迁移导致的还是本身杭州服务就有问题导致。同时集成资源层相关指标，判断是单个资源有问题还是全部资源有问题。
贵州迁移应用监控。提供了单个应用的贵州迁移监控，应用贵州杭州流量比例，异常流量，异常比例，能够区分是贵州还是杭州的问题。同时有资源相关的指标。
杭州集群与贵州集群的哨兵监控对比分析。提供指定应用的杭州和贵州集群在CPU利用率、线程池满、异常比例、RT超时等维度的对比。
全局/应用的SLO监控。提供核心指标受损监控。
应用层面的系统监控。研发可通过哨兵、APM来查看定位具体的问题。

7. 应急预案

在贵州迁移期间，基于以上风险，主要准备如下应急预案：

客户端截流。在开启后，客户端将访问本地或CDN缓存，不再向服务端发送请求。
全站服务QPS限流至安全阈值。在开启后，全站的后端服务将限流调整至较低的安全阈值上，在极端情况下，避免因跨机房RT、跨机房传输、跨机房访问等因素的性能瓶颈引起服务端雪崩。
长传带宽监控&限流。在开启后，部分离线数据传输任务将会被限流。保障在线业务的带宽在安全水位下。
回滚方案。当出现重大问题，且无法快速解决时，逐步将存储、流量切回杭州。
外网逃生通道。当出现长传网络完全中断，需要回滚至杭州。通过外网逃生通道实现配置、核心数据的回滚。
业务领域内的应急预案。各业务领域内，需要考虑切流前的主动降级预案、切流中的应急预案。
批量重启。当出现局部服务必须通过重启才能解决的问题时，将会启用批量重启脚本实现快速重启。当出现全局服务必须通过重启才能解决问题时，需要当场评估问题从而选择全量重启或全量回滚至杭州。

8. 业务技术侧方案

业务技术侧方案重点包含但不限于：

应用搬迁范围、搬迁批次梳理明确。当上下游依赖的应用处于不同批次时，需要跨团队沟通协调。
明确业务影响，从而确定各应用的中间件、存储迁移策略。
历史技术债务处理
标准化接入
核心场景稳定性保障方案
核心指标监控建设完善。
切流SOP。包括切流前（前2天、前1天、前5分钟）、切流中、切流后各阶段的执行事项。
切流降级方案、应急预案
切流停止标准

9. 杭州集群下线

在服务迁移至贵州后，若杭州仍有流量调用，需排查流量来源，并推进流量下线或转移至贵州。先缩容观察，无正常流量、CDN回源等之后，再做集群下线。

七、测试&演练

此次贵州迁移，在各应用标准化治理之后，通过系统批量工具完成贵州各项环境的搭建、测试环境的批量部署。

1. 测试环境演练

1.1 准备事项

在测试演练开始前，我们重点做了如下准备：

贵州测试环境批量创建。通过迁移工具，实现贵州测试集群的批量创建、配置批量迁移等。
应用自动化升级。通过自动升级平台，实现大规模应用的批量升级，支持了各组件、各应用的多次快速验证、快速升级。
测试环境自动化部署。通过自动化部署脚本，为支持测试环境能够多次、高效演练。
SOP梳理&平台建设。通过SOP平台，将SOP文档沉淀为系统能力，实现各SOP能力的系统化。
迁移监控大盘建设。通过细化梳理监控指标，构建监控大盘，掌握各应用、各组件在切流期间的表现。

1.2 执行步骤

在测试环境演练，总体思路是逐步扩大验证范围，最终达到全局基本功能基本验证通过。以下为主要演练顺序，每一步视执行结果，再选择是否重复执行。

顺序	验证事项
1	验证中间件内部逻辑是否正确： 1. 网关、RPC、存储层路由策略是否正确。 2.验证监控大盘是否正确 3.验证SOP平台是否正确 4....
2	验证存储层切换是否正确
3	逐一对各业务团队进行演练： 1.加深各团队对切流能力的感知。 2.验证收集中间件、存储在各领域的表现。 3.验证各团队、各领域迁移策略的合理性
4	对BFF、FaaS等特殊应用类型进行演练

2. 线上环境演练

因测试环境和线上环境仍存在较大的差异，需要摸清线上真实情况，在演练原则和演练目标上均较测试环境演练有更严格、细致的要求。

2.1 演练原则

不对线上数据产生污染；
不产生线上 P2 以上事故。

2.2 演练目标

分类	目标内容
公技演练目标	1. 切流验证，网关，rpc，贵州迁移大盘监控 2.网关切流比例、快慢，数据库 ddb 贵州跨机房建连对业务影响 3.端上切流，网关切流验证
业务演练目标	1.流量切换，贵州跨机房对业务影响 2.业务指标和SLO 3.业务预案有效性验证 4.RT变化情况
存储演练目标	1.ddb 复制延迟，连接数(由于跨机房创建DDB连接非常慢, 主要观察流量到贵州后新建连接对应用和数据库影响及恢复情况) 2.redis数据同步、整体表现
网络演练目标	1.跨机房延迟情况 2.跨机房带宽实际占用 3.网络带宽占用监控

2.3 演练终止条件

P0、P1 核心场景 SLO 95%以下；
用户舆情增长波动明显；
跨机房网络大规模异常；
大量业务指标或者数据异常；
贵州流量达到预定 90%。

3. 独立App迁移验证

在云音乐主站正式切流前，先对云音乐旗下独立App进行了线上搬迁验证，保障云音乐迁移时的稳定性。

八、系统沉淀

1. SOP平台

SOP即标准作业程序（Standard Operating Procedure），源自传统工业领域，强调将某项操作以标准化、流程化的方式固化下来。

SOP平台将标准化、流程化的操作进行系统化呈现，并对接各中间件平台，实现操作效率的提升。在贵州迁移过程中，能够实现多部门信息同步、信息检查，并显著降低批量操作的出错概率、执行效率，降低人因风险。同时也可为后续其他大型项目提供基础支撑。

2. 自动升级平台

自动升级平台串联代码升级变更、测试部署、测试验证、线上发布、线上检测，实现升级生命周期重要节点的自动化。在贵州迁移过程中，显著提升整体升级、验证、部署效率。同时可为后续的大规模组件升级、组件风险治理、组件兼容性摸查、Sidecar式升级提供基础支撑。

九、不足反思

1. 元信息建设仍然不足

精准筛选出每项事宜涉及的范围，是顺利进行各项风险治理的前提条件。在此次贵州机房迁移中也暴露出元信息建设不足的问题。

不足项	解释
应用的元信息需要补充、更新	1. 应用归属的团队信息不准确 2. 应用的废弃、待废弃状态未知 3. 测试应用、非业务应用信息偏杂乱
应用团队归属信息多处维护，未统一	应用在多个平台均有维护，且均存在维护不准确的问题
应用的各项依赖信息不全	应用依赖的db、redis、memcached资源，以及在配置中心的key无法全面准确拉取
应用的各项依赖信息可视化、系统化建设不足	1. 应用依赖的组件版本、依赖的存储资源等，缺乏友好的可视化查询能力。 2. 各项信息之间的关联性建设不足
底层中间件、存储元信息不全	1. 不同的ZK集群的用处缺乏统一维护。 2. 各项元信息反查调用源IP、集群、应用、团队、负责人的能力不足

2. 各项元信息的创建、更新、销毁标准化、系统化

在贵州迁移过程中，做了历史技术债务处理、标准化接入方式，后续可针对各项元信息的创建、更新、销毁进行标准化、系统化建设。例如：

应用、集群的创建和销毁需要前置校验、审批。以及后期的架构治理扫描。
借助组件升级平台，实现组件发布、升级的标准化、系统化。
DB、Redis、Memcached、ZK的申请、使用、接入等标准化、防劣化。

3. 应用配置标准化

目前应用可做配置的入口有：配置中心、properties文件、props文件、JVM参数、硬编码。不同的中间件提供出的配置方式也各有不同，所以各应用的配置比较五花八门。因此可做如下改进：

明确各种配置入口的使用标准。比如：什么时候建议用配置中心？什么时候建议用JVM参数？
在组件提供侧、应用研发侧均有一定的宣贯、提示。避免配置方式过于杂乱。
提供配置统一上报的能力。助力元信息的建设。

4. 批处理能力需再进一步增强

在贵州机房迁移中，除了SOP平台和自动升级平台的系统沉淀外，业务中间件、Horizon部署平台都提供了一定的工具支撑，从而在一定程度上提升了整体迁移的效率。在之后，随着对效率、系统间融合的要求的提高。需要继续在功能、性能、稳定性等多个层面，继续对批处理、系统间融合进行系统化建设。例如：

批量拉取、筛选指定条件的应用以及相关依赖信息。
基于指定的环境、团队、应用、集群等维度，进行服务的批量重启、部署。此处需要进一步提升测试环境部署成功率
基于指定的应用、集群等维度，进行批量的服务复制、配置复制。

5. ZK稳定性、可维护性优化

在贵州迁移中，ZK的问题相对突出，对此也投入了比较多的人力去排查、解决以及推进风险治理。后续仍需要在ZK的稳定性、可维护性上探讨进一步优化的可能性：

ZK元信息的维护和使用标准。明确各ZK集群的用处、各ZK Path的用处，ZK集群间隔离、复用的标准，并推进相关标准化治理。
ZK故障时，因开启降级至内存，业务无法重启服务。若故障期间叠加其他事故，则会导致其他事故被放大。
其他稳定性、可维护性梳理

6. 公技侧稳定性保障长效机制和系统化建设

尽管在贵州机房迁移中，做了大量的稳定性保障措施，但依赖每个研发对各自负责领域的理解、运维能力。是否能在团队管理、设施管理、服务管理、稳定性管理、架构设计等多方面，探索出一套可持续的长效保障机制？并进行一定的稳定性系统化建设？从而避免点状问题随机发生。

7. 组件生产、发布、治理能力增强

贵州迁移中涉及大量的组件变更与发布，以及业务侧组件升级与治理。组件可以从生产侧和使用侧进行分析，而组件生命周期主要由2条主线贯穿：

组件生产发布线：组件的生产、测试验证、发布。
组件风险治理线：风险定义、风险发现、升级推进、升级验证

依据此分类，服务端的组件管理仍有较多可提升空间。
最后

更多岗位，可进入网易招聘官网查看

云音乐 Android Baseline Profiles 实践

2024-07-09T16:26:27+08:00

本文作者：熊鋆洋
本文将从 Baseline Profiles 的工作方式出发，介绍主要面向国内市场且使用了加固和热修复技术的应用，在使用 Baseline Profiles 时面临的问题和解决方案。

Google 于 2022 年推出了 Baseline Profiles，通过在应用或库中分发基准配置文件，应用市场（Google Play）在安装应用时，使用配置文件进行引导式 AOT 编译来优化配置文件指定的代码路径，可让应用从首次运行起，提升启动和关键路径的性能，进而提高用户留存率、日活和平均回访率等业务指标。

然而，对于主要面向国内市场且使用了加固和热修复技术的应用，在使用 Baseline Profiles 时，会面临如下问题：

不是所有应用市场都支持在安装时用 APK 中的配置文件做引导式 AOT 编译
加固导致配置文件中记录的 dex 校验和（crc）检查失败
不会给热修复后运行的 dex 带来优化

下面将从 Baseline Profiles 的工作方式出发，探讨上述问题的解决方案。

工作方式

Baseline Profiles 的整体工作流程可分为三个部分：

生成人类可读格式（HRF）的配置文件
构建 APK 时，将 HRF 配置文件转换为二进制格式并写入 APK 中的 assets/dexopt 目录
应用市场安装时，用 APK 中的配置文件进行 AOT 编译；或启动时，用 ProfileInstaller 将配置文件写入系统规定路径

生成配置文件通过 Macrobenchmark 库和 BaselineProfileRule 实现。首先重复执行开发者定义的关键路径，让 jit 将关键路径涉及的类和方法作为热代码记录下来；然后用 profman 工具将记录的热代码导出为 HRF 配置文件。将生成的配置文件命名为 baseline-prof.txt 置于 src/main 目录中，即可在构建 APK 时将其转换格式并写入 APK 中。

AGP 7 增加了 MergeArtProfileTask 和 CompileArtProfileTask，用于将应用和库中的 HRF 配置文件转换为二进制格式并写入 APK。在进行 release 构建时，MergeArtProfileTask 会将应用以及依赖的 aar 中的 baseline-prof.txt 合并写入构建中间产物 merged_art_profile/${variant}/baseline-prof.txt 中；之后，CompileArtProfileTask 会遍历 dex 文件，借助混淆映射文件，将其中存在于合并后配置文件中的方法索引、方法 HSP 标记和类型索引等信息记录下来，并以 Android P 版本的二进制格式写入到构建中间产物 binary_art_profile/${variant}/baseline.prof 和 binary_art_profile_metadata/${variant}/baseline.profm 中；最后在构建生成 APK 文件时，两个二进制中间产物文件会被写入 APK 的 assets/dexopt 目录中。

支持 Baseline Profiles 的应用市场（如 Google Play）在安装安装应用时，会抽取 APK 中的 baseline.prof 和 baseline.profm 文件，并用它们以 speed-profile 模式进行 AOT 编译。此外，官方提供的 profileinstaller 库会利用声明的 ContentProvider，在应用启动时，延时到第一帧后执行配置文件安装操作：

根据应用安装时间，判断应用安装后是否有向系统写入配置文件，如没有，执行下面的步骤
读取安装的 APK 中的配置文件，将其转码为当前系统版本对应的二进制格式
将转码后的配置写到系统的 current profile 文件（/data/misc/profiles/cur/0/${packageName}/primary.prof）

整体如下图所示：

主动优化

国内只有部分应用市场支持 Baseline Profiles，通过不支持的应用市场安装的用户无法享受首次运行即可提升性能的好处。虽然 profileinstaller 库会在首次启动时向系统写入配置文件，可以节省系统收集热代码的时间，但还是要等到满足条件，系统执行后台 dex 优化后，才能提升性能。

可通过在写入配置文件后，追加主动触发优化来尽可能加快主 dex（安装的 APK）优化进程，使性能尽快得到提升。然而，执行 dex 优化会占用较多资源，需采用合适的策略：

启动（首页内容显示）后 5 秒且应用在后台时执行，避免降低启动速度和增加卡顿
只在 dex 未优化时执行，避免资源浪费

profileinstaller 库在安装配置文件时，会获取并缓存用配置文件进行编译的状态，可以从 ProfileVerifier 获取编译状态来判断 dex 是否已优化。ProfileVerifier 根据系统在执行基于配置文件的编译后会生成 reference profile 文件（/data/misc/profiles/ref/${packageName}/primary.prof）来判断是否已编译，而在 Android P 和 R 上，应用没有权限访问 reference profile 文件，ProfileVerifier 会返回不支持该系统版本，所以对这些系统版本需通过其他方式判断是否已编译。系统在编译 APK 后会在安装的 APK 所在目录的子目录 oat/${instructionSet} 中生成 odex、vdex（Android O 及以上）和 art 文件，其中 odex 文件由于没权限无法访问，可通过比较其他两个文件的最后修改时间是否大于应用最后更新时间（PackageInfo.lastUpdateTime）来判断是否已编译。

主动触发主 dex 优化的方式有三种：

通过 PMS 以 Binder shell command 形式暴露的接口 compile -f -m speed-profile ${packageName}
通过 PMS 以 Binder shell command 形式暴露的接口 bg-dexopt-job ${packageName}，优化主 dex 和注册的 secondary dex
通过 PMS 的 AIDL 接口 performDexOptMode

前两种方式调 PMS Binder shell command 接口的方式可参考前文《dex 优化编年史》最后的代码示例。第三种方式的接口调用方式跟前两者类似，不过需先从 IPackageManager.Stub 获取接口对应的 trascation code：TRANSACTION_performDexOptMode。

遗憾的是，从 Android 12 开始，系统在执行上述接口的过程中，增加了对调用者的限制，主动触发主 dex 优化会失效。例如，第一种方式的执行流程中会调 PackageManagerService.performDexOptMode 方法，它要求调用者必须是 SYSTEM、ROOT 或 SHELL，否则会抛异常。

// frameworks/base/services/core/java/com/android/server/pm/PackageManagerService.java(android-12.0.0)
public boolean performDexOptMode(String packageName,
        boolean checkProfiles, String targetCompilerFilter, boolean force,
        boolean bootComplete, String splitName) {
    enforceSystemOrRootOrShell("performDexOptMode");
    // ...
}

private static void enforceSystemOrRootOrShell(String message) {
    final int uid = Binder.getCallingUid();
    if (uid != Process.SYSTEM_UID && uid != Process.ROOT_UID && uid != Process.SHELL_UID) {
        throw new SecurityException(message);
    }
}

加固

在构建 APK 过程中将 HRF 配置文件转换为二进制格式时，会写入 dex crc 信息。系统在执行基于配置文件的编译时，会检查配置文件记录的 dex crc 与安装的 APK 中对应 dex 的 crc 是否相等，不等不会执行编译。编译最终通过执行 dex2oat 命令来完成，其实现入口在 dex2oat.cc 中，在经过如下调用过程后对 dex 中的热方法进行编译：

Dex2oat
  DoCompilation
    Compile
      CompileDexFiles
        CompilerDriver::CompileAll
          CompilerDriver::Compile
            CompileDexFile
              CompileMethodQuick
                CompileMethodHarness

在上面调用过程的 Dex2oat 函数中，会在调 DoCompilation 执行编译前，调 VerifyProfileData 校验配置文件：遍历配置文件记录的 dex 信息，比较记录的 dex crc 以及方法和类型数是否跟安装的 APK 中同名 dex 的对应信息相等。但此时若校验不通过，只是打印错误日志，不会中止编译。

// art/dex2oat/dex2oat.cc(android-13.0.0)
static dex2oat::ReturnCode Dex2oat(int argc, char** argv) {
  // ...
  if (dex2oat->DoProfileGuidedOptimizations()) {
    dex2oat->VerifyProfileData();
  }
  // ...
}

bool VerifyProfileData() {
  return profile_compilation_info_->VerifyProfileData(compiler_options_->dex_files_for_oat_file_);
}

// art/libprofile/profile/profile_compilation_info.cc(android-13.0.0)
bool ProfileCompilationInfo::VerifyProfileData(const std::vector<const DexFile*>& dex_files) {
  // ...
  for (const std::unique_ptr<DexFileData>& dex_data : info_) {
    // ...
    if (!ChecksumMatch(dex_data->checksum, dex_file->GetLocationChecksum())) {
      LOG(ERROR) << "Dex checksum mismatch while verifying profile "
                 << "dex location " << dex_location << " (checksum="
                 << dex_file->GetLocationChecksum() << ", profile checksum="
                 << dex_data->checksum;
      return false;
    }

    if (dex_data->num_method_ids != dex_file->NumMethodIds() ||
        dex_data->num_type_ids != dex_file->NumTypeIds()) {
      LOG(ERROR) << "Number of type or method ids in dex file and profile don't match."
                 << "dex location " << dex_location
                 << " dex_file.NumTypeIds=" << dex_file->NumTypeIds()
                 << " .v dex_data.num_type_ids=" << dex_data->num_type_ids
                 << ", dex_file.NumMethodIds=" << dex_file->NumMethodIds()
                 << " v. dex_data.num_method_ids=" << dex_data->num_method_ids;
      return false;
    }
    // ...
  }
  return true;
}

在上面调用过程最后的 CompileMethodHarness 函数中，会调在 CompileMethodQuick 中创建并传入的 lambda 表达式 quick_fn，其中会调 ShouldCompileBasedOnProfile 来决定是否执行方法编译。

// art/dex2oat/driver/compiler_driver.cc(android-13.0.0)
static void CompileMethodQuick(
    Thread* self,
    CompilerDriver* driver,
    const dex::CodeItem* code_item,
    uint32_t access_flags,
    InvokeType invoke_type,
    uint16_t class_def_idx,
    uint32_t method_idx,
    Handle<mirror::ClassLoader> class_loader,
    const DexFile& dex_file,
    Handle<mirror::DexCache> dex_cache,
    ProfileCompilationInfo::ProfileIndexType profile_index) {
  auto quick_fn = [profile_index]([[maybe_unused]] Thread* self,
                                  CompilerDriver* driver,
                                  const dex::CodeItem* code_item,
                                  uint32_t access_flags,
                                  InvokeType invoke_type,
                                  uint16_t class_def_idx,
                                  uint32_t method_idx,
                                  Handle<mirror::ClassLoader> class_loader,
                                  const DexFile& dex_file,
                                  Handle<mirror::DexCache> dex_cache) {
    // ...
    if ((access_flags & kAccNative) != 0) {
      // ...
    } else if ((access_flags & kAccAbstract) != 0) {
      // Abstract methods don't have code.
    } else if (annotations::MethodIsNeverCompile(dex_file,
                                                 dex_file.GetClassDef(class_def_idx),
                                                 method_idx)) {
      // Method is annotated with @NeverCompile and should not be compiled.
    } else {
      // ...
      compile = compile && ShouldCompileBasedOnProfile(compiler_options, profile_index, method_ref);

      if (compile) {
        // NOTE: if compiler declines to compile this method, it will return null.
        compiled_method = driver->GetCompiler()->Compile(code_item,
                                                         access_flags,
                                                         invoke_type,
                                                         class_def_idx,
                                                         method_idx,
                                                         class_loader,
                                                         dex_file,
                                                         dex_cache);
        // ...
      }
    }
    return compiled_method;
  }
}

在 CompileDexFile 函数中会调 FindDexFile 获取 profile_index，然后经由 CompileMethodQuick 传入 ShouldCompileBasedOnProfile。profile_index 需从通过 ProfileCompilationInfo::FindDexDataUsingAnnotations 获取的 DexFileData 对象得到，当配置文件记录的 dex crc 与安装的 APK 中同名 dex 的 crc 不等时，得到的 DexFileData 为空，进而得到的 profile_index 为 MaxProfileIndex()，从而使 ShouldCompileBasedOnProfile 返回 false，导致方法编译不会执行。

// art/dex2oat/driver/compiler_driver.cc(android-13.0.0)
static void CompileDexFile(CompilerDriver* driver,
                           jobject class_loader,
                           const DexFile& dex_file,
                           const std::vector<const DexFile*>& dex_files,
                           ThreadPool* thread_pool,
                           size_t thread_count,
                           TimingLogger* timings,
                           const char* timing_name,
                           CompileFn compile_fn) {
  // ...
  ProfileCompilationInfo::ProfileIndexType profile_index = (have_profile && use_profile)
      ? compiler_options.GetProfileCompilationInfo()->FindDexFile(dex_file)
      : ProfileCompilationInfo::MaxProfileIndex();
  // ...
}

// art/libprofile/profile/profile_compilation_info.h(android-13.0.0)
ProfileIndexType FindDexFile(
    const DexFile& dex_file,
    const ProfileSampleAnnotation& annotation = ProfileSampleAnnotation::kNone) const {
  const DexFileData* data = FindDexDataUsingAnnotations(&dex_file, annotation);
  return (data != nullptr) ? data->profile_index : MaxProfileIndex();
}

// art/libprofile/profile/profile_compilation_info.cc(android-13.0.0)
const ProfileCompilationInfo::DexFileData* ProfileCompilationInfo::FindDexDataUsingAnnotations(
      const DexFile* dex_file,
      const ProfileSampleAnnotation& annotation) const {
  if (annotation == ProfileSampleAnnotation::kNone) {
    std::string_view profile_key = GetProfileDexFileBaseKeyView(dex_file->GetLocation());
    for (const std::unique_ptr<DexFileData>& dex_data : info_) {
      if (profile_key == GetBaseKeyViewFromAugmentedKey(dex_data->profile_key)) {
        if (!ChecksumMatch(dex_data->checksum, dex_file->GetLocationChecksum())) {
          return nullptr;
        }
        return dex_data.get();
      }
    }
  } else {
    // ...
  }

  return nullptr;
}

// art/dex2oat/driver/compiler_driver.cc(android-13.0.0)
static bool ShouldCompileBasedOnProfile(const CompilerOptions& compiler_options,
                                        ProfileCompilationInfo::ProfileIndexType profile_index,
                                        MethodReference method_ref) {
  if (profile_index == ProfileCompilationInfo::MaxProfileIndex()) {
    // ...
    return false;
  } else {
    // ...
  }
}

另外，在虚拟机启动后，经如下调用过程，jit 会通过 ProfileSaver 创建线程不断从 jit 代码缓存获取并处理热代码信息，然后保存到配置文件中，此时也会检查 dex crc，不匹配则清空配置文件。

Runtime::Start
  Runtime::RegisterAppInfo
    Jit::StartProfileSaver
      ProfileSaver::Start
        ProfileSaver::RunProfileSaverThread
          ProfileSaver::Run
            ProfileSaver::ProcessProfilingInfo

在 ProfileSaver::ProcessProfilingInfo 中会调 ProfileCompilationInfo::AddMethods 向配置信息中添加 jit 记录的热方法，添加失败则清除配置信息，进而导致之后保存到配置文件时，清空配置文件。

// art/runtime/jit/profile_saver.cc(android-13.0.0)
bool ProfileSaver::ProcessProfilingInfo(
        bool force_save,
        bool skip_class_and_method_fetching,
        /*out*/uint16_t* number_of_new_methods) {
  // ...
  for (const auto& it : tracked_locations) {
    // ...
    {
      // ...
      if (!info.AddMethods(
              profile_methods,
              AnnotateSampleFlags(Hotness::kFlagHot | Hotness::kFlagPostStartup),
              GetProfileSampleAnnotation())) {
        LOG(WARNING) << "Could not add methods to the existing profiler. "
            << "Clearing the profile data.";
        info.ClearData();
        force_save = true;
      }
      // ...
    }
  }
  // ...
}

在 ProfileCompilationInfo::AddMethods 的执行过程中，经如下调用过程，在 ProfileCompilationInfo::GetOrAddDexFileData 中会检查 dex crc，不等返回空，导致 ProfileCompilationInfo::AddMethods 返回 false。

ProfileCompilationInfo::AddMethods
  ProfileCompilationInfo::AddMethod
    GetOrAddDexFileData
      ProfileCompilationInfo::GetOrAddDexFileData

// art/libprofile/profile/profile_compilation_info.cc(android-13.0.0)
ProfileCompilationInfo::DexFileData* ProfileCompilationInfo::GetOrAddDexFileData(
    const std::string& profile_key,
    uint32_t checksum,
    uint32_t num_type_ids,
    uint32_t num_method_ids) {
  // ...
  if (result->checksum != checksum) {
    LOG(WARNING) << "Checksum mismatch for dex " << profile_key;
    return nullptr;
  }
  // ...
}

所以，如果 profileinstaller 向系统写入的配置文件中记录的 dex crc 与安装的 APK 中对应 dex 的 crc 不等，写入的配置文件将被清空，并在 logcat 中看到如下日志。

W  Checksum mismatch for dex base.apk!classes10.dex
W  Could not add methods to the existing profiler. Clearing the profile data.

云音乐使用的加固是定制的轻量级加固，有如下特点：

不会修改原 dex
插入一个 dex 作为 classes.dex，并将原 dex 名的序号加 1：classes.dex -> classes2.dex，classes2.dex -> classes3.dex，...

由于加固是在构建生成 APK 之后，修改 dex 名会导致 APK 中配置文件记录的 dex crc 与 APK 中同名 dex 的 crc 不等，无法执行基于配置文件的编译。可以在构建流程的加固步骤后，增加修正 APK 中配置文件记录的 dex 名步骤，来解决 dex crc 检查失败问题。由于 APK 中的配置文件是二进制格式的，所以需先从中解析出 dex 名与 crc、方法 id 和方法 HSP 标记等信息，然后在修正 dex 名后按原来的格式写回到配置文件中，这需要了解配置文件的编码方式并实现编解码功能；而 AGP 中的 ArtProfile 已提供二进制配置文件的读写功能，为了利用 AGP 中的代码，可编写一个 gradle task 来实现 dex 名修正。该 task 的工作流程如下：

解压加固后 APK
使用 ArtProfile 读取 baseline.prof 和 baseline.profm 文件，遍历读取到的 dex 信息并修改 dex 名，将修改后的信息写回配置文件
压缩生成 APK 文件

增加 dex 修正步骤后，整体构建流程如下：

在解压 APK 文件时，需将各文件的压缩方法记录下来，以便重新压缩生成 APK 文件时，使每个文件保持原来的压缩方式；为了避免 APK 体积增大，压缩工具也要跟之前保持一致。

热修复

热修复后运行的 dex 不再是安装的 APK 中的 dex，而是补丁 dex 跟 APK 中原 dex 合成后的新 dex，所以用于加快 APK 编译进程的 Baseline Profiles 无法为热修复场景带来性能提升。

一次热修复包含三个阶段：

补丁构建：基于修复后代码构建新 APK，然后计算其与旧 APK 的差量来构建补丁包
补丁合成：将下载到的补丁包中的资源、dex 和 so 等跟安装的 APK 中对应的文件合成为完整文件
补丁应用：替换运行时使用的资源、dex 和 so 等为合成后的文件

在补丁合成阶段，会采用《dex 优化编年史》所述方式触发系统对合成后的 dex 进行优化，但在 Android 8.0 及以上系统中，由于没有配置信息，只能做基本优化，不能对关键路径进行优化。当系统将合成后 dex 作为 secondary dex 进行优化时，也会读对应的配置文件来优化指定的代码路径，所以可以在触发优化前，将配置信息写入配置文件，来实现提升首次应用补丁时的关键路径性能。

要写配置文件，首先需明确合成后 dex 对应的配置文件路径。在触发 dex 优化时，会通过创建 BaseDexClassLoader 对象向系统注册 dex 使用信息以及配置文件，使系统能获取 dex 信息进行优化，以及记录 dex 中的方法执行信息。注册配置文件时，如果配置文件不存在，则会创建文件，从如下系统实现可知其路径为：

android 8.0：${dexPath}.prof

android 8.1 及以上：${dexParentPath}/oat/${dexFileName}.cur.prof

// frameworks/base/core/java/android/app/DexLoadReporter.java(android-8.0)
private void registerSecondaryDexForProfiling(String dexPath, String[] dataDirs) {
  // ...
  File secondaryProfile = getSecondaryProfileFile(dexPath);
  try {
      // ...
      boolean created = secondaryProfile.createNewFile();
      // ...
  } catch (IOException ex) {
      // ...
      return;
  }
  // ...
}

private File getSecondaryProfileFile(String dexPath) {
  return new File(dexPath + ".prof");
}

// frameworks/base/core/java/android/app/DexLoadReporter.java(android-8.1)
private void registerSecondaryDexForProfiling(String dexPath, String[] dataDirs) {
  // ...
  File realDexPath;
  try {
      // ...
      realDexPath = new File(Libcore.os.realpath(dexPath));
  } catch (ErrnoException ex) {
      // ...
      return;
  }

  // NOTE: Keep this in sync with installd expectations.
  File secondaryProfileDir = new File(realDexPath.getParent(), "oat");
  File secondaryProfile = new File(secondaryProfileDir, realDexPath.getName() + ".cur.prof");

  // ...
  if (!secondaryProfileDir.exists()) {
      if (!secondaryProfileDir.mkdir()) {
          // ...
          return;
      }
  }

  try {
      boolean created = secondaryProfile.createNewFile();
      // ...
  } catch (IOException ex) {
      // ...
      return;
  }
  // ...
}

另一个关键点是保证写入正确的配置信息。虽然合成后 dex 的代码执行逻辑跟新 APK 一样，但其文件内容可能跟新 APK 中对应 dex 不一致，即 crc 不等，从而出现上节提到的 crc 校验失败，编译不执行的问题。这就需要在补丁构建阶段中的生成 dex 补丁步骤最后增加配置信息更新操作，以及生成资源补丁步骤最后增加保存更新后配置信息并重新生成配置文件补丁的操作：

在构建新 APK 时，将 HRF 配置文件和混淆映射文件保存下来，以便在后续的配置文件更新操作中生成配置信息
在生成 dex 补丁最后，对发生变化的 dex 基于合成后 dex 重新创建配置信息，然后读取新 APK 中二进制配置文件并替换其中变化 dex 的配置信息
在生成资源补丁最后，将更新后的配置信息以二进制格式写回新 APK 解压目录中的配置文件中，然后针对配置文件重新生成补丁

在生成 dex 补丁步骤中，会用生成的补丁跟旧 dex 文件合成，然后校验合成结果跟新 dex 的类信息是否相同，创建合成后 dex 的配置信息时，可以利用这里已合成的文件。从 HRF 配置文件、混淆映射文件和 dex 文件创建配置信息，以及读写二进制配置文件功能，AGP 中的 ArtProfile 都有实现，可直接使用 AGP 库。

从补丁构建阶段修正配置信息，到补丁合成阶段向合成后 dex 对应的配置文件写入配置信息，并触发配置文件引导式 AOT 编译的整体流程如下：

小结

本文先介绍了 Baseline Profiles 的工作方式，在此基础上探讨了面临的三个问题的解决方案：

国内只有部分应用市场支持 Baseline Profiles：追加主动触发优化来尽可能加快优化进程
加固插入 dex 导致 crc 校验失败，不执行编译：修正加固后 APK 种配置文件记录的 dex 名
对热修复后运行的 dex 无效：在补丁合成阶段触发 dex 优化前，将配置信息写入合成后 dex 对应的配置文件

云音乐在解决了上述问题，使 Baseline Profiles 按预期方式工作后，启动性能得到了明显提升：

应用市场支持时提升了约 31%；整体提升了约 6%，且会随着支持的应用市场的增加而进一步提升
热修复后提升了约 12%

参考资料

更多岗位，可进入网易招聘官网查看

云音乐2023年度听歌报告动效大揭秘

2024-07-02T14:15:10+08:00

本文作者：西西

2023网易云音乐年度听歌报告已经上线，你它被刷屏了吗？有没有好奇那些精美的动效是如何制作的呢？这篇文章将为你揭秘年报的动效是如何设计和落地的。

前言

《年度听歌报告》是网易云音乐每年年底都会为大家带来的保留节目，2023 年也不例外，你是不是也被它刷屏了？不知不觉，这是我参与的第七个年度听歌报告项目了，同样还是负责页面内的动效设计和一部分动效代码编写，下面就和大家分享一下这个项目中的动效是怎么做的。
由于作者不是专业程序员，叙述逻辑和代码细节可能没那么严谨，恳请各位看官斧正。
如果您对这个项目的整体前端架构也感兴趣，欢迎参阅《云音乐2023年度听歌报告前端大揭秘》
本文篇幅较长，阅读时间预计大于 15 分钟。

（如果你很遗憾的错过了，现在扫码查看还来得及↓↓↓）

动效设计的流程

我们先来看看在通常一个项目中是怎么做动效设计的，传统流程是：

动效设计师用设计软件设计并制作动画效果，并与视觉设计师、需求方讨论和修改打磨；
根据技术方案产出视频 Demo 以及对应的动效资源、标注给到开发；
开发人员根据 Demo 用代码编写动效；

如果是动效工作量较少或者对质量要求不高的小型项目，这个流程没什么问题。但对于一些重量级项目，不仅工作量大，对质量要求也会比较高，中间还会有多轮反复的修改，那么这个流程的效率是比较低的，而《年度听歌报告》毫无疑问就是个重量级项目，所以我们需要对动效流程做一些调整。
在项目初期我们就把动效部分拆出来，由动效设计师直接用代码编写动效，并与视觉/策划老师沟通和修改；同时前端老师可以更专注于业务逻辑/数据处理等更高优的部分，并行推进项目。动效部分打磨的差不多后，再和前端老师一起 review 并合并代码。

在整体氛围上，听歌报告的动效倾向是温暖、轻快、甚至细微的，不需要过于酷炫炸裂的呈现，因而动效代码我们使用较为基础的 React + CSS 来编写，再加上一些动图一起构成页面整体效果。

聊完整体框架，接下来我们聚焦到具体的动效实现吧。

转场翻页动效

除了部分页面进行特殊处理，听歌报告中主要的翻页动效是「淡入淡出」，但也不是简单的「淡入淡出」。

这里我们使用了 React 官方出品的 CSSTransition 组件，它的作用是通过在不同时机应用不同类名来控制其子组件样式。
React 代码参考：

<CSSTransition
    // in 的值从 false 变为 true 时触发'页面进入'，反之触发'页面消失'
    in={match}
    timeout={100}
    classNames={{
        // 页面进入前初始化
        enter: styles.reportEnter,
        // 页面进入完成
        enterDone: styles.reportEnterDone,
        // 页面离开前初始化
        exit: styles.reportExit,
        // 页面离开完成
        exitDone: styles.reportExitDone,
    }}
    appear
    unmountOnExit>
    {/* 页面DOM */}
</CSSTransition>

当对应类名下的样式中设置了 transition 属性，则可以在属性改变时触发及控制动画过渡效果。
CSS 关键代码如下：

.reportEnter {
    opacity: 0;
}

.reportEnterDone {
    opacity: 1;
    transition: opacity 2000ms;
}

.reportExit {
    transition: opacity 300ms;
    opacity: 0;
}

.reportExitDone {
    opacity: 0;
}

未设置 transition 效果如下图：

设置 transition 后：

此时「淡入淡出」的翻页效果就基本完成了，但我们体验过程中发现，页面直接的背景是不一样的，在翻页的过程中会有一瞬间露出整个听歌报告的底色（默认是白色），在快速翻页的时候会感觉一直在「闪」，不是很舒服。
于是我们就再加入亿点点细节，将每次翻页过程中「露出」的底色设为即将翻过来的页面的底色。

关键 React 代码如下：

{pages.map((item, index) => {
    // 遍历数组，获取容器背景色
    const bgCol = item.backgroundColor;
    return (
              <div style={{
                        ...
                        background: match ? bgCol : '',
                    }}>
                    <CSSTransition>
                        {/* 页面DOM */}
                    </CSSTransition>
                </div>          
        )
     }
)}

这样效果就比较合适了。

文字动效

文字出现动效和往年一样，用透明度渐现 + 向上位移逐行出现的方案，根据页面风格微调了动画时长和「缓动曲线」。这里的主角不是动效而是文字的内容，所以我们希望它恰到好处而又不喧宾夺主。

这部分简单用 CSS Animation 来实现，关键代码如下：

.textAni{
  animation-name:textAniKey;
  animation-duration:1.5s;
  animation-timing-function:cubic-bezier(0, 0, 0.5, 1);
  animation-iteration-count:1;
  animation-direction:normal;
  animation-fill-mode:both;
}
@keyframes textAniKey{
  0% {
    transform:translateY(2vw);
    opacity: 0;
  }
  100% {
    transform:translateY(0vw);
    opacity: 1;
  }
}

这里比较关键的是「animation-timing-function」属性，也就是我们常说的「缓动曲线」、「时间插值」，可以用关键字设置值，例如如

匀速运动「linear」
加速运动「ease-in」
减速运动「ease-out」
先加速后减速「ease」
特化的三阶贝塞尔函数「cubic-bezier(x1,y1,x2,y2)」

其中「贝塞尔函数」是用来更精细化调整运动节奏的，例如之前代码中的「cubic-bezier(0, 0, 0.5, 1)」就是比「ease-out」更「剧烈」一点的减速运动。
关于「animation-timing-function」更深入的资料可以参阅 MDN 文档中缓动函数相关章节，以及可以在Cubic-Bezier这个网站可视化的调整并获取自定义的缓动效果。

这个三阶贝塞尔函数我们后边还会聊到，不过不是用在控制动画的节奏上，而是用于塑造曲线的形状，或者说这才是它更常见的用途。

这里还有个属性也值得说一下：「animation-delay」，也就是时间延迟。
一个非常常用的 CSS 动画小技巧，即给同类的一组图片资源（一组音符、一组星星...）应用同一个 CSS 动画，但设置不同的「animation-delay」，通常是一个小幅度的递增或递减，用来表现物体漂浮，摇曳等效果非常方便，甚至可以将值设为负数，这样动画就能一开始就存在。

这个技巧在后续页面的动效中也经常能看到。

简单页面动效

下面我们来一点点拆解各个页面的动效吧，先从比较简单的部分聊起。

「初次相遇」

这个页面承接了开场动画的结尾，进入时有一颗星星从天而降，爆闪一次，然后循环轻微闪烁。

「从天而降」是一组动画，「爆闪」是一组动画，轻微闪烁也是一组动画。这颗流星的结构是一个父容器+若干子容器（图片资源），各自应用了一些动画，具体可以看下参考代码实现：
React 部分:

// 最外层只负责整体位移和透明度动画，通过 transition 定义
<div
    className={styles.starOnSky}
    style={{
        position: 'absolute',
        transition: 'all 1.5s cubic-bezier(0,0,0,1) 0.2s',
        opacity: starIn ? 1 : 0,
        transform: `translateY(${starIn ? 0 : -20}vw)`,
    }}> 
    // 循环轻微闪烁的星星
    <img src={bigStarWithGlow} className={styles.bigStarWithGlow} />
    // 拖尾
    <img src={bigStarTail} className={styles.bigStarTail} />
    // 最开始爆闪的那一颗大星星。只播一次动画就消失。
    <img src={starLight}
         className={
            starIn ? `${styles.starLight} ${styles.starLightAni}` : styles.starLight
         } />
</div>

CSS 部分：

/* 循环轻微闪烁的星星动画 */
.bigStarWithGlow {
    /* 省略部分静态样式代码 */
    animation: starGlowAniKey 3s cubic-bezier(0.25, 0, 0.75, 1) 0s infinite normal both;
}

@keyframes starGlowAniKey {
    0% {
        transform: scale(0.8);
    }

    50% {
        transform: scale(1.2);
    }

    100% {
        transform: scale(0.8);
    }
}
/* 最开始爆闪的那一颗大星星。只播一次动画就消失。 */
.starLight {
    /* 省略部分静态样式代码 */
    transform: scale(0);
}

.starLightAni {
    animation: starLightAnikey 2s ease-in-out 0s 1 normal both;
}
@keyframes starLightAnikey {
    0% {
        transform: scale(0);
    }

    50% {
        transform: scale(1.5);
    }

    100% {
        transform: scale(0);
    }
}

背景上我们将海浪拆分出三层，给其中两层添加一个上下位移动画，通过「animation-delay」属性稍稍错开。

CSS 动画代码参考：

.waveAni {
    animation: waveAniKey 8s cubic-bezier(0.25, 0, 0.75, 1) 0s infinite normal both;
}

@keyframes waveAniKey {
    0% {
        transform: translateY(-10vw);
    }

    50% {
        transform: translateY(-4vw);
    }

    100% {
        transform: translateY(-10vw);
    }
}

同时通过动图来添加一些细节，比如溅起的浪花，闪烁的星星等：

「听歌总览」

这个页面中，飞溅的水珠依然是用动图表现：

下落的水滴却有不同处理：背景的水滴动效相对简单（位移+透明度变化），通过 CSS 可以完成，然后通过在构造时生成随机数，让它们的分布、长短在每一次进入这个页面时都有所不同，这个技巧在之后的页面也会经常用到；创建「水滴」同样用了「animation-delay」属性来将每一组水滴下落的时间间隔开，使得效果更接近现实。

React 动画代码参考：

// 生成随机数数组
const lineCount = 10;// 水滴数量
const animationDuration = 25;// 每组水滴下落动画总时长
// 预生成随机数，存入数组
const lineRandomGroup = useMemo(() => Array.from(
    { length: lineCount },
    () => [Math.random(), Math.random(), Math.random()]
), [lineCount]);

// 省略部分代码

// 生成「水滴」
{lineRandomGroup.map((item, index) => {
    // 每组雨滴 delay 间隔
    const step = -animationDuration / lineCount;
    return (
        <div
            className={styles.rainGroup}
            key={`lineRandomGroup_${index}`}
            // 直接行内设置样式，部分覆盖 CSS 文件中的默认属性
            style={{
                left: `${-20 + 120 * item[0]}vw`,
                animationDuration: `${animationDuration * (0.5 + 0.5 * item[1])}s`,
                animationDelay: `${index * step}s`,
            }}>
            <div
                className={styles.rainLine}
                style={{
                    opacity: item[2],
                    height: `${50 * item[1]}vw`,
                }} />
            <img
                src={fallingStar}
                className={styles.fallingStar}
                style={{
                    opacity: 0.5 + 0.5 * item[2],
                }} />
        </div>
    );
})}

CSS 动画代码参考：

.rainGroup {
    position: absolute;
    width: 0.2vw;
    height: 50vw;
    /* 为简洁计将多个animation属性简写至一行，后同 */
    animation: lineFallAniKey 10s linear 0s infinite normal both;
}

@keyframes lineFallAniKey {
    0% {
        opacity: 0;
        transform: translateY(-50vw);
    }
    30% {
        opacity: 1;
    }
    80% {
        opacity: 1;
    }
    100% {
        opacity: 0;
        transform: translateY(200vw);
    }
}

而几滴滴到小人手上溅起音符的动效相对复杂一些，则是又换成了动图，这样制作和调试效率更高。

「曲风排行」

在这个页面我们希望这些「花朵」有一种在风中摇曳的效果。首先我们将每一朵花旋转的中心通过「transform-origin」设为图中花枝条与地面相接之处（本例中皆为左下角），这样花朵看起来才像是「长」在地面；

transform-origin: 0% 100%;

然后为它加上轻微的旋转动画。CSS 动画代码参考：

.flowerAni {
    animation: flowerAniKey 8s cubic-bezier(0.3, 0, 0.7, 1) 0s infinite normal both;
}
@keyframes flowerAniKey {
    0% {
        transform: rotate(-2deg);
    }
    50% {
        transform: rotate(2deg);
    }
    100% {
        transform: rotate(-2deg);
    }
}

可能你也注意到了背景的白色枝条也在一起晃动，但这里我们并没有拆成这么多条白杆图层，而是对他们整体应用了一个 skew 动画。

CSS 动画代码参考：

.bgFlowerAni {
    animation: bgFlowerAniKey 8s cubic-bezier(0.3, 0, 0.7, 1) 0s infinite normal both;
}
@keyframes bgFlowerAniKey {
    0% {
        transform: skewX(-3deg);
    }
    50% {
        transform: skewX(0deg);
    }
    100% {
        transform: skewX(-3deg);
    }
}

调整一下动画时长和节奏，当然还有 delay，让它匹配上曲风之花的动画，就做出很多花在随风摇曳的效果了。这页还有个飘散的花瓣动画，我们后边再一起聊聊。

「四季听歌」

我们将春、夏、秋、冬几个字进行了艺术化处理，然后将他们的笔画拆分开，对每个拆出来的笔画应用相同的位移动画。

CSS 动画代码参考：

.wallUpAni {
    animation: wallUpAniKey 2.5s cubic-bezier(0, 0, 0.2, 1) 0s 1 normal both;
}
@keyframes wallUpAniKey {
    0% {
        transform: translateY(25vw);
    }
    100% {
        transform: translateY(0);
    }
}

然后同样用 animation-delay 将它们错开播放，就呈现笔画依次慢慢升起组成文字的动效。

「最晚听歌」

这个页面主要是模拟极光的明暗变化。我们将极光元素拆分成多组图片：

为它们加上透明度、亮度（filter:brightness()）、位移、缩放等组合的动画。当然这里也少不了「animation-delay」的设置。
CSS 动画代码参考：

.auroraAni {
    transform-origin: 50% 100%;
    animation: auroraAniKey 10s cubic-bezier(0.2, 0, 0.8, 1) 0s infinite normal both;
}
@keyframes auroraAniKey {
    0% {
        transform: translateY(0) scale(1, 1);
        filter: brightness(0.5);
        opacity: 0.5;
    }

    50% {
        transform: translateY(-3vw) scale(1, 1.1);
        filter: brightness(1.5);
        opacity: 1;
    }

    100% {
        transform: translateY(0) scale(1, 1);
        filter: brightness(0.5);
        opacity: 0.5;
    }
}

但这还是少了点发光的感觉，于是我们将整组极光复制一层，对其中一层使用模糊滤镜（filter:blur()）,另一层设置混合模式为「屏幕」（mix-blend-mode:screen）；
CSS 滤镜可以为元素叠加多种视觉效果，感兴趣可以看看 MDN 文档中 CSS 滤镜相关章节;
而混合模式则是描述元素的内容应该与元素的直系父元素的内容和元素的背景如何混合，感兴趣可以参考 MDN 文档中 CSS 混合模式相关章节。
这些属性极大的丰富了 CSS 的视觉处理手段，但也要注意兼容性和中低端设备的性能问题。

<div style="mix-blend-mode: screen;">{/* 极光元素 DOM */}</div>
<div style="filter: blur(15px);">{/* 极光元素 DOM */}</div>

「发光」何必是发光，可能「模糊」在伪装...

还有一些页面的动效也是 CSS Animation + delay 的简单组合应用，限于篇幅就不做进一步拆解了

简单粒子动效

在「曲风排行」页面飘散的花瓣，以及在「司机听歌」页面中「秋」飘的叶子、「冬」下的雪，其本质上也是引入了随机函数去构造的一系列 CSS 动画。

可以说这是一个基于 CSS「手搓」的「粒子系统」。
我们先构造单独的一个粒子动画，对于部分需要改变的属性，不是写死数值，而是用「 CSS 变量」给它赋值。
CSS 代码参考：

.snow {
  position: absolute;
  width: 15px;
  height: 15px;
  border-radius: 50%;
  animation:snowAniKey 10s linear 0s infinite normal both;
}
@keyframes snowAniKey {
  0%{
    transform:translate(0,-20px)
              scale(var(--snow-scale))
              rotate(0deg);
  }
  100%{
    transform:translate(var(--snow-end-x),var(--snow-end-y))
              scale(var(--snow-scale))
              rotate(360deg);
  }
}

接下来，生成一些随机数存入数组。React 代码参考：

const data = useMemo(() => {
    return Array.from({
        length: smallSnowCount}, (temp, i) => {
            const xExtend = windX>=0?windX:0;
            const x = (100+Math.abs(windX))*Math.random() - xExtend;
            const start = 100*Math.random();
            const opacity = Math.random();
            const duration = basicDur+0.5*basicDur*Math.random();
            const snowScale = 1*Math.random();
            const snowEndX = windX;
            const snowEndY = (frameH+5*Math.random());
            const snowBg = `radial-gradient(circle at 50%,${snowColor}, rgba(255,255,255,0) 70%)`;

            return {
                x,
                start,
                opacity,
                duration,
                snowScale,
                snowEndX,
                snowEndY,
                snowBg,
            }
        }
    )
}, [smallSnowCount]);

然后在生成DOM元素的时候，用这些随机数给这些变量赋值，这样就能让每一颗粒子有自己独一无二的动画了。
同样也给「animation-delay」赋予随机值，这样他们才能满屏飘散。
React 代码参考：

data.map((item, index) => {
    const {
     x,
     start,
     opacity,
     duration,
     snowScale,
     snowEndX,
     snowEndY,
     snowBg,
    } = item || {};

    return (
        <div key={index}
        className='snow'
        style={{
               "--snow-scale":blur?snowScale:(0.6*snowScale),
               "--snow-end-x":`${snowEndX}vw`,
               "--snow-end-y":`${snowEndY}vh`,
               left:`${x}vw`,
               width:`${size1}px`,
               height:`${size1}px`,
               opacity:opacity,
               animationDelay:`-${start}s`,
               animationDuration:`${duration}s`,
               background:blur?snowBg:snowColor,
       }}/>
    )
})

题外话：如果你所在的地区正在下雪，打开云音乐APP，有机会看到首页也在下雪哦~而年终盘点项目里的「粒子组件」就是从这个项目中的修改而来。
不过现在前端老师已经将这个「粒子系统」用 webgl 方案重构了，性能更好，也加强了扩展性，这里就不展开了。

简单3D动效

CSS 除了能做 2D 动效，它还有一定的 3D 能力。开启 CSS3D 的方法是：

对于需要做 3D 效果的元素 B，对它的直接父容器 A 设置 perspective 属性为一个带单位的数字值，例如 800px，值越小镜头畸变越夸张，透视感就越强，反之画面就越「正」;
B 元素本身设置 transform-style: preserve-3d ，然后设置 transform 中涉及 3D 的变换，例如 rotetaX() 、translateZ() 等，就能看到效果了。
如果元素的子元素 C 也需要做相对的 3D 效果，不需要对A再设置 perspective 的值，B 会继承 A 的 perspective。

可以查看这个 CSS 3D 演示。

HTML 代码参考：

<div class='A'>
    <div class='B'>
        <div class='C'></div>
    </div>
</div>

CSS 代码参考：

.A{
    perspective: 800px;
}
.B{
    transform-style:preserve-3d;
    transform: rotateX(45deg);
}
.C{
    transform-style:preserve-3d;
    transform: rotateY(45deg);
}

在听歌报告中也有页面用到了这个属性，例如「听歌关键词」页面，雨滴落入水面激起的涟漪就应用了 3D 效果，使得效果更真实。

对应的 CSS 代码参考：

.rainRing {
    position: absolute;
    width: 100px;
    height: 100px;
    border-radius: 50%;
    /* 去掉一个边的 border，构造「不完美」的环 */
    /* border-top: 0.2px white solid; */
    border-left: 0.8px white solid;
    border-right: 0.8px white solid;
    border-bottom: 0.8px white solid;
    transform-style: preserve-3d;
    transform: rotateX(90deg);
}

.rainRingAni {
    animation: rainRingAniKey 1s cubic-bezier(0, 0, 0.5, 1) 0s infinite normal both;
}

@keyframes rainRingAniKey {
    0% {
        opacity: 1;
        transform: rotateX(90deg) scale(0.1);
    }
    50% {
        opacity: 1;
    }
    100% {
        opacity: 0;
        transform: rotateX(90deg) scale(3);
    }
}

以及结果页的卡片翻转效果，这里是直接设置 transition ，再通过用户手势改变样式值来触发动画。

CSS 代码参考：

.cardPage {
    transform-style: preserve-3d;
    /* 旋转中心设在左边靠近边缘位置 */
    transform-origin: 10% 50%;
    transition: transform 1s ease-in-out;
}

React 代码参考

if (showFootPage) {
    setCardTransform('translate3d(-10vw,0vw,20vw) rotateY(-100deg)');
} else {
    setCardTransform('translate3d(0vw,0vw,0vw) rotateY(0deg)');
}

复杂一点的页面动效

之前聊到的页面动效相对来说是比较简单的，下面我们看看稍微复杂一点的页面。

「音乐多巴胺」

这里我们希望表现多巴胺如泉水般喷涌而出，组成一个可爱的小精灵的效果.

这个小精灵的颜色和花纹需要能根据用户数据生成不同版本。

首先我们看下单个元素的运动，实际上就是简单的位移+旋转，但位移和旋转都是在「transform」属性下设置，绑在一起不太方便做效果，于是如「初次相遇」中用到的技巧，我们在动画元素外再包一层 div，将位移和旋转动画分拆到两个节点上。

同时如前述「粒子系统」的操作，将部分属性用 CSS 变量替代，方便后续生成。
CSS 代码参考：

/* 元素基本样式 */
.cross {
    width: 382px;
    height: 378px;
    position: absolute;
    left: 8px;
    top: 200px;
}
/* 位移动画 */
.crossAni {
    --xOffset: 0;
    --yOffset: 0;
    transform-origin: 50% 50%;
    animation: crossAniKey 2s cubic-bezier(0.5, 0, 1, 1) 0s infinite normal both;
}
@keyframes crossAniKey {
    0% {
        opacity: 0;
        transform-origin: 50% 100%;
        animation-timing-function: cubic-bezier(0, 0, 0.7, 1);
        transform: translate3d(0, 0, 0) scale(0.7);
    }

    30% {
        opacity: 1;
    }

    50% {
        opacity: 1;
        transform-origin: 50% 0%;
        animation-timing-function: cubic-bezier(0.3, 0, 1, 1);
    }
    80% {
        opacity: 1;
    }

    100% {
        opacity: 0;
        transform: translate3d(calc(var(--xOffset) * 1vw), calc(var(--yOffset) * 1vw), 0) scale(0.5);
    }
}
/* 旋转动画 */
.crossRotateAni {
    --direction: 1;
    animation: crossRotateAniKey 2s linear 0s infinite normal both;
}
@keyframes crossRotateAniKey {
    0% {
        transform: rotate(0deg);
    }
    100% {
        transform: rotate(calc(var(--direction) * 359deg));
    }
}

然后我们构建一个「多巴胺元素生成器」：

恩，再来点 delay，完美！

React 代码参考：

// 构造一个「多巴胺元素生成器」
const CrossAni = ({ options }: CrossAniPros) => {
    const {
        picUrl = '',
        className = '',
        aniClassName = '',
        aniClassName2 = '',
        count = 3,
        duration = 1,
        delay = 0,
        xOffset = 10,
        yOffset = 0,
        rotateDirection = 1,
    } = options;

    const step = duration / count;
    return (
        <>
            {Array.from({ length: count // 一次生成 count 个，丰富数量 }, (_, index) => (
                // 外边包一层，应用其中一组动画
                <div
                    className={`${className}  ${aniClassName}`}
                    key={index}
                    style={{
                        // 设置元素向哪个方向运动
                        '--xOffset': xOffset,
                        '--yOffset': yOffset,
                        animationDuration: `${duration}s`,
                        // delay 不可或缺
                        animationDelay: `${-index * step + delay}s`,
                    }}>
                    // 图片本身再应用另一组动画
                    <img
                        className={`${className} ${aniClassName2}`}
                        style={{
                            direction: rotateDirection === 1 ? 'ltr' : 'rtl',
                            left: 0,
                            top: 0,
                            animationDuration: `${duration}s`,
                            animationDelay: `${-index * step}s`,
                        }}
                        src={picUrl} />
                </div>
            ))}
        </>
    );
};
// 。。。此处省略其他部分代码
// 通过设置好的元素数量，从画面中心 360° 向四周喷射。
{Array.from({ length: crossCount }, (_, index) => {
    const steper = (Math.PI * 2) / crossCount; // 每个元素对应位置的旋转角度
    return (
        <CrossAni
            key={index}
            options={{
                picUrl: bgUrl,
                className: styles.cross, // 基础样式
                aniClassName: styles.crossAni, // 位移动画，赋给外层
                aniClassName2: styles.crossRotateAni, // 旋转动画，赋给内层
                count: 3,
                duration,
                delay: (-index * duration) / crossCount,
                xOffset:
                    radius
                    * Math.cos(steper * index) // 利用三角函数计算位移，即运动终点在圆周上的什么位置
                    * (0.5 + 0.5 * randomGroup[index]), // offset 中加入微小的随机偏移量，使喷射运动看起来更自然
                yOffset:
                    radius
                        * Math.sin(steper * index)
                        * (0.5 + 0.5 * randomGroup[index])
                    + 40,
                rotateDirection: 1, // 可以设置条件改变运动方向，这里暂时用不到这个效果
            }} />
    );
})}

小精灵上边的弧形轮廓是利用径向渐变 (radial-gradient) 配合 CSS 的遮罩属性「挖空」一个 div 构建的，它其实是盖在上方的一层，但颜色能通过 JS 控制，与背景色结合在一起，视觉效果上和直接挖掉小元素所在的组没有区别，但性能表现更优秀。

CSS 的「遮罩」有不止一种方式，这个页面用到的是「mask-image」属性，它通过一张位图或者渐变作为遮罩层，遮罩层的 alpha 通道将与元素的 alpha 通道相乘，即元素在遮罩层 alpha 为 0 的部分是透明的，反之则显示出来。此处是利用径向渐变快速绘制一个圆形区域作为遮罩层来使用，更直观的理解可以参考这个 CSS Mask 演示；
后文还会介绍另一种遮罩「clip-path」，它是通过一个矢量形状的轮廓来扣图，这两者的区别可以参阅 Masking vs Clipping 这篇文章。

CSS 代码参考：

.crossMask {
    width: 100vw;
    height: 100vw;
    position: absolute;
    overflow: hidden;
    /* 这个渐变是构造了一个圆心在元素下方 170% 处的大圆 */
    /* 对于 mask-image 有颜色的部分是可见的，transparent 部分是不可见的 */
    mask-image: radial-gradient (
                    circle at 50% 170%, 
                    transparent 0%, 
                    transparent 67.9%,
                    black 68%
                );
}

「听歌时段」

这是一个「数据可视化」页面，我们需要考虑

展示什么数据
与视觉如何结合
动效如何锦上添花

策划老师希望展示 2023 年每个月用户一天当中听歌最多的时段，并有个纵向对比，那么问题来了，我们需要后端老师提供什么样的数据？是不是需要给到每个用户每一天每个小时的有效听歌次数，然后绘制在图表上？后端老师说这个数据量我扛不住，而且就算给到前端，用这么多数据绘制图表，性能压力也不小。
我们再看看视觉稿，其实视觉老师希望这个页面看起来像一座座交叠起伏的山峰，而一座山必须有山峰和山脚，且高度差足够大才能明显。所以其实我们只需要取每个月有效听歌次数最大的那一个听歌时段，忽略掉其他时段的数据，将之凸显出来，这不就是一座山了么。
绘制图表的思路就是：横轴为一天中的时间段（0 - 23 点），纵轴为有效听歌次数，纵轴的最大值取该用户 12 个月中有效听歌次数最大值，这样只需要和自己比，每个人都能画出能看的图：
取一个点绘制折线，折线两端的 Y 值为 0，将折线变成曲线，我们的小山是不是就差不多了：

这样我们需要后端老师提供的数据也就大为简化了，大概是这样：

{
    listenTimePeriod: {
        totalMaxPlayCount: 92, // 12个月中有效听歌次数最大值
        maxTimePeriod: 'MIDNIGHT', // 综合所有数据，计算出用户最喜欢听歌的时段对应的主题
        distributions: [
            {
                month: 1, // 月份
                peak: 62, // 当月最大有效听歌次数
                hour: 1, // 当月最大有效听歌次数对应的时间段
            },
            {
                month: 2,
                peak: 44,
                hour: 7,
            },
            {
                month: 3,
                peak: 92,
                hour: 3,
            },
            // 省略部分月份
            {
                month: 12,
                peak: 84,
                hour: 0,
            },
        ],
    }
}

那么问题又来了，折线图好说，这个曲线图又咋整？而且还是要带图案的。
还记得前边提到的「三阶贝塞尔函数」么，我们的曲线就靠他了。前边说道「timing-function」中用到的是「特化」的三阶贝塞尔函数，我们只需 4 个数值，即 2 个点就能确定一个「timing-function」，实际上是有 2 个点 [0, 0] 和 [1, 1 ] 被省略了，因为这两个点在此特化情况下是固定值。
正常用三阶贝塞尔函数绘制曲线需要给定 4 个点：

上图中有两条三阶贝塞尔曲线
曲线一：[x0,y0] - [cx1,cy1] - [cx2,cy2] - [x1,y1];
曲线二：[x1,y1] - [cx3,cy3] - [cx4,cy4] - [x2,y2]。
这里 [x0,y0] - [x3,y3] 是 4 个端点，[cx1,cy1] - [cx4,cy4] 是所谓的「控制点」，在很多绘图软件中，例如 Photoshop(钢笔工具) 、Sketch 、Figma 等都能绘制三阶贝塞尔曲线，这几个「控制点」就是控制曲线弯曲程度的参数。
下图这种操作设计师同学应该很熟悉吧：

绘制到页面我们可以用 SVG 的 \<path\> 元素，它支持三阶贝塞尔曲线。而山峰的图案？正巧 SVG 有个 \<clipPath> 元素，可以将它所包含的形状，包括 \<path\> 作为遮罩，在外部的 CSS 元素中通过「clip-path」属性引用，而作为遮罩「扣」出所需的形状。感兴趣可以参考 CSS SVG 滤镜这篇文章。
这样只需设计师提供山峰的图案：

我们用 clipPath 扣出来。下图中黑色的部分是计算出的山峰轮廓，也就是实际抠出的区域。

最后就是为「山峰」们的出现加上动效，其实就是一个 Y 方向的缩放动画（transform:scaleY()）就可以，注意将缩放中心设在图片底部。每个月的图表出现通过我们的老朋友 delay 来错开时间，让动效更有层次感。

梳理一下思路并转化成动效代码。首先通过后端给过来的数据计算三阶贝塞尔曲线的各个坐标点，这里有几个细节：

数据为 0 时有个默认高度，这样不至于没有数据的部分看起来太空；
为了让组成「山峰」的两段曲线在顶部弯曲程度一致，下图中 cy2 = y1 = cy3，且 x1 - cx2 = cx3 - x1 ，这个长度我们用参数 controlerLength 控制；
按理说，一天 24 小时就应该把 x 轴分成 24 个点来画图，但如果这样，当数据是靠近左边（0 点）或者右边（24 点）的情况下，山峰靠近边缘的部分就会变得很尖，所以我们需要适当的将头和尾延伸出去，即多分几段，再对齐坐标上的值。

React 代码片段参考（mask 部分）:

const maskWidth = 260; // mask所用svg的宽高，用于计算scale，将mask适配至全背景图
const maskHeight = 65;

const heightLimit = 5; // 数据为0时默认高度
const heightScaler = 1.2; // 每个波高度缩放倍数

const controlerLength1 = 0.05 * maskWidth; // 山峰形状调整参数

const startOffset = 6; // 开头空多少段
const endOffset = 4; // 结尾空多少段
const segment = 24 + startOffset + endOffset; // 分成多少段

const gap = 8; // 每个月图表之间间距
const timeOffset = 0.05; // 每个月动画时间差

// 波形背景图url
const graphBG1 = 'xx1.png';
const graphBG2 = 'xx2.png';
const graphBG3 = 'xx3.png';

// 省略部分代码

{/* svg mask组件中的代码片段 */}
<svg width={maskWidth} height={maskHeight}>
    <defs>
        {graphData.map((month, i) => { // 12 个月的数据
            const x0 = 0;
            const y0 = maskHeight - heightLimit;
            const x1 = (startOffset + month.hour) * (maskWidth / segment);
            const y1 = maskHeight - heightLimit
                     - (maskHeight - heightLimit) * (month.peak / (heightScaler * graphData.max)) + 1;
            const x2 = 2 * x1;
            const y2 = maskHeight - heightLimit;
            const x3 = maskWidth;
            const y3 = y0;
            const cx1 = x1 - controlerLength1;
            const cy1 = y0;
            const cx2 = x1 - controlerLength1;
            const cy2 = y1;
            const cx3 = x1 + controlerLength1;
            const cy3 = y1;
            const cx4 = cx3;
            const cy4 = y2;

            return (
                <clipPath
                    key={`clipPath_${i}`}
                    id={`mask${i}`}
                    // 保证 mask 覆盖整个山峰元素
                    clipPathUnits="objectBoundingBox"
                    transform={`scale(${1 / maskWidth}, ${1 / maskHeight})`}>
                    <path
                        // d 属性的绘图代码中
                        // M + (1 个坐标点) 表示从该坐标点开始接下来的绘制
                        // C + (3 个坐标点) 即表示绘制从当前点开始的一段三阶贝塞尔曲线
                        // L + (1 个坐标点) 绘制绘制从当前点开始的一段直线
                        // 最后的 Z 表示闭合前述绘制的曲线
                        d={`M ${x0},${y0}
                         C ${cx1},${cy1} ${cx2},${cy2} ${x1},${y1}
                         C ${cx3},${cy3} ${cx4},${cy4} ${x2},${y2}

                         L ${x3},${y3}
                         L ${x3},${maskHeight}
                         L ${x0},${maskHeight}
                         L ${x0},${y0} Z
                        `}
                        fill="#ffffff" />
                </clipPath>
            );
        })}
    </defs>
</svg>

图表本体及动效部分：

const [aniTrigger, setAniTrigger] = useState(0);
// 进入页面，DOM 准备好后触发动画播放
useEffect(() => {
    setAniTrigger(1);
}, []);

// 省略部分代码

{graphData.map((month, m) => (
    <div
        key={`graph_month_${m}`}
        className="dataGraphGroup"
        style={{
            position: 'absolute',
            width: '100vw',
            height: `${(maskHeight * 100) / maskWidth}vw`, // 撑满屏幕宽度，等比放大高度
            top: `${gap * m - (0.997 * maskHeight * 100) / maskWidth}vw`, // 部分机型计算误差会导致 mask 遮罩覆盖不全，留下一条细线，这里做了细微的修复
        }}>
        {/* 图表本体 */}
        <div
            className="dataGraph"
            style={{
                position: 'absolute',
                width: '100vw',
                height: `${(maskHeight * 100) / maskWidth}vw`,
                background: `${colorInfo?.colorTheme},${colorInfo?.colorBG}`,
                
                // 应用前述 svg mask
                clipPath: `url(#mask${m})`,
                WebkitClipPath: `url(#mask${m})`,
                
                // 动效通过 aniTrigger 的变化触发
                transformOrigin: '50% 100%',
                transform: `translateZ(0) scale(1,${aniTrigger})`,

                opacity: `${aniTrigger}`,
                transition:
                    'transform 1s cubic-bezier(0,0,0.3,1),opacity 0.1s linear',
                transitionDelay: `${0.2 + m * timeOffset}s`,
            }} />
        {/* 月份标签 略 */}
    </div>
))}

「遗忘的歌」

简单拆解一下这个音符组成的蒲公英随风飘散的效果，它包含：

单个音符绕圈运动
多个音符一起晃动
音符飘走/出现

我们知道 CSS 中做位移动画一般是按直线运动的，如果想让元素绕着圆圈，或者说沿着一段曲线运动常用有几个方案：
SVG 的 SMIL 动画中的 <animateMotion> 属性，这个方案也不是不能用，它的问题是动画的调试和资源替换不够直观。感兴趣可以 MDN 文章中 animateMotion 相关章节；
CSS 的 offsetPath 属性。这个属性有点将 <animateMotion> 从 SVG 中拆分到 CSS 中来用的味道，很可惜它出现的太晚了，兼容性不太好，尤其移动端 safari 从 iOS 15.4 才开始支持（2022年3月份发布），感兴趣可以参考探秘神奇的运动路径动画 Motion Path 这篇文章；
当然还有万能的 Canvas，但能用 CSS 解决的话我们还是希望不要引入新的技术线；
于是我们采用了最粗暴的方案——用动画设计软件（AE）制作动画，再导出成 CSS 代码：

动画的导出用到了我之前编写的 AE 插件 AE2CSS

为什么说它「暴力」呢，请看导出的 CSS 动画代码：

.noteAni {
    animation: noteAniKey 8s steps(5) 0s infinite normal both;
}
@keyframes noteAniKey {
    0.00% { transform: translate3d(0, 0, 0);}
    2.00% { transform: translate3d(0.06vw, 0.81939797559448vw, 0);}
    4.00% { transform: translate3d(0.19vw, 1.62859833068956vw, 0);}
    6.00% { transform: translate3d(0.4vw, 2.41757866865078vw, 0);}
    8.00% { transform: translate3d(0.7vw, 3.1755070782217vw, 0);}
    10.00% { transform: translate3d(1.08vw, 3.89090077768412vw, 0);}
    12.00% { transform: translate3d(1.55vw, 4.55185305228315vw, 0);}
    14.00% { transform: translate3d(2.1vw, 5.14633198716433vw, 0);}
    16.00% { transform: translate3d(2.72vw, 5.66254803578306vw, 0);}
    18.00% {transform: translate3d(3.42vw, 6.08937895023121vw, 0);}
    /* 中间省略 */
    100.00% {transform: translate3d(0, 0, 0);}
}

就是暴力地将圆拆分成多段直线，然后一点点走完。翻译成小学数学名词应该叫多边形近似画圆法？

OK 这样我们得到了单个音符的运动，现在我们要将这些绕着小圈的音符，分布到一个大圈上，并对音符图案做个随机处理。

当然，怎么少的了 delay ：

然后我们要对整体做一个轻微摇晃的效果，和「音乐多巴胺」中的技巧类似，给他「套娃」，在外层 div 中加入晃动动画。

CSS 代码参考：

.flowerWiggleAni {
    animation: flowerWiggleKey 5s cubic-bezier(0.3, 0, 0.7, 1) 0s infinite normal both;
}
@keyframes flowerWiggleKey {
    0% {
        transform: rotate(-3deg);
    }
    50% {
        transform: rotate(4deg);
    }
    100% {
        transform: rotate(-3deg);
    }
}

最后的飘散动画，也是「套娃」一个 div，对音符元素添加一个透明度+位移+缩放（模拟z方向位移）的动画。

CSS 代码参考：

.noteOutAni {
    animation: noteOutAniKey 8s cubic-bezier(0.5, 0, 1, 1) 0s infinite normal both;
}

@keyframes noteOutAniKey {
    0% {
        opacity: 0;
        transform: translate3d(0, 0, 0) scale(0.8);
    }

    20% {
        opacity: 1;
        transform: translate3d(0, 0, 0) scale(1);
    }

    70% {
        transform: translate3d(0, 0, 0) scale(1);
        opacity: 1;
    }

    100% {
        opacity: 0;
        transform: translate3d(150vw, -100vw, 0) scale(0.45);
    }
}

综上，用 React 生成音符蒲公英的代码：

// 音符数量
const noteCount = 20;
// 生成随机数并固化进数组(在组件外生成，避免无用刷新)
const randomNum = Array.from({ length: noteCount }, () => Math.random());
const ringRadius = 25;
const offsetX = 40; // 圈圈x方向位置调整
const offsetY = 100; // 圈圈y方向位置调整
const angle = (2 * Math.PI) / noteCount; // 每个音符圆周角度
// 音符url放进一个数组，方便遍历
const noteUrlGroup = [
    notePic1,
    notePic2,
    notePic3,
    notePic4,
    notePic5,
    notePic6,
    notePic7,
    notePic8,
];
// 省略部分代码
<div
    className={styles.flowerWiggleAni} // 摇晃动画
    style={{
        transformOrigin: '10% 100%',
        height: '100vh',
        width: '100vh',
        perspective: '500px',
    }}>
    <div
        style={{
            transformOrigin: '10% 100%',
            height: '100vh',
            width: '100vh',
            transformStyle: 'preserve-3d',
            transition: 'all 3s cubic-bezier(0,0,0.2,1)',
            transform: flowerInState, // 此处为了刚进入页面时飘入的动画，多'套娃'了一层
        }}>
            {Array.from({ length: noteCount }, (_note, i) => {
                // 数组下标随机取音符url
                const curUrlIndex = Math.floor(randomNum[i] * noteUrlGroup.length);
                return (
                    <div
                        key={i}
                        className={styles.note}
                        style={{
                            position: 'absolute',
                            top: `${offsetY + ringRadius * Math.cos(angle * i)}vw`, // 利用三角函数计算横纵坐标
                            left: `${offsetX + ringRadius * Math.sin(angle * i)}vw`,
                            width: '8.08vw',
                            height: '9.42vw',
                            transformStyle: 'preserve-3d',
                            transform: `translateX(${flowerOutDistance}vw) translateZ(${
                                flowerOutDistance / 2 - 20 * randomNum[i]
                            }vw) scale(${0.5 + 0.5 * randomNum[i]})`, // 缩放和位移做一些随机处理，看起来更自然
                        }}>
                        <div
                            className={styles.noteOutAni} // 音符飘走/出现动画
                            style={{
                                position: 'absolute',
                                width: '8.08vw',
                                height: '9.42vw',
                                transformStyle: 'preserve-3d',
                                animationDelay: `${-2 - i * 0.05 * randomNum[i]}s`, // 随机delay
                            }}>
                            <img
                                className={styles.noteAni} // 单个音符绕圈动画
                                src={noteUrlGroup[curUrlIndex]}
                                style={{
                                    width: '8.08vw',
                                    height: '9.42vw',
                                    objectFit: 'cover',
                                    animationDelay: `${-i * 0.7 * randomNum[i]}s`,
                                }} />
                        </div>
                    </div>
                );
            })}
    </div>
</div>

「年度歌曲/歌手/歌单」

这算是整个听歌报告最高潮的部分，我们希望给用户一种「你的年度XX隆重登场」的感觉，因此动效的数量和变化幅度也是最大的，尤其是翻页效果。
我们先来拆解一下，这一部分的动效包括：

3D 翻页动效；
背景元素动效；
各种动图元素；

先看看翻页部分，我们将所有页面沿 z 方向排列，通过页面索引号确定位置。翻页时改变 translateZ 的值，通过 transition 属性定义翻页动画效果。

React 代码参考：

// 省略部分代码
style = {{
    opacity: match? 1 : 0, 
    transition: 'all 1.5s cubic-bezier (0.3,0,0.3,1) 0.3s',
    transform: `translateZ(${-index * distance}vw)`
}}

此时最简单的 3D 翻页效果就出来了，是不是看起来有点像之前的《十周年听歌报告》项目。没错最初的灵感是脱胎于它，但也有不同：10周年项目中歌曲数目较多，用户需要更快速的划过每个页面（歌曲封面），因此它的交互是基于「scroll」，直接而迅速；而「年度之最」系列页面数量更少但页面内容更丰富，是需要用户停驻阅读的，因而它的交互还是基于页面切换，我们会更多的设计页面转场时的花样，营造「你的年度xx隆重揭晓」的氛围感。

然后我们在translateZ基础上加入3d旋转属性变化。
翻页前非当前页 X、Y、Z 方向都有个旋转角度（透明度也是 0），当用户操作结束，当前页从已旋转状态变成面向用户。

上一段代码优化为：

// 省略部分代码
style = {{
    opacity: match? 1 : 0, 
    transition: 'all 1.5s cubic-bezier (0.3,0,0.3,1) 0.3s',
    transform: `translateZ(${-index * distance}vw)
                rotateX(${match ? 0 : 90}deg)
                rotateY(${match ? 0 : 90}deg)
                rotateZ(${match ? 0 : 90}deg)`
}}

而「年度歌单」、「歌手对比」页面内元素较多，统一的旋转会比较死板：

因此对他们多加一层 transform 动画，并通过我们的老朋友 - delay 来细化动画层次。

React 代码参考（年度歌单为例）：

// 五个封面位置/缩放信息，和视觉老师调细节比较方便
const discProperties = [
    {
        left: 37.3,
        top: -22.2,
        scale: 0.9,
    },
    {
        left: 43 + 1, // +1修正是为了规避iOS16的一些奇怪bug，下同
        top: 32,
        scale: 0.5 * 1.01,
    },
    {
        left: 24 + 5,
        top: 63 + 3,
        scale: 0.29 * 1.05,
    },
    {
        left: 36 + 10,
        top: 86 + 3,
        scale: 0.27 * 1.07,
    },
    {
        left: 15 + 13,
        top: 92 + 15,
        scale: 0.18 * 1.1,
    },
];

// 五个封面未出现时默认位置
const [coverPos, setCoverPos] = useState([
        'translate3d(0vw,0vw,0vw) scale(1)',
        'translate3d(0vw,0vw,-10vw) scale(0.8)',
        'translate3d(0vw,0vw,-20vw) scale(0.6)',
        'translate3d(0vw,0vw,-30vw) scale(0.4)',
        'translate3d(0vw,0vw,-40vw) scale(0.2)',
    ]);

// 翻到本页时触发动画
useEffect(() => {
    if (match) {
        setCoverPos([
            `translate3d(${discProperties[0].left}vw,${discProperties[0].top}vw,0vw) scale(${discProperties[0].scale})`,
            `translate3d(${discProperties[1].left}vw,${discProperties[1].top}vw,-10vw) scale(${discProperties[1].scale})`,
            `translate3d(${discProperties[2].left}vw,${discProperties[2].top}vw,-20vw) scale(${discProperties[2].scale})`,
            `translate3d(${discProperties[3].left}vw,${discProperties[3].top}vw,-30vw) scale(${discProperties[3].scale})`,
            `translate3d(${discProperties[4].left}vw,${discProperties[4].top}vw,-40vw) scale(${discProperties[4].scale})`,
        ]);
    } else {
        setCoverPos([
            'translate3d(0vw,0vw,0vw) scale(1)',
            'translate3d(0vw,0vw,-10vw) scale(0.8)',
            'translate3d(0vw,0vw,-20vw) scale(0.6)',
            'translate3d(0vw,0vw,-30vw) scale(0.4)',
            'translate3d(0vw,0vw,-40vw) scale(0.2)',
        ]);
    }
}, [match]);

 // 省略部分代码
 
{discProperties.map((i, index) => (
    // {/* 封面圆盘位置 */}
    <div
        className={styles.centerFrame}
        key={`cover-${index}`}
        style={{
            zIndex: -index,
            transition: `all 1.1s cubic-bezier(0.4,0,0.3,1) ${0.7 + 0.15 * index}s`,
            transform: coverPos[index],
        }}>
        {/* 封面组件略 */}
    </div>
))}

在年度歌单页面，我们还有个「纯净歌单」的小设计，切换纯净歌单也会有个小动效。对年度歌单的专辑封面来说，其实是固定5个容器，将两张歌曲封面作为子元素背靠背放置，切换时旋转其父容器即可。

慢镜头拆解如下：

React 代码参考：

<div
    className={styles.coverPlace}
    style={{
        transition: `all 1s cubic-bezier(0.4,0,0.3,1) ${0.1 * index}s`,
        transform: `rotateY(${toPure ? 180 : 0}deg)`,
    }}>
    {/* 背面放纯净歌单封面 */}
    {!!purePlayList[index] && (
        <div
            className={styles.ringGroup}
            style={{
                border: `${index === 0 ? 5 : 8}px rgba(255,255,255,0.4) solid`,
                backfaceVisibility: 'hidden',
                transform: 'translateZ(-1px) rotateY(180deg)', // 默认是反过来的
            }}>
            {/* 纯净歌单封面组件 */}
        </div>
    )}
    {/* 普通歌单封面 */}
    {!!playList[index] && (
        // 普通歌单封面组件
    )}
</div>

再来看看背景的各种元素动效：

漂浮的小小星球，就是简单的位移 + delay 。CSS 动画代码参考：

.planetAni{
     animation: planetAniKey 8s cubic-bezier(0.3, 0, 0.7, 1) -42s infinite normal both;
}

@keyframes planetAniKey {
    0% {
        transform: translateY(0);
    }

    50% {
        transform: translateY(-5vw);
    }

    100% {
        transform: translateY(0);
    }
}

向外扩散的冲击波，就是个简单的缩放动画：

.waveRingAni {
    border-radius: 50%;
    background: radial-gradient(50% 50% at 50% 50%, rgba(255, 255, 255, 0) 85%, rgb(220, 255, 255) 100%);
    animation: waveRingAniKey 3s cubic-bezier(0.5, 0, 1, 1) -2s infinite normal both;
}

@keyframes waveRingAniKey {
    0% {
        transform: scale(0.5);
        opacity: 0;
    }

    70% {
        opacity: 0.5;
    }

    100% {
        opacity: 0;
        transform: scale(15);
    }
}

向外发射的射线是缩放 + Y 方向的位移，在构造时旋转一周+轻微随机：
React 部分代码参考：

{Array.from({ length: 15 }, (item, i) => (
    <div
        key={i}
        style={{
            top: 0,
            left: 0,
            width: '100vw',
            height: '100vh',
            position: 'absolute',
            transform: `rotate(${30 * (i * (0.8 + 0.1 * Math.random()))}deg)`,
        }}>
        <div
            className={styles.lineOutAni}
            style={{
                position: 'absolute',
                top: '326px',
                left: '187px',
                width: '1px',
                height: '30px',
                borderRadius: '0.5px',
                animationDelay: `${-i * (0.8 + 0.1 * Math.random())}s`,
                background:
                    'linear-gradient(rgba(255,255,255,0.8), rgba(255,255,255,0))',
            }} />
    </div>
))}

CSS 部分：

.lineOutAni {
    animation: lineOutAniKey 3s linear 0s infinite normal both;
}

@keyframes lineOutAniKey {
    0% {
        transform: scale(0) translateY(0);
        opacity: 0;
    }

    50% {
        opacity: 1;
    }

    100% {
        transform: scale(10) translateY(-400%);
    }
}

最后是一些动图：

困难与挑战

做项目从来不是一帆风顺的，它是一段痛并快乐着的旅程，用户看到的是最终的成品，背后其实是很多的调整、修改甚至推倒重来。
比如机型适配，这些测试机型号只是冰山一角：

为了尽可能的保证不同设备下看到的效果的一致性，动效从设计之初就得考虑不同的屏幕下的效果，也会因为低端机型的表现做一些妥协。

各种奇奇怪怪的 BUG 也是让人操碎了心，有时不得不狠心把效果砍了。

写在最后

整个项目的动效虽然看起来有些复杂，但多数情况下他们都是通过常见的小技巧组合搭配实现的，例如：

「延迟」错开不同的动画图层，可以使整个动画更有层次感；
「随机」分布动画元素及延迟时间，可以使动画千人千面，不死板；
调整「缓动曲线」使动画节奏更舒服优雅；
SVG 和 CSS 是兄弟，很多属性可以互相引用、组合来制作动画；
3D 效果适当引入，增强动画的表现力；
过于复杂的效果就考虑用动图，不死磕代码；

限于篇幅，本文或还有疏漏之处，望各位看官海涵，也希望本文能给大家带来一些启发和帮助，不胜荣幸！

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐2023年报前端大揭秘

2024-07-01T14:52:19+08:00

本文作者：勤分、流云

2023网易云音乐年度听歌报告已经上线一段时间，你它被刷屏了吗？那开发在其中起到了什么关键作用呢？接下来的文章将从性能体验、质量监控、工程效率、目标分析四个方面一一揭秘。

前言

每年的云音乐年度听歌报告，就像一个靠谱的老朋友，总会在忙碌一年的时光尽头里叩响记忆的大门。

如果你曾错过了彼时的年报，不妨现在就拿起手机扫描上图的二维码，与往期的精彩视听来一场不期而遇的邂逅；
如果你为年报中精巧而温馨的动画而深深着迷，请直接移步至本文的姊妹篇：「云音乐2023年报动效大揭秘」一探究竟；
如果你恰好想了解年报中前端开发承担了什么样的角色、积累了哪些最佳实践 ——那么巧了，本文将从性能体验、质量管理、工程效率和一些笔者底层思考，帮助你逐步揭开年报的神秘面纱

性能体验

首次访问年报活动为例，好的用户体验主要包括以下几个方面：

页面能秒级打开，页面到达率高、流失少；
页面间转场展示流畅，不会出现卡顿；
文本和图片内容在任何设备上都能完整展示，不出现缺失或者加载闪烁情况；
音频或视频启播速度快，播放过程中不发生错乱或者卡顿情况；
页面内的动效展示流畅，不会出现卡顿；

简而言之，体验优涉及以下几个方面：

1、页面导航：包括首屏秒开，页面转场等

2、资源管理：包括图片、视频、音频和字体包等

3、页面适配：包括文本适配、动效适配和机型适配等

首屏秒开

首屏秒开是指用户从点击链接开始到展示页面内容大约在1s左右完成。整个过程经历如图所示：

容器初始化 -> CDN -> TCP 建连 -> html/js/css 加载解析 -> DOM / CSSOM 解析 -> 渲染布局 -> 绘制

对于前端开发来说，优化难度是从右到左，越到左边就越需要跨团队合作来完成。可以简单的分析总结：

在渲染/绘制阶段，可以隔离状态变化频繁的组件，减少无效状态引起的绘制。尽量选择由 GPU 渲染的 CSS3 来实现动效。逻辑实现的动效建议使用GSAP。
在 DOM / CSSDOM 解析阶段，可以减少 DOM 的嵌套深度，减少使用 JavaScript 直接修改元素样式，减少不必要的 CSS，减少使用 CSS 选择器等。
在 HTML / JS / CSS 加载解析阶段，可以通过构件工具对文件进行压缩。利用离线包能力，将这些资源提前下载到本地。
在 CDN、TCP 建连阶段，更多依赖 App 网络库底层的优化，如使用 HTPP/2 减少 TCP 连接数。
在容器初始化阶段，为了达到极致的打开速度，可以将 H5 容器进行预初始化。也可以建立容器复用池，减少容器创建的耗时。

页面管理

页面路由

为了有效管控年报中多个视图的高效展示和切换，采用了 SPA 的形式对H5进行组织，同时为页面路由提供了路由表的配置。

路由表简单理解是各个子页面路由对象的集合，这个集合可以是全局数组对象，本地文件，或者服务端下发的配置。集合内的顺序决定了用户看到报告页顺序。这样也可以根据产品的述求，灵活调整集合内的顺序，这样就能动态调整页面顺序了。

各个子页面路由对象的属性具体如下。建议不用传统的 path，因为子页面数量多，且名称很难记忆，可以使用 routerIndex，这是子页面在交互稿中的位置代号，方便开发和调试。其中 ignoreSwipe 是使用在下节手势处理中「子容器接管父容器手势」的场景。

export interface PageProps {
    model: unknown;
    position?: number; // 页面埋点使用
}

export interface PageRouteProps {
    c: ComponentType<PageProps>;
    cId: string; // 当前页面唯一id
    routerIndex: number | string; // 路由索引
    ignoreSwipe?: boolean; // 是否忽略滑动，默认false
}

手势处理

年报项目中用户可以通过点击、左右滑动、上下滑动来切换页面。为了防止手势冲突，全局只有一个父容器，各个报告页面是子容器；一些手势频控、页面状态变化等通用逻辑统一在父容器中实现。只在父容器中使用 hammerjs 做手势监听，子容器不再负责页面切换的手势监听，关键代码如下。

 hammer = new Hammer(reportRef.current);
 hammer.get('swipe').set({ direction: Hammer.DIRECTION_ALL });
 hammer.on('swipeleft', onNextPageWrap);
 hammer.on('swiperight', onPrePageWrap);
 hammer.on('swipeup', onNextPage);
 hammer.on('swipedown', onPrePage);

对于子容器，可能会有以下几种特殊情况：

情况一：如果子容器需要感知用户手势事件，可以监听父容器发出的自定义事件。

// 【翻页】动效：下一页
export const ON_PAGE_NEXT = 'ON_PAGE_NEXT';

// 【翻页】动效：上一页
export const ON_PAGE_PREV = 'ON_PAGE_PREV';

情况二：如果子容器需要完全接管父容器的手势监听事件，例如年度歌手相关的所有页面。首先需要在路由表中将 ignoreSwipe=ture 设置忽略手势，然后在监听父容器发出的通知，进行自定义的事件处理。最后当子容器接管结束后，需要根据需要再次触发父容器的切换事件。关键代码如下：

const onNextPage = useCallback(
    (nextAction) => {
        if (currentPage >= len - 1) {
            nextAction(); // 结束接管，再次触发父容器的切换事件
            return;
        }
        
        setCurrentPage(currentPage + 1);
    },
    [currentPage, len]
);

useEffect(() => {
        bus.on(ON_PAGE_NEXT, onNextPage);

        return () => {
            bus.off(ON_PAGE_NEXT, onNextPage);
        };
    }, [onNextPage, onPrePage]);

情况三：如果子容器存在特定区域需要响应特点手势，例如歌手来信页面左右切换是查看歌手来信。这时候需要子容器调用stopPropagation主动阻止手势向父容器传递。

转场实现

在路由表和手势处理准备就绪后，最后来看看页面之间转场的实现。年报页面的转场效果使用React官方实现的 react-transition-group 组件。由于篇幅限制，这里不详细介绍react-transition-group 组件的底层原理。结合路由表顺序和当前页面位置，通过 z-index 和 match 来控制子页面的层级和显示隐藏。使用 CSSTransition 实现页面间的进场和退场CSS动画。关键代码如下：

(pages || []).map((item, index) => {
    // zIndex 和 match是关键代码
    const zIndex = (pages.length - index) * 100;
    const match = index === currentIdx;
    return (
        <div
            key={item.cId}
            style={{
                zIndex,
                pointerEvents: match ? 'auto' : 'none',
                overflow: 'hidden',
            }}>
                <CSSTransition
                    in={match}
                    timeout={100}
                    ...
                    appear
                    unmountOnExit>
                    <item.c
                        model={item.model}
                        position={index} />
                </CSSTransition>
          </div>        
    );
})

但是以上的页面转场存在一个问题，即页面之间只能存在一种转场方式。如何自定义页面之间的转场效果？基本思路是各自页面维护自己的转场效果；大部分页面只需将转场信息配置到路由表中；小部分页面可以通过页面上下文获得上一个或者下一个页面的信息，动态决定如何进场或者退场。基于该思路，改造路由表对象，新增一个 TransitionParams 协议，并且提供渐隐渐显的默认转场实现。关键代码如下：

export type TransitionParams = {
    timeout: number | { appear?: number | undefined; enter?: number | undefined; exit?: number | undefined };
    classNames: CSSTransitionClassNames;
};

export interface PageRouteProps {
    c: ComponentType<PageProps>;
    cId: string; // 当前页面唯一id
    routerIndex: number; // 路由索引
    transition: TransitionParams; //默认是渐隐渐显的转场效果
    ignoreSwipe?: boolean; // 是否忽略滑动，默认false
}

CSSTransition 配合改造后的关键代码如下：

<CSSTransition
    in={match}
    timeout={item.transition.timeout}
    // 关键代码
    classNames={item.transition.classNames}
    appear
    unmountOnExit>
        <item.c model={item.model} position={index} />
</CSSTransition>

资源管理

资源管理主要任务是将网络资源下载到本地，最终将本地资源加载到内存，以便程序可以使用这些资源。优化资源管理可以有效提高年报用户体验。通常开发者会通过压缩资源的大小，并通过内容分发网络（CDN）加快资源的下载速度。但是除了这些还有其他通用的方法呢？

在介绍具体优化手段前，先来看以下关键字，这些是性能优化的通用方法。

提前 preload：提前准备必要的资源，提升加载速度
同步 sync：串行执行当前任务，确保执行任务的优先级
异步 async：工作线程异步执行，处理比较耗时的操作，不阻塞主线程
懒加载 lazy：又称按需加载，不浪费请求
缓存 cache：将资源缓存到内存或者磁盘本地，减少不必要的网络请求
延迟 defer：不立即执行任务，延迟执行

总结如下图：

接下来，将从图片、视频、字体包等各个资源，进一步解析如何结合上述关键词进行优化。

图片

关键字：提前 preload、懒加载 lazy、缓存 cache

图片资源占整个年报项目资源中的比例是最高的，大概 70% 左右。所以图片展示速度是否足够快和内容是否完整都会直接影响用户体验。

优先将图片资源使用 tinypng 进行手动压缩，在不失真的情况下，保证图片大小足够小。其次正确选择图片格式能有效减少图片大小。其中图片格式很多，主流的有：

SVG 是基于XML的矢量图片格式，不失真无限放大。支持动画。
JPEG 是有损压缩，不支持透明度或者动画。
PNG 是无损压缩，支持透明度。APNG 是 PNG 的扩展，支持动胡奥。
WebP 是无损和有损压缩，支持动画或者透明度。
GIF 是位图图片格式，支持动画。

不同图片格式在不同场景上使用。格式没选准确，会导致资源浪的费。如在「年度总览」一页中，海浪🌊背景是一张PNG格式，大小为 1.7MB。但是该场景不需要透明，选择JPEG后大小为 96kb。总结如下是选择图片格式的流程图。

小图标或 logo 可以使用 SVG。其它能用 WebP 尽量使用 WebP。对于 WebP 的兼容性问题，可以通过业务封装的图片组件进行处理，不能使用 WebP 则兜底变成 PNG ，因为 PNG 兼容性最好。GIF 尽量不适用。对于超过特定大小的动图，建议使用CSS动效或者视频替代。

在已经压缩图片和选择正确的图片格式的前提下，会在当前报告页面提前 preload 预加载下一页面的图片资源，并将图片缓存cache在本地。

预下载的方式有多种，可以自动全量下载，也可以手动按需下载。

自动全量下载，可以基于上文 CSSTransition 的 in 参数。不只是匹配当前页面进行渲染，也提前渲染下一页。自动下载的方案存在缺点比较明显，如：不能按需下载；页面的生命周期和用户感知不一致，导致一些逻辑提前执行如页面曝光埋点。

let matchIndex = -1;

(pages || []).map((item, index) => {
    const zIndex = (pages.length - index) * 100;
    const match = index === currentIdx;
    if (match) {
        matchIndex = index;
    }

    return (
        <div
            key={item.cId}
            style={{
                zIndex,
                pointerEvents: match ? 'auto' : 'none',
                overflow: 'hidden',
            }}>
                <CSSTransition
                    // in 这里是关键代码
                    in={match || (index ===  matchIndex + 1)}
                    timeout={item.transition.timeout}
                    classNames={item.transition.classNames}
                    appear
                    unmountOnExit>
                    <item.c model={item.model} position={index} />
                </CSSTransition>
          </div>        
    );
})

相较自动下载，手动按需下载更加可控。手动按需下载那些图片可以选择更接近用户体感的 LCP（Largest Contentful Paint）原则。因为在业务页面加载阶段，命中 LCP 的元素可能会发生变化，所以这里主观选择可能命中 LCP 的图片元素进行预下载。如下图，最终选择A、B、C、D这个四张图片进行预加载。

手动下载的方法有多种。可以基于三方库 pxloader 进行再一次封装。如果将 React 升级到19后，系统默认提供了 preload API，更多API详情见此链接。

import { preload } from 'react-dom'

// 下载字体包
preload('https://.../path/to/font.woff', { as: 'font' })

// 下载样式表
preload('https://.../path/to/stylesheet.css', { as: 'style' })

// 下载不知道的文件类型
prefetchDNS('https://...')

手动下载的时机可以监听页面切换，根据当前页面信息在路由表中获取到下一个需要预加载的页面信息。最终手动下载的伪代码如下：

const preload = new PreLoader();

const usePreLoader = ({ pages, currentIdx }: PreLoadSourceProps): void => {
    useEffect(() => {
        const preLoadIndex = currentIdx + 1; // 提前预加载
        const item = pages[preLoadIndex];

        if (item.cId === YearOverviewIdentifier) {
            preload.add([A, B]);
            preload.start();
        }

        ...

    }, [currentIdx, pages, reportInfo]);
};

视频

关键字：提前preload、同步sync

和图片同样的思路，先明确视频的尺寸，不同尺寸大小的视频资源大小也不一样。在视频尺寸正确的前提下，在做视频体验优化才能事半功倍。在项目初期准备 6 种视频，相同视频内容，网络环境下，用不同系统的机型进行压测。这 6 种视频，分别是：

宽1242、高2688、FPS50
宽1242、高2688、FPS25
宽1080、高2388、FPS50
宽1080、高2388、FPS25
宽720、高1625、FPS50
宽720、高1625、FPS25

压测得出的实验结论是：

安卓 10-13，分辨率高于 2400 的 6 种视频大小都能体验，但宽1242 & 高2688 尺寸的视频基本上会有卡顿；
安卓 10-13，分辨率低于 2400，宽1242 & 高2688 该尺寸的视频无法进行体验；
安卓 10 以下的，只能体验宽720 & 高1624 该尺寸下的视频。
iOS 系统 13-16，体验都正常，iOS12 系统，宽1242 & 高2688 & FPS50 和宽1080 & 高2338 & FPS50无法进行体验。

最后根据实验结论，结合视频效果和资源大小的考虑，最终采用三种尺寸的视频，分别是：

宽1080、高2388、FPS50，命名为 w1080FPS50
宽720、高1625、FPS50，命名为 w720FPS50
宽720、高1625、FPS25，命名为 w720FPS25

总结如下是选择视频尺寸大小的流程图。w1080FPS50 体验最优，w720FPS25 兼容性最好。开发可以根据不同的机型、系统选择合适的视频。

为了让用户在点击封面页面的开始按钮后能流畅观看视频，选择在封面页面渲染完成后，同步 sync 添加视频页面。通过 zIndex 将其隐藏在封面页后面，利用用户游览封面页的间隙，提前 preload 创建 video 组件。同时，设置<video>的 preload='auto'，让游览器结合网络等自身条件自动决策是否预加载视频。

即使选择好合适的视频资源后，也需要兜底处理一些播放的异常情况，防止播放失败影响体验。可以监听onWaiting回调，如果在规定时间内如果没有再次触发onPlay回调，会直接手动执行onEnd回调的事件。也可以在onCanPlay回调中启动视频超时定时器，在规定范围内系统没有自动触发到onEnd回调，那也会直接手动执行onEnd回调的事件。

音频、字体包

关键字：延迟defer，懒加载lazy

音频在工程中通常有两种播放能力：WebAudio H5 原生播放能力和通过RPC方式调用客户端原生播放能力。

在站内场景中，通常推荐使用客户端 RPC 提供的播放能力，因为它可以复用端上播放的基础能力，如播放音质、启播时长等都有优化。如果站内想要绕过某些播放权限，会选择 H5 原生播放能力。而在站外，只能使用H5原生播放能力。为了简化开发接入，封装 audioManager 业务组件，提供统一的API接口，抹平站内、站外的兼容性问题。

对于字体包，通常会懒加载 lazy 选择视觉设计中使用到的字体包。针对固定文案的情况下，使用工具裁剪掉多余的字体，从而达到最小字体包。也会在 header 中延迟 defer 下载字体包的资源，以避免阻塞封面页的渲染。在封面页面不使用特殊字体包的前提下，可以在封面页面设置不可见的<p>标签，静默下载字体包，从而让后续报告页面里的特殊字体不出现跳变。

小结

可以组合使用不同的优化手段来提高性能，但切记物极必反。例如在年报项目开发过程中，为了实现歌手子页面转场的效果，会将 6 个子页面提前加载。在开发早期，各个页面渲染复杂度低，不会出现问题。但在后续为了提高视觉效果，加入了各种噪点、混合、粒子效果后，在低端机设备上，该模块在切换时容易出现白屏现象。最后定位是子页面提前预加载过多，内存占用大，使得端上收到 OOM 警告，回收 H5 容器，从而导致了白屏。最后，采用懒加载 lazy 加载，同一时间最多显示 3 个页面，这样既保证子页面转场的流畅，也保证了功能的正常使用。

页面适配

用户手机机型千变万化，页面适配是必须要面对的问题。开发之前先明确两个关键的点：站内是否支持全屏；站外是否需要支持。明确后结合工程现状，将需要适配的重点机型进行枚举，并归纳总结，以 iPhone 机型为例如下：

如果只适配站内全屏/非全屏，建议将适配的机型宽高比控制在 2 个以内。举例年报只支持站内全屏，如下图第二列所示，可以将站内适配划分成 2 档，通过媒体查询，所以只需支持宽高比大于等于 375 / 667，适配范围支持站内宽屏或者小屏的机型。针对特殊页面，还可以配合max-height 再做微调。

@media screen and (min-aspect-ratio: 375 / 667) {
    // 大于等于 0.5622
    // 适配范围：站内宽屏、特殊小屏的机型
}

@media screen and (max-height: 750px) {
}

如果需要适配站外，建议将适配的机型宽高比控制在 4 个以内。如下图第三列所示，分析历史站外流量分布，重点支持微信、微博等 App。可以将站内、外适配划分成四档。第一档需支持宽高比大于等于 400 / 815 且小于 375 / 667，适配范围支持15pro、12promax、15promax、vivo s9 等站外+大屏。第二档需支持宽高比大于等于 375 / 667 且小于 375 / 603，适配范围支持 8p、SE 等站内+宽屏、小屏。第三档需支持宽高比大于等于 375 / 603，适配范围支持8p、SE 等站外、宽屏+小屏。

@media screen and (min-aspect-ratio: 400 / 815) and (max-aspect-ratio: 374 / 667) {
    // 大于等于 0.4907，小于等于 0.5607
    // 适配范围：15pro、12promax、15promax、vivo s9 等 站外+大屏
}

@media screen and (min-aspect-ratio: 375 / 667) and (max-aspect-ratio: 374 / 603) {
    // 大于等于 0.5622，小于0.6218
    // 适配范围：8p、SE 等 站内+宽屏、小屏  
}

@media screen and (min-aspect-ratio: 375 / 603) {
    // 大于等于 0.6218
    // 适配范围：8p、SE 等 站外、宽屏+小屏 
}

质量监控

面向年报这种大型活动，针对质量问题的感知不能仅被动通过用户反馈问题，更重要的是需要一套完善的监控系统自动发现问题。通过这套系统也能够有效评估出线上运行的状态，最后用数据来验证“质量优”这个技术指标。

对于开发者而言，质量优的背后实质是高可用。需要对各种异常结果进行兜底，来保证用户完整体验完年报活动。简而言之，质量优涉及以下几个方面：

1、异常监控：包括 crash 平台、实时数据监控平台，离线日志回捞平台等

2、功能降级：包括 AB 配置中心，上线 SOP 白皮书，活动研发平台等

3、数据准确：包括异常数据兜底，敏感数据过滤，埋点数据等

异常监控

除了必备的异常 crash 监控平台，还需要根据年报活动的特性来构建一个更全面的监控体系。主要包括分享率监控、视频卡顿监控、音频启播失败监控、接口异常监控等。由于监控的多样性，需要根据不同的场景采用不同的监控策略。例如，如果想观察分享点击率，需要实时上报监控数据；如果需要排查页面白屏问题，需要收集用户本地的离线数据。由于年报日活高，样本数据量大，需要考虑是否需要采样上报。建议实时数据采用一定的采样率，而离线数据则采全量上报。

监控的思路是：现状分析，指标建设，监控埋点，指标分析，方案优化，AB 实验，验证收益。PACD 的方式持续改进，直到问题被解决。

以分享率监控为例。活动分享率要达到xx%是年报关键指标。分析工程中现状后，制定如下图的监控指标。

结合线上埋点数据，能够清晰发现图片生成耗时和图片生成成功率对图片分享成功率有正向影响。因此，后续开发的重点就是如何降低图片耗时生成和提高图片生成的成功率。

功能降级

监控的本质是及时发现问题并快速止损。在面对突发情况时，通过线上配置快速关闭某些非核心功能，以确保核心功能的正常进行。在开发中过程中，可以将降级开关集中配置在一个能进行可视化的活动研发平台内统一管理，如下图。在上线前，需要将这些开关纳入上线前的标准操作流程（SOP）中。

下图是年报的监控大盘。对可能严重影响用户体验的功能，如白屏、视频和音频进行了重点监控，同时也对关键业务模块，如报告页面和歌手来信进行了监控。这些监控在年报活动也发挥了重要的作用。例如，通过对报告页面接口的监控，发现由于 cookie 丢失导致用户进入不了年报的问题；通过对音频播放的监控，明确了站内需要支持音视频的自动播放。

数据准确

最后数据准确性也是质量优的重要组成部分。其中需要关注两个方面。首先，需要确保用户界面的数据准确无误，这包括对服务端可能出现的异常情况进行兜底处理，例如服务端下发数据失败或者下发敏感数据等情况需。其次，要确保上报后台的埋点数据不会漏报、重复报或者缺失关键信息。这些埋点数据的准确性直接影响策划和开发的实时决策。

工程效率

除了体验好、质量优，效率高也是开发一直追求的命题。

对于策划或者视觉来说，需求的频繁变更是项目最大的风险。这要求开发团队能够预见并总结可能出现变更的情况。例如，页面顺序会根据内测用户的反馈进行调整，页面数量可能会根据线上页面的流失率进行删除。在例如，视觉要求页面之间有统一的转场效果，但是针对某些特殊页面，要求工程应该能够支持自定义的转场效果。

对于 QA 或者客服来说，当用户反馈问题时，他们应能够通过快捷方式查看该用户的年报。同时，由于年报通常包含 30+ 页面，他们希望能有一种快速定位到特定页面的方法。通过这种方式，他们可以自助定位并解决部分线上客诉。在排除了用户自身、数仓或者服务端的问题后，再将问题提到前端。

对于开发者来说，期望有一套开箱即用的基础组件，如图片、视频、音频等。或者能够在项目创建初期，就能有一个包含基础交互、数据模型和常用基础组件的年报模板。更进一步是，希望在开发过程使用使用D2C的插件，通过视觉稿直接生成代码。更终极的状态是，策划和运营通过搭建平台能自助地构建出年报项目。

简而言之，效率高涉及以下几个方面：

1、页面导航：包括页面自动曝光、支持动态路由等

2、功能调试：包括年报快捷查看，页面快速定位等

3、工程基建：包括通用组件/能力，年报模板，D2C 插件，搭建平台等

为了实现各个活动之间的能力复用，可以将活动成果都会统一沉淀到活动研发平台。

这个平台覆盖了活动的完整生命周期，包括开发前期需要参考的技术方案，UI组件，通用能力，活动模板，开发中期需要的功能开关、分享内容等配置，以及开发后期需要用到保障SOP和监控告警等。

后续在年报项目的初期阶段，计划通过活动研发平台的年报模板工程，快速搭建出年报的项目。基于这个初始化工程，数据开发团队能尽早进行的自测稽查。

深度思考

最终年报项目按照预期顺利拿到业务结果。再次回顾立项初期，开发并不是简单被动接收目标，简单的将需求实现。可以从业务和技术关系分析出发，定性、定量分析项目目标是否能够达成。

关系分析

业务和技术的关系可以划分为三大类别：业务驱动技术、技术保障业务、技术引领业务。

业务驱动技术的一个典型例子是2020年报中的DIY音乐人物形象。这是开发第一次在大型项目中使用 three.js。项目的初期，需要做大量的技术调研，并需要快速解决一些从未碰过的难题。项目的过程中，由于技术局限性，策划不得不妥协，对需求进行调整。在业务驱动技术的情况下，大部分情况是未知的，这会使得开发处于高度紧张的状态，也可能导致技术动作的变型。

技术引领业务的一个典型例子是性格POP。在这个项目中，开发主导了整过程，他们基于矩形树图算法实现一个无缝挤压的动效。策划团队根据这个特定的动效，定制业务需求。在技术引领业务的情况下，由于整个过程因为都是已知的，开发都是胸有成竹的状态，这通常会使业务的收益超出预期。

大部分的需求都是属于技术保障业务的情况。这要求开发对当前的工程能力有清晰的认知，并协助策划做出最合理的决策。开发需要科学分析业务目标是否能达成，可以有效地管理策划的心理预期。

需要多积累技术知识，减少业务驱动技术的被动情况出现。同时也需要提升对业务的敏锐度，让技术引领业务的发展。最后将知识和经验沉淀，从而更好保障业务的需求。

定量分析

2023年报就是典型的技术保障业务的场景。在业务立项初期，产品目标是日活xx千万，活动分享率 xx%。

项目初期项目负责人不应埋头搬砖，需要先通过现有数据，理性分析业务目标是否能达成。

分析显示，目前 Android 和 iOS 双端的日活累计是X千万。这个数字实际设定了年报日活跃用户的上限。如果这个上限都不能满足业务目标，那开发需要寻找更多的推广渠道。除了现有的移动端设备，可以考虑其他有多终端设备，如PC、iPad和TV，还可以考虑支持例如微信等站外渠道。这样开发阶段，需要重点考虑如何适配这些不同的用户界面。

在确定投放渠道之后，可以进一步分析每个渠道内的投放位置。例如，在移动端通常会选择在首页首帧 banner、首页弹窗、以及其他高日活的页面进行投放。细化分析每个位置的用户点击率，最终能初步预估活动的日活。在投放位置有限情况，如果这个预估值无法达到业务目标，那么需要额外开发其它点击率较高的位置，如启动开屏位，供策划选择。

在不同角色中，对分享率这个指标的定义可能会有所不同。因此，在项目启动的前期，开发需要和策划达成一致，明确如何统计活动的分享率。在明确统计口径后，分析现有的分享行为，包括图片分享、链接分享、口令分享和截屏分享。需要注意，截屏分享是最容易忽略统计的一种分享行为。接下来，分析不同分享行的流程。如下图所示列出了不同分享行为所需要经过的路径。

在这些路径下进行数据埋点，以便能够观察和分析影响分享率的漏斗。通过结合对漏斗的专项治理和过往活动的数据，最终也能准确预估年报的数据。

定性分析

日活和分享率很大程度取决于年报的产品创意是否足够新颖。产品创意需要将用户的听歌数据以字体、图片、动效、音频、视频等多种方式准确地展示给用户，从而引发用户的共鸣。而作为开发者，需要以流畅、准确、且高效的方式将这些多元的媒体内容传达给到用户。

案例一：得益于今年年报对体验和质量的高要求，上线后 5 日总客诉量比往年减少了 41%，收获了大批用户好评。

案例二：首页banner投放，从用户点击到 H5 页面打开，页面达到率 Android 端只有93%左右。假设将页面到达率从 93% 优化到 97% 以上，对年报带来收益大概是是新增上百万的日活用户。

因此，好的用户体验和高的产品质量能够有效地促进年报的分享，从而进一步提升日活跃用户数量。

总结

一款深入人心的作品，不仅要有优质的产品内容支撑，有效的技术优化和保障也不可或缺，具体总结如下图：

最后本文从2023年度报告中的性能体验、质量监控和工程效率等方面出发，介绍了笔者在年报项目经历中的一些探索和经验。受限于篇幅，难免有不足之处，欢迎共同讨论~

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

如何设计同时支持低码和源码的应用框架

2024-05-14T14:21:45+08:00

本文作者: [景庄]

开发者经常会诟病低代码带来的开发灵活度不足的问题，但业界对于低代码的投资和探索却一直没有中断过。对于开发者而言，低代码始终有一种“教开发者如何开发应用”的感觉，并且业务需求往往复杂多变，所以很难不被喜好自由度的开发者抱怨。我相信，没有能够解决一切问题的银弹，有的只不过是需求场景和解决方案的错配。

在云音乐，我们一直在探索低代码开发与源码开发的平衡，既为业务交付提供高效的交付能力，同时为开发者提供低门槛且灵活的用来响应业务需求变化的开发能力。云音乐是一个拥有 11 年历史的业务，很多的系统构建在复杂的既有体系中，很难采用单一方案一蹴而就地解决历史积弊。因此，在为业务提供标准能力的同时，技术架构上的可持续性就显得特别的重要。

基于源码提供低代码开发能力

Tango 是我们针对云音乐现有业务的特点和开发者的实际诉求构建的一套基于源码的低代码解决方案。支持在现有的代码库和业界主流的开源框架基础上提供低代码可视化开发能力。我始终相信，代码库是技术团队的核心资产之一，同时也相信，源代码可以为开发者提供最保险的逃生舱。通过构建基于源码的低代码开发能力，无论是对业务的可持续迭代，还是对于开发者习惯的渐进式培养，都会更为可靠且可持续。

Tango 引擎的核心是建立在对源码的 AST 操纵的基础上。AST 的全称是 Abstract Syntax Tree，是编程语言语法的抽象表示，可以将任意的代码片段转为 AST 结构树。Tango 通过将用户的操作转为对 AST 树节点的读取和修改，实现对用户低代码开发的支持。

通过 AST 来修改源码在很多的框架和库中都有实现，例如前端典型的 uglify, eslint plugin 等库都是基于 AST 操纵实现的。但只是通过操纵 AST 来实现代码生成和修改，问题显然会非常的复杂，因为很难预测和应对应对开发者编程过程中的随机性。

图：Tango 基于 AST 驱动的原理示意图

通过应用框架统一前端编程范式

针对编程过程的随机性，我们可以对前端应用的开发行为进行标准化约束，TangoBoot 是我们面向云音乐的 web 应用开发场景构建的一套标准化的前端应用开发框架，它构建在主流的开源框架基础上。TangoBoot 提供了一套标准的前端应用开发范式，包括应用的构建、启动、视图渲染、状态管理、异步数据请求、微前端等。

图：TangoBoot 通过构建标准应用范式统一应用的开发过程

TangoBoot 同时支持在低码开发环境和源码开发环境中使用。 对于源码开发者而言，可以轻松的掌握 TangoBoot，并用于实际的应用开发，并且支持快速低成本的与现有代码库集成在一起。对于低代码开发者，Tango 引擎提供了基于 TangoBoot 的标准可视化搭建能力，引擎按照既定的规范生成和修改应用代码，实现低代码搭建过程。

图：在 Tango 低代码设计器中开发应用

更少的视图和逻辑代码

通过 TangoBoot，可以让开发者少写约 50% 的视图和逻辑代码。 TangoBoot 的核心是采用响应式状态管理（Reactive States）+响应式视图（Reactive View）的方式来降低开发者对于视图层渲染逻辑的理解门槛：当绑定到视图的数据变化的时候，视图就会自动更新。对于开发者而言，无需掌握复杂的编程语法，即可快速的面向业务场景构建应用程序。下面我们以一个代办列表应用为例，用户可以输入代办事项，点击确认按钮，将计数器添加到页面中。

图：使用 TangoBoot 和 Dva 分别实现 Todo App 的代码对比

前端响应式状态管理的实现

TangoBoot 提供的状态管理基于一个基本的事实，当绑定到视图的数据变化的时候，视图就会自动更新。这个被后端同学认为理所应当的事，使用 redux 等前端框架来实现却并不容易。不妨用一个更简单的例子来演示，下面的代码简单的表明了在视图中消费变量 counter.count 计数器，并通过点击按钮实现 counter.count 变量自增，而视图会自动触发重新渲染，无需开发者关注底层实现细节。

const counter = store({ count: 1 });
const Page = view(() => {
  return (
    <div>
      <span>{counter.count}</span>
      <button
        onClick={() => {
          counter.count++;
        }}>
        add
      </button>
    </div>
  );
});

响应式状态管理意味着，当绑定视图的变量的值变化时，视图自动重新渲染，以反映其变化。当对象的属性被修改时，它会查找属于该（对象，属性）对的所有组件并重新渲染它们 —— 是的，非常符合开发者想象中的那样。这种状态管理方案无论是对前端开发者，还是后端开发者都更易于掌握，也是 Tango 构建简单易用低代码开发能力的基础。

让我们看看如何来实现这一过程。为了构建（对象、属性、组件）关系，我们必须知道 counter 和 Page 在渲染期间使用哪些对象和属性。开发者可以通过看一眼代码就很快识别到这些信息，但框架却不能。我们需要让框架知道对象的属性何时发生变化，以便从保存的关系中收集相关组件并渲染它们。这两个问题都可以通过 ES6 代理来解决。

import { saveRelation, renderCompsThatUse } from './reactiveWiring';

export function store(obj) {
  return new Proxy(obj, traps);
}

const traps = {
  get(obj, key) {
    saveRelation(obj, key, currentlyRenderingComp);
    return Reflect.get(obj, key);
  },
  set(obj, key, value) {
    renderCompsThatUse(obj, key);
    return Reflect(obj, key, value);
  },
};

简单解读下上面的代码，store 代理拦截所有属性获取和设置操作，并分别构建和查询关系表。还有一个问题是，traps 里的 get 中的 currentRenderingComp 是什么？我们如何知道当前正在渲染哪个组件？这就是 view 发挥作用的地方。

view 包装了一个组件并使用简单的逻辑来检测其渲染方法。它在渲染时为组件设置 currentRenderingComp 标志。这样我们就拥有了在 get 中建立关系所需的所有信息。对象和属性来自 get 函数的参数，组件是由 view 包裹的 currentRenderingComp。

通过上面的代码，我们可以简单的了解到如何实现一个基本的响应式状态管理库，但真实的场景往往比这复杂非常多，有众多的边缘情况和设计决策需要权衡。篇幅原因，这里不再详细介绍相关的细节，具体的内容可以参考 The Ideas Behind React Easy State 一文进行详细的了解。当然，TangoBoot 的状态管理实现也并没有重复造一个新的轮子，而是选择了更加成熟的社区方案，感兴趣的同学可以参考 Observer-Utility 和 React-Easy-State。

使用服务函数调用后端接口

对于后端数据请求，Tango 为低码和源码开发场景提供了统一的开发范式 -- 服务函数调用。开发者无需关注请求实现的细节，而是通过配置优先的方式进行接口的数据请求，用户的配置信息会自动生成对应的服务函数调用逻辑。可以通过下面这段简单的代码示例 TangoBoot 的数据请求的配置。值得说明的是，TangoBoot 本身并没有实现请求库，而是直接在 axios 和 fetch 的基础上进行了封装，使得开发者完全可以使用自己习惯的方式进行代码编写。

图：使用 TangoBoot 发起数据请求和使用 axios 发起数据请求的的对比

当用户执行某个服务函数的时候，Tango 将会使用服务函数的配置信息通过 TangoGateway 将请求代理给对应的后端服务，并由后端服务进行相应的处理。这意味着，开发者可以非常轻松的在低码环境中执行数据请求，而无需考虑源码开发过程中复杂的鉴权、跨域、Mock 等相关的问题。

图：在 Tango 低码环境中发起数据请求的执行链路

前端框架的挑战

与业界大部分低代码方案不一样的是，Tango 并没有发明一个全新的语法或编程语言，而是选择了在社区标准的基础上构建了低代码引擎，并基于低代码引擎构建了低代码可视化设计器。考虑到云音乐的业务现状，为了融合现有的源码开发过程和低码开发能力，通过构建标准化的应用框架 TangoBoot 来统一低代码开发和源码开发过程，使得开发者无论是在低码环境还是源码环境都可以使用一致的概念和范式开发应用。

面向未来，完全私有化的方案不可避免地存在着各种难以预测的可维护问题。对于 Tango 而言，就像现阶段的大语言模型 Copilot，我更愿意将其看作为一个开发者的辅助开发工具，可以降低开发者去开发和交付应用的门槛，让跨技能栈的开发者也可以去交付典型的前端应用，而不是完全取代开发过程。

关于 Tango

开源进展

目前 Tango 低代码引擎已经开源，仍然持续更新中，可以通过如下的信息了解到我们的最新进展：

开源代码库：https://github.com/NetEase/tango
文档地址：https://netease.github.io/tango-site/

往期系列文章

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐桌面端 3.0 改版前端性能优化之旅

2024-05-08T14:53:58+08:00

本文作者：吴敬昌蒋涛

本文介绍了云音乐桌面端 3.0 改版前端在性能方面遇到的挑战和优化实践（卡顿、系统资源占用和具体业务场景等优化）。

背景

云音乐桌面版于 2014 年 5 月上线，从上线到本次 3.0 改版之前一直沿用的基于 NEJ + CEF（Chromium Embedded Framework）的 Hybrid APP 架构。其中，前端基于 NEJ 实现的架构，存在开发理念落后、没有社区生态和上手成本高的问题，在 2021 年到 2022 年期间，我们也尝试了在 NEJ 技术栈中加入 React 技术栈（简称双栈）。但是，由于 APP 的 99% 的代码都在 NEJ，所以后续基于 React 技术栈的实现，围绕双栈做了数据通信、事件调用的实现，确保新增业务实现都是能使用 React 实现（开发效率高、开发成本低）。

虽然，我们新的业务需求可以基于 React 实现，但是，仍然受限于核心数据模块维护在 NEJ 侧、时常只能修改 NEJ 实现来完成业务交付（React 重写成本高，无法按时交付业务）。另一方面，在 3.0 改版，我们迎来了整个应用的交互、视觉上的全新调整，用原先 NEJ 的实现去修改实现成本很高、以及后续开发迭代会面临之前提及的问题，所以综合考量之下，我们选择了基于 React 重构整个应用。

但是，要对一个有 40+ 页面（几十万行代码）的项目进行重构，所要面临的挑战肯定是巨大的。同时，在我们 3.0 内测过程，也收集到很多热心的用户有关新版本的使用反馈，其中性能问题尤为凸显，主要集中在页面切换卡顿、滚动白屏、内存占用大等性能相关的问题。因此，针对这些性能问题我们也进行了专门的性能优化治理，在性能优化治理的过程我们面临的挑战主要是以下 4 个方面：

产品交互形态多种多样：包含了 40+ 的页面和多个窗口（登录、音效和客服等），我们为了统一视觉标准和提高 UI 层的可维护、可扩展性，从 0 开始建设了 30+ 基础组件和 100+ 的业务组件，其中业务组件提供了业务场景下高度定制且可复用的组件。但是，与之而来的部分业务组件的复杂度是非常高的，以歌单列表为例，其支持了排序、拖拽、虚拟列表和滚动定位等，这在 React 框架下开发，组件的 render 和 re-render 性能则会变得尤其重要，因为复杂组件的一次 render 成本非常昂贵，如果没有加以合理控制 render 和 re-render 则会给用户带来使用时的明显卡顿感
分发场景（歌单）的数据量大：歌单作为云音乐最重要的歌曲分发的场景，由于其对应的歌曲数量常常是成千上万的量级的特点，则需要以虚拟列表的方式进行歌单列表的 UI 展示，但是，由于其多数为大列表，这就对快速滚动、内存管理、组件复杂度（渲染性能）和播放起播耗时等有较高的要求，因为在大数据量的影响下这些问题都会演变成非常严重的问题
全局维度的功能和事件类型多：可触发的全局功能有 90+，事件类型有右键、左键、双击、菜单和键盘等，我们在维护统一的事件分发中心的基础上，也提供了非常轻便的 UI 声明式（通过 ActionProvider 组件配置 Props） + 运行时的注册事件实现，虽然，UI 声明式降低了事件注册的开发成本，但是，其强依赖运行时的真实注册事件会随着 React Component Tree 的层级增加产生非常严重的卡顿影响
视图订阅状态（State）复杂度高：全局的数据模型（维护 State）有 50+，包含播放、下载、本地音乐、用户相关、播放列表、应用相关、配置中心和 ABTest 等。站在视图的维度，常常需要订阅不同模型下的状态才能完成正常页面的展示，其中，以一个歌曲资源为例，它对应的视图通常需要订阅下载、收藏、红心、播放、云盘等状态，数量非常之多。所以，如何合理管理订阅数据的视图范围则变得非常重要，因为如果视图中包含了状态非相关的组件，或者相关组件复杂度也很高，那么在状态变化时 re-render 的成本也会变得非常昂贵，同时也会造成严重的卡顿问题

基于这 4 个方面的挑战所带来的问题，我们的性能优化也着重对播放起播耗时长、交互卡顿明显和系统资源占用大等问题进行对应的分析和治理。接下来本文也将会从实际的业务场景角度出发，围绕以下 4 点展开介绍在具体性能问题下的应对和思考：

一、播放起播耗时优化

作为一款音乐类目软件，播放功能是我们最为重要的功能。相比较旧版本而言，在 3.0 中我们围绕播放中的状态做了更多产品交互上的改善和调整，例如播放条黑胶转动、歌单列表项播放中的动图和歌曲名高亮、歌单和播单等资源卡片播放中状态按钮：

通常情况下，用户播放会进入到歌单页面点击播放全部、单击歌曲或者全部添加到播放列表来播放歌单列表的歌曲，其中播放流程的实现（简化版）：

播放是用户使用应用所必定操作的功能，播放相关的体验也是我们所重点关注的内容，其中较为重要的则是播放起播（开始播放）的耗时长短。但是，起初我们的播放起播速度并不理想，导致起播耗时的原因主要是以下 2 点：

歌曲列表接口分页请求耗时，播放歌单或者歌曲列表需要获取其所有的歌曲列表数据，但是因为对列表场景做了虚拟列表的优化，所以默认情况下只请求了一次接口（接口分页，长度 500），这就导致如果当歌曲列表超出 500 条，在播放该列表的时候就需要等待拉取全部的歌曲列表（存在接口请求耗时）
播放信息（State）更新导致视图渲染阻塞起播流程，在播放一首新的歌曲时会先更新当前播放的基础信息，如歌曲名称、歌手和封面等，然后再交给播放器去加载歌曲播放资源和起播，但是因为播放的基础信息更新会导致订阅者视图（播放条、歌曲列表等）的重新渲染，产生阻塞播放器播放任务的执行的问题（等待前者执行，起播时间延后）

通过对比新旧版本的播放起播的耗时，以歌单歌曲 1000 首为例，起播耗时在 4410 ms 左右，旧版本在 1733ms 左右，2 者存在较为明显的差距，同时线上也收集到大量相关的舆情反馈。因此，优化播放起播耗时也成为当时所迫在眉急的事情。下面也将分别会针对上述 2 个导致起播耗时的原因，介绍各自存在的问题和如何应对优化。

1.1 接口预加载

首先，是歌曲列表接口分页请求耗时（获取完整的歌曲列表）。在前面的小节中介绍到歌单页的列表实现是基于虚拟列表实现的无限滚动列表，所以默认进入歌单页只会拉取第一页（500 首）的歌曲列表数据。但是，站在播放的角度，在歌单场景播放默认情况下是播放该歌单下的全部歌曲，所以此时就需要按照歌单列表分页总数来分批次请求接口，用于获取歌单下的全部歌曲给到播放流程，而请求分页接口会存在等待服务端接口响应耗时：

由于通常用户进入歌单场景到开始播放歌单之间会存在一定空闲的时间，那么，在这个空闲的是时间内，则可以陆续按照列表分页总数来分批次预加载该接口，避免请求接口的耗时发生在用户在播放的过程中：

1.2 渲染调优：re-render优化和组件复杂度降低

然后，是播放信息（State）更新导致视图渲染阻塞起播流程。在初始化播放 State 时，订阅播放 State 的组件则会开始渲染，如 Render 播放条（Minibar）、歌单列表项：

并且，到这个阶段播放的起播流程还未结束，如请求播放歌曲信息、开始播放阶段。大家都知道的是在浏览器中，JavaScript 代码的解析执行和渲染流水线同属于宏任务，在一次浏览器事件循环（Event Loop）中宏任务是按照进队顺序依次执行的。

因此，播放状态改变导致的渲染行为则会导致后续的请求播放歌曲信息和开始播放阶段等待前者渲染结束。如果，此时渲染行为所需要的耗时越长则会导致后续起播的阶段等待的时间越长，所以需要对这部分视图关联的组件做渲染调优处理（降低前者等待的时间）。

首先是歌单列表项的渲染调优。在列表组件中类似于表格的概念，每个列表项（表格列）都是由多个 Cell 组件构成，歌单列表项中和订阅播放状态相关的组件主要是播放按钮和歌曲名称：

播放按钮由 TableIndex 组件和各类业务场景的 IndexCell 组件组成
歌曲名称由 TrackTitleCell 组件和各类业务场景的 IndexCell 组件组成

其中，对于 IndexCell 组件来说，它仅仅是做业务场景到 TableCell 的参数透传，例如专辑的播放按钮的 IndexCell 组件：

const IndexCell: ICellRender<IBaseProps, IColumn, IAlbum> = (props) => {
    const { row } = props;

    const { index, data } = row;

    return (
        <TableIndex
            index={index}
            data={{
                resource: data,
                resourceType: ResourceType.album,
            }} />
    );
};

同理，对于歌单、搜索、播单等场景的播放按钮组件也是一样的使用，都只做业务场景的参数透传给 TableIndex 组件，然后再由 TableIndex 去订阅播放 State。那么，与之而来 TableIndex 则会存在 2 个问题：

所有业务场景的播放状态订阅和处理全维护在 TableIndex 组件，因为非本场景的代码混杂一起，导致 render 和 re-render 成本非常昂贵
在组件的实现较为复杂，存在冗余的 CSS-in-JS（Linaria）组件，因为每个 styled.div 使用的背后都是由 React Component 进行渲染（组件树的复杂度上升）

统一封装到 TableIndex 中，虽然很好地复用了组件，但是导致了 render 和 re-render 的成本上升，因为各个场景混杂着非本场景的代码。那么，这就需要合理地解耦各个业务场景的播放状态订阅和处理到各自的 IndeCell 组件中，然后 TableIndex 组件只接受 isPlaying 的 Props 透传，以及使用 memo 对 TableIndex 组件进行新旧 Props 对比（避免冗余 re-render）：

import { isEqual } from 'lodash-es';

export default memo(TableIndex, (oldProps, newProps) => {
    const isDataEqual = isEqual(newProps, oldProps);

    return isDataEqual;
});

其次，TableIndex 中使用了 CSS-in-JS 提供的 styled.div 来实现动态 CSS，其本质在编译的时候创建一个 React Component 来根据 Props 进行动态的渲染，这会导致组件树变得复杂，增加了渲染的成本，并且由于在列表场景 TableIndex 的数量是等于虚拟列表可视区域 + 缓冲区域的列表项总和：

所以，此时要降低 TableIndex 的 UI 实现的复杂度，通过原生的 HTML 标签 div、在行内 style 定义 CSS Variable 和在 CSS 中使用定义的 CSS Variable 来实现动态 CSS：

const styledIndexCellCls = css`
  ...
  .text {
      display: flex;
      min-width: 20px;
      justify-content: center;
      visibility: var(--text-default-visiblity);
  }
  ...
`

const TableIndex = <T extends {}, U extends []>(props: {
    className?: string
    isPlaying?: boolean
    enablePlay?: boolean
    playAction?: Action
    index: number
    data: ActionInfo<T, U>
}) => {
  ...
  return (
    <div
        style={{
            '--text-visibility': enablePlay ? 'hidden' : 'visible',
            '--text-default-visiblity': isPlaying ? 'hidden' : 'visible',
            '--play-visibility': isPlaying ? 'visible' : 'hidden',
        } as React.CSSProperties}
        className={classnames(className, styledIndexCellCls)}>
        ...
    </div>
  )
}

这样一来则可以降低使用 CSS-in-JS 创建的冗余的 React Component 带来的冗余渲染开销。最后，在综合上述 2 者的优化之下，仍然是歌单 1000 首的情况下，对比之前的数据播放起播耗时从 4410.67 ms 降至了 2133.67 ms（48.37%）。

二、交互卡顿优化

站在浏览器渲染的角度，我们所制作的网页最后会经过浏览器渲染流水线绘制到屏幕上，然后通常情况下屏幕的刷新频率是 60 Hz，也就是每秒会刷新 60 次，所以当绘制的数度慢于屏幕的刷新时，则会产生卡顿的问题。

2.1 通用交互卡顿

UI 声明事件转 JavaScript 事件调用

在前面提及，针对全场的事件我们会通过 ActionProvider 来实现，在平常的业务开发中，仅需要通过配置 ActionProvider 的 Props 则可以完成，例如配置歌单的事件：

function PlaylistCard(props = {}) {
    const { data } = props

    return (
        <ActionProvider
            // 可右键，打开歌单对应的菜单
            menu
            click
            data={{
                // 歌单数据
                resource: data,
                // 表示资源是歌单，用来事件处理、菜单映射
                resourceType: ResourceType.playlist,
                from: {
                    to: {
                        // 表示可支持点击跳转到 linkPath，歌单详情页
                        linkPath: `${ROUTE_PATH.playlist}/${data?.id}`
                    }
                }
            }}
            >
            <div>
                歌单
            </div>
        </ActionProvider>
    )
}

这样就完成了歌单相关的点击路由跳转、右键菜单打开的功能，后续的操作也会携带上这里的 data，例如右键菜单收藏歌单会消费 data 的数据。其中，在 ActionProvider 的内部会根据 Props 的配置信息去给 div 绑定指定的事件，如 onContextMenu、onClick：

const ActionProvider = function(props) {
    const { children } = props
    const handleClick = useCallback(() => {
        // ...
    }, [])
    const handleDoubleClick = useCallback(() => {
        // ...
    }, [])
    const handleMenuClick = useCallback(() => {
        // ...
    }, [])
    const eventProps = useMemo(() => {
        onClick: handleClick,
        onDoubleClick: handleDoubleClick,
        onContextMenu: handleMenuClick
    }, [handleClick, handleDoubleClick, handleMenuClick])

    const finalChildren = useMemo(() => {
        // ...
        // 统一拷贝一份 children 保证旧的 Props 的不变和新的 Props 加入
        return React.cloneElement(children, eventProps)
    }, [children, eventProps])

    return (
        <>
            {finalChildren}
        </>
    )
}

通过示例可以得知使用 ActionProvider 可以通过 UI 声明式地配置化替代复杂的事件注册调用流程（简单，逻辑实现统一维护）。所以，这也在我们应用中大范围地得以使用，包含了播放、收藏、分享、跳转、创建歌单、删除歌曲、复制、举报、桌面歌词设置、下载、Mini 模式设置、云盘等 90+ 个功能相关的 Action 实现。

虽然， ActionProvider 的设计实现使得应用中的核心事件的注册、实现和维护变得简单，但是，其 UI 声明式的统一实现方案也带来了性能上的问题（卡顿）：

由于是一套统一方案，依赖或 Props 变化过于离散，存在大量的 re-render
使用 React.cloneElement 对真实组件或组件树进行拷贝，产生运行时对 CPU 和内存的明显消耗

所以，ActionProvider 带来性能问题的严重程度会受到使用的数量和组件树的复杂度呈正相关的影响。并且，在当时整个应用中总共涉及 306 个文件和 674 处使用，也因此这类性能问题导致了应用全场景使用的卡顿，在当时应用功能的主观评测打分（满分 5 分），整体体验为 3.2 分（卡顿），旧版本为 4.2 分，较为不理想。

那么，要如何解决这个问题？是打破重来吗？

显然不可行，因为打破重来势必会导致上线后的功能稳定性问题，并且重新开始的成本是非常高的。回到 ActionProvider 的实现，其一是自动注册事件，其二是自动分发事件，对于第一点已不合理，因为各业务场景的 UI 是不可控的，无法通过统一的组件去合理控制组件的 re-render（离散不可枚举）。所以，需要实现可替代之前自行注册事件的方案，由需要绑定事件的组件去实现。其次，对于第二点，自动分发事件仍然可以保留，最终的方案也就是我们可以从 UI 声明式地配置化转位对应的 JavaScript 事件调用：

例如，原先的 ActionProvider 使用：

function Demo() {
    return (
        <ActionProvider
            click={Action.play}
            data={actionData}>
            <TrianglePlayButtonWrapper>
                // ...
            </TrianglePlayButtonWrapper>
        </ActionProvider>
    )
}

转为点击事件 JavaScript 事件调用式后：

import { doAction } from '@/components/ActionProvider/event';

function Demo() {
    const onClick = useCallback((e) => {
    doAction({
            click: currentAction,
            data: {
                resource,
                resourceType,
                from: from ?? {},
            },
            event: e
        })
    }, [currentAction, resource, resourceType, from])

    return (
        <TrianglePlayButtonWrapper
            onClick={onClick}
        >
        // ...
        </TrianglePlayButtonWrapper>
    )
}

那么，这样一来 ActionProvider 的实现的第二点得以很好的保留，且原先 UI 声明式的使用带来的性能问题也得以解决，应用整体功能的使用体验也得到了大幅提升，整体体验的主观评测分数也提升至了 4.2 分，基本对齐旧版本。

2.2 歌单列表卡顿

歌单作为云音乐十分重要的分发场景，其中较为复杂的场景则是自建歌单，如我喜欢的音乐、创建的歌单，由于它们可收藏本地歌曲、下载的歌曲、云盘歌曲等，所以在歌单中的列表项的数据来源场景会多种多样，与之而来列表项的实现也就相对复杂。

在我们应用中，所有类型的列表（歌曲、云盘歌曲、下载歌曲、本地歌曲、专辑歌曲、搜索歌曲等）都视为一种业务场景表格组件，而所有的业务场景表格则是由自定义的表格每行的列组件 Cell 和整体的 TableViewer、TableViewerMain 组件构成，它们之间的渲染关系：

可以看到除了渲染展示列表，TableViewer 和 TableViewerMain 组件还实现了以下的功能：

表格排序，基于表格 Cell 给定的列字段进行升降序排序
播放中歌曲滚动定位，基于滚动容器 scroller 实现的滚动列表到当前播放的歌曲
拖放容器，基于 react-dnd 实现的可被拖放的容器，用于列表拖动排序或者其他歌曲拖动收藏
虚拟列表，基于滚动容器 scroller 实现的动态计算列表项 position 位置
分页加载和搜索，在虚拟列表实现的基础上自动管理分页加载和搜索

那么，导致列表滚动卡顿的问题是什么？相信有同学已经发现职责不单一，从 TableViewer 和 TableViewerMain 的实现上可以发现各自的实现没有明显的边界，与之而来的产生了以下 3 个问题：

拖放容器和拖拽，耦合 ActionProvider（会有明显运行时性能开销），其实现是基于在 ActionProvider 在 react-dnd 的封装基础上

function Demo() {
  return (
      <ActionProvider
          data={dropConfig?.data}
          // eslint-disable-next-line @typescript-eslint/ban-ts-comment
          // @ts-expect-error
          drop={dropConfig ? {
              ...dropConfig.drop,
          } : undefined}>
          // ...
       </ActionProvider>
  )
}

虚拟列表，首先虚拟列表实现在 TableViewerMain 中 re-render 的范围太大，导致 re-render 的成本是非常昂贵的，其次虚拟列表的实现是从零实现没有经过很成熟的打磨会有很多生产模式下的问题，例如快速滚动白屏、不支持快速滚动骨架屏等
播放中歌曲滚动定位，实现在 TableViewer 中 re-render（每次滚动）的范围太大，导致 re-render 的成本是非常昂贵的

在综合这 3 个问题的影响下，最初我们在歌单列表场景的滚动存在较为明显的卡顿问题，同样是功能体验主观评测打分，列表滚动的得分是 2.2 分（卡顿），旧版本的得分在 4.5 分：

针对第一个问题拖放容器和拖拽耦合 ActionProvider，这个问题并不难处理，只需找到可替代的 JavaScript 事件调用的方式，以拖放为例会是这样：

const { drop } = dropConfig || {};

const [dropRef]= useDropAction({
    drop,
    data: data!,
});

return (
    <div ref={dropRef}>
     <!--....-->
    </div>
)

通过统一 useDropAction 来承接原先透传给 ActionProvider 的配置，而 useDropAction 则是基于 react-dnd 和列表所在的 Context 实现（由于拖放最终需要消费整个列表的顺序），同理拖拽的实现也是一致的。

虚拟列表重构：更好的 DX 和 UX

然后，针对虚拟列表 re-render 范围大和方案不成熟问题，我们重构了 TableViewer 组件：

基于 react-virtualized 封装 VirtualizedList 组件实现了如下的能力：
- Window Scroller，通过将 document.scrollingElement 或者 document.documentElement 作为 Scoller，实现窗口滚动的效果，例如歌单页、播单页等
- 滚动占位，用于在用户快速滚动情况下的渲染占位的骨架屏元素，其中骨架屏基于 react-content-loader 实现，可自定义不同场景的样式，其中由于 react-content-loader 默认的扫光动画是有 CPU 开销，考虑到性能所以默认关闭扫光动画
- 滚动定位，基于 Scroller 的 offsetHeight、scrollTop 和列表项的高度 rowHeight 实现滚动至指定索引的列表项定位（在使用 WindowScroller、List 的情况下，List 提供的 scrollToIndex 无法正常工作）
删除 TableViewerMain 组件，将其内部实现移至 TableViewer，非必要的组件层级，简化组件树
re-render 最小组件单位原则，从 TableViewer 组件中剥离歌曲播放中定位组件，减少 re-render 时的组件渲染成本

通过上述的优化手段的落地，主观评测也从最初的 2.2 分提升到了 4 分接近于旧版本，相关的舆情反馈也得到了对应的治理（相比优化前环比下降 68.22%）：

在这里可能有同学会有疑问：”为什么不在原有手写的虚拟列表实现上继续优化修改？”。其实，不仅仅是今天本文中这个场景大家会有这种疑问，在平常的工作中相信也有可能遇到这种情况。对于前者手写实现，我们可以归为一类一般能力较强的同学，他们遇到这类场景会有从零开始实现的习惯，对于后者使用开源实现，我们可以归为一类关注团队维护成本、功能丰富程度的“拿来主义“的同学。

显然，我们选择的是后者，因为通过对比社区实现的各类虚拟列表，我们选择了其中更为稳定、功能更为强大的 react-virtualized，一方面降低了维护成本（经过时间验证），另一方面提供了诸多开箱即用的功能，减轻了相关业务功能交付的开发成本。

三、系统资源占用优化

3.1 CPU：动画按需执行

说起 CPU 的资源占用，很多同学的第一反应可能是 JavaScript 代码实现的不合理产生的长任务（或耗时）导致的 CPU 的资源占用，这也是大部分应用 CPU 占用高的主要原因。但是，大家是否关注过在其他场景可能会导致 CPU 占用高的情况？例如 CSS 实现的动画产生的 CPU 占用。

在 3.0 中新增了很多动画，通过工具监控（系统任务管理器、Devtools 的性能监控器等）得出在开启动画的情况下，CPU 占用会增加 6% 左右，而这些动画大多都是基于 CSS keyframes 实现，例如底部播放条的黑胶转盘：

其对应的 CSS 代码实现：

@keyframes rotate {
    0% {
        transform: rotate(0);
    }

    100% {
        transform: rotate(360deg);
    }
}
animation: rotate 40s linear infinite;
animation-play-state: var(--animation-play-state);

此时，可能有同学会说使用 GPU 来加速，从而降低 CPU 的占用，这确实是一种解决方案，但是其实际只是转移了资源占用，并没有消除资源占用（导致 GPU 的占用上升）。

既然，使用 CSS 动画会产生 CPU 或者 GPU 的资源占用问题，那么需要将其产生的占用降低或者避免，这可以通过以下 2 种方式实现：

通过原生组件渲染实现 CSS 动画，原生的动画实现会优于 CSS 动画，资源占用较小，例如通过实现混合渲染的架构，部分 UI 通过原生组件（Native UI）或者自绘引擎实现（如 Flutter），
在应用切换到后台状态时，如最小化到任务栏、系统托盘、mini 播放器等情况下，自动暂停 CSS 动画的执行，避免相关的资源占用持续占用

相比较前者，后者的实现成本较低，我们也优先落地了相关的实现。首先，通过监听应用窗口的状态是前台还是后台来创建一个 windowStateChange$ 流，基于 windowStateChange$ 实现 useWindowShow hook：

const useWindowShow = (): [
    boolean,
    Dispatch<SetStateAction<boolean>>,
] => {
    const [isWindowShow, setIsWindowShow] = useState<boolean>(true);

    useEffect(() => {
        const sub = windowStateChange$.subscribe(({ isShow }) => {
            setIsWindowShow(isShow);
        });

        return () => {
            sub.unsubscribe();
        };
    }, []);

    return [
        isWindowShow,
        setIsWindowShow,
    ];
};

export default useWindowShow;

然后，在使用到 CSS 动画的地方，通过使用 useWindowShow hook 判断应用窗口状态是否在后台来决定暂停动画，其整体的工作流程：

最终，通过根据应用前后台的状态合理切换动画暂停和执行，我们应用在前台播放 CPU 的占用在 7% 左右，后台播放 CPU 占用在 0.74% 左右，避免了在后台情况下非必要的资源占用。

3.2 GPU：backdrop-filter 全局 CSS 和视口外 DOM 管理

除了上一小节提到的大量引入动画以及无节制地使用 GPU 加速会导致 GPU 占用高之外，在我们的排查实践中，发现错误地使用全局 CSS 属性和视口外 DOM 元素未及时清理是另外两个引起 GPU 高占用的主要因素。

backdrop-filter 是一个十分强大的 CSS 属性，其可以通过不同的 filter 函数实现在层叠上下文中对层级在指定 DOM 元素之下的视觉内容进行高斯模糊、灰阶、对比度、饱和度等样式调整。而在 3.0 的云音乐中，全局应用了其提供的 2 个函数：grayscale 和 blur。其中，grayscale 应用在 React 挂载的根结点，用于在合适的时机（清明节等）对页面进行灰显展示，反之通过 backdrop-filter: grayscale(0) 来禁用；然后，blur 则应用在底部播放条，用于改善播放条在不同页面上的显示效果，提升用户体验。

虽然，全局范围应用 backdrop-filter 属性本身并不会引入特别大的资源占用问题，但是当页面中存在比较多的动画时，二者将产生并不美妙的“化学变化”：backdrop-filter 在绘制时会根据外部元素计算视觉效果，这在并不频繁的用户操作场景下无可厚非，但是自动且不断循化的动画（如底部播放条的黑胶转盘）不可避免地导致了 GPU 资源的持续消耗。

转动的黑胶唱片作为云音乐具有识别度的特征自然不能移除，那么针对该问题则需要从 backdrop-filter 本身以及 2 者之间的关联 2 方面着手考虑：

针对 backdrop-filter 本身，在根结点通过 backdrop-filter: unset 彻底禁用灰显（grayscale(0) 仍然存在 GPU 占用）；禁用底部播放条的高斯模糊，改用类似的静态颜色替代。
针对 2 者之间的关联，调整底部播放条的 DOM 结构，通过合适的合成层优化，将转动的黑胶唱片从高斯模糊的计算范围中剔除。

考虑到调整 DOM 结构进行优化的时间成本以及额外的回归成本，我们优先落地了前者的优化方式。而后者在实现的可行性，以及兼顾了资源占用和视觉效果方面的优势，将是下一阶段的优化方向。

与 2.0 的云音乐相同的是，3.0 的云音乐除了常规的路由页面之外，可以通过点击底部播放条的黑胶转盘唤起独立的黑胶播放页面。不同之处在于，本次改版中对黑胶播放页的评论与歌词进行了分离。而为了保持用户在这 3 个页面之间切换的流畅程度以及切换后能够立即消费我们准备好的内容，如减少图片等资源的加载时间，我们对这些页面进行了常驻处理：即使用户在浏览常规的路由页面，应用在后台已经准备了黑胶播放页以及评论区域的布局框架以及大部分无需网络请求的内容：

此时，有同学可能会想到，3 个页面分别有各自的 DOM 元素，即使另外 2 个常驻页面没有在视口中参与页面展示，但是仍然会以层叠上下文的形式参与页面渲染。并且由于页面的复杂性，过多的 DOM 元素与层叠上下文极易引起层爆炸 。同样的，在大量动画的参与下，层爆炸的影响进一步扩大。

针对该问题，我们对常驻页面的可展示内容进行了权衡。由于黑胶页面的 z-index 高于常规路由页面，应用展示常规路由页面时对黑胶页面通过 display: none 进行隐藏，避免黑胶页参与浏览器渲染过程的同时保留必要的 React 节点与逻辑；应用展示黑胶页面或评论页面时，对另外两个页面通过 visibility: hidden 进行隐藏，visibility 相较于 display 的优势在于浏览器缓存了页面的布局信息，可以更快地进行页面的还原。

最终，通过对上面两个问题的分析与优化，应用在用户常规操作时的 GPU 占用从 33.10% 降低到了 5.39%。

3.3 内存：清除非必要引用

3.0 的云音乐发布初期，有大量客诉反馈应用的内存占用持续增加且没有回落的趋势，在歌单浏览场景尤为明显，初步判断为发生了全局性的内存泄漏问题。

考虑到内存占用的增长在歌单、私信等场景下表现得尤为明显，最先想到的是 DOM 元素卸载后其 JavaScript 对象未能被垃圾回收这类内存泄漏问题。因为包含大量列表元素的滚动容器大都使用虚拟列表来优化滚动和渲染性能，但是虚拟列表涉及到频繁的 DOM 元素的增加和删除，如果在 DOM 元素删除时没有完全清理其对应的 JavaScript 引用，那么内存占用就会只增不减，最终影响用户体验。

在 React 框架中，为了能够方便地建立 DOM 元素与 FiberNode 之间的关联，由框架生成的 DOM 元素会持有其 FiberNode 对象的引用，FiberNode 中同样持有了相关 DOM 元素的引用。因此，无论是浏览器的 DOM 树还是 React 的 Fiber 树，只要有任意一个节点没有被正确释放引用，其自身以及所有子孙元素在两棵树上的对象都无法被垃圾回收。

通过浏览器的 Devtools 工具，我们可以按照下面的流程逐步排查和定位可能的内存泄漏问题：

3.3.1 Performance Monitor 定性

Performance Monitor 能够在较小的性能代价下展示出网站应用的若干个影响性能和体验的关键参数随着时间变化（用户操作）的趋势。针对内存泄漏问题，我们重点关注 JavaScript 堆大小和 DOM 节点数的变化趋势，并根据以下原则对内存泄漏进行初步的定性判断：

其中任何一个出现只增不减的趋势，则可以定性判断存在内存泄漏问题
如果 JavaScript 堆大小只增不减，而 DOM 节点数趋势平稳，则可以定性只在 JavaScript 上下文中出现了内存泄漏
DOM 节点数只增不减往往会伴随着 JavaScript 堆大小的只增不减。此时需要关注二者增加的趋势是否同比（增长速度一致）同频（增长时机一致）
- 如果同比同频，可以定性只有 DOM 元素卸载未清理引用引发的内存泄漏，JavaScript 堆大小的变化只是伴生现象
- JavaScript 堆大小增长趋势更加陡峭，可以定性同时存在两个内存泄漏源头

而在我们的应用中，二者的变化趋势满足同比同频，所以可以确定是对 DOM 元素的引用没有清理导致的内存泄露问题。

3.3.2 Detached Elements 定位

Detached Elements 的功能非常明确，即帮我们找到所有没有挂载在 DOM 树上，同时还没有被浏览器引擎垃圾回收的 DOM 元素。但是，因为浏览器的垃圾回收本身就是周期性的行为，所以在进行问题排查前，必须手动触发一次垃圾回收行为，保证剩下的就是要排查分析的目标元素。

3.3.3 Memory 分析

Memory 能够建立当前应用的 JavaScript 堆快照，用于进一步分析页面的 JavaScript 对象以及相互之间的引用关系。在我们已经定位了泄漏源的基础上，可以借助该工具查明目标 DOM 被什么 JavaScript 对象持有了引用导致无法被垃圾回收。

而读懂快照的重点在于 Distance 属性，在官方文档中，对 Distance 列的解释是 'displays the distance to the root using the shortest simple path of nodes'。

基于这里的快照，我们可以发现发生泄漏的 DOM 元素的 distance 是 7，点击之后可以反向追溯其到 Root（浏览器环境下为 window 对象）的完整路径。当然，持有该 DOM 元素的路径通常不止一条，我们只需要关注最短的那条即可。基于此，我们可以构建出其对象持有路径。

在分析了多个发生泄漏的 DOM 元素之后，我们最终定位到虚拟列表的父节点的 NE_DAWN_CHILDREN 属性持有了已经被卸载的 DOM 的引用，导致用户只要停留在歌单页面，那么滚动越多内存泄漏得越多。经过内部排查，发现 NE_DAWN_CHILDREN 属性是由埋点 SDK 管理的，其通过 MutationObserver 监听 DOM 元素的挂载并进行记录保存，用于在 DOM 曝光时上报节点路径。但是在 DOM 元素卸载时没有及时地清除相关引用，引发了本次全局性的内存泄漏。

相应地，在处理了埋点 SDK 未及时清除引用的问题后，相比较 3.0 未优化的版本取得了较大的优化效果，对比旧版本在列表各种操作情况下的内存占用也基本对齐，同时，舆情平台上相关客诉也得以大幅减少。

五、Future：后续优化思考（计划）

诚然，通过对上述性能问题进行优化后取得到了显著的优化结果，但是，仍然需要进一步思考是否还有持续优化的空间，因此，下面汇总了 4 个后续我们在关于性能优化相关的思考：

性能监控（防劣化），一方面对于核心业务页面增加 web-vitals 相关的指标监控，保证核心场景功能体验的稳定性。另一方面，对于播放过程增加监控，抽象播放过程关键指标（起播耗时、健康度），保证播放功能的稳定性。
自绘 UI，Hybrid APP 架构虽然具备较高的研发效率，但是对比原生 UI 在体验上限方面是偏低的，所以需要通过自绘渲染引擎（如 Flutter） + DSL（Domain-specific language）的方案来达到兼顾研发效率和体验上限高（提供和原生应用一致的交互体验）的结果
CEF 容器常态化更新，目前使用 CEF 的 Chromium（删减版）版本为 91，版本较为落后，通过保持 CEF 的常态化更新逐步对齐 Chromium 稳定版本来提升容器在渲染流水线、JavaScript 代码解析编译、内存分配等方面的性能
播放流程重新编排，通过对播放流程的重新梳理和优化，如异步化耗时任务（播放列表构造）、延迟更新播放状态等，达成降低播放起播的耗时的结果

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐触达优化实践

2024-04-22T14:41:19+08:00

本文作者：朱明智焦广才

本文主要介绍了云音乐在做用户触达优化过程中的实践与思考。

一、前言

当前市面上APP站外触达用户的手段无非是广告、短信（电话）、通知栏推送几种，而前两种手段都是要花钱的，通知栏推送的基础能力各大服务商基本都是免费提供。

云音乐之前的推送比较乱，业务入口和接入平台也多种多样，维护比较费劲。各方觉得自己的业务需要发推送就提需求接入，但很少关注推送真正的效果如何，且存在业务逐渐无人维护但推送还在发的情况。

而之前推送对我们用户召回和提频的影响收益也没有很好的归因，顶多一些业务会统计推送的点击转化作为收益项，实际上还有大部分因为Push而主动点击应用图标进入的都算作自然增长量了。同时，各安卓厂商却越来越重视通知栏推送的管理，对推送内容和分配限额的控制越来越严。

于是我们对整体的情况做了梳理、管控，以业务结果为导向，通过数据明确了推送带来的价值，对当前通道能力做了进一步优化，取得了显著的效果提升，为我们的用户召回和提频提供了一种成本更低的运营方式。

二、入口整合

"工欲善其事，必先利其器"，前面也提到由于业务入口和产品复杂多样，并且产品服务之间没有将业务、通道两层概念抽象出来，如果我们不先行把这个问题解决掉，后面会一样面对很多问题，重蹈前辙，所以技术侧在这里首先做了一个比较关键的优化--通道拆分。

业务和发送通道的拆分

业务侧聚焦Push、短信、私信的平台能力，比如创意（文案）管理、推送计划管理、位置管理，以及跟业务相关的频控、版本控制、圈人、内容分类、风控等能力；通道侧主要负责维护各厂商协议的统一，用户设备信息的维护等基础服务。

由于当时云音乐的Push产品多，在原有的产品上整改耗时费力，我们就使用Link产品（云音乐投放触达平台）进行投放在线离线整合，因为Push也是针对用户进行投放，和Link现有的能力基本是相通的，比如创意（文案）管理，计划管理，同时可以将Push、短信、私信等概念抽象成位置的概念，这样就具备使用一套投放产品，解决在线和离线投放的能力，正是基于这点，我们在差不多不到一个月的时间快速搭建了Link的离线投放能力。

Link对离线推送的兼容

上面两个步骤对我们接下来的服务平台治理和优化起了至关重要的作用，做好了通道的拆分，等于搭好了基建能力；有了Link的离线投放能力，使得产品整合成为可能。

产品整合就是要将上述的历史产品整合起来，流量统一入口（这里我们在Link产品上集成了Push、短信、私信的推送，使用魔镜进行圈人，使用Link进行投放），产品整合的方式有技术迁移、业务推动、沟通下线等，比如对一些平时用的比较少，通常可能就那么一两个业务在用，尝试通过沟通来推动运营和业务方迁移的方式进行下线，比如个性化Push、批量短信等；也有一些平台由于业务调整后来就不再使用了，比如Ksong的官方账号推送，这种确认后可以直接下线；也有一些产品如启明星平时用的人不多，流量也不大但是业务耦合严重，业务迁移难度大的产品，可以通过技术侧做迁移，对业务侧无感知；最后还有一些产品如北京运营Push平台，诺伦等，还在大量使用，这时候就需要借力于项目的力量，一起出方案推动业务侧做平台迁移。

三、系统优化

如上文所述，当前Push链路整体重新设计分为两部分，上游为Push业务入口，包括计划/文案配置、策略过滤、文案组装、资源优选、圈人；下游为Push通道，主要是对接各推送渠道服务，包括Push设备token的维护、将消息分发给各渠道、采集回执数据等功能。

平台基础能力建设提升

平台基础能力建设是指以云音乐核心的投放触达平台——Link为离线流量入口，复用在线位置流量（启动页、banner等位置）管理的能力，结合外部服务商以及内部业务方管理相关的诉求，建设Push特色的基础能力。

流量分配能力

目前安卓厂商按谷歌 Android O的标准进行通知类别 (channel) 划分，将一些非必要推送消息划分为营销类，并对营销类消息进行每台设备每天的条数限制（一天2条左右，整理如下图），先到先展示。

这就导致通知栏也需要有流量管理分配机制，防止重要的运营消息被不重要的消息抢占。对此，我们做了几个方面的设置。

1.消息按Link的位置通道设置策略管理

将主站通知推送分为两个不同属性的位置：通知类Push和营销类Push。通知栏Push适用私信通知、个人高优的系统通知（如账户、资金等）、或业务常规功能或流程相关的Push提醒，平台不设置频控。营销类Push适用推广应用、内容、活动等，分通道设置频控。

消息内容分类适配厂商分类规范：整理各厂商分类，结合云音乐的推送情况，总结出一份内部推送需要遵循的分类规范，并将其与厂商的分类做映射。使用时，业务方只需在Push计划配置时选择适合的厂商分类即可。同时运营类Push位置只会提供营销类的二级分类，防止选错被厂商处罚。

平台运营通道增加按业务频控能力：平台运营通道对接的业务方较多，有的需求量大有的需求量少，增加分业务频控能力可以帮助对业务使用量的管控。

2.非即时性的通知二次触达

一般通知类型的消息点击率比较高，对日活有较大帮助，而一些非即时性通知可能由于用户错过没看到导致没点击会比较遗憾，因此增加对这些Push二次触达的功能，提升点击。

3.营销Push分人群频控

在优化过程中，对数据分析发现一些喜欢点通知栏消息的用户会经常点击，分析猜测这类用户是对通知栏比较关注且乐于接受推送消息的，因此针对这部分用户开发了分人群频控功能，进行更多推送，以提高活跃度。

个性化Push能力

个性化Push是平台运营侧提出的按每个人的偏好时间推送个性化的资源和文案，每天全量用户推送（共用平台运营通道的频控），增加用户召回和留存。对于平台基础能力要求能按偏好时间分人群发送，配置好所有需要的规则，每个规则对应的资源离线计算好数据和打分，对应的文案线上准备好进行打分，最终由策略经过频控后排序好，提供给Link下发。

Push打开率提升

系统层对APP是否接收通知栏推送有开关设置，用户关闭总开关的情况，具体会分为几种：有的用户完全不想收到通知栏消息，只想当个播放器使用；有的用户只是不想收到营销消息，正常的私信和账户相关信息还是希望收到的，但可能营销信息打扰或者不知道怎么单独关闭导致了全部关闭；还有的用户是希望晚上的时间段不收推送消息，因为担心这段时间被打扰而关了总的开关。为此我们做了两件事：

APP端细化消息接收开关设置，提供免打扰时间段开关
系统设置分出运营消息，端内在用户打开或者有关注艺人等动作时提供浮层引导其打开系统推送权限设置进行设置

对总体打开率有了2个点的提升。

Push通道能力优化

Push通道能力主要是指对接厂商和第三方推送服务的能力，包括推送设备token的上报、绑定、解绑、删除，推送消息的路由分发渠道、曝光点击跳转、埋点回执。我们在此基础上做的优化措施，将原本的消息链路进行精益优化，从而提升整体的发送效率、触达率和点击率。

推送渠道覆盖增加

经过对原先接入的推送渠道覆盖情况分析，发现了一些可以明显帮助触达量提升的地方。

首先是荣耀。开始是发现一些荣耀新设备用户反馈收不到推送消息，然后排查发现荣耀厂商独立后，逐渐完善自己的开发者生态，荣耀的系统推送也和华为做了拆分，新机型开始不再支持华为推送，需要接入荣耀推送。于是我们分析了下荣耀和华为分厂商分品牌的推送触达率情况（如下图，5月份数据）。发现华为厂商荣耀品牌触达率85%以上，符合正常厂商通道触达率效果，而荣耀厂商荣耀品牌触达率则只有20%+，说明大概只有20%+荣耀厂商设备走华为渠道，而其他走了兜底非厂商渠道。而且荣耀设备比重越来越多，官方也开始推进通过系统更新切换为自己的推送渠道。于是我们认为接入荣耀推送渠道是对触达效果提升明显且非常可控的，提高优先级完成了接入。

其次，我们发现一些非主流厂商的设备用小米兜底渠道推送触达率非常高，但小米推送年中开始不再支持非MIUI设备了，于是又拉了这部分厂商数据进行分析（如下图）。发现三星、联想、魅族、努比亚、步步高等设备触达率高，而hinova（华为智选）等比较低。hinova因为是华为智选，是华为的EMUI，比较符合小米推送在非MIUI设备的表现。而其它几个触达率高的品牌结合本人之前逛刷机论坛的经历，猜测大概率应该是刷MIUI的用户量较大导致（云音乐没有采集系统ROM类型数据，无法验证）。

于是这里就看出有很多可以提升的点：

1.原本客户端初始化Push渠道只根据厂商，不根据厂商ROM类型，华米ov之外的安卓全部初始化小米渠道，刚好把刷MIUI的设备给包含进去了，而小米推送6月之后不再对非MIUI设备使用，就必须要识别系统ROM类型，更精细化的将MIUI设备初始化小米渠道，而不只是小米厂商设备初始化小米渠道；

2.华为智选设备占比也较大，具体拉了下兜底渠道的品牌分布（如下图），发现用户占比也不小，如果走华为渠道可以保障和华为设备差不多的触达率；

3.其余设备兜底接入第三方推送服务商，利用其的推送保活机制，比原本非MIUI走小米推送的0.09%的触达率能提升到10%左右，是几十上百倍的提升，我们非主流厂商的设备量也有大几百万，对总体效果也提升很大。

发送失败归因解决

整个推送链路环节较多，每个环节都可能存在失败的因素，比如内部的一些异常、厂商接口的一些限制、设备维度频控等等。我们对每个环节日志记录了较完善的失败原因，如果触达率出现波动，可以分析原因针对性解决（如下图拉取的回执详情归因数据）。

例如，我们归因分析时发现小米厂商接口有频控限制，每日北京运营全量发送时就会触发频控，导致有500万左右设备因此无法触达，于是调研了厂商文档，发现通过其批量发送接口可以在减少接口调用频率的同时不降低发送效率，改为批量发送后就再无服务频控报错导致的衰减。

推送服务商的优质特性支持

推送服务商一般除了提供基础功能外，都会有一些特色功能帮助提升点击效果。如果运用得当，可以较好的帮助我们提升每次推送任务的触达留存转化率。如大图样式，其特殊的展示会更吸引用户的点击，其效果如下图。通知栏位置十分宝贵，能占用的位置越大越有效果，当然也要避免滥用引起用户反感。此类推送样式适合在一些特殊的活动场景，需要有业务运营方设计定制活动大图后使用该能力将大图下发。

推送设备有效性维护

推送设备token是由推送服务商生成，我们关联保存自己的用户ID和设备ID，在推送时由用户ID查到对应的厂商推送设备token进行推送。如果存在大量因卸载、重装导致的无效数据，会导致我们的存储越来越大，推送的效率变低（可能一个用户查出10个设备token只有一个有效能推送），最终的触达率效果也不好，因此需要维护设备库的有效性。

上图是未做完整的有效性维护前的各主流厂商每日用户维度触达率，明显低于实际感受，如oppo触达率远低于vivo触达率，而apple甚至腰斩，而在测试中走厂商渠道推送的设备几乎没有收不到的情况，这基本就是发送的无效设备过多分母过大拉低了整体水平。

目前主要做了两种维护方式，一是根据厂商回执的结果判断设备token是否无效，进行清理；而厂商回执又并不十分全面，存在遗漏的情况，上面的情况就是此种原因导致。于是又做了定时计算清理一年没活跃且近期没曝光的设备。两种手段互补，保障了设备库的有效性。目前到达率准确性基本符合了正常认知，基本主流厂商设备到达率在80~90%。同时也为数据存储节约了40GB左右的资源。而且发送效率也因此变得更快，很多用户绑定的无效设备不需要继续推送浪费服务带宽。

四、策略提升

在阐述具体的分析和优化思路前，我们需要先了解云音乐个性化Push推送的整体逻辑：

对于一个具体的用户来说，当天推送给他的具体文案决策流程分为以下三个步骤：

根据运营设定的具体规则匹配资源，例如捞取用户近30天红心的歌曲列表
每条规则会由运营配置数条创意，使用第一步得到的资源和这些规则下的创意进行组合，可以排列组合得到一系列最终可发的Push内容
对最终可发的Push内容进行一个组合优选，从中挑选出最优质的内容进行推送

其中，组合优选的策略有以下四种：

随机Pick：从所有组合中随机选取一个发送
资源优先：由算法对规则匹配到的所有资源进行打分，选取分数最高的资源推送（创意随机pick）
创意优先：有算法对所有可以发送的创意进行打分，选取分数最高的创意推送（资源随机pick）
资源+创意综合优选：结合2、3的分数进行一定的加权归一计算，最终返回综合得分最高的内容

在初始阶段由于不确定具体策略的效果，所以我们进行了AB实验，为4种策略进行了均匀的分桶

第一阶段优化：文案熟悉度优化

开启全量用户的个性化PushH推送后一周后，我们对第一次创意数据的回流分析，从整体大盘数据上看，配置的所有创意平均点击率并不高，这个数值是低于项目开始前的预期的，于是我们对所有投放的创意按照点击率进行了排名，并进行了深入的分析，很快有了一个新思路，运营罗列的几十个规则都是有着明确的推荐逻辑的，因此可以通过调整创意中的文案，突出这些要素来提升用户对文案的熟悉度。按照此思路优化过后的文案，在分发一周后，大部分优化过后的文案点击率都相比原来的文案要高，有些特定的文案甚至相比原来的文案提高了一倍还多！

第二阶段优化：创意分发策略优化

按照第一阶段的思路对创意进行优化后，我们已经得到了一部分点击率较高的优质创意，但是从大盘上看，个性化Push每日总的点击率和点击用户数却没几乎没有什么增长，于是我们开始了第二轮数据分析和优化

在上一阶段我们的关注点主要集中在创意的点击率上，而忽略了创意的曝光量，通过罗列曝光量，我们很快发现了问题：点击率较差的劣质创意占据了整体曝光的大头，而优质创意虽然点击率较高，但只有很少一部分的曝光，因此整体大盘的点击率和点击总量都非常低。

要解决分发效率的问题，就需要调整推送逻辑中组合优选的策略，上文提到过，在项目启动时，一共设定了四种不同的组合优选策略，分别是随机（用于对照）、创意优先、资源优先以及创意资源综合优先，在实际分发阶段我们也针对这四种优选策略做了AB实验，于是我们拉取了一段时间的AB效果实验数据进行分析。

在连续一周多的时间里，采用了算法优选的分桶（不论是创意还有资源）效果都仅仅是和随机分发策略持平，这显然是不符合预期的，于是我们立刻和相关的算法同学进行链路的排查和优化讨论，很快我们就发现了一系列的问题：

在资源算法的实现上，由于直接复用了私人FM的算法模型，对应的优选方向其实更多关注于“用户可能喜欢”的歌，并且这套模型会更优先向用户推荐比较“新鲜”的歌曲资源，但这个方向却与之前所分析的，用户需要熟悉度更高的资源相违背，因此算法模型应该面向Push场景进行针对性的调整，将用户更为熟悉的资源优选出来。

而在创意算法的实现上，则是发现模型并没有将创意的点击曝光回流数据作为调优的输入，仅仅是根据既有的原始数据集为每个文案评分，因此并没有在Push的场景中发挥出真实的效果，快速推动相关的优化后，AB实验的数据很快便发生了变化：

在完成算法模型的调整后，创意优选的分桶点击数据立刻开始攀升，并且持续明显好于随机对照桶，资源优先的算法分桶在完成调整后，点击数据对比随机桶也有了一定幅度的提升。在经过一段时间的观察分析后，我们判断创意在整个Push链路中对用户的影响因素更大，于是对采用创意优先组合优选策略的分桶进行了扩量，由原来的20%左右调整到了65%，在扩量之后，大盘的点击率和点击量数据很快就发生了变化，点击率提升了近80%。

再观察不同点击率的创意曝光/点击占比分布，可以看出点击率较高的优质创意明显得到了更多的曝光，也带来了更多的点击：

至此第二阶段的分析与优化基本完成，在这一阶段我们借助算法能力对创意的分发策略进行了优化，最终实现了大盘点击率和点击总量的同步增长

第三阶段优化：提升优质创意供给

在完成第二阶段优化后，我们在整个链路上基本实现了优质创意的发掘和流量倾斜，但随着投放时间的增加，我们发现个性化Push整体的点击量存在较为明显的波动，时常会出现一些波峰波谷。

在创意优选的模式下，点击量大盘主要由优质创意带动，于是我们重点下钻分析了头部优质创意的曝光点击行为，结果发现优质创意存在比较明显的头部效应，其中效果最好的3个创意所贡献的点击量在大盘占比已经达到惊人的30%，而由于创意本身存在频控（为了防止用户疲劳，设置为3天一次），所以每当这些头部创意被频控时，整体大盘的点击量就会出现大幅度下降，而当频控结束后，大盘点击量又回快速回升，进而造成了数据上的一个个“波峰波谷”。

出现这种现象的原因归根结底是优质创意供给不足，在整体500多个创意中仅有个位数的优质创意能够带来不错的点击，这些头部创意被频控后系统无法补充同等优质的创意，流量只能流转到相对平庸的普通创意上，造成点击率下跌；更严重的是，仅仅依赖头部个位数的优质创意对整个个性化Push来说是非常不健康的，很容易引起用户的疲劳反感，甚至对长期数据造成不可逆的影响，为此补充优质创意供给势在必行。

在第一阶段我们就以“熟悉度”为方向进行了文案的优化，该阶段优化后的文案点击率虽然有一定提升，但是大部分仍然是属于良好和中等级别的创意，并没有产出足够的优质头部创意。为此我们又对近期点击量贡献最高头部top20创意进行了全面的分析，试图找到优质创意背后的创作思路，进而扩展出更多的优质创意。

通过对头部创意的分析，我们很快发现了一些优质文案的共性，为了协助运营同学能够快速发散生产更多的文案，提升整体供给，我们还结合了时下火热的AIGC技术，通过小样本提示词的方式，从三个不同方向快速生产了上百条候选的新创意，再经由运营二次加工产出最终可用于投放的创意：

在添加了这部分新的创意供给后，每日的曝光趋势有了较为明显的改善，原有的头部创意触发频后依然能够有足够的优质创意进行曝光，并且从持续投放情况来看，在前一日的优质创意曝光后，后一日还可以有其他的优质创意补位，大盘点击量不再仅仅依赖某一个头部创意。

除此之外，在新增加的创意中，还诞生了“爆款”，例如下面这条创意推送之后就得到了非常高的用户点击，拉动大盘的点击总量达到了项目启动以来的峰值：

至此，第三阶段优化基本完成，在这个阶段我们通过分析优质创意的构成，提炼其中的卖点，并通过AI协助生产相似思路的新创意，从而拉动了优质创意的供给，在拉动大盘点击量的同时，也能有效避免用户对Push文案产生疲劳。

优化分析

经过近两个月对个性化Push的创意分析和优化后，我们将个性化Push的整体点击率从项目上线初期的平均提升一倍。在这个过程中，以数据为中心，对创意投放效果的持续观测、下钻分析，以及基于分析结果的进一步决策和优化动作基本构成了一个闭环的模型：

感知阶段：需要丰富全面的数据报表，以及基于各种维度的数据下钻分析；例如创意的整体点击和曝光分布情况、创意中不同动态变量因子（歌曲名、艺人名等）的影响、单个创意对不同人群分层的效果（年龄、地域、活跃度等）
决策阶段：根据上一阶段的数据分析，发现当前投放上存在的问题或潜在的优化点，决定是从哪个方向进行优化调整。决策阶段通常是应用过往调优经验和方法论的沉淀，例如发现创意整体的点击出现较大的头部效应就应该调整供给，发现优质创意的曝光不足则应该调整分发策略；当然也可以进行一些创新性的探索，例如优化创意的表达形态（添加图片等）
行动阶段：根据决策，实际执行具体的动作，例如新增创意、调整算法模型、运营干预分发规则等，在行动阶段往往会需要进行AB实验等操作，在这一阶段往往需要通过优秀的产品机制来降低运营的操作成本。
反馈阶段：全面回收具体行动所产生的投放数据，及时回流到数据报表和数据分析中，从而和感知阶段打通形成闭环。

五、总结与展望

在经过一系列的优化后，整体的转化漏斗提升还是比较明显的（用户数是由于设备有效性维护清理了无效设备而下降的），最终点击用户数几乎翻倍。此外分析师对看到推送直接点桌面应用图标启动的用户增量做了归因，进一步肯定了推送带来的业务价值。

本次优化的链路由入口整合到系统优化再到策略提升，一步一个脚印非常清晰，每一阶段都为后一阶段的优化提供了坚实的基础，这也是项目能取得巨大业务效果的主要因素。经过这次系统性的优化建设，主站的推送从业务价值到链路可以说是已经完全盘活了，展望未来，我们可以在这系统基础和经验模型上，沉淀打磨出一套系统性的、基于数据驱动的运营机制，持续驱动Push的效果提升。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐本地私域数据搜索技术揭秘

2024-04-15T17:11:58+08:00

本文作者: [禾丹、刘杰]

随着用户持续使用云音乐，红心歌曲、收藏歌单、关注艺人等用户私域数据资产也在不断积累，面向私域数据的检索诉求也越来越迫切；本文主要介绍云音乐本地私域数据检索功能的实现方案，包含本地轻量级搜索引擎的技术选型、整体技术方案以及搜索耗时的优化方案。

用户本地私域数据检索

云音乐有着强大的推荐系统，用户在使用云音乐过程中，会通过红心标记喜欢的歌曲，会通过收藏标记感兴趣的歌单专辑，会通过关注持续获取喜爱艺人的信息，这些因用户行为而被关联的资源、状态数据都属于用户自己的私域数据。私域数据会被App在本地记录，然后通过云端在不同的设备上进行数据同步。

随着用户持续使用云音乐，私域数据持续不断积累，私域数据搜索的诉求反馈也越来越多，比如找到自己众多歌单里五月天的歌曲，某首只记得若干关键字的红心歌曲，等等。目前云音乐已通过内置一个轻量级本地搜索引擎实现了该功能，相比由服务端完成用户私域数据检索，返回结果由客户端展示的方案，本地搜索引擎在保护用户数据隐私、节省云端存储成本、降低检索耗时、支持离线搜索上有着天然优势。

本文主要介绍该功能的技术方案，包含本地轻量级搜索引擎的技术选型、整体设计方案、性能优化和总结展望等。

搜索引擎

本地私域数据搜索功能是通过在云音乐内置轻量级全文搜索引擎来实现的，为了更好地描述和理解后续的技术方案，先来回顾下搜索引擎的一些基础知识。

搜索引擎工作流程

搜索引擎主要分为：爬取(Crawl)、解析(Analyze)、索引(Index)、检索(Search)和排序(Rank) 5个阶段。

爬取：即常见的应用实现爬虫程序，爬虫程序以深度或广度的方式扩展搜索web页面，并进行页面元数据的保存；
解析：对爬虫爬取到的数据进行格式化、过滤、重建等处理，复杂的解析器还会进行如标题抽取、摘要生成、关键词提取、内容标签等处理；
索引：索引器对解析处理后的爬取数据进行信息索引表构建，索引表可以帮助搜索引擎快速检索到相关信息，常见的索引建立方式有正排索引、倒排索引等；
检索：当用户键入查询内容(Query)后，搜索引擎会通过自然语言处理技术理解用户Query，对query进行分词，再通过对索引的查找返回Query关联的查询结果，这个阶段也被称为初筛或召回；
排序：在检索结果的基础上，搜索引擎首先会基于算法模型对检索结果进行排序，然后通常会引入用户特征、内容特征等信息对搜索结果进行再排序，以使结果更加符合用户的搜索期望；搜索引擎结果排序通常会包含粗排、精排等多个排序阶段。

全文搜索引擎

全文搜索引擎是目前最广泛应用的主流搜索引擎，面向文本检索，以网页文字为主。全文检索下，当一条文档数据被存储时，解析器与分词器会将该文档数据划分成各自独立的词项，并为每个词项建立一个倒排索引。当进行查询时，查询数据也会被解析器与分词器进行词项划分，然后遍历倒排索引，找到匹配的已存储文档数据，最后基于文档数据与查询条件的相关性进行排序，返回最终查询结果。

轻量级全文搜索引擎方案调研

搜索引擎方案选型

通过对现有搜索引擎方案的调研，基于端侧集成成本考量，最终将引擎方案选定在 NSearch 和 SQLite FTS之间：

NSearch 是云音乐自研的高性能检索引擎，其特性有：
- 融合了搜索系统的信息检索和推荐系统的召回能力；
- 在召回类型上支持关键字查询，文本查询，数字范围查询和向量召回等；
- 召回后按照文本相关性、向量相似性进行排序，并支持自定义排序规则，最终尽可能多的返回正确的结果。
SQLite FTS（Full-text Search）是 SQLite 提供的全文搜索引擎，提供了强大的文本搜索功能，其特性有：
- 支持多列文本数据的全文搜索；
- 使用高效的倒排索引技术，允许快速搜索；
- 支持自然语言查询，可以处理如停用词、词干形式等；
- 支持布尔操作符（AND, OR, NOT）进行复杂搜索；
- 支持简体中文、繁体中文、英语等多种语言的全文搜索；

进行全文检索的核心是建倒排索引，建索引的核心是分词器，分词的效果直接影响了搜索的结果；通过对两套方案的分析，考虑到研发成本和对包大小的影响，若 SQLite FTS 能够很好的支持中文分词，则会是更优选项。

SQLite FTS 介绍

SQLite 作为目前移动端使用最为广泛的嵌入式数据库，SQLite3其实已经内嵌了离线全文搜索的扩展模块——FTS，包含分词解析、倒排索引构建、文本匹配查询等核心功能，并支持分词解析的三方插件扩展。FTS当前已发布了5个版本，现在大部分使用的主要为FTS4、FTS5，FTS5相比FTS4进行了诸多兼容性修复和存储优化，其详细差异参见官方介绍文档：FTS5 与 FTS3/4 的比较。

在实际使用时，FTS可以理解成是一个表，为数据库应用程序提供全文本搜索功能，相比于普通表，FTS其实是种虚拟表模块。基于FTS5的全文检索使用SQL语法，使用时包含以下4个关键步骤（以歌曲检索为例）：

创建信息表，用于存储要被检索的信息，信息扩展可以通过空格字符串拼接来实现；

 // 创建歌曲信息表
 CREATE TABLE IF NOT EXISTS songindex (
     song_idINTEGER PRIMARY KEY,
     name TEXT,
     alias TEXT,
     artist_name TEXT,
     other TEXT
 )

通过关键字 USING fts5 创建一个包含一列或多列的 FTS5 虚拟表；虚拟表创建时，SQLite会在数据库中创建若干个普通表用于存储物理数据，它们被称为影子表（shadow tables）；

 // 创建对应歌曲索引表的fts表
 CREATE VIRTUAL TABLE IF NOT EXISTS songindexfts5 USING fts5 (
     song_id UNINDEXED,
     name,
     alias,
     artist_name,
     other,
     content='songindex',
     content_rowid='song_id',
     tokenize='simple'
 )

通过关键字 TRIGGER 创建FTS虚表更新器，其作用在于，当信息表中的数据发生变化时，FTS虚表会进行同步更新；

 // 使用trigger创建fts表更新器
 CREATE TRIGGER IF NOT EXISTS triggerinsert AFTER INSERT ON songindex 
     BEGIN
         INSERT INTO songindexfts5
         (
             rowid,
             name,
             alias,
             artist_name,
             other
         )
         VALUES
         (
             new.song_id,
             new.name,
             new.alias,
             new.artist_name, 
             new.other
         ); 
     END;

通过关键字 MATCH 检索获取结果

 // 进行全文搜索匹配
 SELECT *  FROM songindexfts5 WHERE songindexfts5 MATCH 'keyword'

更多详情及函数接口参见官方介绍文档：SQLite FTS5 扩展。

分词器

SQLite FTS 内置分词

分词器运行在建索引和查询两个阶段，承担建索引分词和查询分词，是FTS的核心，没有分词器模块，FTS就没法工作；例如一段文本“网易云音乐”,可能被拆分为“网易、云音乐”，也可能本拆分为“网、易、云、音、乐”，最终检索结果也完全取决于分词器的拆分。

SQLite也提供了相关分词器插件，比如simple、icu、unicode61等，只有icu、unicode61支持中文；但unicode61按标点拆分，不可用；icu是按字拆分的，可以用，但检索结果比较乱，不符合中文检索的习惯和诉求，中文检索需要能够支持字、字组、词、拼音、拼音首字母缩写等检索。

三方分词插件simple

simple是微信开源的一个支持中文和拼音的SQLite FTS5 三方分词插件，在其原有中文分字能力上，支持通过cppjieba 实现更精准的词组匹配。更多实现原理和细节可参考其开源介绍：simple: 一个支持中文和拼音搜索的 sqlite fts5插件。

simple分词处理

检索分词

空白符跳过不处理；
连续的数字被当作整体，转换为一个索引；
连续的英文字母被当作整体，并转换成小写索引；
中文字单独建索引，并会对中文字拼音也建搜索，这样就能同时支持中文和拼音检索；另外拼音首字母也会建索引，这样搜索 "zjl" 就能命中 "周杰伦"；
其他字符统一单独建索引，也可以被搜索到；

查询分词

如果查数字，要把搜索词当作前缀来用，比如用户搜索 123， query 就需要换成 123*，这样如果索引里面有 12345 也能被搜索出来；
对于英文，除了要当作前缀，还需要把搜索词转成小写，比如用护搜索 Hello，query 就需要换成 hello*, 这样如果索引里面有 HelloWorld 也能被命中；
对于中文和其他字符，都要拆成单个的才能命中索引；
对于拼音（其实我们没办法区分英文和拼音，统一当作拼音处理就行），需要把拼音按照规则拆分，因为我们的拼音索引是单字建立的;这样如果用户搜索 "zhangliangy"，拼音就可以被拆成 'zhang AND liang AND y*'，从而命中"张靓颖”；

基于simple的检索效果测试

simple能够很好的支持 字、字组、词、拼音、拼音首字母缩写 等检索。

测试数据

100条云音乐单曲数据
每条数据包含7个字段：ID, Name, ArtistName, AlbumName, Alias, ArtistAlias, AlbumAlias;
100条数据DB大小约为128KB，按照线性评估，1w条数据大约12MB左右；

测试结果

ICU 和 simple 分词插件效果比对

simple在中文检索上效果要远好于 ICU，更符合中文检索习惯。

测试数据

songName = "三里屯的夜"
albumName = "署前街少年"
artistName = "赵雷"

测试结果

综上调研分析可知，SQLite3 FTS5 + Simple 分词插件 是本地全文搜索引擎的最佳方案。

云音乐本地私域搜索设计方案

产品设计上，功能入口基于主搜页面做扩展，当用户输入搜索query触发云端搜索时，会同步进行本地私域数据搜索；本地搜索可搜索内容包含用户创建/收藏歌单、红心歌曲、订阅艺人、已购专辑、最近收听数据。

技术方案

客户端内置一个轻量级全文搜索引擎进行数据检索，考量到排序策略需要不断迭代调优，对灵活性和动态性要求较高，基于云音乐跨端基建考量，排序跨端选型JS来实现，检索结果通过JS执行排序并返回最终展示结果给客户端做渲染展示。整体方案如下图所示。

轻量级搜索引擎
- 基于 SQLite3 FTS5 + simple分词插件实现；
索引更新时机
- 版本第一次启动和用户发生内容消费行为，如播放、红心、收藏等；
关联检索和模糊检索
- simple分词器不支持Query的关联分析和纠错，因而本地搜索引擎也就不具备关联检索和模糊检索的能力；
- 但可以通过向服务端发送Query修正请求来实现，服务端返回关联query和纠错后的Query，再交由本地搜索引擎进行文本匹配检索；
结果排序
- 结果排序包含 2 轮排序逻辑运算；
- 第一轮排序，计算文本匹配分，按照匹配度降序排列；
- 第二轮排序，基于文本匹配排序，计算用户行为（红心、收藏、收听次数等）加权分，得到最终排序结果；

性能优化

搜索耗时是用户搜索体验和内容消费的关键影响指标，耗时越少，用户体验越好。

耗时分析

通过对搜索过程每个步骤环节的耗时分析（各步骤的耗时统计见下图），发现高耗时主要集中在以下3个环节：

检索结果的资源数据组装（1w条数据约 3000+ms）；
JS与Native的数据传输（1w条数据约 1600+ms）；
JS排序时的文本匹配度计算（当query长度在6个中文字符时，1w条数据约 230ms）；

资源数据组装耗时优化

资源数组组装耗时主要来自 SQLite查询串行执行、资源数据反序列化。优化方案上，根据实际业务逻辑，将SQL查询优化为多线程并发执行，并延迟数据反序列化时机到展示时执行。

优化后，复测 7k 条数据耗时由 2400+ms 下降到 810ms 左右（基于xiaomi8测试）。

JS数据传输耗时优化

客户端本地通过内置的JS脚本实现搜索结果排序，该JS脚本可动态发布更新。 JS在与Native代码函数进行数据通信时，以Android系统为例，需要将java线程切换到native线程再切换到js线程，并且一次完整的流程上存在4次的线程切换以及4次的内存拷贝的情况。

针对这个问题，采用 JNI 和 C 调用 JSC 引擎来提升通信效率，方案落地细节参见文章 Android本地搜索优化，iOS优化思路一样，这里就不做过多论述。

优化后，本地检索JS数据传输耗时大幅度降低，复测 1w 条数据耗时由 1400+ms 下降到 310ms 左右（基于iPhoneX测试）。

文本匹配度计算耗时优化

SQlite FTS提供了bm25()函数来做文本匹配度计算，在返回检索结果的同时返回文本匹配值，可以替代JS脚本的文本匹配计算，继续减少耗时。

BM25 算法

BM25是信息索引领域用来计算query与文档相似度得分的经典算法。算法原理简单概括描述起来，就是先对搜索词query进行切分得到一组单词，然后求和每个单词的相关性得分，就得到了query和文档之间的分数，单词的相关性得分由三部分组成：

单词和文档的相关性
单词和query的相关性
单词权重

BM25算法公式如下图，详细介绍可参考文档 bm25算法介绍。

调用SQL

 // 在进行全文搜索匹配时调用，bm25()函数可以将查询结果按照字符匹配度进行排序
 SELECT *, bm25(songindexfts5) as BM FROM songindexfts5
    WHERE songindexfts5 MATCH 'keyword'
    ORDER BY bm25(songindexfts5)

优化结果

通过上述优化方案，总检索耗时下降了 75%，检索耗时的优化也有效促进了搜索业务指标的提升，通过将本地搜索结果展示数量由 1000条 提升至 4000条，结果有效点击率提升了 13%, 人均播放时长也提升了 17s。

优化前：1s 内可完成的检索数据量约在 1000条，8000条数据检索耗时在 5800 ms；
优化后：1s 内可完成的检索数据量约在 4000条，1w条数据检索耗时在 2600 ms；

优化后的各阶段耗时统计参见下图：

从图中可以看出，资源数据组装成为优化后的最大耗时占用，后续我们将持续进行拆解分析，优化数据查询耗时和JS数据传输耗时。

总结展望

本文详细介绍了云音乐本地轻量级搜索引擎的技术实现方案和耗时优化方案，通过在云音乐私域数据搜索中的落地运用，对其技术能力和业务能力进行了有效验证。未来将通过自研分词器进一步优化分词效果提升检索准确性，优化SQLite数据查询耗时和JS数据传输效率进一步缩短检索耗时，并推进落地更多的业务场景，为用户提供更好更准确的检索服务。

受限于自身能力，文中如有不足之处还请大家斧正，欢迎一起学习交流。

参考文档

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

Corona技术专题-网易云音乐大前端性能监控服务的设计与实现

2024-04-11T10:56:49+08:00

本文作者: kkdev163

Corona 技术专题系列文章:

一. 前言

2022年，结合业务侧的体验治理诉求，云音乐公技团队与大前端业务团队快速从 0 到 1 搭建了大前端性能监控服务，覆盖了 20+ 个监控场景，100+ 个监控看板。目前服务已在业务中经历过1年多的落地、打磨，本文将对平台侧的设计与实现做一次回顾总结。

经典的性能监控数据处理链路可以分为以下几个环节: 端侧 SDK 日志采集上报 -> 日志传输 -> 数据消费建模入库 -> 数据可视化分析。

本文会聚焦介绍「数据消费建模入库」到「数据可视化分析」的设计与实现，不涉及端侧数据采集 SDK 的部分。

二. 技术架构概览

在整体技术架构选型中，时序数据库的选择是重中之重，因为它是连接数据消费入库、数据可视化分析的关键一环。时序数据库的选择决定了整体架构的数据写入策略、吞吐量、表结构设计、数据分析方法、数据查询效率等等。

鉴于过往使用 InfluxDB 遇到的痛点以及业务侧对分位数统计、多维实时分析等场景的诉求，经过调研后我们选择了 ClickHouse 作为存储数据库。ClickHouse 经过一年多在业务中的验证，很好地满足了云音乐的性能分析诉求。更多关于时序数据库的对比介绍可以参考笔者的这篇文章: 《Corona技术专题-时序数据分析》。

在大前端性能监控服务从 0 到 1 的快速建设期，团队规划建设覆盖 5 个端，20+ 个监控指标项。

平台侧如何在有限的时间、人力条件下快速完成平台基础能力建设并完成众多指标的数据消费建模、分析看板搭建，是笔者在做技术架构设计时遇到的另一个重要命题。

为了应对上述的挑战，在数据消费建模阶段笔者设计了在线配置化的数据消费建模服务。在数据可视化分析阶段，笔者抽象设计了3种衡量型看板、6种过程分析型看板，在搭建可视化页面时，只需声明式地使用 Schema 描述页面所需的看板，即可快速完成可视化分析页面的搭建。

三. 在线配置化的数据消费服务

3.1 数据消费服务的主要工作

我们首先来介绍下数据消费服务的主要工作，我们以客户端冷启动监控为例，以下是一条简化的客户端上报日志:

{
  "props": {
    "mspm": "NativeApplication",
    "category": "Perf",
    "type": "coldBoot",
    "coldBootDataType": "000",
    "coldBootData": [{
      "name": "LAUNCH",
      "during": 800,
      "module": [{
        "name": "initNetwork",
        "during": 21
      }, {
        "name": "initNavigator",
        "during": 6
      }, ...
      ]
    }, {
      "name": "MAIN_PAGE",
      "during": 100,
      "module": [...]
    }],
    "brand": "Apple",
    "model": "iphone13,4",
    "appname": "music",
  },
  "os": "iphone",
  "osver": "15.5",
  "appver": "9.0.25",
  "buildver": "4742",
  "logtime": 1711958766,
}

其中 props.type 是区分不同监控项的唯一标识。如 coldBoot 代表客户端冷启动监控项。这条日志中会带有此监控项的特征字段，如 props.coldBootDataType 用来区分不同的启动类型，props.coldBootData 包含了冷启动中各阶段和子模块的详细耗时数据。其他字段如 os、osver 等为所有监控项都会带有的通用字段。

针对这条客户端上报的冷启动日志，业务上可能会有如下的分析诉求:

分析整体启动耗时(LAUNCH + MAIN_PAGE) 的平均值、P50、P90 耗时。
分析单独阶段如 LAUNCH 的平均值、P50、P90 耗时。
分析单独模块如 initNetwork 的平均值、P50、P90 耗时。

为了满足以上分析诉求，在数据消费服务层，会将一条原始日志转换为多条适合查询分析的数据库记录如:

[
  {
    "table": "cold_boot_multi_stage",  // 多阶段汇总表
    "row": {
      "stageName": "LAUNCH,MAIN_PAGE",
      "stageCost": "900",
      "coldBootDataType": "000",
      "appName": "music",
      "appVersion": "9.0.25",
      // 省略其他字段
    }
  },
  {
    "table": "cold_boot_stage",   // 单阶段表
    "row": {
      "stageName": "LAUNCH",
      "stageCost": 800,
      // 省略其他字段
    }
  },
  {
    "table": "cold_boot_stage",  // 单阶段表
    "row": {
      "stageName": "MAIN_PAGE",
      "stageCost": 100,
      // 省略其他字段
    }
  },
  {
    "table": "cold_boot_module",  // 单模块表
    "row": {
      "stageName": "MAIN_PAGE",
      "moduleName": "initNetwork",
      "moduleCost": 21
      // 省略其他字段
    }
  },
  // ... 省略其他模块耗时
]

接着数据消费服务会将转换后的数据库记录批量写入数据库中。

所以如下图所示，总体来说数据消费服务做的主要工作是:

针对不同监控项，校验上报数据的合法性，过滤异常数据，如针对冷启动监控，需要剔除耗时超过 xx 分钟的异常数据。
对上报日志进行转换，将原始上报日志，转换为适合查询分析的多条数据库记录。
将转换后的数据库记录批量写入数据库中。

3.2 建设在线配置式的数据消费服务的背景

数据消费服务，在接入一个新增的客户端监控场景时，常规的做法需要经过以下几个开发步骤:

根据与客户端约定的日志格式， Mock 日志的上报
在代码库中新增一个消费 Service，订阅新的日志类型
在 Service 中，编写数据的有效性校验、过滤、字段转换代码
在代码库中，编写转换后的数据库模型 Schema
编写数据库建表的 SQL 语句
手动登录数据库，做数据库的表结构变更
将开发好的 Service 代码通过部署系统发布上线

如果后续遇到监控项有新增字段，步骤 3~7 需要反复地进行。这样的开发方式在应对一两个监控指标时还能接受，但面对 20+ 个监控指标的建设需求时，显然会占用大量开发时间、并且人工操作数据库也容易出现疏漏。为此笔者对数据消费服务进行了在线配置化的改造升级，改造后整体的开发步骤变为:

消费服务会自动探测新增的上报指标，可指定规则，采集样例日志
基于线上样例日志, 在线编写数据的校验、转换代码
通过在线勾选，完成数据库建模，并一键完成表结构变更
在线实时发布

经过改造升级后，新指标的数据消费、建模的关键步骤缩减至只有1步，即在线编写数据的校验、转换代码。

3.3 升级后的开发演示

1.自动探测新增的上报日志类型:

点击编辑可进入消费者配置详情页。

2.查看采集样例日志 & 设置采集规则

3.编写日志转换逻辑

4.配置数据库 Schema

通过转换后的数据结构，可自动推断出 ClickHouse 表结构，开发者只需勾选确认即可:

保存后，会出现「创建数据库」一键建表按钮，建表后点击推送配置，即可完成新增数据源的消费逻辑。

经过在线配置升级后，极大地提高了数据消费逻辑的开发效率，同时通过一键建表，数据校验(转换得到的数据与 Schema、Schema 与数据库表结构之间的双向校验)等机制避免了人工操作数据库带来的风险。下图为引入在线配置后的数据消费流程图:

3.4 数据消费服务的可观测性建设

为了确保消费服务本身的稳定性，笔者也在服务开发过程中，设计了关键埋点。上报埋点通过 Grafana 可搭建出消费服务自身的可观测性看板，以下是一些看板示例:

其中比较关键的指标是消费延时，它可以用来度量数据消费服务目前的资源(如pod数)是否合理，若 pod 数过少，则 Kafka 日志会出现堆积，该指标的数值会上涨，开发者在查询最新日志时，延迟会变高。笔者针对这类关键指标也配置了告警，当日志出现堆积时，能及时响应处理。

四. 数据可视化服务

4.1 设计基于 Schema 报表搭建能力的背景

在常规的做法下，开发一个新增的监控场景页面，每次都需要经过以下几个步骤:

页面交互设计；梳理拆分前端组件、后端接口。
开发新指标的后端数据分析接口
封装新指标的看板组件（调用新指标的数据分析接口、前端图表展示适配）
将多个新增看板组件，组装成页面

如果沿用此开发模式，将无法承载如此多的监控指标接入诉求，为此笔者抽象设计了基于 Schema 的报表搭建能力。具体的做法是

通用业务看板抽象(3种衡量型看板、6种分析型看板)
前后端一体化的看板组件封装

在开发具体指标的监控页面时，只需编写页面看板的 Schema (描述需要的看板、查询的表)即可。

此过程本质上是通过极致的抽象封装，达到高度的复用，降低开发成本。

4.2 3种衡量型看板、6种过程分析型看板介绍

每个监控页，会包含 1 个多维组合筛选器、1 个衡量型指标看板、多个过程分析型看板。

4.2.1 3种衡量型看板

衡量型指标看板为该场景下的首个看板，用于量化该场景的性能，同时根据该看板下指标的涨跌衡量该场景的优化结果；
该看板下指标的升降需要与用户的实际体验有正相关，对开发者进行性能优化有正向指引作用。平台抽象了 3 种衡量型指标：

1.数值型

看板作用: 数值型指标可统计出样本的平均值、分位值(P50、P75、P90) 的走势。分位值含义为: 将性能样本数据从低到高排序，第百分之 X 个的样本性能值作为该指标的 X 分位值。 P50 可用于衡量中位数性能，P90 可用于衡量长尾用户的性能。

适用场景举例: 如 FPS 值大小、内存大小等

2.生命周期型

看板作用: 是数值型指标的一种特例，开发者需要同时关注整体耗时与多个子阶段的耗时。
适用场景举例: 冷启动耗时、音频起播耗时。

3.样本量比值型

看板作用: 样本量比值型的计算公式为 X样本量 / Y样本量。由于计算公式为样本量的比值，所以不具有平均值、分位数的统计意义。

适用指标场景举例: 非正常关闭率、音频播放错误率等

4.2.2 6种过程型分析看板

过程型分析看板用于对衡量型指标的波动做解构、归因分析。是面向开发者的，用于辅助发现问题。一个场景下会提供多个过程型分析看板。

平台目前设计了 6 种过程分析型看板：

多维对比-走势图看板
性能分档占比-走势图
维度占比率-走势图
维度分布排序图
指标值-正态分布图
特征维度聚合-Top列表

1.多维对比-走势图看板

看板作用: 用于对比分析不同维度值的性能走势差异，可用于性能变化的归因分析。选择「对比维度」和「维度值」后，看板将展示多条「维度值」的变化趋势。

场景举例: 举例来说，我们可以选择对比机型维度，并选择不同档位的机型，分析不同档位机型下的性能差异。

我们也可以选择「应用版本」维度，并勾选样本量最大的几个应用版本，分析是否是由于某个迭代版本的性能变化，引起了整体性能的变化。

2.性能分档占比-走势图

看板作用: 对性能数据做分档，查看不同分档的占比趋势。可用于评估不同档位的变化情况。

场景举例: 如页面启动场景，可将耗时在 0~500ms 归为「好」，500~1500ms 归为「中」，1500ms 以上归为「差」。

3.维度占比率-走势图

看板作用: 提供维度值占比率的变化趋势，可用于归因分析。

场景举例: 以RN场景举例，该场景包含特征维度：『资源加载方式』、『API预加载是否命中』。

当『页面渲染耗时』指标升高时，开发者可通过该看板，分析出是由于资源加载走网络的占比升高，导致了
『页面渲染耗时』的升高。

「API预加载命中率」= API预加载维度值中命中次数 / 总次数

4.维度分布排序图

看板作用: 总览性地对比不同维度下的采集量、性能差异。

场景举例: 如播放卡顿场景可以总览性地了解在哪些机型、版本下分布较高

5.样本值-正态分布图

看板作用: 精细化分析性能数据的分布情况

场景举例: 如下例可看出耗时区间在 450-500 ms 的样本量和样本占比率，意味着 10% 的用户在 450 ~ 500 ms 之间打开页面。累加占比的含义为 0 ~ 500 区间的样本量占比为 80%, 意味着 80% 的用户可以在 500ms 以内打开页面。

6.特征维度聚合-Top列表

看板作用: 按某个特征维度聚合，查看性能概览、排序、走势。

场景举例: 以页面维度做聚合，对比不同页面的样本量、性能差异，并可按样本量、性能做排序。

4.3 页面开发过程

通过抽象后，我们来看搭建一个如下复杂度的报表(客户端-页面启动监控)所需的开发成本:

这个页面包括一个头部筛选器一个数值型的衡量看板:

维度对比走势看板、样本值分布图看板:

维度值分布看板、页面维度的详情看板:

开发这样复杂度的页面过程:

声明报表需要的头部筛选器
filterItems 中的每一个 key 会映射至后端数据源。

声明报表对应的数据源
通过数据源声明查询的表，统计的字段，查询的固定条件(会组合上筛选器条件)等。

声明需要的看板
通过 graphType 声明所需的看板类型，apiParams 关联后端数据源。

将配置传入 Schema 容器

经过以上声明式的描述，我们快速完成了前端页面搭建。笔者在开发过程中实测，在开发客户端-页面启动监控项时，从数据消费建模到可视化报表呈现整体仅用了 1 个小时的时间。

4.4 智能分析的初步尝试

在提供丰富的报表供业务分析外，云音乐在智能辅助分析方面也做了初步的探索，如业务发现某个 ReactNative 应用未达到基线时
，除了通过手动地调整头部筛选器进行逐个维度的下钻分析，或是通过过程分析型看板分析外。
开发者也可通过辅助分析功能，进行快速归因分析。

平台会通过分析树的方式，从整体维度进行拆解，展示不同维度的样本量、是否通过基线情况，辅助开发者快速判断出劣化的维度。

4.5 可视化服务的可观测性建设

同样为了保障可视化服务本身的稳定性，笔者也在开发过程中设计了关键埋点。包括:

整体的慢查询:

分表的慢查询:

五. 总结

本文主要介绍了云音乐大前端性能监控服务在从 0 到 1 快速搭建期的整体设计与实现。重点介绍了配置式在线消费建模服务与基于 Schema 的报表搭建能力。
目前云音乐大前端性能监控服务在云⾳乐的⽤户性能优化、防劣化治理、发版决策等研发活动中承担着关键作⽤。未来云音乐也会在智能分析方向上持续发力，为开发者提供出更易用的辅助分析功能，降低开发者的数据分析门槛。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

我理解的测试左移

2024-04-01T10:45:21+08:00

本文作者: [阳际荣(韩锷)]

随着行业的发展，目前大部分公司都会追求更高的开发测试比，在更高的开发测试比的前提下，质量团队应该做什么保障质量效果更好是一个质量团队长期需要思考的问题，本文主要介绍我对网易云音乐测试左移的理解。

测试左移是什么

传统的测试左移

简单说，左移软件测试就是将开发周期看作从左到右的一条直线。
在旧模式中，测试仅在这条直线的最右边发挥作用。认识到这一瓶颈，我们现在希望将测试的开始位置尽量左移。
左移是在软件交付过程中尽早发现和防止缺陷的一种实践方法，目的是尽量在软件开发生命周期中尽早将测试任务左移，以提高产品质量。左移测试意味着在软件开发过程的早期阶段进行测试。

测试左移的优缺点

测试左移理论上的优点：

成本本身就是将测试左移的主要动机之一，据估算，超过一半的软件缺陷可以在需求挖掘阶段被发现，只有不到10%的缺陷出现在生命周期的开发阶段，在产品投入生产后消除缺陷的成本将是需求挖掘阶段的100倍以上
更高的自动化效率，左移可以提高自动测试的能力。测试自动化的主要好处包括：显著减少人为错误、扩展测试范围（可以同时进行多个测试）、测试人员能够专注于更有趣、更有意义的任务、减少生产问题
更快的软件交付效率越早发现缺陷、越能快速修复它们。如果您能在生产周期的早期发现缺陷，便可以更快地修复它们。从而：大大缩短两次产品发布之间的时间间隔，提高软件质量

测试左移理论上的缺点：

极高的测试基建要求，测试左移对代码扫描、质量度量、接口用例自动化、完善的测试用例、数据工厂、测试环境等都有较高要求，需要在具有一定基建能力下才能完善测试左移
很多团队所处的生命周期不适用，对于初创团队、创新团队、快速迭代团队等团队不一定适用于测试左移，上述团队在绝大部分
容忍度较高的互联网行业，对于部分用户体感不通的互联网业务，用户能够容忍小的问题上线，只要快速修复即可，该业务有时候大家更加看重的是快速发现问题，而不是在线下做到尽善尽美

云音乐测试左移的痛点

开发以为：

测试左移完全是工作的转移，变成了纯是开发做测试

测试以为：
测试左移，工作全是开发的，但是出问题测试也都要担责

当我们讨论这个痛点之前，我们一定绕不过去的一个问题就是：开发测试比，目前的测试左移是我们主动选择的结果还是被动选择的结果

结论：以目前云音乐的开发测试比，我们很难完全支持所有业务，此处涉及组织敏感数据，细节不在此处展开

行业内会是什么样

局部的测试左移：

极致服务端录制回放 https://help.aliyun.com/document_detail/62635.html
导购、交易特色录制回放方案
封版模式，服务端开发自测，同时通过客户端测试兜底

我期望的测试左移是什么

<img src= "https://p6.music.126.net/obj/wonDlsKUwrLClGjCm8Kx/34524697896/8e67/7374/1b14/c114114d0a715d9ce29d65dbbdf6caa0.png">

理想的测试左移：

事前

技术方案评审
核心p0、p1的接口自动化
场景自动化录制回放
特定场景的UI自动化

事中

中心化的客户端卡口（crash、舆情中心化卡口、高危组件识别兜底、包产物检查等）
P0场景回归兜底（约1000个测试用例）
P1场景回归兜底（约3000个测试用例）
核心财报埋点卡口兜底

事后

强大的染色能力，重点项目的上线，相关功能逐步灰度上线，灰度的功能能够全量隔离并单独监控，比如针对改动功能用户的舆情、crash等能单独识别
强大的中心化crash、舆情、slo监控处理群
资损监控

通过事前、事中、事后的方式，显著的提升确定性、提高质量，同时也能减少测试左移，研发的体感，避免工作量的转移

测试用例自动化的完善

进一步的覆盖率提升

测试左移一定需要具有强大的自动化用例，通过稳定、准确、覆盖率高的自动化测试用例提高整体线下质量。这里涉及到服务端测试用例与客户端测试用例，目前根据业界自动化成熟度在服务端自动化要求会更加高，需要涉及绝大部分场景，客户端这块主要用于稳定性自动化与核心用例回归兜底

服务端自动化提升

目前从行业内技术发展看，服务端的自动化技术已经较成熟，不管是接口测试还是引流自动化，服务端自动化具有几个优点

稳定性高，在接口不大规模改动的前提下，服务端自动化在执行过程中有较高的成功率
成本相对较低，接口自动化主要是rpc接口的请求以及返回值的教研，通过gotest等接口测试平台，编写服务端自动化的成本相对较低，通过引流回放的成本更低
较好管理，服务端接口的用例基本以研发接口为主，整体用例场景较好管理

首先是服务端测试用例的提升，平台这块主要希望服用gotest接口测试平台，核心2个关键次：稳定、覆盖率高

针对稳定，周维度跟进，连续两周稳定性不达标，@对应质量组长跟进，并提醒改进
针对覆盖率，中心化度量覆盖率，通过分析ox平台和goapi平台的接口数，并将各业务存量接口未导入goAPI的集中导入

最终期望
3分：服务端线下接口覆盖率达到95%，CI用例通过率95%；代码覆盖率：50%
5分：服务端线下接口覆盖率达到99%，CI用例通过率99%；代码覆盖率：60%；

服务端自动化长远方案：加强引流平台的建设，通过线上流量录制回放，并做好线上流量的用例、场景管理，进一步减少自动化用例成本

客户端自动化提升

目前从行业内技术发展看，客户端的自动化技术相对还需要突破，行业内经常听说某团队维护几万的服务端自动化脚本，但是很少听说某团队维护超过1000以上的客户端脚本，客户端自动化具有以下特点：

具有明显的中心化特征，不管是什么团队，最终客户端代码的实现都是通过中心化发版来上线，因此非常适合集中做monkey、内存泄漏等中心化稳定性操作
自动化稳定性相对不高，维护成本相对较高，因为前端UI界面变化较块，客户端脚本成功率普遍显著低于服务端

客户端中短期方案：

中心化的monkey、内存泄漏测试，通过中心化运作，通过monkey、内存泄漏等方案，集中发现问题
中心化的P0测试用例回归，测试用例不追求大而全，保障核心场景自动化没问题
长期方案：目前行业内针对瀑布流、自定义动态生成有较好的客户端成功率

瀑布流场景：

瀑布流场景用户操作简单，核心功能主要为上滑与下滑，自动化运行简单，可以通过UI自动化执行上滑下滑，然后通过截图，图像对比进行校验，成功率较高，即使是千人千面也可以通过mock规避相关个性化问题，因此后续涉及瀑布流场景建议UI自动化突破

自定义动态生成场景：

自定义动态下发场景，客户端最终的界面是通过服务端约定协议自动生成的，因此只要和客户端引擎、协议打通，最终的界面是确定的，UI自动化可以针对协议编写自动化脚本，稳定性方面可以极大的规避之前UI界面变动导致的成功率较低的问题

强大的客户端卡口能力

客户端是绝大部分功能上线交付消费者的中心节点，集中做好客户端的功能保障，在很大程度上能形成中心化的兜底，规避较多的重大问题。因此云音乐主要在测试用例三层兜底、版本流程发布管控上做了较大投入

版本发布三层兜底

云音乐客户端版本版本发布设定三层兜底，首先是P00用例，只出为最核心的关键用例集，只要在涉及到发布，包产物有变动，都需要执行一次关键核心用例集

然后是P0用例，大概1000条左右，按照正常冻结集成时间，一天内执行完，主要包含日常回归的主要用例，每个模块的主流程

最后是P1用例，大概3000条左右，主要包含每个模块其他额外的分支场景，该用例需要执行3天，且不需要考虑用户有修改代码，每次只执行一次

通过三层兜底，我们客户端实现了核心功能只要改动都做好了回归，分之场景一定周期也能做到全量回归，通过分级做到了成本与回归面的统一

版本流程优化

通过版本发布的checklist流程化，保障每次包的发出，不会出现较大的问题，让每次包产物的变化得到性能、功能、埋点、稳定性等方面的验证

强大的监控能力

当前面所有的测试、兜底都完成后，还是会有问题泄漏，因此我们也需要有良好的问题发现能力，避免质量显著下降

事前-监控设计

我们希望重点项目上线前默认都是有监控的，带着监控上线的功能才更加具有确定性

服务端系统需要关注：

GoAPI巡检监控
SLO监控
pylon 埋点监控
哨兵监控
Nydus监控 / Kafka监控
NDC监控
舆情监控

前端监控需要关注：

Corona监控
舆情监控
H5巡检监控
RN巡检监控

同时发布要分批次，并做好分批次监控观察

事中-重点项目染色

1、重点项目-关联标记（项目自定义标记，自定义流量标记x-proj-tag）

2、服务端链路监控告警区分：大前端请求API透传标记+网关请求流量打标+脚手架中间件透传标记+应用日志监控SDK上报流量标记+监控平台通过流量标记区分监控告警内容

3、客户端监控告警区分：大前端日志异常和崩溃上报带上业务自定义标记

事后-中心化监控处理

监控的效果需要可被观测，因此分级的重要的报警都会被集中到中心化群里被所有人观测，提高处理者处理的压力和动力

结语

以上就是我对测试左移的一些理解，也包含了挺多测试右移的思想。主要适用于风险适中的业务，对涉及资金类、电商核心流程等需要谨慎看待

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐会员支付链路优化实践

2024-03-20T10:38:56+08:00

本文作者：周伟夏银竹李昂武鹏

支付链路整体承载了云音乐业务的主要交易流量。随着营收业务的快速增长，链路整体的复杂性持续提升的同时，也带来稳定性与支付效率的压力。2023年，我们以专项的方式对支付链路的各个环节尝试了不同方式的优化方案，并取得了一些核心指标增长的优化结果。本文主要介绍云音乐会员团队在支付链路优化上所做的一些解决方案和思路。

业务背景

支付链路，从用户进入支付触点开始到订单支付完成、履约结束，整体承载了云音乐业务的主要交易流量，涵盖会员、数专、商城等多种业务场景以及支付宝、微信、抖音等各类支付渠道与支付方式。随着营收业务的快速增长，链路整体的复杂性持续提升的同时，也带来稳定性与支付效率的压力。

2023年，我们以专项的方式对支付链路的各个环节尝试了不同方式的优化方案，并取得了一些核心指标增长的优化结果。本文主要介绍云音乐会员团队在支付链路优化上所做的一些解决方案和思路。

优化总览

完整的支付链路包含引导用户购买的支付触点、不同形态和意图的收银台、承载营销和商品信息的订单服务、三方支付的渠道以及支付结束后的履约和挽留。支付链路是个巨大的流量漏斗，每个环节都有一定的用户流失，如收银台的到达率影响用户流入，下单链路复杂的流量流失以及各类原因的支付失败等。

我们建立了全链路的支付漏斗监控，并针对重要环节的流失问题进行了精细化的分析。期间也选取了一些关键指标和扩展因子，如支付成功率、错误占比、支付应用安装情况、手机厂商信息、阶段性支付数据等共同组成了支付大盘。

最终，我们选取了支付链路的一些环节，并针对流失问题采取了不同的策略和工具集，如下图所示：

收银台性能优化

收银台页面是用户购买的核心场景，页面的曝光量与订单的成交量呈显著正相关。因此有必要优化页面加载体验，减少页面加载耗时，增加页面曝光量，从而提升最终转化的订单量。

页面性能分析

目前云音乐的核心收银台均为 RN 页面，完整的 RN 应用加载流程中如下图所示，可以划分成三个阶段：白屏阶段、页面首帧（FCP）阶段、页面内容可见（LCP）阶段。
性能优化的目的是尽可能地减少 LCP 的加载耗时，让用户可以尽早地看到完整的页面。
因此，可以根据 RN 应用的加载特性，逐个阶段进行优化，从而缩小整体的加载耗时。下图展示了一些通用的优化手段。

优化结果

技术指标
- FCP到达率：+1.37pt
- LCP到达率：+3.66pt
- FMP加载耗时：-800ms
业务指标
- 购买UV：+8.54%
- SKU曝光率：+8.26%
- 转化率：+0.08%

数据来源于多种手段优化后的收银台A

通用优化手段

主进程加载 - Android

默认的RN页面运行于按需加载的 broswer 进程，进程的 fork、初始化以及加载会额外带来约数百毫秒的开销，其中低端机耗时更明显。由于收银台页面的崩溃率以及内存控制较好，跨进程的优势不明显，因此将收银台容器切换至主进程更合适业务场景。

RN 离线包

RN 离线包是指将 Bundle 提前存储在客户端本地，从而免去运行时下载 Bundle 文件的时间。目前常见的有两种方式：

预下载 RN Bundle：APP 启动时预下载 Bundle 并离线存储在本地
APP 内置兜底包：直接将应用的 Bundle 打包进 APP 内，保证用户端肯定有一份 Bundle 在本地

虽然离线包的优化效果很好，但是同时也会带来一定的资源浪费和 APP 体积增加。目前会控制仅对 P0 的业务应用开启配置。

RN拆包

RN 拆包是将应用拆分成基础包和业务包两部分，这样做有两方面的好处：

运行时只需要下载 / 加载业务包部分的 Bundle，大大减少了获取 Bundle 文件和 Bundle 解析的耗时
客户端会提前预热好基础包的容器，RN 加载时可以使用预热的容器加载，减少 Bundle 解析部分的耗时。

Hermes + Bytecode

RN 升级 0.70 后使用了 Hermes 引擎，Hermes 引擎的一大优势是预编译与字节码执行能力，下面是使用新架构 + Hermes 引擎 + 预编译后的对比数据：

Android 小米8 SE 首帧提升 71.5%，LCP 提升 40.1%；
红米 Note 9 pro 首帧提升 77.3%，LCP 提升 41.9%；
iPhone 6 首帧耗时提升 63%，iPhone 12 提升 42%；
LCP iPhone 6 提升 48.5%，iPhone 12 提升 18.3%。

相关链接可看前文 《网易云音乐 RN 新架构升级实践》

动态导入

随着 RN 应用越来越复杂， RN Bundle 的体积也会越来越大。为了避免加载巨大的代码文件，可以将代码拆分成多个小文件。首屏的代码可以打包成一个文件立即加载执行，而非首屏的代码可以在与页面交互后懒加载，从而提升页面加载性能。

接口预加载

预先声明需要预加载的接口以及参数，在RN容器初始化的同时，前置且并行进行接口的请求，从而减少接口加载阶段时间。

优化收益 = Math.min( 容器初始化耗时 , 接口加载耗时 )

深度优化定制

由于安卓中低端机性能太差，即使 RN 应用做了上述的通用优化措施，也无法彻底实现在中低端机型上的秒开体验。
因此，为了持续地提升核心页面性能，我们也针对业务场景定制化一些非普适性的优化措施；

RN 预渲染

RN 预渲染是指在客户端启动 / 空闲时，提前预渲染好 RN 页面。等到用户真正打开 RN 页面时，无需加载直接可见，实现真正意义上的秒开。
但是这种优化手段略显激进，会增加 APP 的内存压力。所以需要制定相应的优化策略，在合适的时机、合适的人群以及合适的应用开启 RN 预渲染，尽可能提高预渲染的利用率；

合适的时机

应用首页加载完毕
应用主线程空闲时： Looper.getMainLooper().queue.addIdleHandler

合适的人群

接口请求校验是否满足人群包：高付费意愿度

合适的应用

P0级应用 + 主动型业务场景：页面收银台，用户主动触发会员充值收银台，流量流失与整体加载时间正相关。

RN 静默加载

在某些场景下，用户满足一定的触发条件、策略后（如播放付费片段、会员临期等），会弹出浮层 / 弹窗收银台引导用户付费。这种类型的收银台称为被动型收银台，具备用户非主动点击、出现时机无感知、加载过程可取消、用户取消率高等特点。
针对被动性收银台，可以后台静默加载页面，加载完成后再展示给用户，从而减少用户体感加载时间，进而降低用户在页面加载过程中的取消率，最终提高页面访问量。

用户体感加载时间：用户等待页面加载流程时间

主动型收银台：用户体感加载时间 = 页面LCP时间 - 用户点击开始时间

被动型收银台：用户体感加载时间 = 页面LCP时间 - 白屏 / 加载感知时间

视图静默加载

静默加载期间视图不显示，用户可正常交互原有界面视图。待收银台视图完整加载结束，RN通知Native直接显示完整视图：用户所见即所得，从而减少加载流失，提高页面曝光量。

接口前置请求

区别于接口预加载，预加载依赖于用户网络，如果用户网络加载时间超过容器加载时间，那么整体加载速度仍然受到网络加载影响。

接口前置请求则在上一业务场景/策略触发时请求网络，接口请求结束后加载对应页面。比如收听某一首会员歌曲时，需要弹出浮层收银台前，先请求相关SKU数据，待数据完全返回后直接带入RN容器。

数专收银台H5->RN迁移

受限于历史原因，数专收银台具备原生容器和H5容器，但两类方案均具备一定的劣势：

Native方案受限于发版更新问题，无法满足业务增长的需求，且迭代开发成本高；
H5方案受限于技术栈的问题，即使启用离线包等H5优化手段，仍然无法持续深入优化性能和达到率，AB实验数据显示具备一定的关键指标数据下降；

RN迁移统一是更为兼顾业务和性能的方案，一方面开发迁移成本低，另一方面可复用上文中的各类RN优化工具集，性能与到达率接近于原生；同时，H5迁移RN成本较低，可通过替代View层（CSS -> JSX）与平台API适配层完成迁移，整体逻辑具备通用性和一致性；

IAP体系及优化手段 - iOS

IAP数据预取

在常规的IAP支付流程中，整体流程是从请求苹果服务端获取当前交易商品的对象开始的。因为苹果服务端架设在海外，仅有香港等地有转接点，导致国内用户负责的网络环境请求苹果服务端时错误率较高，当商品信息获取失败时，用户本次支付流程也将会失败。该部分错误在云音乐App内占比不小，因此我们针对该流程进行了预取优化。

优化结果

缓存命中率率：0%->96.52%

-4错误量：降至0

消耗型商品支付成功率：+1.35pt

订阅型商品支付成功率：+0.46pt

IAP商品预取流程

APP启动进入到首页云音乐服务端下发热门商品IAPID列表；
使用热门商品IAPID请求苹果服务端，获取对应的商品对象，并做内存级别的缓存；
在合适的时机以及频率对该部分缓存进行更新+维护；

IAP商品预取后的支付流程

用户在端内发起IAPID为X的商品支付；
查找端上缓存是否存在X商品的IAP商品对象缓存；若存在，则直接使用缓存对象进行后续支付流程；若不存在走原本的支付流程，从请求IAP商品对象开始；

该方案使IAP支付成功率有不显著正向提升，其中商品预取流程对消耗型商品的整体支付成功率提升大于对订阅型商品；对IAP支付整体的商品预取错误(errorCode = -4)几乎是完全解决。

Storekit2

StoreKit 2 是苹果公司在 iOS 15 和 macOS Monterey 中引入的一组更新和改进的框架，用于处理应用内购买和订阅相关的功能。StoreKit 2 提供了一些新的功能和改进，使开发者能够更方便地实现应用内购买和订阅的流程。
其中云音乐需要使用的新特性如下：

小票使用UUID编码附带OrderId
小票监听功能：跨设备订单同步
可以准确判断用户是否具有促销优惠资格isEligibleForIntroOffer等

StoreKit2的接入，应当把现有能力都包含在内，和StoreKit1的流程对齐；核心注意点如下：

为了避免一次性全量对营收造成较大不可预估的影响，StoreKit2需要逐步放量，通过AB实验控制放量节奏与随时降级回StoreKit

StoreKit2苹果仅推出了Swift版本，因此部分StoreKit1的逻辑需要重新开发，例如商品预取逻辑StoreKit2与StoreKit1的商品对象是完全不同的两个类，StoreKit2的预取逻辑需要重新使用Swift开发

StoreKit2针对未完成小票的处理和StoreKit1有较大的不同：云音乐端内在StoreKit1的验票流程中有做缓存小票+轮询重试的优化措施，在StoreKit2中的类似逻辑的处理方式需要用配套的API重新开发，并且StoreKit1和2存在同时监听到同一小票的情况，因此需要隔离两套未完成小票的监听逻辑

SwiftOC混编问题，云音乐主站核心是使用OC进行开发的，因此为了避免影响工程整体且方便使用，StoreKit2的必要流程都使用Swift开发，对外暴露的接口使用OC再进行封装一层；业务层使用时仅需要使用上层OC接口无需使用Swift接口

具体预期提升

小票关联订单ID提升问题排查效率；
新的小票监听能力比StoreKit1能够获取更加全面的历史小票信息，能有效减少因验票问题导致的退单问题；
StoreKit2部分接口性能按照苹果官方文档介绍有所提升，预期能够提升支付成功率；
StoreKit2升级方案在端内拥有随时降级的能力，不会破坏原有的StoreKit1支付能力；

端侧能力同步更新 - Android

Android支付唤起依赖于三方渠道，目前云音乐App集成支付宝、微信支付、银联支付、抖音支付、网易支付等多种三方支付渠道。

云音乐App对于三方支付SDK更新频率较低，但部分三方支付SDK新版本引入了新功能以及稳定性提升，同步更新升级这类SDK可带来一些支付成功率的提升。如支付宝新SDK引入淘宝登录等能力，可以减少未安装支付宝App用户更便捷使用H5页面支付等。

优化结果

支付成功率（升级渠道单次支付）：+3.29%

更新与验证

SDK升级较简单，只需按照三方官网升级版本号以及更改兼容方法即可，但升级SDK也具备一定的难点：

价值测算：一个App中仅可依赖一份SDK，难以通过AB实验验证价值；
问题回滚：若升级SDK对支付成功率有负向影响，实时回滚成本高；

我们基于上述问题采用了下述支付SDK升级发布流程，在分流 / 灰度 / 渠道分阶段去验证不同问题。

三方支付SDK升级验证流程

分流：同时打出两个版本包C与T（仅支付SDK版本差异）替代AB实验进行少量且等量分发，在此阶段初步验证崩溃问题以及支付成功率数据；
灰度：分流验证无问题后，合入灰度分支，并跟随灰度扩量分发继续观测相关数据；
渠道：版本扩量，同时对比多个线上版本，通过实时监控验证与分析支付成功率等数据；

支付挽留措施

IAP支付挽留短信 - iOS

因iOS系统中IAP的支付成功率较低，且这部分有意愿购买用户的错误支付很容易造成订单流失，给云音乐整体营收带来不小的影响，因此我们在IAP支付失败后，通过短信挽留的方式，提醒用户支付失败，引导用户重新支付。

优化结果

主动购买UV：+0.28%

具体方案

云音乐并未采用前端在用户支付失败后，主动调用短信接口的方案，因为部分前端页面可能会在支付接口返回前就已经被关闭，覆盖量有限。

期望覆盖的所有的IAP未支付成功的订单，就需要在IAP支付未成功时一定延迟后发送延迟消息，并由服务端内部判定订单状态。根据业务定制的延迟时间复核订单是否支付，如未支付则通知到业务侧，触发后续挽留动作。

相较于无挽留动作时，针对流失订单的挽回还是有很好的效果的，该方案投入产出比极佳。

总结

在过去的一年，我们建立了交易链路领域相关的漏斗，并基于分析落地了链路不同切面上的优化，如核心收银台的性能优化、三方渠道支付稳定性保障与改善以及支付挽留等。事实证明，作为营收业务的核心模块，针对支付链路的优化不仅能提升支付效率与用户体验，还能有效赋能业务，带动业务关键指标的提升。

未来我们会持续聚焦于交易链路领域进行技术漏斗及策略的优化，探索端侧智能与营收策略的结合；

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

Tango 低代码引擎沙箱实现解析

2024-03-15T15:43:43+08:00

本文作者：0xcc

Tango 基本介绍

Tango 是一个用于快速构建低代码平台的低代码设计器框架，并以源代码为中心，执行和渲染前端视图，并为用户提供低代码可视化搭建能力，用户的搭建操作会转为对源代码的修改。借助于 Tango 构建的低代码工具或平台，可以实现源码进，源码出的效果，无缝与企业内部现有的研发体系进行集成。

开源进展

目前 Tango 设计器引擎部分已经开源，正在积极推进中，可以通过如下的信息了解到我们的最新进展：

开源代码库：https://github.com/NetEase/tango
文档地址：https://netease.github.io/tango-site/
社区讨论组：https://github.com/NetEase/tango/discussions

此外，Tango 的文档现已全面更新，欢迎浏览。

欢迎大家加入到我们的社区中来，一起参与到 Tango 低代码引擎的开源建设中。有任何问题都可以通过 Github Issues 反馈给我们，我们会及时跟进处理。

往期系列文章

为什么 Tango 需要沙箱

传统的基于 DSL 的低代码方案通常需要实现一套对应的 DSL 语法与渲染器，在渲染器内渲染给定的组件、绑定事件等。与此不同，Tango 是基于 AST 驱动的面向源码的低代码方案。相较于 DSL 方案，Tango 的写法更加灵活，但也带来了支持源代码实时运行的挑战。此外，为了与团队内已有的物料集成，Tango 支持添加业务组件，因此设计器还需要考虑三方依赖的加载与运行。因此，Tango 需要一个独立的沙箱来运行源码，提供可以媲美本地开发的代码运行时。

在初期，Tango 曾调研了几种方案，如基于 Sea.js 这类 AMD 加载方案。然而，这类方案的问题在于依赖比较固定，需要将依赖预先构建出符合规范的产物（如 UMD 资源），因此不能灵活地添加依赖。至于 SystemJS 和 ViteSandbox 这类 ESM 方案，由于 Tango 期望支持直接使用已有的组件物料，而它们的产物主要以 CommonJS 为主，缺少 ESM 产物。此外，我们后续对沙箱的改造优化大幅减少了沙箱初始化的时间，因此没有采用该方案。

Tango 目前采用的沙箱方案是基于 CodeSandbox 提供的沙箱能力实现的。它的优势在于提供了更完整、接近本地开发的运行时环境，支持直接拉取 npm 包并运行。它借助 Babel 将 ESM 和浏览器不支持的新语法转译为 CommonJS，模拟了 CommonJS 的运行环境，实现了源码在浏览器上直接运行。这样即便依赖没有提供可供浏览器使用的预构建产物，也能在沙箱内实时转译并运行。此外，CodeSandbox 的沙箱运行在一个 iframe 内，可以隔离代码的运行时环境，避免污染设计器的全局变量。

Tango 沙箱的基本结构

CodeSandbox 是一个在线运行 JavaScript 代码的平台，它的沙箱借助 Babel 与 Web Worker 等能力，在浏览器上实时转译与运行代码。你可以把它的沙箱能力想象成一个在浏览器上运行的 webpack，比如它的转译器 Transpiler 就和 webpack 的 loader 比较接近。。

由于 CodeSandbox 自己实现了各个模板的转译规则，整个转译流程均由自己把控，因此它整体上会比 webpack 轻量些。例如 CodeSandbox 在初始化依赖时能忽略掉绝大多数的 devDependencies，从而大幅减少项目的依赖初始化时间与转译时间。

结合 Tango 后的沙箱可以简化为三个部分：

沙箱前端组件：一个开箱即用的沙箱组件，只需要传入代码和配置就可以完成应用的渲染
在线打包器：提供搭建产物的浏览器端构建能力，类似于一个浏览器版本的 webpack，最终形态是一个独立的 iframe
沙箱后端服务：对依赖的资源进行预构建，以及提供资源合并等服务，用来加速沙箱内部的构建打包过程

它的工作流程可以简述如下：

代码准备：平台引用沙箱组件，通过 postMessage 将代码传递给沙箱
依赖初始化：沙箱处理传入的文件，根据 package.json 的 dependencies 调用 Packager 打包服务获取依赖
转译代码：解析代码的依赖关系，将依赖的代码通过对应的 Transpiler 转译
执行代码：在沙箱中初始化 html 等，然后从代码的入口文件开始执行转译后的代码
上述执行周期内和执行完成后，沙箱会抛出事件让平台感知

Tango 沙箱的工作流程

本部分主要参考了 CodeSandbox 如何工作? 上篇的部分内容，并在此基础上进行了修改。如果你对 CodeSandbox 底层的更多细节感兴趣，不妨阅读下这篇文章。

依赖的初始化

如前所述，CodeSandbox 在内部实现了核心的转译逻辑（例如 Babel 与 less 转译），整个转译流程都由自己控制，因此在初始化依赖时可以相对轻量一些，只需获取 dependencies 里必要的依赖，忽略掉 devDependencies 以及 @types 开头的只在本地开发时才会用上的依赖。

CodeSandbox 是如何获取依赖的呢？CodeSandbox 实现了两套方案，一套是默认的远程在线打包方案，另一套是从 unpkg/jsdelivr 等 npm 包资源的 CDN 获取依赖的兜底方案。

CodeSandbox 设计了一个 Serverless 服务 dependency-packager，这个服务负责在线拉取依赖，然后一次性返回包括子依赖在内的所有需要的文件。当服务接收到接口请求后，会解析 URL 中的包名与版本号，并在服务端执行 yarn install 安装 npm 包，然后从入口文件开始逐一解析依赖的文件以及各个包之间的依赖关系，最后将被依赖的文件一次性返回。由于该服务仅返回被依赖的文件，在减少网络请求的资源大小的同时，沙箱可以避免转译 .d.ts 或测试用例这样运行时不需要的文件。

不过由于 packager 返回的文件是从包的入口文件开始计算的被引入的文件，因此在实际使用中，一些未被引入的文件可能也会被项目使用。当项目引入了被排除的资源时，沙箱会在前端请求 unpkg/jsdelivr 作为兜底方案，从而顺利完成转译。当然，缺点就是如果缺失的文件比较多，实时获取的方案会多出很多的网络请求开销。因此 CodeSandbox 还使用了 Service Worker 作资源缓存，减少二次复访的网络请求。

转译与构建

当 CodeSandbox 开始转译时，会调用 compile() 方法开始转译，整个转译流程大致如下：

传入沙箱的参数除了代码外，还需要传入 template 参数，该参数用于指定沙箱转译时需要使用的 Preset。Preset 就像 webpack 的配置文件一样，内部定义了如何预处理依赖、不同的文件该使用哪些 Transpiler、在代码执行前做一些其他的操作等。

Preset 初始化好后，沙箱将初始化一个 Manager 实例，这个 Manager 实例会被 compile() 使用，用于控制整个转译流程的生命周期。然后，Manager 会按照上一节提到的方式初始化项目的依赖。如果传入的依赖发生了变更，沙箱会重新初始化一个新的 Manager 实例，避免运行时被旧的 Manager 依赖影响。

依赖准备好后，传入沙箱的代码会被传入 Manager，Manager 会将代码实例化为 TranspiledModule，解析各模块的依赖关系，计算是否被更新或删除等。然后沙箱将从代码的入口模块开始，根据 Preset 里定义的规则，对每一个模块递归调用指定的 Transpiler 转译。这里 Transpiler 就像 webpack 的 loader 一样，负责将文件转译为需要的产物。对于复杂的 Transpiler——例如负责转译 JavaScript 的 BabelTranspiler——还会使用 Web Worker 队列来提升转译效率。

当相关的模块都被转译好后，Manager 会进入代码执行阶段。

代码执行

沙箱的运行时模拟了 CommonJS 所需的环境，如 require、module、exports、global 等方法与变量。当所有需要的模块都被转译好后，Manager 会进入代码执行阶段。代码执行的核心代码如下：

const allGlobals: { [key: string]: any } = {
  require, module, exports, process, global, ...globals,
};

const allGlobalKeys = Object.keys(allGlobals);
const globalsCode = allGlobalKeys.length
  ? allGlobalKeys.join(', ') : '';
const globalsValues = allGlobalKeys.map(k => allGlobals[k]);

const newCode =
  `(function $csb$eval(` + globalsCode + `){` + code + `\n})`;
// @ts-ignore
(0, eval)(newCode).apply(allGlobals.global, globalsValues);

return module.exports;

沙箱会从入口模块开始执行，执行时会将代码封装为上述的立即执行函数，然后调用 eval() 执行并传入上述 CommonJS 的方法与变量。若代码引用了其他文件，执行时调用的 require() 方法会按照相同的逻辑递归执行并返回执行后的产物。

经过上述流程后，项目中的代码就会被转译并执行，最终渲染在沙箱里，你就能看到代码的实际效果了。

沙箱的优化改造

在 Tango 上开发的应用是一个完整的项目，并非像 CodeSandbox 网站上那样主要用于承载简单的示例或代码片段。因此用户对沙箱自身的构建性能与加载速度有较高的要求，以满足日常的开发体验。

关于我们对 CodeSandbox 优化的具体细节，可以参考我们之前的这篇云音乐低代码：基于 CodeSandbox 的沙箱性能优化，修改后的 CodeSandbox 代码也可以在 GitHub 上找到。

接入 Tango 沙箱

Tango 低代码设计器除了需要让沙箱运行源码、渲染页面以外，还需要实现可视化搭建的拖拽能力，因此设计器需要感知到用户在沙箱内的操作。但是，由于沙箱运行在一个独立的 iframe 内，并且部署在独立的域名下，两者之间是跨域的，因此需要做跨域兼容。通过将设计器平台与沙箱的 document.domain 均设为相同的父域名，并针对 Chrome 的安全策略在平台与沙箱添加 Origin-Agent-Cluster: ?0 的 HTTP 响应头，就能实现平台与沙箱的跨域通信。

为了简化沙箱的使用成本，我们封装了一个 React 组件 @music163/tango-sandbox 供设计器使用，相关代码可以在 Tango 的 GitHub 仓库里找到。它主要分为如下三个部分：

IFrameProtocol：负责与沙箱通信。通过监听 message 事件接收从沙箱传出的消息，以获取沙箱主动传出的生命周期。通过在 iframe 内部调用 postMessage() 方法向沙箱传递事件，从而控制沙箱。
PreviewManager：负责管理沙箱的基本渲染。其借助上面的 IFrameProtocol 与沙箱通信，当代码发生变化时，会向沙箱发送 compile 消息，从而触发沙箱的构建与渲染。
Sandbox：用于渲染沙箱的 React 组件。除了挂载沙箱的 iframe 外，还包括了沙箱配置、注册事件监听函数、消息传递、路由管理等功能。当组件传入的 props 发生变化时，会相应地更新沙箱代码、更新 iframe 路由等。

Tango 低代码引擎通过向 Sandbox 组件传入 files 来实现代码的渲染，并传入 eventHandler 来监听用户在沙箱内的拖拽操作，最终实现了设计器的组件拖拽搭建能力。

不过，沙箱获取依赖的基本能力主要是 CodeSandbox 提供的 packager 与 JSDelivr、unpkg 提供的，如果需要使用团队内部的私有 registry 就需要将相关服务私有化部署了。限于篇幅就不在此做过多赘述，关于 Tango 沙箱的具体接入文档，以及上述第三方服务私有化部署需要做的修改，可以参考我们提供的沙箱接入文档。

总结

本文简单介绍了 Tango 低代码引擎的沙箱能力，并分析了 CodeSandbox 的基本结构和工作流程。通过 CodeSandbox 强大的沙箱能力与优化，Tango 低代码引擎实现了可视化预览与搭建能力，为开发者提供了便捷高效的开发体验。

Tango 开源计划

目前我们已经完成了 Tango 核心实现的基本代码库的开源，包括核心引擎内核、沙箱、设置器、应用框架、物料协议等等，并发布了 RC 版本。在今年，我们将持续推进云音乐低代码核心能力的开源，包括基本的服务端能力，前端组件库等，并持续优化和完善开源文档。并且，随着其他能力的稳定和时间的成熟，我们还将会持续向社区开源更多的内部实践。

参考资料

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

Web 端 RTL 适配实践

2024-03-08T14:58:36+08:00

本文作者：杨彩芳

本文在介绍云音乐出海业务中，Web 项目针对阿拉伯语、希伯来语等 RTL 语言的布局适配实践。

前言

在业务全球化的进程中，我们会面对产品本地化的需求。在中东地区，许多国家使用阿拉伯语、希伯来语等语言，其书写和阅读习惯是从右向左（简称 RTL），与我们日常使用的中、英文环境中的从左向右（简称 LTR）阅读习惯相反。为了确保我们的产品在 RTL 语言用户中依然能够提供良好的体验，需要进行 RTL 适配。

RTL 布局概述

如上图所示，左右两边分别展示了 RTL 和 LTR 的效果图。从图中我们可以直观地看出两者布局的区别：文本的对齐方向、主按钮和辅助按钮的排列方向、进度条的填充方向以及返回图标的方向是相反的，而其他图标则是相同的。具体总结如下：

	LTR	RTL
文本	句子从左向右阅读	句子从右向左阅读
时间线	事件序列从左向右进行	事件序列从右向左进行
图像	从左向右的箭头表示向前运动：→	从右向左的箭头表示向前运动：←

了解了 RTL 布局的特点之后，我们可以开始考虑如何低成本地将线上已有场景的 UI 从 LTR 调整为 RTL。在将 UI 从 LTR 调整为 RTL（或反之）时，我们通常称之为镜像。

实现 RTL 的两种方案

transfrom

基于 transform 的方案，是利用 CSS 的 transform 属性，通过设置 transform: scaleX(-1); 实现页面的水平翻转。

如上图所示，通过翻转解决了布局问题，但文字和图像也被翻转。为了解决这个问题，对于不需要翻转的内容（如文字、非指向性图像），需要进行二次翻转。然而，该方案的缺点在于，首次翻转只需要处理根节点，而二次翻转则需要处理所有不需要翻转的元素，工作量较大。该方案的优点在于开发者无需修改 JS 逻辑。例如，通常情况下，左滑/左向箭头图标的点击事件在 RTL 时会将前进改为后退，右向将后退改为前进。

direction

基于 direction 的方案，是利用 CSS 的 direction 属性，该属性用于设置文本、表格列和水平溢出的方向。通过将 direction 设置为 rtl 可以改变页面布局，在 html 标签上添加 dir="rtl" 与设置 direction 效果相同。我们通过一个简单的例子来具体了解设置为 rtl 的效果。

如上图所示，设置为 rtl 之后，我们发现 UI 并没有完全兼容 RTL 场景。我们可以观察到，direction 在设置 rtl 之后只对部分属性进行了镜像处理：

如果元素没有预先定义过 text-align，那么该元素的文本会从向左对齐变成向右对齐，如果设置了 left/center 则 direction 的设置不会对其产生影响
inline-block、flex、table、grid 的布局方向被影响，absolute / fixed、float、margin、padding 无任何变化。

为了页面能够在 RTL 布局时正常呈现，我们需要对未被影响的属性调整。目前有以下两种方式可以解决这个问题。

CSS 逻辑属性与逻辑值

逻辑属性和逻辑值用抽象术语块向和行向描述其流向。块向尺度（block）是指与行内文本流向垂直的方向上的尺度。行向尺度（inline）是指与行内文本流向平行的方向上的尺度。LTR 布局时，block-start 对应 top，block-end 对应 bottom， inline-start 对应 left，inline-end 对应 right，inline-size 对应 width，block-size 对应 height。

通过改写为逻辑属性，可以同时适配 LTR 和 RTL 布局，无需专门为 RTL 布局进行适配。例如，将 margin-left 改写成 margin-inline-start，将 left: 0; 改写成 inline-start: 0;。我们只需要全局替换需要调整的行向尺度的 CSS 属性即可。然而，使用逻辑属性存在两个问题：一方面是浏览器的兼容性问题（B 端项目可以考虑使用，浏览器兼容性较好），另一方面开发者只能处理本地代码，无法处理 npm 包中的代码。

CSS 翻转工具

另一个方案是使用 CSS 转换工具（rtlcss、css-flip），按照 RTL 布局对 CSS 代码进行转换，例如将 margin-left 改写成 margin-right，将 left: 0; 改写成 right: 0;。我们可以在代码构建过程中使用这类工具，自动将 CSS 代码转换为对应的 RTL 布局代码，这样开发者仍然可以按照 LTR 的布局书写代码。

与 CSS 逻辑属性相比，使用 CSS 转换工具是更好的选择。通过这种方案，可以完美解决布局镜像的问题。然而，direction 还存在另一个缺点，即它仅适用于 CSS，涉及 JS 就无能为力。

方案选择

我们希望以较低的成本改造线上已有的 UI 场景，以支持 RTL 布局。大部分业务内容中的文本和图片无需翻转，因此使用 transform 方案逐一适配这部分内容会带来大量工作量，需要编写大量影响业务逻辑的代码。在业务迭代过程中，开发人员需要不断处理二次翻转的问题。相比之下，使用 direction 方案能减少开发者对哪些模块需要翻转的关注，只需对个别组件的 JS 逻辑进行适配。在权衡利弊后，我们选择了基于 direction 的方案。接下来，我们对该方案进行细化和完善。

基于 direction 通用适配方案

direction 设置

首先，我们要基于用户语言，在 html 标签设置属性 dir。语言的获取可以从 URL 的 search 属性或 cookie。我们提供一个工具库进行初始化设置，同时提供了更新方法 setDirecion、根据语言判断是否需要 RTL 布局的工具函数 isRTL。

import { Cookie } from '@music/helper';
import { parse } from '@music/mobile-url';

const rtlLngs = ['ar-EG', 'he_IL'];

export default class RTL {
    private lng: string;

    constructor(lng?: string) {
        this.lng = lng || '';
        if (typeof window !== 'undefined') {
            const { location } = (window as Window);
            if (!this.lng) {
                this.lng = (parse(location.search) as any).language || Cookie.get('language') || 'en-US';
            }
            document.documentElement.setAttribute('dir', rtlLngs.includes(this.lng) ? 'rtl' : 'ltr');
        }
    }

    setDirecion(lng?: string) {
        this.lng = lng || '';
        document.documentElement.setAttribute('dir', rtlLngs.includes(this.lng) ? 'rtl' : 'ltr');
    }

    static isRTL(lng?: string) {
        if (lng) return rtlLngs.includes(lng);
        if (typeof window !== 'undefined') {
            const { location } = (window as Window);
            const l = (parse(location.search) as any).language || Cookie.get('language') || 'en-US';
            return rtlLngs.includes(l);
        }
        return false;
    }
}

使用时非常简单，在页面入口文件引入该模块即可。

import RTL from '@music/tl-rtl';
new RTL();

SSR 无法从 document / window 获取 cookie / URL 的 search 属性，所以需要通过 getInitialData 获取存储在 store 中，然后通过 Helmet 设置 html 的 dir 属性。

import { createUrl, parse } from '@music/mobile-url';

// 获取 isRTL 并存储 store
static getInitialData({ req }) {
    const { url, header } = req;

    const cookieLng = headers?.cookie
        ?.split(';')
        .map((c) => c?.split('='))
        ?.find((c) => c[0]?.trim() === 'language')?.[1];

    const lng = parse(createUrl(url).search).language || cookieLng || 'en-US';

    const isRTL = RTL.isRTL(lng);
    ... // 选择合适的 store 方案存储 isRTL 值
}

import { Helmet, HelmetProvider } from 'react-helmet-async';

// 从 store 获取 isRTL 并设置 html dir
function App ({ isRTL }) {
    return (
        <HelmetProvider>
            <div>
                <Helmet>
                    <html dir={isRTL ? 'rtl' : 'ltr'} />
                </Helmet>
                ...
            </div>
        </HelmetProvider>
    );
}

PostCSS Plugin 配置

接下来就需要转换 CSS 代码适配 RTL。前面我们说到了选用 CSS 转换工具处理 CSS 代码这一步最好在构建过程中完成，postcss-rtlcss（基于 rtlcss）很好的满足了这一特点，它作为 PostCSS 插件可以在 webpack 构建过程中可以将所有本地代码和 npm 包中的 CSS 文件统一处理。

下面是 postcss-rtlcss 的使用方式，及一些关键参数的解析。

import { postcssRTLCSS } from 'postcss-rtlcss';
import { Mode } from 'postcss-rtlcss/options';

const defaultOptions = {
    mode: Mode.combined,
    ignorePrefixedRules: true,
    ltrPrefix: '[dir="ltr"]',
    rtlPrefix: '[dir="rtl"]',
    bothPrefix: '[dir]',
};
const options = {
    ...defaultOptions,
    safeBothPrefix: true,
    processUrls: true,
    processKeyFrames: true,
    useCalc: true,
};

export default {
    module: {
        rules: [
            {
                test: /\.css$/,
                use: [
                    ...
                    { loader: 'css-loader' },
                    {
                        loader: 'postcss-loader',
                        options: {
                            postcssOptions: {
                                plugins: [
                                    postcssRTLCSS(options)
                                ]
                            }
                        }
                    }
                    ...
                ]
            },
        ]
    }
}

mode

该参数控制了 CSS 的生成方式，三种模式分别输出的 CSS 代码如下所示。

/* input */
.test1 {
    width: 10px;
    padding: 10px;
}
.test2 {
    padding-right: 20px;
}

/* output Mode.diff */
.test1 {
    width: 10px;
    padding: 10px;
}
.test2 {
    padding-left: 20px;
    padding-right: 0;
}

/* output Mode.override */
.test1 {
    width: 10px;
    padding: 10px;
}
.test2 {
    padding-right: 20px;
}
[dir="rtl"] .test2 {
    padding-left: 20px;
    padding-right: 0;
}

/* output Mode.combined */
.test1 {
    width: 10px;
    padding: 10px;
}
[dir="ltr"] .test2 {
    padding-right: 20px;
}
[dir="rtl"] .test2 {
    padding-left: 20px;
}

我们的需求是用一份代码根据语言同时适配 LTR 和 RTL 布局。Mode.diff 模式会将 CSS 代码转换为 RTL 布局的代码，无法同时适配两种布局，因此首先排除。另外两种模式 Mode.override、Mode.combined 则可以生成两种布局的代码。然而，Mode.override 模式在样式覆盖的情况下转换处理会出现一些问题。如上所示，在 RTL 布局时 padding-right最终生效值是 0，与期望的 10px 不符。为了符合预期，我们需要给 .test2 增加一行代码 padding-left: 10px;。而 Mode.combined 模式无需额外处理现有代码即可生成符合预期的代码。

因此，我们最终选择 Mode.combined 模式，该模式会将需要处理的 CSS 代码生成两份，以便在渲染时对应生效。接下来的 demo 输出的 CSS 都是基于此模式。

safeBothPrefix

该参数设置为 true 时 CSS 输出结果如下所示，即会给不需要翻转的方向性 CSS 属性类名增加 bothPrefix（[dir]）。在 class="test1 test2" 时，可以按照 CSS 书写顺序使得 .test2 的 padding 样式能正确覆盖 .test1 的。设置为 false 时输出的 .test2 的规则名保持不变，不会变成 [dir] .test2 ，按照 CSS 选择器权重会导致最终生效的是 [dir="ltr"].test1 / [dir="rtl"].test1 对应的 padding 样式，与期望不符。

/* input */
.test1 {
    padding: 0 10px 0 20px;
}
.test2 {
    padding: 0 20px;
}

/* output */
[dir="ltr"] .test1 {
    padding: 0 10px 0 20px;
}
[dir="rtl"] .test1 {
    padding: 0 20px 0 10px;
}
[dir] .test2 {
    padding: 0 20px;
}

processUrls

该参数控制是否按照字符串映射来翻转更改 URL 中的字符串，例如 ltr left。当设置为 false 不会处理 URL 地址，当设置为 true 会翻转处理如下所示。

/* input */
.test {
    background-image: url("./img/ltr/arrow-left.png");
}

/* output */
[dir="ltr"] .test {
    background-image: url("./img/ltr/arrow-left.png");
}
[dir="rtl"] .test {
    background-image: url("./img/rtl/arrow-right.png");
}

ignorePrefixedRules

该参数值为 true 会忽略 CSS 选择器中包含 rtlPrefix、ltrPrefix、bothPrefix 的 CSS 规则，不进行转换。当设置为 false 会被转换为如下所示，导致 CSS 选择器无法匹配，从而使样式失效。

/* input */
[dir="rtl"] .test {
    left: 10px;
}

/* output */
[dir="ltr"] [dir="rtl"] .test {
    left: 10px;
}
[dir="rtl"] [dir="rtl"] .test {
    right: 10px;
}

前文我们说到，指向性图像需要在 RTL 布局时翻转，而 ignorePrefixedRules 和 processUrls 恰好可以用来处理这种情况。processUrls 适用于本地资源，本地存放 2 份资源图片即可；ignorePrefixedRules 可同时作用于远程资源，增加下面的全局样式（该样式不会被转换，且仅在 RTL 布局生效），并给需要翻转的图片增加 flip-img 类名即可。

[dir="rtl"] .filp-img {
    transform: scaleX(-1);
}

useCalc

该参数控制是否翻转 background-position-x 和 transform-origin ，当设置为 false 时不处理，当设置 true 会被转换为如下所示。

/* input */
.test {
    background-position-x: 5px;
    transform-origin: 10px 20px;
}

/* output */
[dir="ltr"] .test {
    background-position-x: 5px;
    transform-origin: 10px 20px;
}
[dir="rtl"] .test {
    background-position-x: calc(100% - 5px);
    transform-origin: calc(100% - 10px) 20px;
}

processKeyFrames

该参数控制是否翻转关键帧动画中的样式规则，考虑到动画中也会存在左右移动的情况，设置为 true。

更多参数设置可以查看 options了解。

避免内连样式

由于 postcss-rtlcss 插件只处理样式文件，所以 CSS 都要书写在样式文件中，如非必要，不要使用如下内联样式，

<div style={{ marginLeft: 10 }}>
    ...
</div>

如果必须使用内联样式，比如说需要在 JS 中计算 CSS 属性值，需要业务自行适配 RTL 布局。

第三方库的适配

在业务开发时我们通常会用到一些三方组件，例如 antd、Swiper，我们需要考虑这些组件如何适配 RTL。

antd

antd 已经支持了 RTL 布局，需要进行如下配置即可（本文讨论的 antd 基于 4.x 版本）。

import { ConfigProvider } from 'antd';

export default ({ isRTL }) => (
  <ConfigProvider direction={isRTL ? 'rtl' : 'ltr'}>
    <App />
  </ConfigProvider>
);

配置之后我们发现展示结果与期望不符，排查发现是因为 antd 已经根据 direction 对组件的类名和 CSS 样式做了镜像处理。

// ltr
<Component className="ant-xxx" />

// rtl
<Component className="ant-xxx ant-xxx-rtl" />

.ant-xxx {
    margin: 0 8px 0 0;
}

.ant-xxx.ant-xxx-rtl {
    margin-left: 8px;
    margin-right: 0;
}

在配置 postcss-rtlcss 插件之后，CSS 代码会被处理成下面的代码，导致在 RTL 布局时，根据书写顺序和 CSS 选择器优先级最终按照 [dir="rtl"].ant-xxx.ant-xxx-rtl 渲染，导致结果错误。

/* output */
[dir="ltr"] .ant-xxx {
    margin: 0 8px 0 0;
}
[dir="rtl"] .ant-xxx {
    margin: 0 0 0 8px;
}

[dir="ltr"] .ant-xxx.ant-xxx-rtl {
    margin-left: 8px;
    margin-right: 0;
}
[dir="rtl"] .ant-xxx.ant-xxx-rtl {
    margin-right: 8px;
    margin-left: 0;
}

所以，在配置 postcss-rtlcss 插件时需要将 antd 的样式资源 exclude，保证其 CSS 资源不被镜像处理。

Swiper

Swiper 组件也适配了 RTL 布局，只需要在其祖先节点设置 dir="rtl" 即可，而我们的方案就是在 html 标签设置 dir，无需要额外处理。

其他涉及 JS 层面需要适配 RTL 的私有组件需要开发者获取 dir 的值，并对组件进行适配改造。

快捷工具

在开发调试过程中，我们提供了一个语种快速切换工具，便于预览对应的 LTR 和 RTL 的布局效果。

该工具的具体实现如下：

import React, { useCallback } from 'react';
import reactDOM from 'react-dom';
import Select from 'antd/lib/select';
import { parse, stringify } from '@music/mobile-url';
import { Cookie } from '@music/helper';

const rtlLngs = ['ar-EG', 'he_IL'];
const i18nMap = {
    'zh-CN': '简体中文',
    'en-US': '英文',
    'ar-EG': '阿拉伯语',
};

// 创建语种切换组件
const SwitchLng = ({ lngs }) => {
    const lng = parse(window.location.search).language || Cookie.get('language') || 'en-US';
    
    const handleSwitch = useCallback((l) => {
        // cookie 更新语种
        Cookie.set('language', l);

        // 替换 url 语种参数并 reload 页面
        const searchStrs = parse(window.location.search) || {};
        searchStrs.language = l;
        const { origin, pathname } = window.location;
        window.location.href = `${origin}${pathname}?${stringify(searchStrs)}`;
    }, []);

    return (
        <Select
            style={{ position: 'fixed', bottom: 10, left: 10, width: 140 }}
            defaultValue={lng}
            onChange={handleSwitch}>
            {lngs.map((l) => (
                <Select.Option value={l}>
                    {i18nMap[l]}
                    {rtlLngs.includes(l) && (
                        <span style={{ color: 'red', marginLeft: 5 }}>RTL</span>
                    )}
                </Select.Option>
            ))}
        </Select>
    );
};

class RTLHelper {
    constructor(lngs) {
        const l = (lngs || []).map((e) => e.replace('_', '-'));
        const allLngs = ['en-US', 'ar-EG', 'zh-CN'].concat(l);
        this.supportLngs = [...new Set(allLngs)];
        this.renderDOM();
    }

    // 渲染组件到页面中
    renderDOM() {
        const btn = document.createElement('div');
        document.body.appendChild(btn);
        reactDOM.render(<SwitchLng lngs={this.supportLngs} />, btn);
    }
}
export default RTLHelper;

使用时在 dev 文件中引用即可。

import RTLHelper from '@music/tl-rtl/helper';
new RTLHelper();

总结

本文介绍了云音乐出海业务中 Web 项目对 RTL 语言的适配实践，并总结为一套通用高效的方案。该方案使开发者在处理业务需求时无需过多关注样式适配问题，为开发者提供了便捷高效的开发体验。

参考资料

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐前端国际化多语言探索实践

2024-02-29T10:19:55+08:00

本文作者：atie，时浅

本文深入探讨了云音乐海外项目在实现多语言支持过程中的探索和实践，从最初的手动文案管理到发展出一套全自动化的多语言管理系统——千语平台的演变过程。文章介绍了云音乐海外团队如何通过技术创新和流程优化，有效提升了多语言项目的开发效率，解决了多语言应用开发中遇到的常见问题，包括但不限于代码中的语义清晰性、文案维护的高效率，以及性能优化等挑战。通过这一系列的改进，云音乐海外项目能够为全球用户提供更加流畅和响应迅速的使用体验，同时也为多语言应用开发提供了宝贵的实践经验和启示。

背景

一个国际化的产品，要在不同的国家和地区使用，就必须在设计软件时仔细考虑如何使产品的文本贴合当地的语种。为每个地区单独开发一个版本当然也是一个选择，但是这样做势必浪费人力，资源。云音乐海外项目一直在探索如何更好更优地渲染不同语种的前端文本，目前得出的一个较优的做法是将软件与特定的语种及地区分离，使得软件被移植到不同的语种及地区时，其本身不用做内部工程上的改变或修正就可以将文案，图片等从源码中提取出来，渲染并显示给相应的用户。

本文侧重于分享我们在开发多语言文案消费端（用户端）时的经验，包括开发效率、项目优化的思考与实践。

一些流行的语言多语言库

在介绍云音乐海外的多语言方案之前，我们先了解下当前一些流行的多语言库以及一些常规的做法

i18next及react-i18next

i18next 是一个用于前端国际化的 JavaScript 库。它提供了一个简单易用的 API，可以帮助开发人员将应用程序本地化到多种语言。它提供了一种简洁的方式来加载翻译资源，并且支持多种资源格式（如 JSON、PO 等）。同时，它还支持动态加载和缓存翻译资源，以提高性能和用户体验。

react-i18next 则是基于 i18next 的一个 React 绑定库，提供了一套用于在 React 应用程序中实现国际化的组件和高阶组件。它能够无缝集成到 React 应用程序中，并且提供了方便的 API 来处理语言切换、翻译文本和处理复数等国际化相关任务

用法

初始化 i18next，并在入口文件引入

// i18n.js
import i18n from "i18next";
import { initReactI18next } from "react-i18next";
import LanguageDetector from "i18next-browser-languagedetector";

i18n
  .use(LanguageDetector)
  // 注入 react-i18next 实例
  .use(initReactI18next)
  // 初始化 i18next
  .init({
    debug: true,
    fallbackLng: "en",
    interpolation: {
      escapeValue: false,
    },
    resources: {
      en: {
        translation: {
          // 这里是我们的翻译文本
          welcome: "Welcome to my website",
        },
      },
      zh: {
        translation: {
          // 这里是我们的翻译文本
          welcome: "欢迎来到我的网站",
        },
      },
    },
  });

export default i18n;

// app.js
import { useTranslation, Trans } from "react-i18next";

function App() {
  const { t } = useTranslation();
  return (
    <div>
      <main>
        <p>{t("welcome")}</p>
      </main>
    </div>
  );
}

export default App;

vue-i18n

vue-i18n 是一个用于在 Vue.js 应用程序中实现国际化的库。它同样提供了一种简单易用的方式来处理对多语言的支持，使开发人员能够轻松地将应用程序本地化到不同的语言。vue-i18n 支持多种语言切换策略，包括 URL 参数、浏览器语言设置和自定义逻辑。同时它还支持动态加载和异步加载翻译资源，以提高性能和用户体验。

用法

// 准备翻译的语言环境信息
const messages = {
  en: {
    message: {
      hello: 'hello world'
    }
  },
  ja: {
    message: {
      hello: 'こんにちは、世界'
    }
  }
}

// 通过选项创建 VueI18n 实例
const i18n = new VueI18n({
  locale: 'ja', // 设置地区
  messages, // 设置地区信息
})

<div id="app">
  <p>{{ $t("message.hello") }}</p>
</div>

通过上面的代码，可以看出两个流行库的用法实际上有比较多的相似点。大体上都是在代码中内置多语种文案，在业务代码中通过调用 i18n 方法，并传入对应文案的 key。编译的时候，会根据当前语种，读取 key 对应的文案并渲染。

一开始，云音乐海外采用的也是与上述流行库类类似的用法来解决多语言的方案，但用得越久，我们发现的问题越多，诸如：

1、写法复杂，效率低，t('key') 的写法需要思考映射内容
2、不符合语意化，代码中一堆的 key，会产生较强的割裂感
3、回溯困难，定位问题文案需要先找 key，再通过映射关系找到内容
4、维护困难，内置的文案，如果需要修改，会需要改代码增加开发人员的心智负担
5、代码冗余、影响性能，一个模块内的内容被重复引用，引入了不必要的文案
6、项目迁移难度大，一个原先国内的项目要接入多语言需要做大量的文本兼容

诸如此类，上述的问题一度困扰了我们很长一段时间，而经过一年多时间的沉淀，目前海外的多语言方案已经能够较好地解决上述我们所面临的各种问题。下面，我们将会介绍我们是如何从文案管理到文案录入再到回归国内业务开发习惯（抛弃 t('key') 写法)以及性能优化等一步步形成云音乐海外国际化的方案。

方案的演变

1. 千语管理平台

云音乐海外项目启动后，iOS、android、前端和服务端都需要为多语言的切换做准备。在最开始的阶段海外团队尝试过用 Excel 来统一填写维护文案。但是通过 Excel 会存在如下问题：

复用率低下：传统的开发模式，各端本地存放国际化语言文本，难以重复利用；
维护成本高：不同开发修改容易导致出错、命名冲突等问题且没有修改记录，无法追溯，维护成本大；
沟通困难：产品运营和技术通过邮件、企业通讯工具等沟通配合难度大；

所以我们萌生了以下几个想法，以优化多语言支持的流程和维护：

建立统一的国际化管理平台：开发一个中央化的国际化（i18n）管理系统，用于存储、更新和检索所有语言的文本。这个平台可以为所有端（iOS、Android、前端、服务端，flutter等）提供统一的文案资源。
通知翻译: 开发者录入完文案之后，可以通过推送，将对应待翻译文案通过企业通讯工具推送给翻译同学。
多语种文案长度对比功能：这一功能支持实时预览同一文案在不同语言下的文案长度，以便翻译人员调整文案，确保各语种版本在长度上尽可能一致，避免不同语种下产生的样式表现问题。
Excel批量处理功能：平台支持通过 Excel 进行文案的批量导入和导出，以便于高效地管理和更新大量的文本内容。
集成翻译服务：考虑集成专业的翻译服务或机器翻译API，以提高翻译效率和质量。
版本控制：使用版本控制来管理国际化文本，确保更改的可追溯性。
角色和权限管理：在国际化管理平台中实现角色和权限管理，确保产品运营、翻译人员和开发人员能够在适当的权限下进行工作。

上述的这些方案与想法最终集合成了云音乐海外多语言文案管理平台——千语，千语的落地，极大地提高了多语言项目的效率和质量，同时降低维护成本和沟通难度。

使用流程

创建应用（每个工程，或某个 App 都可创建一个应用）
创建模块（每个应用下，可以创建多个模块，一般我们把每个独立页面，或者某一个玩法活动归笼到某一个模块下）
创建文案
发布（发布到 CDN）

对于多语言文案生产端的设计与实现，本文不做详细讨论。市面上已经有一些对外提供服务的多语言管理平台产品，大家可以参考他们的设计与实现。

2. 千语自动化

背景

一开始云音乐海外C端多语言方案是使用的 i18next，react-i18next 这两个库实现的。

该技术方案与上面介绍的 i18next，react-i18next 库的用法一致，区别在于一个是我们文案不是写死在代码中，而是通过 CDN 来获取文案内容，二是为了项目管理方便，我们的“key”是由项目模块module(module 可以理解为一个命名空间，不同的页面可以单独定一个 module，不同的应用也可以定一个 module)以及唯一键 key(key 可以理解为一个文案的唯一标识) 组成，具体方案大致如下：

千语平台发布前端文案到 CDN 上
前端请求 CDN 获取多语言文案(由 key 跟文本组成的 JSON)，并用 i18next 初始化
业务代码中使用 react-i18next 的 useTranslation，文案通过编写 t('module:key')，也即 react-i18next 的 t('key') 来获取对应模块下的文本映射
最终渲染页面

我们开发流程大致如下：

千语平台上录入文案
通知翻译同学翻译文案
发布文案到 CDN，更新 CDN 版本
修改代码中的CDN版本号，这样我们的文案才能请求到指定版本的文案
前端代码中文案通过书写 t('module:key')

2.1 千语自动化1.0

在经历多次需求迭代后，我们发现当前的多语言方案效率不佳。工作流程中需要频繁切换平台和 IDE，并且涉及修改 CDN 资源的版本号来确保获取最新的 CDN 资源。另外，代码中使用的 t('module:key') 缺少清晰的语义表达，这降低了其易理解性和维护性。因此，我们开始考虑实施多语言文案的自动化策略，以提升效率和代码质量。

梳理可自动化流程

为了提高云音乐海外项目的工作流程效率，经过深入讨论，我们决定对现有流程进行以下优化：

简化代码书写：不再使用传统的指定 module 和 key 的方法编写国际化代码，改为直接使用 $i18n('中文') 进行书写，简化开发过程并提高代码的可读性。
自动化文案管理：开发人员无需手动在千语平台的文案管理页面创建录入文案。千语自动化插件将自动提取代码中的待翻译中文文案并自行创建唯一键 key 并上传，减少人工操作和潜在的错误。
自动发布文案：一旦文案上传完成，系统将自动触发发布流程，将文案推送至 CDN，无需开发人员手动介入，提高发布效率。
自动化版本管理：取消手动修改 CDN 版本号的步骤，通过读取缓存中的版本号，确保流程的连贯性和准确性。

经过这些流程的优化，开发人员在编码时只需简单地使用 $i18n() 包裹中文文案，剩余的翻译上传、发布到 CDN 以及版本管理等流程均由自动化工具完成。这样不仅极大地提升了开发效率，也保证了流程的一致性和准确性，让团队能够更专注于核心开发工作。

实现方案

架构图

为了提升工作效率并实现国际化文案的自动化管理，我们设计了一个两阶段的自动化方案：

第一阶段：文案自动替换

技术实现：利用自开发的 babel 插件，这个插件通过分析抽象语法树（AST），识别出代码中的 $i18n('你好') 表达式。同时插件会以当前项目设定的模块 module 自动查询多语言平台，找到对应的 module 下“你好”这个文本的 key，然后将原始的 AST 节点 $i18n('你好') 替换成 t('module:key') 格式。
迭代更新：在后续的版本迭代中，我们增加了对直接使用中文文案的支持（也即摒弃了$i18n()方法包裹的形式，通过 babel 插件直接识别代码中的中文文案，如“你好”），进一步简化了开发过程。

第二阶段：文案自动提取与上传

过程描述：在代码提交前，通过 commit 钩子扫描修改过的代码。该过程与之前在文案自动替换阶段创建的缓存文件进行对比，以确定新的或修改过的文案。然后，将这些文案自动上传到多语言管理平台。
自动触发发布：文案上传后，自动触发平台的发布流程，主要更新文案版本号。这确保了在代码的热更新过程中，如果文案发生变化，文案自动替换阶段能够识别并拉取最新的文案资源。

通过这个方案，我们极大地简化了国际化文案的管理流程，从手动操作转向自动化处理，显著提升了开发效率并减少了人为错误，使得团队能够更加专注于产品的核心功能开发。

重点部分

资源缓存

工具包会缓存版本号跟文案资源到包中。初始化的时候，会先对比版本号是否一致，如果不一致，拉取平台最新文案，并缓存到本地，供后面 babel-plugin 文案替换使用。

技术方案中比较复杂的部分涉及到 AST，一个是 babel-plugin，一个是 commit 的时候的执行的 node 脚本。下面我将提供阉割过的代码，带大家了解下 AST 部分的实现。

babel-plugin

{
  return {
    visitor: {
      Program: {
        enter(programPath, { filename }) {
          programPath.traverse({
            // 拦截纯中文的节点
            StringLiteral(path) {
              visitorCallback(path, filename);
            },
            // 拦截纯中文的节点
            JSXText(path) {
              visitorCallback(path, filename);
            },
            // 拦截 $i18n() 的节点
            CallExpression(path) {
              ExpressionCallback(path, filename);
            },
          });
        },
      },
    },
  };
}

上面三个节点，分别对应我们代码中的五种写法。

纯中文写法
$I18n() 写法（万能写法，支持很多功能）
- $i18n('纯中文')
- 文案中带有变量$I18n('你好！%1', { 1: name })，%1会被替换 name 对应的值
- $i18n({ module: 'shop', key: 'dress' })，支持 module key 的写法
- $i18n({ text: '你好！<1>%1</1>', components: { 1: <span>}, values: { 1: name }})多语言组件写法，例子最终会被替换为你好<span>{name}</span>。比如 name 需要通过标签来修改他的样式。

visitorCallback

纯中文节点处理逻辑

function visitorCallback(path, filename) {
  const CNValue = path.node.value.trim();
  // 先判断是否中文 [yes] 已验证匹配到了所有中文
  if (!(isChinese(CNValue) && !isIgnoreNode(path))) return;
  // 第一种情况是打包时携带对应的语种进来
  const languageModules = DefaultLangObj;
  // 找到匹配到对应模块的module:key
  const currentModuleName = getModuleNameByRelativePath(
    Path.relative(i18nConfig.rootPath, filename),
  );
  const currentCNObj = LOCAL_DOC?.["zh-CN"]?.[currentModuleName] || {};
  const textKey = Object.keys(currentCNObj).find(
    (key) => currentCNObj[key] === CNValue,
  );
  // 替换原来的中文文案节点为当前语种对应的文案节点
  const languageText =
    languageModules?.[currentModuleName]?.[textKey] || CNValue;
  path.replaceWith(t.stringLiteral(languageText));
}

通过拦截的中文，找到对应中文在千语平台上的 module 和 key
在对应语种文案集合中通过 module 和 key 找到对应的文案
文案替换

ExpressionCallback

$i18n() 写法处理逻辑

function ExpressionCallback(path, filename) {
  // 如果里面是对象 对应 $i18n({})
  if (t.isObjectExpression(node?.arguments[0])) {
    // 没有components属性，代表是$i18n({ module, key }) 写法
    if (!hasComponentAttr && keyFind && moduleFind) {
      const languageModules = DefaultLangObj;
      const key = keyFind.value.value;
      const module = moduleFind.value.value;
      // 找到匹配到对应模块的module:key
      const languageText = languageModules?.[module]?.[key];

      const valuesProps = findProperty(properties, VALUES);
      // 有本地文件的处理方式

      const newLiteral = t.stringLiteral(languageText);
      // ... 一堆代码逻辑
      // 通过上面的module key 从缓存文件中找到对应语种的文案，并替换
      path.replaceWith(newLiteral);
      path.skip();
    }
    // 如果里面有components属性，代表是多语言组件写法
    if (hasComponentAttr) {
      const CNAttr = findProperty(properties, TEXT);
      const valuesProp = findProperty(properties, VALUES);
      // ... 一堆代码
      // 封装成一个react组件返回
    }
  }
  // 如果里面是文本
  if (t.isLiteral(node?.arguments[0])) {
    // 主逻辑大致同上面纯文本visitorCallback的逻辑，只是多了一些逻辑的判断，兜底语种等功能
  }
}

通过拦截的中文，找到对应中文在千语平台上的 module 和 key
在对应语种文案集合中通过 module 和 key 找到对应的文案
判断不同的写法类型，转化成相应的内容

接入指南

const { I18nPlugin } = require("@music/i18n");

webpackChain: (chain) => {
  chain.plugin("i18n").use(I18nPlugin, [{ id: 190 }]); // id 对应千语多语言平台的应用id
};

使用指南

对于那些好奇如何在文案中嵌入变量或从接口动态获取数据的同学，这里提供了几种主要的使用方式来适应不同的场景：

直接使用中文：当文案中不包含变量时，书写纯中文即可。

<p>你好</p>

嵌入变量的文案：使用 $i18n('我有一个%1', { 1: apple }) 的格式来插入变量。例如，$i18n('%1 world', { 1: 'hello' }) 允许你将 hello 作为变量动态插入到文案中。
使用已有文案的引用：通过 $i18n({ key, module, fallbackText }) 格式引用千语系统中已存在的文案。其中，fallbackText 作为未成功匹配文案时的备选内容。

组件中的复杂文案：

$i18n({
  text: "价格<1>%1</1>商品名<2>%2</2>",
  components: {
    1: <p style={{ margin: "0 5px", color: "#FDE020" }} />,
    2: <p style={{ color: "#FDE020" }} />,
  },
  values: {
    1: price || "",
    2: name || "",
  },
});

这种方法允许在文案中嵌入React组件，并通过 values 传递变量。

我们也在不断探索更优的用法来进一步提升开发体验。近期，我们计划引入基于字符串模板的变量嵌入方式，如通过 ${hello} world 的形式来实现。这将使得带变量的文案书写更加直观和便捷，为开发者带来更佳的开发体验。

2.2 千语自动化2.0：性能优化方案

项目性能同样是海外项目的一个重要的考量因素。虽然基于 i18next 和 react-i18next 实现的自动化方案有效提升了开发效率，解决了一系列的效率问题，但它并未充分解决由多语言支持引入的各种性能挑战：

多语言资源加载：项目需要从CDN预加载多语言资源，或将所有语种文案打包进项目中，这增加了首屏加载时间。
库依赖：引入 i18next 和 react-i18next 两个库，导致项目体积增加。
渲染延迟：项目必须等待多语言库初始化完成后，才能进行最终渲染，影响用户体验。
静态站点生成（SSG）不友好：当前方案不支持 SSG 预构建，无法为不同语种国家提供同一份预构建的产品(因为不同国家的语言不同)。

2.2.1 解决方案探索🤔️

为了克服这些性能问题，我们决定跳出现有自动化方案的限制，采用一种新的思路：为每个语种创建独立的构建包。这个构建包将仅包含所需的语种文案，无需携带多余的语种信息或依赖 i18next 、 react-i18next 库。这样，我们可以针对不同的语种提供精简且高效的构建产物，避免不必要的资源加载和库依赖，同时解决SSG预构建的问题。

通过这种多构建产物方案，我们旨在显著提高项目的加载速度和运行效率，同时维持开发过程的自动化和高效性，为用户提供更加流畅和响应快速的体验。

2.2.2 技术方案

为了提升项目性能并解决多语言支持带来的挑战，我们对原有的自动化方案进行了多次优化和调整：

2.2.3 生产产物的优化

编译阶段的改进

引入了 I18N_LANGUAGE 环境变量，在构建过程中指定当前构建目标的语种。
利用自定义的 babel 插件，在AST分析阶段将代码中的纯中文或通过 i18n() 方法包裹的文案，直接替换为当前构建语种对应的文案。这一步骤实现了在源代码层面的语言特定优化。
- 前一阶段可以简单理解为 中文/$i18n('中文')** 通过babel转成 **$i18n('module:key') ===> 对应语种文案
- 现阶段直接越过了中间阶段，直接将中文文案编译成对应语种文案

例子

平台文案

{
  'zh-CN': {
    hello: '你好'
  },
  'en-US': {
    hello: 'hello'
  }
}

源代码

import React from "react";

const Main = () => {
  return <div>你好</div>;
};

如果构建的时候，指定了英语语种，源代码会被转换成

import React from "react";

const Main = () => {
  return <div>hello</div>;
};

构建产物实际是编译过的代码，上面的代码只是为了说明文案原地替换

产物输出阶段的调整

调整了构建产物的 publicPath 设置为 dist/${I18N_LANGUAGE}，确保每个语种的构建产物被放置在独立的目录中。这样，dist 目录下将组织有针对不同语种的构建包，使得资源管理更为清晰和高效。

构建出来的 dist 目录如下

.
├── en-US
├── id-ID
├── tr-TR
└── zh-CN
...

这样不同语种的路径如 /heatup/en-US/pageA，就会指向到en-US构建产物中的pageA页面。

2.2.4 消费产物的变更

访问路径的调整

我们从原先直接访问如 /pageA 的方式，转变为访问指定语种的路径，例如 /${language}/pageA。这意味着，客户端在加载某个WebView页面时，会根据APP当前选择的语种，自动将链接调整为对应的语种版本，如访问 /en-US/pageA。
通过这种方式，资源请求直接指向 dist/en-US 下的构建包，从而实现了语种特定的资源加载，减少了不必要的资源请求和加载时间，提升了页面响应速度和用户体验。

通过上述改动，我们不仅提升了项目的运行效率，减少了不必要的资源负担，也实现了更加灵活和高效的多语言支持方案。这些优化确保了项目在全球多语种环境下的性能表现同时保证了海外的用户体验。

总结

尽管本文未能覆盖所有细节，但已概述了云音乐海外项目在多语言上的探索实践以及目前云音乐海外多语言自动化最终方案的核心理念。与早期手动处理相比，目前该方案显著提高了开发效率，解决了多个长期存在的问题比如频繁手动输入文案的繁琐、代码中文案缺乏清晰语义以及文案重复输入等问题。此外，它还克服了传统方法导致的项目体积膨胀，以及随之而来的性能挑战。

通过自动化处理流程的引入和优化，云音乐海外项目不仅提升了工作流的效率，还确保了项目的轻量化和高性能运行，从而为海外用户提供了更加流畅和响应迅速的体验。云音乐海外多语言方案使得团队能够更专注于创新和提升产品质量，同时为用户带来更优质的服务。而于此同时我们也面临着更多的挑战，对多语言项目的优化、提升，仍是云音乐海外项目组需要不断思考与探索的课题。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐舆情平台建设

2024-02-21T10:29:37+08:00

本文作者：王桂泽

本文介绍了云音乐舆情平台建设过程中遇到的一些问题和解决方案。

背景介绍

通用舆情分析概念和局限

通用的舆情分析是指通过收集、整理和分析公众对某一特定话题或事件的言论、观点和情感，从而了解公众对该话题或事件的态度和情绪的方法。舆情分析可以通过监测社交媒体、新闻媒体、论坛、博客等渠道上的信息来获取公众的声音和反馈。

通用舆情分析的局限

通用的舆情分析由于数据来源广泛，内容格式宽泛，仅能基于特定主题进行情感分析或趋势分析，无法深入挖掘信息，这意味着企业可能无法获得关于产品的详细反馈和建议，无法了解消费者对产品的具体需求和改进方向。因此，为了满足企业内部对产品提升的需求，可能需要采用更专业、更定制化的舆情分析工具和方法，以便更全面、深入地了解消费者对产品的态度和期望。

云音乐舆情平台建设

1. 数据特征：数据来源丰富

云音乐舆情分析的数据来源不仅包括外部公众渠道上的信息（比如社交媒体、新闻、博客等），还有许多内部的数据来源，例如通过APP提交的反馈数据，在歌曲下方的评论数据，或者是通过七鱼客服人工反馈的数据等等。这些数据为精细化的舆情分析提供了基础。

这些数据具有如下特点：

相关性更高：反馈内容都与产品密切相关。
馈更加及时：反馈消息实时推送，具有高时效性。
更加结构化：除了反馈内容，还包括用户信息、设备信息、系统信息等。

2. 分析诉求：精细化分析诉求

云音乐的舆情分析平台与通用的舆情分析不同，它需要支持更多维度和更细致的分析能力，以满足不同业务和场景的监控需求。

聚类分析

云音乐拥有多个产品，每个产品都有各自的功能模块，而每个功能模块还可以进一步细分为子功能。可以将这种结构理解为每个产品都有一个功能树（聚类树）。聚类分析是指将舆情数据归类到聚类树上的某个具体的聚类节点，以便更好地了解用户对不同功能模块的态度和需求，从而针对性地进行改进和优化产品。

反馈类型分析

在确定舆情所属的功能模块之后，还需要进一步分析用户的反馈类型，不同的反馈类型需要不同的角色关注。包括：

问题反馈：反馈产品或功能问题，开发人员需要关注
产品建议：反馈产品或功能改进建议，产品经理需要关注
使用咨询：用户咨询产品的使用方法或者相关问题，客服需要关注
投诉举报：反馈产品或功能的不良问题或违规行为，合规人员需要关注

摘要提取

摘要提取是指提取舆情消息中的要点和关键信息。通过对原始消息进行提炼，摘要识别可以帮助用户快速了解舆情消息。另外，可以对大量舆情消息进行摘要分析，以便发现整体问题和趋势，并发现新的热点问题。

情感分析

情感分析类似于传统的舆情分析，主要是识别用户情感，包括正向、负向和中性。可以帮助我们了解用户对特定功能的态度和情绪，从而指导产品的改进和优化方向。

3. 智能监控：监控和报警

舆情监控和通用的监控系统存在一些区别：

有些渠道的舆情消息是定时爬取的，实时性要求不高
舆情消息量一般都比较大，一般是对整体趋势、热点问题的监控
舆情变化趋势是随机的，和内部产品和外部环境都有关系，没有特定的规律

这就要求平台制定更加智能的监控策略，当舆情消息超出预期时，可以通过短信、邮件等方式向指定人员发送报警通知，以便相关人员及时处理。

舆情流转链路

云音乐舆情平台更加专注于舆情数据的分析、洞察和监控，通过定义标准化的数据结构快速接入不同来源的数据，下面是核心的舆情流转链路：

舆情数据来自第三方平台，包括：反馈平台，七鱼私信平台、大数据平台；上报支持包括MQ协议和http协议；输出原始舆情。

适配器：原始舆情先经过适配器处理，标准化各数据源模型结构，补充设备、产品等元数据信息。输出标准舆情。

分析器：对标准舆情进行内容分析，根据舆情所属空间，获取该空间的聚类树，并进行聚类分析、情感分析、意图分析、摘要分析、关键词分析。输出标准舆情+分析标。

存储器：将标准舆情和分析标存储到Elasticsearch，供后续在线查询和分析。

报警计算器：根据平台内的报警规则（系统报警+用户报警），判断当前舆情是否满足报警规则并触发报警。

在线查询&分析：查询、趋势分析、聚合分析等。

舆情大盘：发现热点事件、各分析维度的排行榜等。

舆情消息模型

平台数据来源渠道广泛，而且每个数据源都有独立的属性，既要支持针对每种渠道的精细化分析，也要支持在全局视角对多种渠道数据进行整体分析。
为了解决这个问题，平台设计了通用的舆情消息模型，在数据接入层和产品展示层，都是面向这个数据模型进行设计，这样设计的好处有：

在数据接入层，可以快速接入新的数据源
在产品层，可以复用舆情查询、分析、报警等功能

一条标准化的舆情消息有下面一些属性：

数据源

数据源是指舆情的数据来源，比如来自App的用户反馈，来自七鱼私信的客服对话等。
平台会根据不同的数据源，在产品层做动态的功能展示。比如在舆情查询页，会根据数据源展示相应的属性，在报警配置页，会根据数据源展示相应的筛选条件。

基础属性

每种数据源都有一些基础属性。这些属性是在舆情上报时能够识别并携带上来的，例如用户信息、设备信息、App信息、操作系统信息等。
平台支持按照所有基础属性做筛选、聚合分析，在报警的时候也可以按照所有基础属性做筛选，提供了灵活的查询和监控能力。

分析属性

除了基础属性，分析器（包括平台内置的分析器和用户自定义的分析器）还会为舆情添加额外的分析属性。
不同的分析器会生成不同的分析属性，例如情感分析器会生成情感属性，聚类分析器会生成聚类属性等。
和基础属性类似，所有分析属性都支持筛选、聚合分析。

扩展属性

支持业务方自定义一些扩展属性，以满足不同业务方差异化的查询和分析需求。

技术架构

数据接入：原始舆情数据，有来自反馈平台、七鱼平台、数据平台等；协议支持MQ和http协议。

处理层：

适配器：将各种来源的数据源整合成标准文档结构，并补充元数据：如产品、设备信息、用户信息等。
分析器：对舆情内容进行多维度分析，包括：聚类、情感、意图、关键词、摘要提取，分析之后会打上分析标

数据管理：数据管理主要是配置处理层的处理规则以及报警规则

分析&可视化层：提供对分析之后的舆情数据的查询和分析能力；

监控&报警：对接通用监控和统一报警实现舆情监控；同时提供定时分析和舆情洞察能力，提供舆情大盘和日报功能。

分析引擎

分析引擎负责对采集上来的数据做分析，生成对应的分析属性。平台会内置一些分析器，比如情感分析、聚类分析、反馈类型分析等。
分析器的选择是灵活的，可以根据舆情的数据特征（数据源和基础属性）和分析需求，选择相应的一个或多个分析器进行分析处理。
同时，平台也可以方便地添加自定义的分析器，以满足不同场景的分析需求。可以通过GPT提示词开发、SDK插件、服务接入等多个方式接入自定义的分析器。

内置分析器

平台内置的分析器都是基于GPT开发的，相比传统的机器学习、NLP等分析方法，使用GPT分析具有以下优势。

首先，GPT模型能够更好地理解和处理自然语言，在语义理解和文本生成方面表现出色，更好地理解语言的上下文和含义，从而析过程中能够更准确地捕捉到细微的语义差异。
其次，GPT不需要人工标注训练数据，根据需求调整提示词后即可立即生效。传统的机器学习和NLP方法通常需要大量标注数据来训练模型，需要耗费大量人力、机器和时间成本，无法满足快速变化的业务需求。
另外，GPT模型还能具有总结归纳、发现新问题的能力，而传统的机器学习和NLP方法则则无法完成这一任务。

GPT成本优化

与传统的机器学习、NLP等分析方法相比，GPT分析会产生费用，并且随着分析文本数量的增加，成本也会增长。在某些情况下，成本可能会很高，例如在进行聚类分析时，需要将聚类树和文本一起输入给GPT。然而，聚类树本身（包括节点和节点的描述）可能非常庞大，这将消耗大量的Token。平台也针对性的做了一些成本优化措施：

优化1 缓存

基于常见文本的分析结果缓存
基于文本+聚类树版本的分析结果缓存

优化2 精简聚类树

聚类分析场景中，聚类树本身消耗了大量的Token，可以在分析之前通过文本相似度算法先筛选出"可能归属"
的聚类，在分析的时候只需要分析这些聚类即可，这可以大大减少聚类树的大小，有效地降低分析成本。

在线查询&聚合分析

舆情消息经过分析引擎分析后会保存在 ElasticSearch 数据库中，以便支持实时地在线查询和分析。
舆情查询页设计如下：

舆情查询

舆情查询的主要场景：在限定上下文中，查询和某个关键词相关的舆情。限定上下文支持全属性（包括基础属性和分析属性）；关键词也需要支持逻辑运算，通配符匹配等能力。

例如：查询用户反馈数据源、iphone端、负面情感的和『黑椒播放器』相关的舆情消息。

趋势分析

平台支持灵活的趋势分析能力。在给定查询条件后，您可以查看数据的变化趋势，并指定不同的聚合粒度。此外，平台还提供一些趋势指标，如平均值、最小值、最大值、P80和P95等数据，以满足不同的分析场景。

例如：在新建监控和报警时，希望根据历史的舆情数据趋势和指标，制定合理的报警阈值。

聚合分析

平台支持全属性的聚合分析能力。在给定查询条件后，平台会计算所有『可聚合维度』的分布情况，给出每个维度的不同取值的消息总数和占比。『可聚合维度』是根据当前搜索的数据源动态识别的，不同的数据源可以配置不同的聚合分析维度。

例如：查询某个时间范围内的Top聚类问题，或者分析和某个主题相关的所有舆情消息的情感分布、App版本分布等。

监控和报警

平台支持灵活的监控和报警策略。一条监控或报警规则包括3个部分：

1. 数据筛选

数据筛选指定了希望监控的舆情消息范围，支持全属性（基础属性和分析属性）的筛选，每个属性支持指定多个值。

例如：指定监控范围为：用户反馈数据源中，iphone端、改版相关、负面舆情。

2. 报警条件

平台支持常见的报警条件，例如检测周期、每次检测的时间范围，以及按照阈值、环比增长触发等。同时，平台对阈值的设定经过优化，可以根据历史数据的趋势指标来指定动态阈值。当趋势发生变化时，报警阈值也会相应地动态改变，以确保阈值始终与当前趋势匹配，从而更准确地反映问题。

3. 报警接收

当满足报警条件后，会通知相关的接收方。支持指定接收人、IM群组，发送方式也支持IM、短信、电话、邮件等。

智能报警

舆情报警具有一定的特殊性，首先舆情消息本身数据量较大，数据有一定的滞后性，通常会关注整体的变化趋势，而且趋势会随着产品功能迭代和外部环境发生较大的变动。
在这种场景下，报警的监控策略和阈值设置就难以确定，如果设置固定的报警阈值，很容易出现误报或者漏报的情况。如果都是靠人工定期维护报警，成本又会很高，而且及时性和有效性也难以保障。

针对这个问题，平台提供了一种智能报警的解决方案。平台会根据不同的监控场景自动创建报警规则，报警阈值是根据历史数据动态计算并定时刷新的。

例如，在聚类问题反馈类监控中，希望监控每个聚类的问题反馈情况，平台会为每个聚类创建一个智能报警规则，监控与该聚类相关且反馈类型是问题反馈的舆情数据。
同时根据在该数据筛选条件下的历史的舆情趋势，动态计算阈值和环比增长值，以确保阈值和环比值与当前舆情趋势相匹配。为了保证阈值的时效性，平台还会定时刷新这个阈值。
这样可以有效保证报警的有效性和时效性，同时不需要人工参与，大大降低了人工成本。

总结

云音乐舆情平台具有以下特点：多数据源、多维度的数据特征；丰富、可扩展的分析器；灵活的在线查询和聚合分析能力；以及智能的监控和报警能力。能够满足复杂场景的舆情分析、查询、监控和报警需求。

后续的发展方向是结合GPT，进一步挖掘数据背后的价值，例如提供智能日报或周报功能，对周期内的舆情数据进行提炼、总结，并给出分析报告，以减少人工分析的成本。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

心遇APP站内玩法H5体验优化实践

2024-02-07T10:36:52+08:00

本文作者：史志鹏

本文主要介绍心遇APP站内玩法H5的体验优化实践，主要包括离线包功能简介、接口图片预加载、榜单优化等具体场景内容。

1. 离线资源

在H5的开发过程中，尽管我们实践了很多手段对H5进行性能提升，比如代码层面的 React 渲染优化，Web Vitals 体验优化；打包构建层面的 Code Split & Bundle Analyze 加载优化；应用发布层面的SSR、SSG、网络缓存访问优化等，我们不可否认这些优化手段的有效性和可行性，但是这些优化手段都无法以框架的形式沉淀下来，需要开发者根据已有的经验和分析在代码编写、构建打包、应用发布等各个阶段倾注额外的心力来进行性能优化提升工作，甚至有时候可能会弄巧成拙进行着“反向优化”。

对于心遇APP的社交活动玩法，一般来说和APP中的基础性功能相比有明显的不同:

它的玩法逻辑具有一定的系统性，是多个子功能系统的数据生产和消费过程，比如在我们《抢车位》的玩法中，涉及到的生产子功能有10多个：
玩法场景具有一定的复杂性，存在若干个游戏场景，游戏场景间存在关联，在《抢车位》玩法中，有宝箱抽奖、停车、商城购车、碎片&皮肤合成等多个玩法场景，所有的玩法场景具有一定的数据关联。
玩法的体验也具有多样性，比如混合常见的互动营销交互、小游戏场景等，例如在《抢车位》玩法中也有九宫格抽奖、停车位停车收车等游戏化场景，在《打怪兽》玩法中，有怪兽击打效果、对战PK场景。视频不可见请点击开宝箱效果、打怪PK效果

因此这类业务的H5开发，不可避免的具有着静态资源大、交互方式多的特点。此外，心遇APP的用户量级与终端性能网络属性，对H5的加载和交互体验也有着一定的要求，这也决定了开发这类玩法H5需要提供很好的性能和交互体验。

综上，为了一劳永逸地解决前端资源加载的速度问题，我们和客户端、部署平台同事合作，共同推动了离线包功能的升级。

1.1 离线包拆包

上面说到，对于玩法类H5，静态资源往往比较多，比如在我们的两个玩法里，图片经过压缩后，打包的总体积仍然会达到 10M 以上，由于离线包 diff 的版本可能有限，碰到客户端缓存的版本已经超过离线包 diff 版本限制时，则需要下载全量的离线包，这个全量包的流量不应该是用户应该承担的，所以我们选择对离线包进行“拆包”，这个从功能上和小程序的分包一样，在技术实现上“接近” Webpack 的 code split，即按照功能模块划分，对重要的功能打包到主包进行优先加载，将不需要优先加载的子包（subpacks）按照一定的规则逻辑延后加载。

拆包实现的技术主要是：

首先需要对功能模块进行划分，主要分为首屏、次屏。
按照首屏、次屏将文件组织好，比如子包都在 subpacks 文件目录下。
使用 Webpack optimization 自定义分包能力，将 subpacks 下的文件资源额外分包，形成独立的 chunkFile，构建产物也放到 publicPath 的 subpacks 目录下。
离线包发布平台提供主、子包打包、下发能力，同时提供后续发布时的diff能力、下发能力。
客户端根据一定策略，进行主、子包下载，同时提供 JSBridge 能力，交由前端进行子包下载。

1.2 Native开屏界面

有了离线包功能之后，尽管我们可以忽略网络加载的延迟，但是前端资源仍然需要具有客户端拦截逻辑和磁盘加载带来的延迟， Webview 容器首次加载仍然会有白屏或者 Loading UI 的可能。为了带给用户好的加载体验，对于接入了离线包的 Web 应用都在客户端 Webview 容器上添加了统一的开屏界面，开屏界面支持简单的应用 UI 配置和显示，开屏界面可以由前端在合适的时机控制其销毁，比如在主界面的 DOM 渲染完成时，调用客户端隐藏开屏界面能力，用户即可以看到渲染好的 H5 界面，相比前端直接白屏和Loading，客户端原生的开屏体验更佳。

开屏界面和离线包功能绑定，具有应用层面的配置能力。

{
  "moduleName": "xx", // 应用名，用于离线包关联
  "url": ".+/xx", // publicPath 用于客户端资源匹配
  "resID": "xx", // 离线包文件资源ID
  "resVersion": "1700720234678", // 构建版本，timestamp
  "loadingInfo": { // 开屏界面配置
    "loadingBgUrl": "https://xxx.png", // 应用 icon
    "loadingTextInterval": 1500, // 多个文案切换间隔
    "loadingText": ["xxxx"] // 文案
  },
  "packages": [{ //  // 子包信息
        "moduleName": "subpacks-xxx",
        "resID": "xx",
        "strategy": "open_block|preload",
        "resVersion": "1700720234678"
    }],
  "versionControl": [ // 版本控制配置，主要是过滤条件
    {
      "belowVersion": "xx", // 指定版本以下
      "specificVersionList": [], // 特地版本
      "minVersionName": "1.0.0", // 最小版本
      "userNos": "xx" // 过滤userId
    }
  ]
}

1.3 离线包拆包加载流程

下面是客户端同学设计的离线包拆包加载流程，可以看到主要是基于子包拆包后添加了子包加载的逻辑，以及在原来离线包的功能上调整了主包的加载逻辑，同时增加 Native 开屏逻辑：

2. 数据状态管理与预请求

玩法类 H5，业务场景一般比较多。这里的业务场景，在技术层面可以理解为一个个的页面，也可以实现为一个个的全页面组件。业务场景之间存在比较多的数据状态同步，比如当前用户资产、全局性的逻辑数据等；除了比较多的数据状态同步之外，还存在多个业务模块数据的串并行读写，相同业务模块数据的不同表现形式等。基于这些业务情况，我们在数据管理上采用了以下两个措施：

2.1 必要的数据状态管理

通过全局数据状态管理，不仅可以提高开发效率，还可以“持久化”数据，做高效的数据传递和共享。在玩法类的 Web 应用，功能模块可以高达20多个，对于同一份业务数据，可能会被多个功能模块进行读写，为了高效地处理模块间数据的传递与同步，我们使用 zustand 来进行数据状态管理，在数据层封装好每个业务功能模块的数据读写，然后在业务逻辑层进行数据读写逻辑的引用和调用，UI 层直接取数据进行 UI 渲染，使业务逻辑的表达具有明显的层次性，带来业务模块编写的高效。以下为脱敏代码：

// store.js
export default create<StoreType>((set, get) => ({
    data: {
        // xxx
    },
    getData: async () => {
        try {
            const res = awwait servivce.getData();
            set({ data: res });
        } catch (e) {
            //
        }
    },
    // 暴露给其他业务逻辑
    setData: payload => set({ data: payload });
    // ...
}));

// view.js
const data = useStore((state: StoreType) => state.data);
const getData = useStore((state: StoreType) => state.getData);
// getData();
// <View data={data} />

2.2 数据预加载

当然，为了减轻异步数据加载对视图展示的影响，使 H5 更具有小游戏的体验，我们还对各次级模块的数据进行预加载，具体的实现方式是在各次级模块的前一级模块的非阻塞逻辑里完成对次级模块核心数据的预加载请求，在次级模块加载时，再重新发起数据请求更新数据来兜底，这样在次级模块显示时则可以减去 Loading UI，加快次级模块的展示和数据的准确同步。
非阻塞逻辑是指前一级模块组件 useEffect 模拟的组件 ComponentDidMount，比如上一级页面或次级模块的入口组件 componentDidMount时机，尽管这些逻辑需要开发者关注更多的逻辑，但是当模块被处理成组件和页面时，则可以结合 React-Router V6 的 loader 字段和 React Suspense + use 的方案进行数据的规范预请求。以下为脱敏代码：

// A1, A2, A3...为不同的业务模块
// A1
useEffect(() => {
    fetchData(A1);
    prefetchData(A2);
    prefetchData(A3);
}, []);
return (
    <>
        <A1 />
        <Link to={A2} />
        <Link to={A3} />
    <>
);
// A2, A3
const data = useStore((state: StoreType) => state.dataA2);
return (
    <A2 data={data} />
);

3. 图片加载优化

图片资源的加载优化也是应用体验优化重要的一环，对应用的 LCP、FCP 数据有着明显提升。在 Web 应用中，图片分为应用本地的静态图片和接口返回的动态图片，在图片的加载和展示优化上我们也有一些实践。

3.1 静态图片

类似于接口预加载的思路，我们使用 web worker 技术，将核心次级模块中的大图进行提前加载，由于 web worker 的非阻塞性和浏览器本身的资源缓存能力，这些次级模块的背景图会被提前加载并缓存在浏览器的内存中，而由于图片模块引用路径的一致性，且这类静态图片都被离线缓存到客户端本地，所以提前和实时的渲染请求也不会造成消耗流量的问题，同时即使提前请求失败，也会有实时渲染请求来保底。

// preloadAssets.js
import { RESOURCE_TYPE } from '@music/tl-resource';
import BoxBg from '@/subpacks/assets/TreasureBox/tbg.png';
import PackageBg from '@/subpacks/assets/PackStore/bg.png';
// 需要预加载的图片
export default [{
    src: BoxBg,
    type: RESOURCE_TYPE.IMAGE,
},
{
    src: PackageBg,
    type: RESOURCE_TYPE.IMAGE,
},
{
    src: StoreBg,
    type: RESOURCE_TYPE.IMAGE,
}];
// view.js
// 预加载图片
await Resource.loadResource(loadAssets, (progress: number) => {
    setLoadProgress(progress);
});

3.2 动态图片

在 Web 应用中，接口返回动态图片，一般分为用户上传的 UGC 图片和平台在后台上传的 PGC 图片。我们对于这两类图片，从图片的生产、转换、消费流程上都进行了合理的优化：对于接口下发的 PGC 图片，在后台配置的时候就根据 UI 稿显示的大小限制好图片的宽高、大小、格式，比如 UI 稿上图片展示的是 100x100 像素，则取三倍图标准 300x300 进行限制，这样可以合理控制资源的大小，避免不必要的渲染。

同时对于在业务迭代过程中一些改动较少的 PGC 图片，我们会在工程内进行图片的本地化，然后基于图片上传得到的存储 key 创建和接口返回图片地址映射，当远程图片加载时，替换成了本地图片地址进行加载，这样可以做到远程图片的加载速度显著提升。
对于 UGC 图片，则使用 CDN 裁剪，减少不必要的像素渲染，同时对裁剪参数进行收敛，避免 CDN 由于参数差异性导致不必要的回源。

代码层面对比较大的图片减少使用 CSS background-image，增多使用 img 标签来提高浏览器对图片的加载优先级。

// 本地图片Map，key是存储 key，value 是对应图片的本地地址，数据的来源是基于接口解析获得
const LocalImgMap = {
    obj_w57DlMOIw6PCnj7DjMOi_31820368447_d791_9c66_d7e1_a0b39b42967e725d72c1a701d6bbe3ec: require('./locals/obj_w57DlMOIw6PCnj7DjMOi_31820368447_d791_9c66_d7e1_a0b39b42967e725d72c1a701d6bbe3ec.png'),
    obj_w57DlMOIw6PCnj7DjMOi_31820383635_fe96_8304_f720_474678d79820f05a5af723f710ecb54a: require('./locals/obj_w57DlMOIw6PCnj7DjMOi_31820383635_fe96_8304_f720_474678d79820f05a5af723f710ecb54a.png'),
    obj_w57DlMOIw6PCnj7DjMOi_31820418766_05dd_fe2d_1313_5b80b1108b2bfbbbe084585a3cb57f1f: require('./locals/obj_w57DlMOIw6PCnj7DjMOi_31820418766_05dd_fe2d_1313_5b80b1108b2bfbbbe084585a3cb57f1f.png')
    // ...
};
// 本地图片映射组件
const LocalImg = ({ src, ...rest }) => {
    const localNosKeyStr = Object.keys(LocalImgMap).find(nosKeyStr => src.indexOf(nosKeyStr.replaceAll('_', '/')) > -1)
    const nSrc = LocalImgMap?.[localNosKeyStr] || src;
    return (
        <Image src={nSrc} {...rest} />;
    );
}

4. 过渡动画效果

玩法 H5 开发和普通展示型的H5开发还有很大的不同，就是在交互体验上需要更接近一些小游戏，比如需要在一些场景转换和状态变更时，做一些合理的视觉效果，在按钮点击时需要有明显的交互反馈。总的来说就是要从交互优化的角度做的一系列的业务开发工作。这里我们举几个简单的例子：

一般在 React 应用开发中，数据状态的变更，不可避免的会出现视图闪烁的情况，比如数据变更引起的局部UI结构变化，元素的清除、元素的更新等，对于这类小元素状态变更的处理，就是要在数据发生变化时进行过渡，但是视图时受数据响应的，这里需要结合数据发生变化时对元素做一些动画效果。比如列表项数据发生变化时，需要使用缓动消失，这里可以结合一些动画库进行处理。再比如为了数据项不生硬展示时，可以书写一些 CSS 动画让数据缓动入场等，再比如文字发生变化时，可以添加一个切换状态toogle，将数据变化和切换状态结合，切换状态又和动画绑定，则可以表达数据变化的过渡效果。
对于 UI 变动较大的情况，则可以参考行业内的做法，添加比较大的过场动画，来缓解用户的视觉冲击。比如玩法中场景的变化，可以在每一个场景组件中内置一个提前展示的全场动画，通过下一个场景的数据、UI的到达等合理去控制过场动画展示。
普通的交互最好都设计好一套标准的交互，比如按钮点击效果、弹窗展示和消失动画、模态弹窗的使用等，总之玩法H5的开发要逐步向游戏开发的标准靠近。

5. 榜单优化

直播社交类应用往往不乏排名榜单的功能，而且随着业务功能的扩大，榜单展示的逻辑也会变得复杂，比如从单层Tab榜单发展为多层 Tab 嵌套榜单，在我们的玩法中，榜单嵌套可以达到 2x3x2 = 12 个数据榜单，如何在满足较高体验目标的情况下设计这12个榜单的组织结构和数据加载，是一个值得考虑和实践的问题。

在最初的版本中，实现方式是多层 Tab 组合和一个数据列表 List，用户点击任一 Tab，触发新的数据请求，重新渲染 List，List 是一个最大长度为300的列表。这种实现方式相对比较简单，实际的效果就是频繁切换Tab的时候，同时一次性重新渲染300条数据的结构，造成明显的 UI 闪烁。

<Fragment>
    <Tabs tabs={[A1, A2]} />
    <Tabs tabs={[B1, B2, B3]} />
    <Tabs tabs={[C1, C2]} />
    <List data={calc(A1, B1, C1)} />
</Fragment>

为了解决重新渲染引起的闪烁问题，我们将榜单的 List 改成了 KeepAliveList，即维护了3个 List 节点，只有1个 List 处于可见区域，其他 List 则被 KeepAlive 组件缓存在内存当中，当用户在切换 Tab 时，就会将缓存住的 List 移入可见视图，这个过程不会再有大量的节点重建，只有已渲染缓存的节点移动，所以变消除了闪烁的情况。

<KeepAlive cacheKey={`${biz}_pre`} saveScrollPosition={false}>
    <div className="item hide" key={pre}>
        {childs[pre]}
    </div>
</KeepAlive>
<div className="item show cur" key={index}>
    {childs[index]}
</div>
<KeepAlive cacheKey={`${biz}_next`} saveScrollPosition={false}>
    <div className="item hide" key={next}>
        {childs[next]}
    </div>
</KeepAlive>

同时，为了保证首次加载创建的闪烁问题，我们在游戏进入场景时即提前请求了全量榜单的前10条数据，这样可以既保证榜单首次创建时可以不会出现Loading的样式，也缓解了首次创建的数据加载消耗。当然，对于后续的数据加载，我们也采用了常见的上拉加载的方式，尽量避免单次大量数据的渲染。

在多榜单处理的中，还有一个比较常见的问题，就是滚动问题。使用了多个 List 来表单榜单后，由于不同榜单的高度可能不一致，如果使用全局滚动，则在 Tab 切换的时候，就会出现滚动重置的情况，所以在这种情况下有必要使用局部滚

总结规划

以上，我们通过离线缓存、接口预加载、图片加载优化、过渡动画、KeepAliveList 榜单优化等实践方式优化了玩法H5的用户体验，虽然最后达成的效果从感官上相比普通的H5有明显的不一样，但是大部分优化都是需要耗费一定的开发成本。未来会将其中一些可以框架化的方案沉淀下来，减少一定的开发成本，比如数据预加载、图片预加载、KeepAliveList、动画组件等，为后续的小游戏H5开发提供较好的开发经验。

参考

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

Closure in V8

2024-02-05T10:32:45+08:00

本文作者：Vice

前言

对于我们前端开发来说，无时无刻不在接触着闭包。比如在 React Hooks 中利用了闭包来捕获组件的状态，并在组件的生命周期中保持状态的一致性。在 Vue 中利用闭包来定义计算属性和监听器，以及在组件之间共享数据。在 Angular 中利用闭包可以用于创建服务和依赖注入。

所以理解闭包产生的原因和原理对我们的日常开发非常重要。

热个身

其实 JavaScript 本身的特性决定了一定要实现闭包：

JavaScript 允许在函数内部定义新的函数。
因为 词法作用域，可以在内部函数中访问父函数中定义的变量。
函数作为一等公民，函数可以作为返回值。

利用上面三点列举一个贯穿全文的 JavaScript 经典闭包代码：

function multi() {
    var a = 10;
    return function inner() {
        return a * 10;
    }
}
const p = multi();

此段代码声明了 multi 函数，在函数内部定义了变量 a，并且返回了 inner 函数，inner 函数中访问 multi 函数中声明的 a，最后执行了 multi 函数并且将返回值返回给 p。这个时候闭包就创建完成啦，闭包让开发者可以从内部函数访问外部函数的作用域，p 函数始终能访问到 multi 函数中的 a。

但是大家都知道，multi 函数执行完之后，理应内部声明的变量都会被销毁，但是因为闭包的原因，这个 a 变量突破了这种限制。

为了实现闭包，我们来看看 V8 都是怎么做的吧。

V8 是如何执行一段 JavaScript 代码的

我们都知道，我们写的 JavaScript 代码，是需要经过编译的步骤，让 CPU 获取到一串二进制的指令去执行的。完成这一步的通常有两种方法：

解释执行，将源代码通过解析器生成中间代码，然后用解释器解释执行，它的优势在于快速启动执行，但执行速度相对较慢。
编译执行，也是先生成中间代码，然后通过编译器将中间代码直接转换成二进制代码，执行的时候直接执行二进制文件即可，它的优势在于执行时直接操作二进制文件，执行速度更快，并且编译过程只进行了一次，所以在多次执行相同代码时，编译执行的性能更高，但是相对的启动速度就会比较慢。

V8 采取的策略是混合编译执行和解释执行，也就是我们经常听到的 JIT，是一种对上述两种策略的一种权衡。流程如下：

初始化执行环境，比如堆栈空间、事件循环系统等。
解析器解析代码生成 AST 和作用域。
根据 AST 和作用域生成中间代码，也就是字节码。
解释器解释执行中间代码输出结果。
监控解释器执行，发现频繁执行的热点代码会生成二进制代码以提高执行速度。
热点代码改变或者执行频率下降，编译器会执行反优化重新让这段代码生成字节码。

V8 遇到函数是如何编译的？

上面说到执行 JavaScript 代码需要经过编译到中间代码的步骤，但是实际上 V8 并不会把所有代码全部进行解析，是因为如果一次性编译所有 JavaScript 代码，编译时间会很长，需要全部编译完才能执行代码，对用户来说会感到严重的延迟特别是大型项目。并且编译产生的大量中间代码会非常占用内存资源，特别是移动设备，内存的消耗是需要谨慎考虑的。

所以包括 V8，所有主流浏览器都实现了延迟解析（lazy parsing）。顾名思义，V8 会推迟对代码的解析，直到代码被实际执行时才进行解析。具体就是在解析器遇到函数声明时，只会解析函数的声明部分，而不会解析函数内部的代码。在执行函数的时候 V8 会对函数进行各种优化，例如内联优化、类型推断等。延迟解析也可以使 V8 有更多的执行上下文和运行时信息，从而更好地进行优化，提高代码的执行效率。

我们来使用 D8 工具具体看个例子：

var top = 1;
function multi(a) {
    return a * 10;
}

通过 d8 --print-ast 命令打印出 AST 信息：

V8 首先会接收到我们书写的源代码，为了理解这段源代码，它需要结构化这段字符串来生成源代码中的语法结构和关系，便于后续 V8 的理解。比如语言转换器 Babel、语法检查工具 ESLint 等，底层都使用了 AST 去实现。

--- AST ---
FUNC at 0
. KIND 0
. LITERAL ID 0
. SUSPEND COUNT 0
. NAME ""
. INFERRED NAME ""
. DECLS
. . VARIABLE (0x7fa6a5810050) (mode = VAR, assigned = true) "top"
. . FUNCTION "multi" = function multi
. BLOCK NOCOMPLETIONS at -1
. . EXPRESSION STATEMENT at 10
. . . INIT at 10
. . . . VAR PROXY unallocated (0x7fa6a5810050) (mode = VAR, assigned = true) "top"
. . . . LITERAL 1

简单解释下这段被解析器解析生成的 AST，着重看 DECLS 和 EXPRESSION STATEMENT。

DECLS 代表一组声明，此处声明了一个名为 top 的变量，并且该变量被赋值（assigned = true）。还声明了一个名为 multi 的函数。

EXPRESSION STATEMENT 表示一个表达式语句节点，这里就是 var top = 1;，下面的内容代表这段表达式的结构化表述，将变量 top 的 proxy（指向了实际 top 的值，可以看到 0x7fbc75010c50 地址相同）并且初始化为字面量 1。

所以自始至终解析器并没有解析函数体内部的代码，仅仅只解析了函数的声明部分。

我们也可以通过 d8 --print-scopes 打印此时 multi 函数的作用域：

Global scope:
global { // (0x7ff32601e030) (0, 53)
  // will be compiled
  // NormalFunction
  // 1 stack slots
  // temporary vars:
  TEMPORARY .result;  // (0x7ff32601e530) local[0]
  // local vars:
  VAR top;  // (0x7ff32601e250) 
  VAR multi;  // (0x7ff32601e4a0) 

  function multi () { // (0x7ff32601e2e0) (27, 53)
    // lazily parsed
    // NormalFunction
    // 2 heap slots
  }
}

我们可以看到它没有为 multi 函数生成作用域，而是进行 lazily parsed。

那我们执行一下这个 multi 函数，看看 AST 会是什么样子：

var top = 1;
function multi(a) {
    return a * 10;
}
multi(3);

[generating bytecode for function: multi]
--- AST ---
FUNC at 27
. KIND 0
. LITERAL ID 1
. SUSPEND COUNT 0
. NAME "multi"
. PARAMS
. . VAR (0x7fe75782f670) (mode = VAR, assigned = false) "a"
. DECLS
. . VARIABLE (0x7fe75782f670) (mode = VAR, assigned = false) "a"
. RETURN at 37
. . MUL at 46
. . . VAR PROXY parameter[0] (0x7fe75782f670) (mode = VAR, assigned = false) "a"
. . . LITERAL 10

执行 multi 函数时，从 multi 函数对象中取出函数代码，和顶层代码一样编译为 AST 和字节码，然后再解释执行，这里我们简单看看生成的 AST 吧：

PARAMS 代表函数参数部分，表示函数有一个参数 a，且该参数未被赋值（在执行阶段才会指向堆和栈中相应的数据）。DECLS 中声明了 a 变量，地址与参数 a 相同。RETURN at 代表函数返回语句位于源代码的位置。MUL at 代表返回值是一个乘法表达式。下面一行代表乘法表达式的第一个操作数是参数 a。LITERAL 10 代表乘法表达式的第二个操作数是字面量 10。

延迟解析 & 闭包

当延迟解析遇到了闭包，那么情况就又复杂了，我们来稍微改造一下上面的 multi 函数。

function multi() {
    var a = 10;
    return function inner() {
        return a * 10;
    }
}
const p = multi();

这是一段闭包代码，我们简单分析下上述代码的执行流程：

执行 multi 函数时，multi 函数会将它的内部函数 inner 返回给全局变量 p。
然后 multi 函数执行结束，执行上下文被 V8 销毁。

V8 用执行上下文来维护执行当前代码所需要的变量声明、this 指向等，比如这里的 a 变量。

虽然 multi 函数的执行上下文被销毁了，但是被全局 p 引用的 inner 函数引用了 multi 函数作用域中的变量 a。

为什么 inner 函数中的 a 引用的是 multi 中的 a，这是因为 JavaScript 是基于词法作用域，是静态的作用域，和函数如何调用如何执行没有关系，是代码编译阶段就决定好的，查找顺序都是照当前函数作用域向上冒泡，最后到全局作用域。所以这里的变量查找规则为 inner 函数作用域 -> multi 函数作用域 -> 全局作用域。

所以这里就会带来两个问题？

当 multi 函数执行完成时，因为闭包的存在，此时 multi 的执行上下文被销毁，但是 a 变量又被引用了，肯定不能被销毁，那么 V8 会采取什么策略。
因为 V8 采用的延迟解析，在 inner 函数未执行的时候，是不会解析 inner 内部的代码的，所以 V8 并不知道是否引用了外部作用域中的变量。

预解析器（preparser）

V8 为了解决这两个问题的，引入了 预解析器（preparser） 模块来解决，主要是做了两件事：

当解析到顶层函数时，预解析器并不会直接跳过该函数，而是对该函数做一次快速的预解析，是为了判断当前函数是不是存在一些语法上的错误。

在过去的版本中，预解析器在解析脚本时会忽略变量声明，例如在同一作用域中两次声明同名的变量应该被视为语法错误，但预解析器会允许这样的代码通过预解析阶段。当时是为了追求性能的提升，预解析器忽略了变量声明的处理。现在修复后的预解析器能够正确处理变量声明和引用，符合ECMAScript规范，并且也没有明显的性能损失。

当执行函数时，只会将当前函数生成 AST 以及字节码，对内部声明的其他函数进行预解析，是为了检查函数内部是否引用了外部变量。如果函数内部引用了外部变量，预解析器会将这些变量从栈中复制（值类型复制值，引用类型复制地址）到堆中。这样，在下次执行该函数时，函数可以直接使用堆中的引用，从而解决了闭包所带来的问题。

我们来具体通过执行 multi 函数的字节码来理解下，通过 d8 --print-bytecode 来打印：

其实早期的 V8 为了提升代码的执行速度，是直接将 JavaScript 源代码编译成了没有优化的二进制的机器代码，但是随着移动设备的普及，V8 团队逐渐发现将 JavaScript 源码直接编译成二进制代码存在两个致命的问题。第一是编译时间过久，影响代码启动速度；第二是缓存编译后的二进制代码占用更多的内存。所以便引入字节码来解决上述启动问题和空间问题。

[generated bytecode for function: multi (0x06d300259e19 <SharedFunctionInfo multi>)]
Bytecode length: 14
Parameter count 1
Register count 1
Frame size 8
Bytecode age: 0
         0x6d30025a092 @    0 : 83 00 01          CreateFunctionContext [0], [1]
         0x6d30025a095 @    3 : 1a fa             PushContext r0
         0x6d30025a097 @    5 : 0d 0a             LdaSmi [10]
         0x6d30025a099 @    7 : 25 02             StaCurrentContextSlot [2]
         0x6d30025a09b @    9 : 80 01 00 02       CreateClosure [1], [0], #2
         0x6d30025a09f @   13 : a9                Return
Constant pool (size = 2)
0x6d30025a061: [FixedArray] in OldSpace
 - map: 0x06d300002231 <Map(FIXED_ARRAY_TYPE)>
 - length: 2
           0: 0x06d300259ff9 <ScopeInfo FUNCTION_SCOPE>
           1: 0x06d30025a029 <SharedFunctionInfo inner>
Handler Table (size = 0)
Source Position Table (size = 0)

我们看到 Bytecode age: 0 （代表字节码的执行状态，数字增加代表函数的热度，也就是上面说的热点代码，V8 就会对这串代码进行针对性优化）下的一条条指令就是字节码啦，这六条指令解释器执行完就代表 multi 函数执行完成了，上面打印出来的字节码只是全部的冰山一角，若有同学有兴趣的话，可以到V8源码查看更多。

这里的字节码最终通过解释器解释执行，在执行的过程中，需要通过某些手段去保存参数、中间计算结果等，V8 的解释器（Ignition）采用的是基于寄存器的架构，他通过寄存器来保存所需要的数据。有兴趣的同学可以详细查看Ignition 设计文档中的 register 相关内容。

下面我来简单逐行解释下打印出来的代码。

Bytecode length 表示函数 multi 的字节码长度。Parameter count 1 表示函数 multi 接收一个参数，这里是隐式地传入了 this。Register count 表示使用的寄存器数量。Frame size 代表栈帧大小（因为 V8 是通过栈结构来管理函数调用，栈帧是一个用于存储参数、被调用者的返回值、局部变量和寄存器的空间）。

CreateFunctionContext 是用来创建函数上下文的，会把 multi 函数上下文和作用域信息存到寄存器中，当然 inner 函数也会存进去。PushContext 用于将寄存器中的上下文推入执行上下文栈。LdaSmi 和 StaCurrentContextSlot 代表将值 10 加载到寄存器中并且存储到当前上下文中。CreateClosure 就是通过传入上下文的一些信息，若发现内部有引用外层作用域链上的变量，则输出带有闭包信息的新的 inner 函数存进寄存器中最后返回。

我们重点看下下面的字节码，Constant pool 代表常量池，当代码中使用了多个相同的常量值时，V8 引擎会将这些常量值存储在 Constant pool 中，并在需要使用时直接引用它们，而不是重复创建多个相同的常量值。继续往下看 [FixedArray] in OldSpace 代表下面的常量存到了老生代中，老生代中的对象更稳定，不容易被回收，通常用于用于存储生命周期较长的对象，例如函数、闭包、大型对象。下面的 ScopeInfo FUNCTION_SCOPE 表示函数作用域信息的数据结构，它记录了函数内部的变量和作用域链等信息。SharedFunctionInfo inner 表示用于存储 inner 函数的字节码等。这两个常量同时存在表示内部函数 inner 与外部函数的作用域存在关联，通过 ScopeInfo 中的作用域链查找到内部函数访问了外部函数的变量。最后在 SharedFunctionInfo 中会存储内部函数引用的外部函数的变量作用域范围的信息，这里就是存储了闭包变量 a 的作用域范围，存储到了堆中供后续 inner 函数执行访问。

所以 V8 通过预解析器使得 JavaScript 的闭包特性得以实现。

总结

本文我们介绍了在 V8 中是如何实现闭包这一特性的，V8 在处理函数的时候采用的延迟解析来提高启动速度，但是延迟解析和闭包存在天然的矛盾，所以当一个函数中存在闭包并且执行时，V8 会通过引入预解析器去扫描内部函数使用到的外部变量，并且复制到堆中，下次执行内部函数的时候就是直接访问堆中的引用。

最后我们要注意闭包可能导致的内存泄露问题，我们书写闭包代码时如果引用了一些后续用不到的变量，比如说引用了一个大对象，但是我们只用这个对象中的一个属性值，那么就会导致这个大对象不会被销毁，导致内存泄漏，解决方式们就是要将需要的属性值提取出来成为一个新变量，在函数中引用此新变量就可以。还有一些引用 dom 节点产生的泄露等问题。

参考

图解 Google V8

Blazingly fast parsing, part 2: lazy parsing

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

开启空间计算时代 - 初识苹果 Vision Pro

2024-02-02T10:47:40+08:00

本文作者：徐凯斌、王维恒

本文预览

1、苹果首款头显设备 Vision Pro 的背景和基础概念介绍，走入空间计算时代；

2、详细解读设备的硬件组成和空间设计的四个原则，揭示其独特之处；

3、展示「云音乐」App 在模拟器和真机上的运行情况；

4、苹果上海 Vision Pro 开发者实验室体验真机，行业内早期真机体验分享；

5、「云音乐」App 的落地畅想；

背景

苹果于 WWDC23 发布了首款头显 Vision Pro，一台搭载了全球首创的空间操作系统 VisionOS 的革命性的空间计算设备，具备多个摄像头，用户用手势、眼睛或者语音就可操作控制，可以用来工作、娱乐、沟通的新一代电子产品。2023 年 7 月，苹果正式开放 Vision Pro 头显开发套件的申请通道，以借出设备的形式为开发者提供服务，并在 2024 年 2 月 2 日在美国正式上市。笔者收到上海 Apple Vision Pro 开发者实验室的邀请，线下体验了 Vision Pro 设备，并适配运行了「网易云音乐」应用。

功能解读

全方位的沉浸式体验

Apple Vision Pro 提供了一幅无边的空间画布，供开发者探索、试验和畅玩，让大家可以自由地尽情重新构想 3D 体验。用户可以在与周围环境保持联系的同时与不同的 App 进行交互，也可以完全沉浸在 App 创造的世界中。用户体验将十分的流畅：首先创建一个窗口，引入 3D 内容，转换为能够完全令人沉浸其中的场景，然后回到其他开发工作之中。

选择权在你手上，一切要从 VisionOS 中的空间计算构建块开始。

Apple Vision Pro 官方介绍影片中文版请见链接。

窗口（Windows）

你可以在 VisionOS App 中创建一个或多个窗口。它们使用 SwiftUI 构建，并包含传统的视图和控件（平面化的展示），开发者可以通过添加 3D 内容来添加深度，以丰富用户的体验。

空间容器（Volumes）

使用 3D 空间容器为 App 添加深度。空间容器是 SwiftUI 场景，可以使用 RealityKit 或 Unity 展示 3D 内容，从而打造可在共享空间或 App 的全空间中从任意角度查看的体验。

空间（Spaces）

默认情况下，App 启动时会进入共享空间（Shared Space），在其中这些 App 并排展示，就像 Mac 桌面上的多个 App 一样。App 可以使用窗口和空间容器来显示内容，用户可以根据需要调整这些元素的位置。为了打造更能令人沉浸其中的体验，App 可以打开一个专用的全空间（Full Space），在其中只显示这个 App 的内容。在全空间中，App 可以使用窗口和空间容器创建无边界的 3D 内容，打开通往一个不同世界的入口，甚至可以让用户完全沉浸在某个环境中。

概念解读

AR（增强现实）：眼睛镜片是透明的，可以直接看到外部真实世界；

通过数字元素叠加来呈现现实世界（物理世界）的视图。

MR（混合现实）：既可以看到外部真实世界，也可以看到纯虚拟世界，偏向硬件的描述；

完全沉浸式的数字环境。

VR（虚拟现实）：眼睛镜片不是透明的，不可以直接看到外部真实世界；

现实世界（物理世界）的视图，具有数字元素的叠加，其中物理元素和数字元素可以交互。

XR（扩展现实）：AR + MR + VR 都属于 XR；和 MR 相比较，为偏向软件的描述，也可称 XR SDK；

一个涵盖所有这些不同技术的总称，包括 AR、MR 和 VR。

共享模式（Shared Space）- AR

也称为透视模式（Passthrough）。光照完全由系统托管，系统会自动探测环境光照信息和应用做融合。3D 内容都使用苹果自研的 RealityKit 引擎渲染。所以该模式下 Unity 的原始资产均需要被转换为 Realitykit 支持的资产。Unity 官方提供了配套工具可以方便的完成转换：PolySpatial。

全沉浸模式（Full Space）- VR

光照系统由场景决定，可按需定制。在此模式下，其它引擎不能使用系统的 2D UI，因为需要引擎支持系统窗口这种特殊材质。3D 场景直接使用 Unity 引擎渲染（无需资产翻译）。

总结

Vision Pro 实际支持 AR、VR、MR ，也可以简单的理解为是一台支持 XR 的 MR 设备。

硬件组成部分

正面

一片独特的三维成型玻璃与铝合金框架，轻轻弯曲以包裹脸部。可在外置屏幕上模拟用户眼部画面。这块弧形屏幕，传感器收集到的用户眼部画面实时渲染出实景一般的图像呈现在屏幕上，让人有看穿屏幕的错觉。苹果将其称为 EyeSight。

相机和传感器

一系列先进的摄像头和传感器协同工作，清楚地看到世界、了解周边环境并检测手部输入。一对高分辨率摄像头每秒向显示器传输超过 10 亿像素，因此您可以清楚地看到周围的世界。该系统还有助于提供精确的头部和手部跟踪以及实时 3D 映射，同时从各种位置理解您的手势。

音频带

扬声器靠近耳朵，提供与真实世界的声音无缝融合的丰富空间音频。

头带

头带提供缓冲、透气性和弹性。通过旋钮根据自己的头部精确调整 Vision Pro；头带采用 3D 针织，形成独特的罗纹结构，提供缓冲、透气性和弹性。

显示器

一对定制的微型 OLED 显示器为每只眼睛提供比 4K 电视更多的像素，定制的微型 OLED 显示系统具有 2300 万像素，提供令人惊叹的分辨率和色彩。专门设计的三元素镜头营造出无处不在的显示屏感觉。

遮光罩

磁吸式遮光罩轻柔地贴合脸部，提供精确贴合，同时阻挡杂散光。

表冠旋钮

按下数码表冠调出主视图，然后转动它来控制使用环境时的沉浸感。就能从以假乱真的外部世界（AR）切换到沉浸的虚拟空间（VR）。

顶部按钮

按下顶部按钮即可即时拍摄空间视频和空间照片。

针对近视的镜片

蔡司光学插拔式镜片可根据视力进行定制，磁性附着在镜片上以实现精确观察和眼动追踪。

外接电池

外接电池支持长达 2 小时的使用，连接电源时，支持全天使用。另一侧则是类似的旋转接口的开发专用接口。

整体结构

铝壳电池可以放入口袋中作为便携式电源。它使用编织电缆进行连接，常规使用续航可达 2-3 小时。

设计原则

Apple VisionOS 搭载全新的 3D 界面，让数字内容看起来、感觉上就像在用户的真实世界存在，透过自然光线和阴影的变化来帮助用户理解比例与距离。Apple Vision Pro 和 VisionOS 既强大又独特的功能，来设计全新的 App 并为空间计算重塑现有 App 的体验。

基本空间设计原则（空间）

https://developer.apple.com/videos/play/wwdc2023/10072/

Spatial design 是 VisionOS 的设计基础，它为用户创造了全新的、完整的基于空间的操作体验，同时保持了和 iPhone 相似的基本操作习惯，保持了苹果产品一贯的简单易用。

这是关于空间设计原则的讲座，由 Apple Design 团队的 Nathan Gitter 和 Amy DeDonato 主讲。以下是主要内容的总结：

设计空间操作系统：这种操作系统可以将周围的世界变成无限的画布，用于创建新的应用程序和游戏。通过深度、规模、自然输入和空间音频，可以创造出以前无法实现的体验。
保持应用程序的熟悉性：尽管有许多新的可能性，但仍需要与用户熟悉的元素保持平衡。例如，侧边栏、标签和搜索字段等常见元素可以帮助用户找到他们正在寻找的音乐。
人性化设计：设计应考虑用户的视野和可能的移动方式。例如，将最重要的内容放在中心，使用景观布局，以及考虑人的舒适姿势等。
利用空间和尺度：设计应充分利用空间，并使用深度和规模来优化体验。例如，将窗口设计得足够大，以适应人们的视野，但又足够小，以避免阻挡过多的视线。
创造沉浸式体验：沉浸式体验可以超越窗口，改变周围的世界。这种体验可以根据用户在体验中的位置，流畅地在不同的沉浸状态之间过渡。
保持平台的真实性：最好的应用程序是丰富的、沉浸式的体验，利用了人们的空间。应用程序不应该是快速跳入一分钟的事情，而应该是值得、引人入胜、独特的体验。

总的来说，这个讲座强调了在设计空间应用程序时，需要考虑的一些关键原则，包括保持熟悉性、以人为中心的设计、利用空间和尺度、创造沉浸式体验，以及保持平台的真实性。

空间用户界面设计原则（空间 UI）

https://developer.apple.com/videos/play/wwdc2023/10076/

了解如何为空间计算应用程序设计出色的界面。基于屏幕的知识如何轻松转化为为 VisionOS 创造出色的体验。探索 UI 组件、材料和排版指南，了解如何设计熟悉、清晰且易于使用的体验。

内容主要是介绍如何设计空间用户界面：

Miquel Estany Rodriguez 和 Lorena Pazmino，来自 Apple Design 团队的两位成员，介绍了如何设计空间用户界面。他们构建了一种视觉语言，既保持了与现有平台的一致性和熟悉感，又发展了某些元素以适应沉浸式和空间体验。
首先讨论了创建应用图标和界面的 UI 基础和设计原则，这些图标和界面在环境中清晰可见且易于使用。然后，他们讨论了如何创建既符合人体工程学又易于定位的布局的关键概念和最佳实践。最后，他们展示了如何将应用从屏幕转换到空间，详细介绍了所有系统组件，其中一些你熟悉，一些则完全是新的。
详细解释了如何设计出色的图标，如何使用材料，以及如何优化 3D 内容的视觉质量和性能。它提供了一些关于如何创建 3D 效果，如何预览 3D 模型，以及如何使用新工具如 Reality Composer Pro 和 RealityKit Treace 来检查和优化内容的建议。
还详细讨论了如何使用空间输入设计，如何设置应用的核心结构，如何使用窗口、标签栏和侧边栏，以及如何使用新的内容呈现方式。最后，探讨了模态性，包括菜单、弹出窗口和表单。

总的来说，这是一个非常详细的空间用户界面设计指南，为设计师和开发者提供了一系列的工具和技巧来创建和优化他们的空间体验。

沉浸式声音设计原则（空间音频）

https://developer.apple.com/videos/play/wwdc2023/10271

了解如何使用声音来增强 VisionOS 应用程序和游戏的体验。了解 Apple 设计师如何选择声音并构建音景来打造质感十足的沉浸式体验。我们将分享当您在空间上放置音频提示、改变重复的声音以及在应用程序中构建声音愉悦的时刻时，如何通过声音丰富应用程序中的基本交互。

这是关于探索沉浸式声音设计的讲座，由设计团队的 Danielle Price 主讲。以下是主要内容的总结：

空间音频的应用：我们经常使用空间音频来导航世界，例如通过声音的方向和音量来定位 iPhone 的位置。
空间音频的工作原理：设备可以适应不同的空间，并添加你的空间的混响，使事物听起来像是真的在房间里。空间音频源会根据它们的位置，听起来像是更近或更远。
设计 UI 和沉浸式应用的声音：通过为每个交互添加微妙的声音，我们可以帮助用户产生熟悉感和信心。例如，虛拟键盘的每个按键都来自键盘前方的位置。
设计 UI 声音：我们希望 UI 的声音与系统的其他声音相匹配，同时突出深度感。好的 UI 声音应该是微妙的，提供足够的反馈以提供帮助。
使用声音设计更沉浸式的体验：例如，我们的环境，Mount Hood，是系统中的全面沉浸式体验。每个地方都有明暗两个版本，都有匹配的真实空问声音景观。
设计、录制和混合这些体验的声音：我们可以自由地创造和策划最好的现实，使应用程序的声音以最好的方式补充其视觉效果。
创建现实声音景观：我们使用了不同的麦克风来录制环境音，以捕捉一个地方周围的空气声音。然后，我们使用高灵敏度的定向麦克风来捕捉我们正在寻找的特定声音。
在环境中放置音频对象：我们可以从真实生活经验中获取灵感。当我们走出去时，许多不同类型的动物会从不同的位置发出声音，它们都层叠在一起形成一个声音景观。我们的任务是以正确的距离和位置重新创建这个声音。

总的来说，这个讲座强调了在设计沉浸式声音体验时，需要考虑的一些关键原则，包括空间音频的应用，设计 UI 和沉浸式应用的声音，设计 UI 声音，使用声音设计更沉浸式的体验，设计、录制和混合这些体验的声音，以及在环境中放置音频对象。

空间输入设计原则（空间交互 - 全新的输入系统）

https://developer.apple.com/videos/play/wwdc2023/10073/

了解如何为眼睛和手设计出色的交互。我们将分享空间输入的设计原则，探索输入法的最佳实践，并帮助您创造舒适、直观和令人满意的空间体验。

上述内容主要是关于在数字界面交互中手势和眼睛的作用。以下是主要的要点：

手势交互：手势是主要的交互方式，可以通过捏、拖动等操作进行交互。UI 反馈应继续手部的运动，以增强交互的连贯性。在设计交互时，应使用用户熟悉的模式，并确保手势的响应符合用户的预期。
自定义手势：对于无法用标准手势表达的行为，可以定义自定义手势。自定义手势应易于理解和执行，与系统集合的标准手势明显不同，且用户能够在不感到疲芳的情況下连续重复。
眼部定向：眼部定向与手势相结合，可以创建精确和满意的交互。这使得交互更精细和满足。
直接触摸：我们支持使用指尖直接触摸和交互。在设计直接交互时，我们要考虑到长时间悬空的手会感到疲劳，因此需要提供充分的反馈以弥补缺失的感官信息。
音频的作用：音频在连接输入与虛拟内容方面起到特殊的作用。
设计的原则：使用与系统一致的手势语言，仅在无法使用标准集合实现期望行为时引入自定义手势，寻找使用眼睛作为意图信号的方式来改进交互，只有在直接交互是体验的核心时才使用它，并提供丰富的反馈以弥补缺失的感官信息。

总的来说，这段内容强调了眼部和手部在空间交互设计中的重要性，突出了舒适性和人体工程学的重要性，并提倡设计者和开发者在设计交互体验时考虑舒适性和可访问性。

MR 核心技术（透视技术）

头带显示器自身具有显示虚拟世界的能力，如何同时在用户的视野中呈现现实世界与虚拟世界是实现 MR 体验的关键。下面是 MR 体验的两种不同方案，旨在解决如何将现实世界显示在用户视野中的问题。

VST（视频透视 - Video See Through）

以 Apple Vision Pro、Meta Quest-3 等为代表。它利用摄像头等传感器，捕捉真实世界的影像，然后投射到屏幕上，看到的内容都是虚拟重建的。优点是可以构建一个更加虚拟的世界，效果更加梦幻。但是这也意味着对硬件、光线要求更高。如Vision Pro 采用多摄像头、双芯片方案，也进一步拉高了头显重量和成本价格。

实际体验效果请参考文档下方的 Vision Pro 真机体验章节。

VR 行业常用每 1° 视野中像素点（角分辨率，PPD）综合评判头戴设备的显示效果，达到人眼的效果需要到 60。现在的设备普遍只有 20 左右，而 Vision Pro 做到了 40。

OST（光学透视 - Optic See Through）

代表产品有 Microsoft Hololens-2、Rokid Max Pro 等。它可以通过一层玻璃，让人看到的永远是真实世界，在此基础上构建虚拟物品，可以和现实世界产生交互。它的优点是能让人感受真实的世界，眼镜形式更加轻便。但在目前底层硬件技术的制约下，也势必需要牺牲性能、续航和散热。而且还需要不断在性能和重量之间做取舍。

总结

OST 被称为真正的 AR，OST 或是未来主要透视解决方案，但当前 VST 的诸多优点使其成为当前的主流方案。AR 眼镜的透视主要采用 OST 方案，AR 眼镜的轻便性或使其成为未来主流 XR 产品形态，相应 OST 也有望成为下一代主流透视技术方案，而 VST 则更适合于当前主流 VR 产品形态。OST 在亮度、真实世界分辨率、延迟、焦平面（影响晕眩感）有显著的优势，而 VST 则在遮挡效果、FOV、虚实匹配、配准、亮度匹配等方面更为成熟。从实机成像效果看，受制于目前光学技术瓶颈，OST 在色彩表现与虚实融合等性能指标上劣势较为明显，VST 虽然无法完全还原现实世界，但虚实合成后的显示效果仍具有较大优势。

下面是 VST 和 OST 的各项指标的对比：

	VST	OST
亮度	100-600 尼特	6600 尼特+
真实世界分辨率	单眼 2k-4k	单眼 24K+
延迟	有延迟	现实世界无延迟，虚拟世界有延迟
焦平面	1 个焦平面	无数个焦平面，可防止幅辏冲突和眩晕
遮挡效果	合理遮挡	虚拟对现实不完全遮挡
FOV	主流在 90-120° 之间	主流在 30-70° 左右
虚实匹配	虚实匹配一致	虚实匹配不佳
配准信息	更易配准	仅靠头部追踪器匹配
亮度匹配控制	虚实亮度易匹配	虚实亮度难匹配

隐私和安全保护

Optic ID 是一个全新的安全认证系统，通过分析在各种非可见 LED 光下的用户虹膜，并将其与存储在安全隔区的用户注册 Optic ID 比对以迅速解锁 Apple Vision Pro。用户的 Optic ID 信息完全加密存储在设备上，不会储存在 Apple 服务器上，也无法被任何 app 所访问。

用户在使用 Apple Vision Pro 时的浏览内容和眼睛追踪信息均不会与 Apple、第三方 app 或网站分享。除此之外，来自相机和其他传感器的信息均直接在设备端处理，所以 app 不需要看见用户的周围环境来提供空间体验。EyeSight 也包含一个视觉指示灯，让周围的人知道用户正在拍摄空间照片或空间视频。

真机体验说明

模拟器体验

真机体验

和下面的视频基本体验一致：

使用流程和支持的手势操作

云音乐畅想

借助 VisionPro 设备的无限画布的特性，不同类型的应用可以有不同的 VR 落地方向，如电商应用，可能会去探索沉浸式的 VR 购物体验，让用户在接近真实世界的环境下挑选合适尺码的衣服。下面是基于云音乐应用本身的特性，给出的一些想法和可供参考的探索方向（和实际是否落地无关）。

黑胶唱片店

首页/个人资产 — 黑胶唱片墙：可以不断切换风格以及动画内容进行展示。

Minibar — 黑胶唱片机：支持播控、切换歌曲、红心等，支持独立窗口 pin 在任意位置（同一应用多开）。

数码黑胶专辑拟物/装饰播放器样式等会员权益也可以在 VR 中展示出来。

VR - 打碟台/多人歌房（派对房）

直接触摸黑胶进行打碟、调音器、混合器、remix 的合成器。

氛围空间（Environment Space）

利用 Environment 将音乐与视频画面结合，如 VR 旅行、冥想等场景，参考示例。

VR 一起听、演唱会

支持虚拟人像进行内容透传，打造两人一起听的沉浸式体验。

举办个人演唱会（个人录音棚），各种现实世界中的乐器都能虚拟化出来。

参考链接

https://developer.apple.com/documentation/visionos/bringing-y...

https://developer.apple.com/documentation/visionos/making-you...

https://developer.apple.com/visionos/compatibility-evaluations/

https://vrtuoluo.cn/536959.html

https://developer.apple.com/cn/visionos/

https://developer.apple.com/cn/visionos/planning/

https://www.apple.com.cn/newsroom/2023/06/introducing-apple-v...

https://pdf.dfcfw.com/pdf/H3_AP202307141592272523_1.pdf?16893...

https://mdpi-res.com/d_attachment/sensors/sensors-22-07709/ar...

https://niteeshyadav.com/blog/understanding-display-technique...

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐RN新架构升级之iOS灰度方案

2024-01-31T11:19:11+08:00

本文作者：张义、谢富贵

本文主要围绕云音乐iOS侧升级新版本RN时用到的灰度方案进行阐述。云音乐有 100+ 业务模块使用 RN 开发，占据了 30%+ 的业务模块，所以升级的新版本RN稳定性对我们来讲尤其重要。除此之外，iOS TestFlight 已经无法通过删除邮箱来实现无限分发。因此必须要有一个灰度方案来实现渐进式升级，直到稳定性以及各项指标数据打平后才能全量升级。

背景

文章《网易云音乐 RN 新架构升级实践》总体介绍了云音乐在升级 RN 过程中遇到的问题以及解决方案，本文主要围绕前文介绍到的 iOS 侧灰度方案进行阐述。由于云音乐已经有 100+ 业务模块使用 RN 开发，占据了 30%+ 的业务模块，所以升级后的 0.70 版本 RN的稳定性对我们来讲尤其重要。除此之外，iOS TestFlight 已经无法通过删除邮箱来实现无限分发。因此必须要有一个业务无感知的灰度方案来实现渐进式升级，直到稳定性以及各项指标数据打平后才能全量升级。

思路和挑战

实现渐进式的升级，势必就要引入两个版本的 RN 代码，然后通过AB实验进行放量控制，默认C组使用老版本代码，T组使用新版本代码。让不同版本的代码共存通常有两种方案：

方案一：静态链接，修改符号名

静态链接在编译时将所有的程序模块和库文件合并成一个单独的可执行文件，这个过程中不允许出现重复的符号，否则就无法完成符号的重定位导致链接失败。

解决符号冲突最简单的办法就是修改符号名，但是这不仅要修改定义符号的源文件，而且所有引用到相关符号的源文件同样要做修改，该方式极其繁琐。对于 RN 这种庞大的工程来讲，如果人工手动更改的话，显然是要耗费极大的人力和精力并且也无法保证准确性。即便写脚本用自动化的方式进行替换也难以覆盖所有的符号，因为有宏定义、动态调用等各种写法的存在，难免会导致疏漏，再者编写脚本的工作量也不小。

方案二：动态链接

动态链接则与静态链接相反是在运行时加载库文件进行链接，iOS 中 NSBundle 模块提供了 loadAndReturnError: 方法来支持动态的加载指定动态库的能力。因此将 RN 新老版本代码打成 2 个动态库后我们就可以解决了不同版本代码共存问题。

除此之外，由于业务层有很多地方引用了 RN 中的符号，延迟动态加载 RN 后会导致静态链接过程找不到符号而编译失败。所以我们必须还得解决静态链接过程中符号引用问题才能让双动态库方案完美落地。

我们的方案

在计算机领域有一句神圣的哲言「计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决」, 从内存管理、网络模型、并发调度甚至是软硬件架构，都能看到这句哲言在闪烁着光芒，而我们的双动态库方案也是这一哲言的完美实践之一。整体方案设计如下图所示:

将原先的React定义文件全部剥离，只剩下头文件给业务库依赖，确保编译过程中预处理阶段不会报错。
NEReactNative 是我们引入的中间层，在这个库中定义了被业务层引用的 RN 符号(下文都以 RN 占位符号代指)，确保静态链接阶段能找到相应的符号。除此之外该库是以插件的形式引入，业务层不感知。
真实 RN 的符号是运行时动态引入的，根据 AB 决定是加载新版本还是老版本。
完成动态库加载后还需要将占位符号与真实符号绑定起来。下文将针对符号绑定进行详细叙述

符号获取

我们在打新老版本的 RN 动态库时加入一份统一的工具类去收集业务层用到的全局变量/函数地址以及下文的类符号地址。具体示例如下:

@interface NEReactNativeDynamicFramework : NSObject
// 获取类符号地址
+ (Class _Nullable)getClass:(NSString *)name;

// 获取全局符号地址
+ (void * _Nullable)getSymbol:(NSString *)name;
@end


@implementation NEReactNativeDynamicFramework
static NSMutableDictionary<NSString *, NSValue *> *symbols;
static NSMutableDictionary<NSString *, NSValue *> *classes;

+ (void)prepare
{
    static dispatch_once_t onceToken;
    dispatch_once(&onceToken, ^{
        symbols = [NSMutableDictionary dictionary];
        classes = [NSMutableDictionary dictionary];

        // TODO：获取符号地址，具体内容见下方
    });
}

+ (Class _Nullable)getClass:(NSString *)name
{
    [self prepare];
    return (__bridge Class)[classes[name] pointerValue];
}

+ (void * _Nullable)getSymbol:(NSString *)name
{
    [self prepare];
    return [symbols[name] pointerValue];
}

@end

对于全局变量/函数我们可以用 extern 符号声明的方式来获取地址，在链接阶段编译器会自动将同名符号绑定到统一的地址。

// 宏定义胶水代码
#define INCLUDE_SYMBOL(NAME) \
    do { \
        __attribute__((visibility("hidden"))) extern void NAME; \
        symbols[@(#NAME)] = [NSValue valueWithPointer:&NAME]; \
    } while (0)

// 获取实际全局变量地址
INCLUDE_SYMBOL(RCTJavaScriptDidLoadNotification);

// 获取实际全局函数地址
INCLUDE_SYMBOL(RCTBridgeModuleNameForClass);

细心的读者可能会发现，我们在用 extern 声明符号时统一用了 void 类型，但是 RN 并不是所有的全局符号都是 void 类型，比如示例中的 RCTJavaScriptDidLoadNotification 和 RCTBridgeModuleNameForClass。能够这么写得益于编译器的强弱符号选择策略：出现同名符号时会优先选择强符号。如示列中 extern void RCTJavaScriptDidLoadNotification; 声明的是弱符号，而实际定义NSString *const RCTJavaScriptDidLoadNotification = @"RCTJavaScriptDidLoadNotification"; 为强符号。所以出现 RCTJavaScriptDidLoadNotification 符号的地方都会使用强符号所对应的地址进行重定位。

对于类符号地址的获取会稍微复杂点，我们使用了 asm 汇编指令进行符号重命名，示列如下:

/**********定义胶水代码**********/
#define PASTE_HELPER(A, B) A ## B
#define PASTE(A, B) PASTE_HELPER(A, B)

#define INCLUDE_CLASS_HELPER(NAME, SYM, SYM_NAME) \
    do { \
        __attribute__((visibility("hidden"))) extern void PASTE(v, __LINE__) asm(SYM); NSValue *value = [NSValue valueWithPointer:&PASTE(v, __LINE__)]; \
        classes[@(NAME)] = value; \
        symbols[@(SYM_NAME)] = value; \
    } while (0)

#define STRINGIFY_HELPER(X) #X
#define STRINGIFY(X) STRINGIFY_HELPER(X)

#define INCLUDE_CLASS(NAME) \
    INCLUDE_CLASS_HELPER(STRINGIFY(NAME), STRINGIFY(PASTE(_OBJC_CLASS_$_, NAME)), STRINGIFY(PASTE(OBJC_CLASS_$_, NAME)))
/**********定义胶水代码**********/

// 获取实例类符号地址
INCLUDE_CLASS(RCTBridge);

关于 asm 指令详细介绍可以参考 gcc 里面的一篇文档介绍。上述代码核心语句是 extern void PASTE(v, __LINE__) asm(SYM);, 先是动态声明了一个变量符号然后使用 asm 进行符号重写，所以我们通过获取该变量符号的地址就能拿到类符号地址。

全局变量/符号内容替换

在获取了全局函数/变量符号地址后，我们需要将占位符号的内容进行替换从而实现与真实符号的绑定。全局变量内容替换示列如下:

// 定义胶水代码
#define NE_VAR_SYMBOL_DECLARE(NAME) \
    extern void * NAME; \
    void * NAME;

#define NE_VAR_SYMBOL_LOAD(NAME) \
    NAME = *(void **)[NEReactNativeDynamicFramework getSymbol:@(#NAME)];

// 定义全局变量占位符号
NE_VAR_SYMBOL_DECLARE(RCTJavaScriptDidLoadNotification)
@implementation NEReactNativeGlobalSymbolLoader (variables)

+ (void)loadGlobalVariables
{   
    // 对占位符号进行内容替换
    NE_VAR_SYMBOL_LOAD(RCTJavaScriptDidLoadNotification)
}

@end

对于全局函数则可以使用汇编指令 JMP 进行跳转执行，在 ARM64 架构下对应的指令为 BR，具体示列如下：

// 定义胶水代码
#if __x86_64__
    #define _JMP_TO(PTR) __asm__ volatile("JMP *%0" : : "r"(PTR));
#elif __arm64__
    #define _JMP_TO(PTR) __asm__ volatile("BR %0" : : "r"(PTR));
#endif

#define NE_FUN_SYMBOL_DECLARE(NAME) \
    static void *SYM_ ## NAME = NULL; \
    FOUNDATION_EXPORT void NAME(void); \
    __attribute__((naked)) \
    void NAME(void) { \
        _JMP_TO(SYM_ ## NAME); \
    }

#define NE_FUN_SYMBOL_LOAD(NAME) \
    SYM_ ## NAME = [NEReactNativeDynamicFramework getSymbol:@(#NAME)];

// 定义全局函数占位符号
NE_FUN_SYMBOL_DECLARE(RCTBridgeModuleNameForClass)
@implementation NEReactNativeGlobalSymbolLoader (functions)

+ (void)loadGlobalFunctions
{   
    // 获取真实全局函数符号地址
    NE_FUN_SYMBOL_LOAD(RCTBridgeModuleNameForClass)
}

@end

类符号绑定

对 Objective-C 的类的处理采用了类似的思路，先是定义了一个占位符类，然后在运行时动态替换成真实的类。具体可以分为以下几种情况：

对于类方法，直接使用方法转发，把占位符类的方法转发到真实类的方法上。
对于没有子类的类，覆盖 +alloc、-init、+new 等方法，在调用时直接创建真实类的对象返回。
由于 Category 方法会被加到占位符类上，而实际执行过程中由于步骤 2 的存在，拿到的可能是真实类的对象，这里需要把这些 Category 方法手动添加到真实类上。
有些地方可能会在运行时去检查类或者对象是否实现了某些 Protocol，这里就需要把真实类的 Protocol 列表添加到占位符类上。
对于有子类的类，会更复杂一些。我们的目标是非侵入式的，所以不会去修改子类的实现；上面的步骤可以覆盖非使用子类对象之外的场景，对于创建并使用子类对象的情况，需要额外的处理，下面详细分析一下。

以一个组件为例：

@interface MyViewManager : RCTViewManager <RCTUIManagerObserver>

@property (nonatomic, strong) NSString *myProperty;

@end

@implementation MyViewManager

- (void)setBridge:(RCTBridge *)bridge
{
    [super setBridge:bridge];
    [self.bridge.uiManager.observerCoordinator addObserver:self];
}

- (void)invalidate
{
  [self.bridge.uiManager.observerCoordinator removeObserver:self];
}

RCT_EXPORT_MODULE()

RCT_EXPORT_VIEW_PROPERTY(myProperty, NSString)

- (UIView *)view
{
  return [[MyView alloc] init];
}

// ...

#pragma mark - RCTUIManagerObserver

- (void)uiManagerDidPerformMounting:(__unused RCTUIManager *)manager
{
  // ...
}

@end

上面的代码覆盖了常见的使用情况：

子类可以新增属性和方法，甚至可以覆盖基类的方法。
子类的方法中可以使用super关键字调用基类的方法。
调用方在拿到子类的对象调用方法时，如果子类没有实现该方法，会去基类中查找。

在我们的方案中，子类继承的是占位符类，需要在运行时提供机制能满足上面的要求。

这里我们的方案同样是在+alloc、-init、+new 等方法中，添加逻辑，判断到正在创建子类对象时，动态为当前子类创建一个继承自真实类的代理子类，然后创建这个代理子类的对象，保存为属性，返回正常的子类(继承自占位符类)对象。

调用方在调用这个对象的方法时，对于子类实现或者覆盖的方法，直接调用到子类的实现；对于未实现的方法，使用方法转发，转发到代理子类的对象上，这样就能正确调用到基类的实现。

对于子类方法中使用super调用基类方法的情形，由于子类继承的是占位符类，所以super调用的是占位符类的方法，通过方法转发，同样可以正确调用到基类的实现。

需要注意的是，存在子类覆盖或者重写了基类的方法、但是在基类中被调用的情况，这时根据上面消息转发的机制，按照如下的继承结构：

外界拿到子类的对象调用-methodB时，会通过方法转发，通过brokerObject ⟹ BrokerSubClass ⇾ RealClass ⟹ -methodB的链路，调用到RealClass的-methodB方法，

我们期望-methodB里面调用-methodA时，能调用到我们子类自己写的-methodA方法，而不是RealClass的-methodA方法。这就需要我们对上面的结构做一些修改，在BrokerSubClass中添加-methodA，实现为转发到SubClass的-methodA（为此还需要反向关联SubClass的对象到brokerObject），这样一来，brokerObject在调用-methodB(里面调用-methodA)时，会因为自身实现了-methodA而不再走到基类的同名方法中。从而达到我们的目的。

实施过程中遇到的问题

上面的方案覆盖了大部分的使用场景，但是在实施过程中还是发现了一些遗漏点，下面逐一介绍。

使用方直接访问实例变量的情况

系统在UIView的-addSubview:等方法中，会直接访问作为传入参数的UIView对象的某些实例变量，这种情况是我们上面的方法转发方法所不能覆盖的。
类似的，ReactNative中的RCTShadowView的insertReactSubview:atIndex:等方法也会直接访问传入参数的实例变量。

对于这种情况，我们 swizzle 了这些方法，把传入的对象替换成真实类的对象，这样就能正确访问到实例变量了。

ReactNative 不同版本 API 的差异问题

比如新版 RN 提供了 RCTPLLabelForTag 函数，而旧版本没有提供，我们的方案对于这种情况，会统一提供桥接的 RCTPLLabelForTag 函数，在切换到新版本 RN 时 JMP 到新版本的函数地址，而使用旧版本时函数未实现。
这就需要我们在使用这些函数的地方，提前对当前的 RN 版本做判断，确保只在新版本中使用新版本的 API。

在桥接函数的实现中也可以加上一些日志，方便我们在测试过程中发现这些问题。

小结

最终我们实现的中间层成功提供了业务方零感知的动态切换 RN 版本的能力，业务方的代码不需要做任何修改，通过配置就能实现 RN 版本的切换。

实际应用中，通过 AB 实验，我们在可控的范围内逐步放量，期间收集数据、反馈，发现并解决问题，最终实现了 0.70 版本 RN 的全量升级。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

Android 居然还能这样抓捕和利用主线程碎片时间

2024-01-29T14:41:54+08:00

本文作者： zy

在 Android 应用开发过程中，我们会将一些耗时任务放在子线程进行处理，从而避免出现主线程卡顿的情况。但是不可避免的，依然会出现有些任务必须要在主线程中执行，如果主线程需要执行的任务过多，会出现卡顿的情况，那么接下来我们就应该思考如何解决这个问题。

背景与现状

在 Android 应用开发的过程中，对于必须要在主线程执行的代码逻辑，可以使用由 Android 系统提供的主线程空闲任务调度器 IdleHandler 来处理。但如果空闲任务调度器执行任务过于耗时，依然会导致 APP 卡顿或者跳帧。另外如果开发者想要移除部分的空闲调度器任务，是无法实现不了的。只能选择全部移除。

分析

为了减少主线程的卡顿，提高主线程资源的利用率，我们通过系统源码了解到页面渲染的部分关键过程。

上图所示，当页面 View 有更新操作时，会通过 Choreographer 去注册一个 VSYNC 信号监听，等待 VSYNC 信号的到来，VSYNC 信号到来后，会执行我们熟知的 measure，layout，draw 方法，然后将视图数据通过 swipeBuffer 移交给屏幕的 DataBuffer 区域，等待进一步处理。在这个过程中，如果绘制操作比较耗时，掺杂了我们的业务逻辑，页面就会变得卡顿，如果每一帧的绘制都是在两个标准的 VSYNC 信号之间完成的，页面操作和展示就会变得非常流畅。分析发现，当一个 VSYNC 信号到来之后，如果页面的绘制能够提前完成，那么主线程会有一段时间的空窗期，如果我们能利用这段空窗期做点事情，那么就可以解决主线程任务过多造成主线程卡顿问题。主线程空窗期示意图如下图所示。

VSYNC 信号到达应用层后，经历 measure，layout，draw 几个阶段，这里统称为 render 阶段，render 阶段结束之后，如果 MessageQueue 没有其它的消息，这时候主线程就会处于空闲状态，等待视图刷新触发下一个 VSYNC 信号的到来。这里我们通过 Choreographer 来监听 VSYNC 信号的到来作为开始标记，以及 render 结束后的信号作为结束标记。结束标记和开始标记之间的时间差就是当前帧率下的主线程实际耗时也就是 render 时长，当前设备标准帧率时长（图示以 60HZ 的刷新帧率，16.6ms 一帧的周期为基准）与 render 时长的时间差就是我们可利用的主线程时长，有了这个时长以及 render 结束的触发点，就可以执行我们主线程的任务了。

具体方案

主线程碎片时间管理通过四个模块来实现，分别是帧率耗时监控模块，空闲时间切片模块，耗时任务拆分模块，子任务智能调度模块。在帧率耗时监控模块，通过 HOOK 系统对象，注入自己的监听回调，来获取当前帧的渲染开始时间点和结束时间时间点。在空闲时间切片模块，生成当前帧可用的空闲时间。利用耗时任务拆分模块获取到可以被调度执行的子任务，最后由子任务智能调度系统负责子任务的调度执行以及记录每个任务在当前 CPU 的执行耗时情况，在初始化的时候通过读取上次 CPU 任务执行耗时的数据生成一个任务耗时记录表，用于给空闲时间切片模块提供时间更加精准的任务匹配，防止出现跳帧的情况。

帧率耗时监控模块

分析模块中，我们阐述了 render 阶段表示的是 View 视图树的计算阶段，包含了视图树的测量，布局，绘制。当完成这些任务之后，将剩下的工作交给系统渲染阶段来处理，系统渲染阶段会负责将视图渲染至屏幕上，这里我们需要关心的就是 render 阶段，这个阶段完成之后，即可认为当前帧的主线程工作完成了，等待接受下一个 VSYNC 信号的到来。在 View 视图树的计算阶段中，由于每一次需要计算页面视图树的复杂程度不一样，因此 VSYNC 中各个刷新周期的 render 阶段耗时也是不一样的，我们就需要监控每一个 VSYNC 信号到来之后 View 视图树计算阶段的耗时。 View 视图树监控（帧率耗时监控模块）全流程如下图所示

帧率耗时监控模块执行步骤：

步骤一：在应用启动阶段，获取当前进程的系统的 Choreographer 对象
步骤二：创建视图帧开始渲染的监听回调，该回调除了首次由开发者手动注入至 Choreographer 对象中，后续的注入均由监听回调自己注入，当监听到渲染开始的回调后，再次将回调自己注入至 Choreographer 对象中，这样就能实现监听每一帧渲染开始的时间点，同时记录帧渲染开始时间
步骤三：创建视图帧结束渲染的监听回调，和开始渲染的监听回调注册流程类似，最终也是获取到每一帧渲染结束的时间点，将帧渲染结束时间记录下来
步骤四：在监听每一帧渲染结束之后，计算开始时间和结束时间的差值，这就是我们需要的每一帧可用的时间切片

其中 Choreographer 是系统提供用于 View 视图树的计算以及与屏幕交互渲染的类，由 Choreographer 来监听 VSYNC 信号，信号到来之后，就会通知 View 视图树进行计算处理，当处理完成之后，将计算后的数据交给屏幕进行渲染。当前模块利用反射机制向 Choreographer 中注入渲染开始和渲染结束的监控回调，监控代码插入位置如下图所示

帧率的耗时监控就是在 render 阶段，通过插入帧率开始回调监听和帧率结束回调监听来计算得出的。

空闲时间切片

我们可以通过耗时监控模块获取到两个时间戳，分别是 View 视图树计算阶段渲染开始的时间戳和渲染结束的时间戳，我们需要的空闲时间就是两者的差值。View 视图树计算阶段的 render 部分完成之后，视图的绘制就会交给系统进行渲染，而这个渲染的过程是在其他线程和进程进行执行，这样，当前 APP 的主线程就会空闲下来，我们就可以利用这个空闲时间做点其他的时间，这个空闲时间就被称为空闲时间切片

耗时任务拆分

有了主线程可用的空闲时间切片，接下来我们就需要将我们的耗时任务进行一个拆分，如何找到耗时任务呢？这里我们使用 systrace 进行耗时方法采集

上图所示，当前业务有一个 300MS 的主线程耗时逻辑，后面的几个 VSYNC 信号周期都很空闲，我们可以将当前耗时的任务进行拆分切割，然后将拆分后的任务打散至后面空闲的时间切片中延后执行，如图

接下来定义一套数据结构，将拆分的任务当作一个子任务用自定义的数据结构保存起来（要注意内存泄漏的问题，页面销毁后，如果还存在任务未执行，需要把未执行的任务全部清空）

class TraceTask(val bucketType: Int = BUCKET_TYPE_PRIORITY_30, val taskId: String = "", private val task: (() -> Unit)) {
    fun invokeTask() {
        task.invoke()
    }
}

到这里，可执行的子任务集就准备好了。

子任务智能调度

空闲时间切片和子任务集生成后，就可以通知任务调度系统进行子任务的执行调度，在空闲时间切片中插入适合当前时间切片执行的任务，如当前空闲时间切片只有 3ms，那么就应该从 3ms 及以下的任务桶中把需要执行的任务选出来，然后执行任务。整个模块的流程图如图所示

子任务智能调度执行步骤：

步骤一：由 VSYNC 消息触发的结束监听模块开始执行，获取当前需要添加的子任务，如果没有要添加的子任务就走子任务的执行逻辑，如果存在，就走子任务的数据绑定和子任务添加逻辑
步骤二：子任务的数据绑定逻辑，将子任务和页面的生命周期进行绑定，这样做的好处是当页面销毁之后，绑定的子任务会自动删除，防止出现内存泄漏的情况。生命周期绑定之后，还需要绑定该子任务历史执行耗时，该模块是智能任务调度的核心，绑定历史执行耗时信息之后，在取子任务阶段，就可以快速获取到当前时间切片下可执行的任务了
步骤三：获取绑定后的子任务，添加到耗时任务表中，使用MAP+链表结构，方便任务的快速获取与增删
步骤四：判断当前是否存在子任务，如果存在可执行的子任务，则执行下一步操作，如果不存在可执行的子任务，跳出并结束当前流程。这里的任务查找是查看耗时任务表中是否还有任务元素存在
步骤五：判断当前是否为调度超时模式，如果当前非调度超时模式，则获取空闲时间切片剩余可用的时长，通过剩余时长去耗时任务队列中查找当前时长内可用的任务，如果找到可执行任务后，则执行任务，同时减掉当前任务执行时长，获取到更新后的时间切片可用时长，然后回到步骤四继续循环。如果没有找到任务，则结束当前流程
步骤六：如果当前为调度超时模式，则忽略剩余切片可用时长，找到耗时任务队列第一个任务元素，获取并执行。

智能任务调度核心

智能任务调度核心主要负责计算出当前任务的实际耗时，这样做的目的是确保任务执行的时长不会超过空闲时间切片的剩余时长，例如：空闲时间切片剩余时长是 6ms ，那么智能任务调度核心就需要负责找出6ms以内能够完成的任务。当前任务第一次的时长是由开发者给出的默认时长（开发者在自己手机系统上执行后得出的实际任务时长），当任务执行一次之后，会将任务在当前系统上的实际耗时保存下来，每条任务会保存最近 5 条数据。后续再取任务时长的时候，会将当前任务的历史执行时长的最大值取出，当作该任务的执行时长保留下来。所有任务执行时长数据会保存在 SD 卡上，在 APP 启动时，子线程进行任务执行时长的数据加载，将数据加载至手机运行内存中，加快后续读取任务时长的速度，在本次任务执行结束之后，需要将获取到新一轮的执行时长更新至内存中，等待页面关闭时，统一将数据写入至 SD 中。智能任务调度核心时长获取以及保存示意图如图所示

任务队列结构

这里我们我们采用 MAP 表（KEY-VALUE）来存储数据，其中 KEY 为 INT 型，以任务执行耗时作为 KEY，VALUE 为链表结构，链表的增删效率非常高。使用链表的结构来保存当前耗时 KEY 下的所有任务。链表结构如图所示

调度超时模式

空闲时间切片的最大剩余时长不会超过 16.6ms ，在不同机型上，由于机器性能差异，导致各个任务的实际执行耗时可能会超过 16.6ms，在智能任务调度阶段，可能就会出现有个别超时任务一直无法和空闲时间切片的剩余时长匹配上，因此这里会提供一种兜底超时逻辑，当任务队列 1s 内都没有任何任务被调度执行（ 60HZ 的情况下，1s 会有 60 次的帧率调用，也就是会有 60 次的任务调度执行），但是队列又不为空，可以说明当前存在异常超时的任务，为了保证所有任务的正常执行，这里会设置一个调度超时模式的标志状态，当进入调度超时模式中后，会上报当前异常任务，由开发者判断当前任务是因为手机性能问题超时，还是任务拆分不合理导致的。而程序也会再次进入判断逻辑中，逻辑判断发现当前处于调度超时模式时，不会检测当前剩余时长，而是直接取 MAP 表中的第一个元素，获取第一个任务并执行。从而保证所有添加的耗时任务，无论是否匹配上，都会得到执行.

总结

通过任务拆分+主线程空闲时间调度的方式，可以有效的利用主线程的空闲时间，让它来合理的帮助我们完成主线程逻辑的执行，而不会对主线程造成拥堵，给用户带来更好的操作体验。

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐RTA投放与承接系统建设实践

2024-01-25T14:41:15+08:00

本文作者：huangleilei02

业务背景

投放广告买量，不管是拉新还是促活场景，都是互联网用户增长的重要手段。RTA(Real Time API)，是广告投放领域非常重要的一种投放方式，用于满足广告主实时个性化的投放需求。顾名思义，RTA指的是API接口实时调用，将直投的广告主的流量选择权交给广告主，媒体传入设备号调用RTA问询接口，进行用户投放的筛选，让广告主在广告曝光前进行投放策略的判断，满足拉新、促活等个性化需求，同时也能做到媒体和广告主数据隔离。

云音乐在对外买量时，作为广告主，也建设了一套从RTA人群圈选、到媒体响应、再到站内承接的完整系统。云音乐在过去一段时间里，不断从业务及技术等多个角度，对该系统进行建设和完善。

而在2023H2，RTA业务以RTA专项的方式进行实践，专项目标包含RTA接入多个媒体、投放量级增长、缩短人群圈选流程等。本文将以RTA专项建设过程中的解决方案为主，结合H2前的一些建设，来介绍云音乐RTA投放与承接系统建设中的一些思路。

RTA投放侧架构

RTA投放方式的显著特点是请求量大、实时性要求高。云音乐对接多个广告媒体，单媒体的请求QPS在数万-数十万不等，单次请求从媒体测请求发起到收到响应的超时时间一般仅约五六十毫秒，对于服务来说有着不小的挑战。

因此，云音乐RTA投放侧（即不包含站内承接的业务领域）的技术架构有以下特点：

独立Nginx集群及专线，和主站隔离
分层解耦。请求适配层+投放策略层+设备映射层+设备写入层
异步模式，高性能、高吞吐量、低延迟。使用Netty处理请求、使用Lettuce作为redis客户端
针对海量请求，通过时间轮实现超时处理，大幅提升性能

RTA自动化圈选人群

RTA投放的核心部分，就是圈选出一定规则的以设备号为主体的人群，针对不同媒体的不同投放账户，投放不同的人群。

由于用户增长领域广告投放复杂度高，以及当前互联网存量时代对精细化运营有更高诉求，业务对RTA投放人群包圈选的自动化和灵活性有一定诉求。云音乐RTA投放系统建设了自动化圈选后台，结合云音乐人群圈选平台“魔镜”，做到设备维度的RTA投放人群包的灵活圈选和快速设备同步。

其整体链路如下：

在圈包自动化能力的基础上，RTA投放平台做了一些扩展性工作，从而做到系统稳定性提升、数据问题快速响应、圈包流程缩短提效，上线后对业务的圈包投放动作提效60%以上，也为后续的自动化、精细化运营打下基础。

圈包后台可以通过以下几点概括：

打通魔镜人群圈选平台、云音乐设备数据，使得能够通过简单的标签圈选或者自定义圈选条件SQL，完成投放设备的定向圈选，成本低、响应快速；
打通AB实验能力，能够灵活圈包并验证投放策略；
整个数据准备流程由运营操作，平台自动化进行校验；
能够应对单日数亿至十亿级别总数人群包数据写入；
数据同步结果通知，调度过程记录；
数据链路多类异常告警通知，做到快速定位问题并响应解决。

RTA存储痛点优化

业内对于RTA设备数据的存储方式大同小异，因为设备数据和人群信息的关系以kv为主，所以redis是比较多的一种选择，云音乐也使用独立集群的redis cluster作为RTA数据存储的数据库。在业务初期，采用的是redis的String结构进行存储，例如将设备Oaid的MD5值作为key，对于人群包列表及其他相关信息的Json作为value，但该方式在存储成本上有着很大问题。

目前投放数据，会针对Oaid、Imei、Idfa为主的几种设备信息的MD5值进行存储，此外，在与字节抖音合作时，应对数据安全规范，还需要进行Prl加密存储，因此，一个手机会产生多条设备记录。rta投放人群设备数据非常庞大，用户数量数亿甚至十数亿左右量级，结合上述多种设备及多种加密方式，整体数十亿量级记录。在初期，投放平台使用redis的String类型存储数据，随着新加密方式的接入和设备数的增多，对存储造成了压力，如不做改造，将占用数百GB甚至1000GB的存储空间。

投放平台通过以下几个方式的组合，完成了超过80%的存储空间优化：key改造、value改造（分为人群包名改造、过期时间改造、序列化压缩）、存储结构改造。我们先从更直观的key、value本身对压缩开始介绍。

key改造：此处的key指的是redis存储的key，其内容为设备号相关信息，由设备号类型、加密信息以及设备号加密结果（如MD5或者其他方式加密结果）组装而成的String，在39-86字节不等。使用MurmurHash2的64位hash算法对原本对长字符串进行哈希，此时冲突率非常低，对业务几乎无影响。并将其作为字节数组转为String，转为String时采用的编码字符集为ISO_8859_1，相比默认的UTF-8存储更少。当然，如果读写均选择合适的redis客户端，也可以直接用字节数组。

value改造：原本的value信息相对冗余，经过以下三组改造的结合，可以将50-100+字节的Json压缩为8-16字节。

人群包名改造：原本的value为人群包信息列表，包含了冗长的人群包名、毫秒级别的业务过期时间以及其他相关信息。改造时将人群包名字序号化，将string转为int。
业务过期时间改造：将毫秒级过期时间减去6未有效数字，粗化到十几分钟级别，在对业务影响很小的前提下有效减少了存储空间。
序列化压缩：将原本JSON序列化结果转为Protostuff（Google ProtoBuf的改进版）序列化，虽然牺牲了可读性，但大幅压缩了存储空间。关于Protostuff序列化方式的压缩原理，各位可以自行检索研究，本文中就不再赘述了。

数据结构改造：除了业务数据的压缩，本身在redis中的存储结构也大有可为。为了更好介绍该项改造，我们不妨来看一个case，当我们使用redis的String类型存储单条数据{"wyyyykey":"wyyyyval"}，该数据的key大小为8字节，value大小为8字节，那么这条键值对占用了多少内存呢？

set wyyyykey wyyyyval
memory usage wyyyykey
--72

72字节比键值对本身的16字节大了不少，那么多出来的这部分内存用在哪里了呢？这就得提到redis中字符串的实现方式了。redis首先会为每个键和每个值创建一个redisObject（以下简称robj），带有一些对象头信息；而我们都知道，redis的字符串对象的类型为简单动态字符串（Simple Dynamic String，SDS），其中有部分空间用于记录实际内容存储情况和存储时的预留空间；在维护全局哈希表的dictEntry时，需要维护指向key、value、和下一个节点的指针，这些都会造成额外的存储。

下图为一个字符串类型的键值对存储结构，关于该key和value的SDS实现结构为sdshdr5还是sdshdr8对于整体存储逻辑和量级影响很小，因此此处不做过多讨论，读者可自行阅读源码，此处参考引文2。需要注意的是，Redis的内存管理和优化策略是复杂的，并且在不同的版本和配置下可能会有所不同。因此，在具体情况下，实际的内存占用可能会有所变化。

而想要优化掉大量的robj元数据、dictEntry、sds信息，redis的Hash结构是一个很好的方案。在默认设置下，当哈希对象可以同时满足以下两个条件时，哈希对象使用压缩列表（ziplist）编码：哈希对象保存的所有键值对的键和值的字符串长度都小于64；哈希对象保存的键值对数量小于512。ziplist非常节省内存，是由一系列特殊编码的连续内存块组成的顺序性数据结构，一个ziplist可以包含多个节点，每个键值均为一个节点，每个节点紧挨着，能够大幅减少内存。

不妨假设原本有30亿个key需要存储，将这30亿个key通过hash打散成1500万个redis的hash对象，可以大幅减少robj元数据、dictEntry、sds信息等占用的内存。而虽然查询的时间复杂度由O(1)变为了O(n)，但由于此处n为ziplist的entry数量大约为200，对整体的时间影响非常小。

实时站内承接

为了提高使买量用户的留存（是让钱花的更值），云音乐建设了投放用户实时站内内容承接，能够覆盖新客和召回用户等多种用户类型。当然，广告投放方式往往要多组合才能得到更好的效果，本节介绍的云音乐站内承接建设，并不只覆盖RTA链路投放到广告用户，也能够对其他方式的投放用户进行承接。

本节主要以云音乐首页模块及内容的投放用户承接作为例子进行介绍，除此之外，站内落地页直达、资源自动订阅、搜索底纹词等都是可以承接的手段，而用户的投放归因信息也可以辅助算法进行决策。

用户来源实时归因

假如云音乐在各媒体同时投了某首单曲和某个歌单，需要知晓用户成为新客或者回流APP来源于哪个广告资源，才能进行承接，这个步骤就是归因。广告的投放方式是多种多样的，例如A用户是点击广告后初次下载云音乐APP进站；B用户是云音乐老用户但已经卸载，也是点击广告后下载APP；而C用户则是老用户但手机上已经安装云音乐APP，直接通过广告所带的deeplink链接唤端；此外，还有渠道包等其他投放的方式。针对上述多种情况，需要聚合建立用户来源实时归因能力。

针对直接通过广告所带的deeplink链接唤端的用户，通过在deeplink上拼接业务字段，客户端在打开APP时进行解析并传给服务端，即可完成用户本次的归因，该方式非常直接且准确。针对下载APP的用户，则相对曲折一些。在用户初次激活APP时，将云音乐deviceId和历史数据进行比较，来判断该设备是新设备或者是回流设备，将新设备、回流设备数据和广告点击数据根据一定策略进行业务归因，从而定位到该次激活是否投放用户以及具体是哪个投放资源带来的用户。

首页模块承接

在首页场景下，上下文组装阶段进行投放归因信息和部分提权策略信息的组装，该信息将用于后续模块排序和各模块资源的组装过程中。在模块排序阶段，利用灵渠投放平台（感兴趣的读者可阅读参考第3篇）进行灵活可配的模块排序干预；在模块内容组装阶段，通过服务端强插干预或者算法策略干预的方式，将对应的投放资源按照一定业务策略进行提权。模块+资源的组装方式有效提高了投放用户的站内留存。

针对多模块多种资源的首页模块及资源承接策略，设计了一套通过json字段匹配方式灵活更改承接内容的解析规则，能够实现从广告媒体到广告计划到广告投放资源等多级可变的规则匹配。同时，针对业务透出规则及投放资源特性，采用过滤器链模式实现提权与否的校验。该承接能力涵盖多种用户类型（新用户、流失用户等）、涵盖多种首页类型（老首页、首页新框架等）、多种客户端（android投放、IOS投放）。

总结与展望

本文从整体架构、投放数据、站内承接等多个角度介绍了云音乐RTA投放与承接系统建设中的一些要点；从业务、技术两个角度结合，为广告投放业务提供了一些思路。

同时，从业务专项角度，较好地完成了专项目标，提高RTA渠道接入数量和业务量级，通过自动化圈选人群能力的建设缩短投放圈包配置周期60%，通过站内承接系统有效提高了投放用户的留存。

展望未来，处于成本和价值的考量，RTA投放及承接的精细化将是非常重要的一个方向。在有完善用户价值体系的基础上，RTA人群圈选及投放需要和个性化出价策略结合得更加紧密，而不同用户在站内的不同承接策略也需要更加精细和深入，形成相对完整的生态。

参考链接

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐 RN 新架构升级之 Bytecode Bundle 缩包优化

2024-01-23T15:02:30+08:00

本文作者：陈骏陈东洋

背景

RN 升级 0.70 后使用了 Hermes 引擎，Hermes 引擎的一大优势是预编译与字节码执行能力，但是将 JS 文本编译成字节码是有额外成本的，根据我们后续实际打包经验，JS Bundle 文件转换成 HBC Bundle（Hermes Bytecode Bundle）文件后的 ZIP 包体积增加了 40% ～100%，且增量包是原先的 2 ～ 3 倍。

是否压缩	JS Bundle 大小	Bytecode Bundle 大小
ZIP 前	2.7MB	3.3MB
ZIP 后	623KB	1.4MB

包大小的增加不仅影响到用户体验，也会使网络资费上涨，因此有必要对 HBC 包体积过大问题进行治理。我们主要从以下两个方面进行缩包：

从产物压缩方式入手
从打包产物导出入手

从产物压缩方式入手

在 RN 0.60 时期，我们一直选用的 zip 来对最终包产物进行压缩，zip 本身是一种压缩率比较低的压缩方式，为了能选择适合的压缩方式，对比了下市面上常用的压缩率比 zip 要高的三种压缩方式：gzip，bzip2，xz。

压缩算法对比

gzip

采用 DEFLATE 算法进行数据压缩

性能

bzip2

采用 Burrows-Wheeler 变换和霍夫曼编码算法进行数据压缩
- Burrows-Wheeler 变换是一种数据重排技术
- 霍夫曼编码则用于进一步压缩重排后的数据

性能

xz

采用 LZMA（Lempel-Ziv-Markov chain algorithm）算法进行数据压缩

性能

数据对比（使用默认压缩等级6对比）

压缩速度：
- 对比：xz 耗时 1 分 27 秒 1，gzip 耗时 5 秒 1，bzip2 耗时 8 秒 8
- 结论：xz 压缩耗时比 gzip 与 bzip2 要长很多
占用压缩内存：
- 对比：xz 压缩最大内存为 97656KB，gzip 压缩最大内存为 2048KB，bzip2 压缩最大内存为 6164KB
- 结论：xz 压缩最大内存比 gzip 与 bzip2 要大很多
压缩率：
- 对比：xz 压缩率为 73.62%，gzip 压缩率 63.48%，bzip2 压缩率 70.32%
- 结论：xz 压缩率最高，bzip2 第二，gzip 最低
解压耗时：
- 对比：xz 解压耗时 1 秒 9，gzip 解压耗时 0.8 秒，bzip2 解压耗时 5 秒 5
- 结论：gzip 解压速度最快，xz 次之，bzip2 解压速度比其他慢好几倍
解压内存占比：
- 对比：xz 解压最大内存 10580KB，gzip 解压最大内存 1876KB，bzip2 解压最大内存 3812KB
- 结论：xz 解压最大内存比 gzip 与 bzip2 要大很多

压缩方式选择

压缩速度：由于我们在打包机压缩，不会影响到用户体验，可忽略
占用压缩内存：同 1，可忽略
压缩率（重点考虑）：缩包主要减少包体积，优先选用 xz 压缩
解压耗时（重点考虑）：gzip 耗时最短，但压缩率低，bzip2 解压速度太慢，优先选用 xz
解压内存占比（非重点考虑）：测试了 23G 数据压缩，解压内存最高占用到 60MB，且是瞬时内存，马上下降。对于 RN 包来说体积不会像测试数据一样庞大，预估内存占用最多在 KB 级别，可忽略。

结论： 从压缩率，解压耗时两方面并结合解压内存进行考虑，最终我们选择了 xz 作为 HBC 包新的压缩方式

HBC 压缩数据对比

	xxx-home	xxx-vip	xxx-artist	xxx-timed	xxx-voice	xxx-detail	xxx-rn
相比 ZIP 缩小百分比	-23%	-25%	-25%	-20%	-22%	-20%	-26%

从打包产物导出入手

HBC 包与 SourceMap

HBC 包优化导出

在普通文本 Bundle 转换成 HBC Bundle 时，hermesc 提供一些优化选项，其中有 -O 最高级别优化，命令参数如下:

经过本地验证得知，相同的普通文本 Bundle 使用 -O 参数导出的 HBC Bundle 相较于未使用 -O 在文件大小上有 10% ~ 22% 的收益。主要收益来自于符号表（SourceMap）导出，试验数据列举如下:

	xxx-p	xxx-s	xxx-c	xxx-s
减少百分比	-10.06%	-15.65%	-22.28%	-17.58%

HBC 优化导出后的 SourceMap 补全

JS 异常在 RN Bundle 里的符号解析

在 RN 运行时，当发生 JS 异常时，引擎会生成异常堆栈。这个堆栈包含关键信息，其中之一是每个堆栈帧的行和列。通过这些行和列信息，我们能够在打包后的 Bundle 中定位到具体 JS 文件中出错的函数位置。这种定位背后使用的是一套标准的前端符号解析技术，即 SourceMap。在 NPM 上有标准的 SourceMap 解析库可供安装和使用 - SourceMap NPM安装。为了获取 RN Bundle 的 SourceMap，我们需要在打包时进行导出。

JS 到普通文本 Bundle 打包，这里导出的 SourceMap 我们称为：普通文本 Bundle SourceMap

npx react-native bundle --platform ios --dev false --entry-file index.js --bundle-output ./build/index.ios.bundle --sourcemap-output ./build/index.ios.bundle.packager.map

下面举个简单的例子，点击按钮访问未定义变量的 JS 异常例子:

此时我们有 SourceMap 文件和异常堆栈，就可以使用脚本进行符号解析，如本示例第 1 条堆栈的行号 384，列号 2419；第 2 条堆栈的行号 384，列号 2609，解析结果如下:

//堆栈第1条
执行:node parse_error.js 384 2419
{
  source: '/Users/xxx/Desktop/bear_baby/RNNew/App.js',
  line: 120,
  column: 18,
  name: 'myVariable'
}

//堆栈第2条
执行:node parse_error.js 384 2609
{
  source: '/Users/xxx/Desktop/bear_baby/RNNew/App.js',
  line: 113,
  column: 4,
  name: 'undefinedVarTest'
}

这里我们很清晰的还原符号所在的文件，函数/变量名等信息。

普通文本 Bundle 和未使用 -O 优化导出的 HBC Bundle 异常解析

正常情况下普通文本 Bundle 和未使用 -O 优化导出的 HBC Bundle 都可以使用上述解析方案进行解析，都能还原现场信息，但是如何使用 -O 优化打包的 HBC Bundle 运行发生 JS 异常时就会出现如下问题。

使用 -O 优化导出的 HBC Bundle 异常解析

使用 -O 优化导出的 HBC Bundle 调试时发现 JS 错误时报错堆栈完全失去了关键信息可读性，如下:

此时 HBC Bundle 的 JS Fatal 错误堆栈中，定位到的行号都是 1，因为 HBC Bundle 真的只有 1 行。这是因为 -O 是最高优化级别，生成的最终产物中已经不包含符号表信息，导致引擎无法将异常还原到原始文本 Bundle 的行列。

显然这样不利于业务排查问题，因此需要着手解决优化后 HBC Bundle 加载异常符号缺失问题。经过本地试验分析，在普通文本 Bundle 转换成 HBC Bundle 时 Hermes 提供了再次导出普通文本 Bundle 到 HBC Bundle 的 SourceMap 导出参数 --sourcemap-output ，如下:

普通文本 Bundle 到 HBC Bundle 打包，这里导出的 SourceMap 我们称为： HBC Bundle SourceMap

./hermesc -O -emit-binary -output-source-map -out=./build/index.ios.bundle.hbc ./build/index.ios.bundle

至此我们有了这 2 个 SourceMap 文件，我们就可以对 -O 优化 HBC Bundle 发生的 JS 异常进行完整的解析，具体解析流程如下:

对于使用 -O 优化导出 HBC Bundle 发生的 JS 符号异常，入参行列号我们使用 HBC Bundle SourceMap 去解析得到一个新的行列号，这个行列号就是对应普通文本 Bundle 对象的行列号。
拿到上一步的普通文本的 Bundle 行列号，我们使用 普通文本 Bundle SourceMap 却解析得到此行列号对应的对应的 JS 文件名和所在 JS 文件具体的行列号。

当然如果加载最终 Bundle 产物就是 -O 优化 HBC Bundle，那么我们也可以提前使用合并命令合并 2 个 SourceMap 文件得到最终的 SourceMap 文件，使用最终的 SourceMap 文件可以一步到位解析出符号所在文件位置等信息。合并命令如下:

./node_modules/react-native/scripts/compose-source-maps.js ./build/index.ios.bundle.packager.map ./build/index.ios.bundle.hbc.map -o ./build/index.ios.bundle.map

一图胜万言

结论：

hermes 导出 HBC Bundle 时可以使用 -O 参数优化导出产物，减少导出产物体积，有 10% ~ 22% 的收益。
使用 -O 参数优化导出的 HBC Bundle 在 JS 异常解析堆栈符号时，需要使用 HBC Bundle SourceMap 文件先解析出行列，再使用普通文本 Bundle SourceMap 解析出最终产物。
当然也可以提前合并 HBC Bundle SourceMap 和 普通文本 Bundle SourceMap，实现一步到位的解析。
实际实现时，还需要考虑 SourceMap 文件的打包存储及版本关系，这个就不做过多赘述。

增量包缩包

这里的增量包是在原先 Bundle 包的基础上，进行修改代码，通过 bsdiff 生成的一种差量包，用于下发给客户端进行增量更新。增量包本身也有大小，且在使用 HBC Bundle 后，体积也增大明显，所以增量包缩包的意思是缩小增量包体积。

了解 `-base-bytecode` 原理

hermes 编译器有个参数 -base-bytecode，该参数的作用是指定一个基本的字节码文件，这个文件包含了可能会被多个包共享的代码。在生成新的字节码文件时，hermes 会使用这个基本字节码文件作为参考，这样可以减少重复编译相同代码的时间并减小最终字节码文件的大小。

执行步骤如下：

引用基础字节码：编译器加载由 -base-bytecode 指定的基础字节码文件（如 test.hbc）。这个文件通常包含了一组 JS 代码编译后的字节码，它可能包括了库、框架或者其他常用功能的代码。
增量编译：当编译新的 JS 源文件时，编译器会检查这些源文件中的代码是否已经存在于基础字节码文件中。
避免重复：对于已经存在于基础字节码文件中的代码，编译器不会重新编译这部分代码。相反，它会在新生成的字节码文件中（如 test1.hbc）引用基础字节码文件中的对应部分。
编译新代码：对于新的源文件中独有的代码，编译器将其编译成字节码，并将这些新的字节码与基础字节码文件中的字节码合并，形成最终的字节码文件。

从以上原理可以得出，编译器使用 -base-bytecode 后，不会重复编译已存在的代码，理论上对这部分代码进行 diff 操作不会出现任何差异。

`-base-bytecode` 与 bsdiff 结合

不添加-base-bytecode

增量包大小为：65kb
//生成新版本 hbc，test1 大小为 2.63mb 左右
hermes -emit-binary ./test1.bundle -out ./test1.hbc
//生成patch, 大小为 65kb
bsdiff test.hbc test1.hbc patchfile

添加-base-bytecode

'noneBaseBytecodeTest.hbc' 不是通过 -base-bytecode 方式生成的包
- 增量包大小为：13kb

//生成新版本 hbc，大小为 2.65mb 左右，大小不变
hermes -emit-binary -base-bytecode='noneBaseBytecodeTest.hbc' ./test1.bundle -out ./test1.hbc

//生成patch, 大小为 13kb
bsdiff noneBaseBytecodeTest.hbc test1.hbc patchfile

'baseBytecodeTest.hbc' 是通过 -base-bytecode 方式生成的包
- 增量包大小为：9kb

//生成新版本 hbc，大小为 2.65mb 左右，大小不变
hermes -emit-binary -base-bytecode='baseBytecodeTest.hbc' ./test1.bundle -out ./test1.hbc

//生成patch, 大小为 9kb
bsdiff baseBytecodeTest.hbc test1.hbc patchfile

结论：

使用 -base-bytecode 比不使用 -base-bytecode，使用 bsdiff 生成的增量包体积减少了 80% ～ 85%。
都使用 -base-bytecode 生成的包，使用 bsdiff 生成的增量包更小。

参考资料

Comparison of gzip, bzip2 and xz compression tools.

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐服务端可视化编排平台 TangoFlow 设计与实现

2024-01-19T10:48:14+08:00

本文作者：[帝青]

在实际业务需求背景下，TangoFlow 寻求构建组装式架构，整合云音乐服务端技术栈，提供基础逻辑编排功能，以某种方式（网关API、统一SDK等）暴露编排结果；从长远来看，作为研发全链路低代码化中的一环，构建符合云音乐现状及长远愿景的服务端低代码平台；今天我们一起来聊下TangoFlow 的产生背景以及平台化建设实践；

背景及诉求

1、BFF场景下灵活编排诉求

目前云音乐的前后端协作基于Restful API进行交互，服务端在Controller层通过来自RPC的原子接口数据，组装出前端视图需要的数据并返回给前端，所以会存在客户端相关接口的契约定义对服务端有深度依赖，导致在协作上存在大量的沟通成本以及排期依赖，同时由于客户端UI的多变性，导致服务端面向客户端接口复用性较差，大前端同学苦恼于难以得到自己想要的数据，而服务端同学基于自己并不熟悉的视图拼接模型数据时也感到异常痛苦。

BFF 研发模式一直是业界广泛青睐的前后端协作模式，它能有效解耦前后端在协作上的依赖关系，从而大幅度提升研发效率，目前云音乐内部已经完成基于GraphQL的BFF的研发模式提供，这种研发模式在云音乐内部有较为广泛的落地，在2022年完成了基于GraphQL的BFF应用建设解决上述问题， 目前已在较多团队中推广使用，但随着使用会存在以下问题：

受限于GraphQL引擎，编排能力不足：GraphQL是一种用于API的查询语言。可以将GraphQL看作一种新的API标准，它提供了一种高效、灵活的数据提供方式，但基于GraphQL引擎存在一些限制，在较为复杂的逻辑处理上无法进行灵活的编排，在组装RPC服务时，会存在很多个性化需求，目前是通过groovy脚本输入做输出做重新的组装，脚本内部存在大量业务逻辑，导致groovy脚本滥用；
降低资源开销：当前BFF应用采用的是一个febase应用对应一个BFF后端引擎服务集群，目前测试、预发、线上都会创建对应的引擎服务集群，但基本无流量，且线上流量也都比较低，所以会存在大量的资源浪费；
BFF引擎服务集群存在运维分工不清晰现象，缺乏机制保障，目前前端同学负责对BFF API接口搭建、自测、完成接口交付，但对于引擎服务集群稳定性、容量水位缺少评估经验，同时服务稳定性偏后置，在稳定性和容量水位服务端同学做的会更多一些，会更有经验；

2、业务上的编排诉求

寻求业务架构可编排能力，基于现有业务沉淀服务资产，灵活快速高效编排出符合业务需求的流程，并以触发器（网关API服务、RPC服务、本地资源... ...）的形式暴露流程服务；
活动场景编排提效：在活动场景下， 玩法中台之前产出了轻量级流程编排组件（在产品调研中有提及：《轻量级流程编排组件介绍》），由于接入比较较为复杂，平台使用体验一般，导致推广不是很广泛，对于玩法中台场景存在较多可沉淀的场景，能够通过复用已有资产组装完成新的业务场景；

3、标准化推进落地困难

规范落地难： 目前云音乐存在诸多规范，但在真正落地效果上并不是很好；
调试测试效率低： 目前在网易PostMan在公司是禁用的，所以现在大家都在GoTest上使用，使用起来会比较重，且会存在跨平台/工具的操作，使用体验、效率比较低，测试代码运行大多需要启动整个应用，而应用的启动通常都是分钟级的，这就导致我们研发效率进一步降低。
服务治理能力弱： 代码本质上是非结构化的文本数据，我们很难基于代码进行统计，此时接口和服务、工具间的依赖关系就显得尤为重要，但基于编码的方式我们是很难做到精准统计，虽然有一些调用链追踪工具可以提供帮助，但还是不够直接，还是需要人肉的去做进一步的识别；服务治理能力（限流、降级、静态化、Redis治理... ...)仍然较为分散，应用维度治理能力仍然需要跨平台操作，易用性、开发者体验仍需提升；
降低资源开销： 一方面是BFF自身的资源开销问题，另一方面，现在微服务比较多且占用资源不一，如何将微服务合并为一个微服务，进一步降低成本

4、全链路低代码建设

对于一个完整的 web 应用来讲，会经过用户界面-接口服务-数据服务等多个模块，目前云音乐已完成了前端低代码的建设，已经大大提升了UI层的交付效率，接下来会在整个链路上进行尝试，对于服务端的逻辑编排、服务编排以及更长远的基于模型编排驱动方式，是我们重点关注的对象，期望能够从全链路上降低开发成本、提升交付效率和质量；

所以基于上述背景，我们规划、设计流程编排平台，对于BFF应用，主要是解决编排的问题，同时支持更复杂的编排场景，服务编排出来的产物可以是RPC、API服务，编排出来的RPC、API服务直接集成在BFF中，灵活解决BFF应用的服务编排问题，同时从机制上解决引擎服务集群稳定性的问题，支持paas服务的管理方式，降低服务成本，同时在平台建设过程中，注重对资产的沉淀、平台研发易用性和使用效率；从长远来看，在整个研发全链路上进行低代码尝试，对于服务端的逻辑编排、服务编排以及更长远的基于模型编排驱动方式提供基础演进路线，能够更进一步实现技术中心全栈化，提升交付效率，降低交付成本；

流程编排思路

构建编排一个完整流程，主要是能够将可被编排资源以顺序、分支、循环、并行等的流程串联，可以被编排的资源主要可以分为两类，一类是业务域服务，一类是工具域服务，通过对对业务域服务、工具域服务的组装、编排，可以灵活构建一套符合业务需求的服务工作流；

下面针对业务域和工具域简单介绍下：

1、业务域：主要是指当前云音乐的不同业务领域的服务能力聚合，通过对RPC、HTTP、FaaS等的服务沉淀，在业务领域模型比较稳定的情况下，沉淀出不同的业务域模型，比如评论域、活动域、用户域等，平时的业务需求主要来自上层聚合层，则是对领域模型中沉淀出来的服务能力的服务编排，此时便可以通过服务编排的方式提供更为灵活的聚合类服务；当前的业务领域沉淀比较弱，期望能以Tango Flow项目为契机沉淀业务领域资产；

2、工具域：主要是针对工具的分类聚合，这里主要抽象为了一下三种类型：

中间件域：可以提供发送或消费消息队列，数据可以增删改查Redis服务，比如更多的分布式锁，分布式计数、指标监控等都会在中间件域中沉淀出来，便于搭建上层业务场景；
AI工具域：当前云音乐正在沉淀相关能力，后续提供出来的一些能力，比如文本分类、知识问答等，则可以工具的形式在Tango Flow平台提供，从而可以灵活搭建更上层的业务场景；
平台服务域：目前云音乐的一些能力都是相对比较单点的，比如当前有告警能力、数据监控、简单数据分析、以及流量治理能力，那按照发现问题、分析问题、解决问题的思路，是不是可以将这些能力串起来，比如将发出来的告警经过简单分析，去获取数据监控，在交给数据分析模块进行分析，分析发现是某种问题，可以通过限流来临时止血，进而整个流程可以自动化掉；

当前的工具领域沉淀比较弱且很分散，期望能以Tango Flow项目为契机沉淀工具域资产；整个逻辑编排是对业务域和工具域资产的编排，具体表现如下图：

产品架构

1、逻辑编排态： Tango Flow平台整合现有OX资产（业务侧的RPC接口、HTTP接口）及规范信息，用户可以在该平台完成流程的搭建、测试、发布动作；

2、逻辑运行态： 流量从APP端达到网关、BFF、业务服务，那Flow Engine可以完全嵌入到这三层，比如现阶段直接取代BFF能力，通过逻辑编排出来网关API；

产品介绍

产品优势

下面针对个别特点进行简单介绍，部分会在产品使用及应用场景章节介绍：

1、自研编排引擎

TangoFlow自研逻辑编排引擎，编排引擎是静态流程的Runtime载体；同时也是一个逻辑概念，和使用姿势有关系，可以服务的形式承接网关流量，也可以以SDK的方式集成在业务应用中，自研编排引擎具有以下特点：

2、自研DSL协议

DSL分为元信息定义和逻辑流程定义，元信息定义会受流程内容影响而有很大不同，在下面这个例子中，元信息定义包括Trigger定义、RPC节点定义、Groovy脚本定义，更接近编程语言，后期借助AI Native prompt提升效率；

3、集群托管机制

托管集群是真正的运行TangoFlow 流程的服务，在运行TangoFlow的流程时，需要首先指定运行在哪个托管集群上，从开发 -> 回归 -> 预发 -> 线上，每个都需要制定运行的托管集群；

1、引擎多租户，降低资源开销

托管集群服务时支持多租户的，可以将不同应用指定到同一个托管集群上，一方面降低运维成本，另一方面也能够减低机器成本，在服务达到容量瓶颈时可以对托管集群进行扩容，或重新新建托管集群承载新的服务；

2、每个业务线或领域，都有一个“积木”系统

托管集群的维护尽量按照业务线或业务领域规划，对于BFF场景，线下和预发可以用公共的环境，对于线上服务由于流量较大，需要单独申请托管集群承载运行时流程；

3、建立统一运维协作机制

由于角色的不同，可角色分为两大类：托管集群负责人，开发角色，同时为了集群的稳定性，会涉及到审批和通知，便于集群负责人对容量和稳定性进行把控，所以需要应用关联到托管集群和流程发布时通知到托管集群负责人、或需要托管集群做审核，简单示意图如下：

托管集群负责人角色：一般为服务端开发
负责感知、审核应用关联集群、流程发布
特点：对稳定性、容量敏感，对引擎服务集群容量、稳定性负责
开发角色: 前端、客户端、服务端
负责流程搭建、测试、交付
特点：可能对服务容量、稳定性不敏感

4、环境隔离

由于线下环境的特殊性（环境隔离），云音乐有一套自己的环境隔离策略，TangoFlow能够通过API网关负责API路由托管集群负责环境路的方案解决环境隔离问题；

1、环境路由规则： 优先同标识环境服务路由；未找到同环境，则回归环境服务兜底

2、传统环境隔离： 网关负责API路由、环境路由；需部署相应环境业务集群服务

3、Tango Flow环境隔离： 网关负责API路由；Tango Flow引擎负责环境路由

产品使用

整体流程主要包括四个部分：编排搭建 -> 自测、调试 -> 发布流程 -> 运维，如下图所示

下面针对针流程编排中关键步骤进行简单介绍：

1、流程中概念

一个完整的流程包括Trigger +逻辑控制 + 数据来源 + 数据整合，下面对这几个概念进行简单介绍：

1、Trigger：流程编排后以何种方式暴露，流量以不同的方式调用到流程，比如可以以网关API、服务端SDK、事件消息、定时任务等方式，目前一期已支持网关API和业务服务接入SDK的方式完成流程的触发；

2、逻辑控制：用于控制流程逻辑流向，目前支持串行调用，并行调用、IF-Else、Switch、For迭代器（List、Map）的方式，能够支持绝大部分业务场景，对于一些逻辑比较复杂的场景可以通过Groovy脚本来完成；

3、数据来源：产生数据的源头，目前已支持云音乐RPC、网关HTTP接口、Groovy脚本、本地接口调用、固定值，这些都可以产生数据，被流程拿来进行编排，产生的数据可以在流程上进行流转；

4、数据整合：作为整个流程返回的结果，可以自由组装数据来源产生的数据，同时支持JsonPath的取数方式；

2、逻辑编排可视化

流程编排页面是TangoFlow最核心的页面，从区域上划分为组件区域、逻辑编排区域、属性面板，在调试情况下会弹出调试区域，同时支持分支切换、历史版本、视图切换（支持设计和DSL的切换）、流程快速发布等能力。

3、参数选择

在需要上游某个节点的返回结果作为当前流程节点的输入，在TangoFlow平台中所有的参数选择都是基于组件标识来识别的，可以选择将整个结果作为当前的输入，也可以通过 jsonPath来选择具体的某个值作为输入；

举个具体的例子：定义在触发器中gw\_http0中的一个参数userId，可以在下游RPC调用中被选择作为RPC的入参，另外也可以在结果集整合的时候作为结果被使用，在下面这个case中，是通过节点标识取到的该节点返回之中的data.rowkey信息作为返回结果的一部分；

4、流程调试

支持整个流程的调试、节点维度调试（RPC、HTTP、Groovy脚本）的调试能力，并且无需发布，可指定环境、直接测试、调试记录；

1、流程调试： 针对整个流程的测试，Trigger开始触发

2、节点调试： 单个RPC、HTTP-IN、Groovy脚本调试

3、可视化调试记录： 入参、结果、调试记录栈、运行DSL

5、Mock机制

测试过程中，对于不容易构造或者不容易获取的对象，用一个虚拟的对象来代替以便测试的测试方法，只用于线下环境快速联调，在团队并行开发能极大提高效率；

Tango Flow支持Request Mock和Response Mock，Mock数据来自于统一资产平台（OX），数据可以在Tango Flow平台按需进行调整；同时在编排时若某个节点打开了Mock可在编排视图中会有特殊标记提示流程节点开启了Mock；

1、Request Mock

支持 RPC、HTTP、Groovy ，用于服务已就绪，Request Mock 数据作为请求数据，忽略上游传入数据的场景；

2、Response Mock

支持Trigger、 RPC、HTTP、Groovy ，用于下游服务接口未就绪、服务不存在等导致无法构建或获取对象场景

6、流程持续发布

发布流水线全生命周期管理，秒级完成发布，卡点环节使发布可靠、低风险、随时按需执行，流程发布具有以下特点：

1、多分支并行开发： 可多分支并行开发，一个发布单对应一个分支，新建发布单从master分之拉取数据，发布完成后覆盖master；

2、发布策略： 线下环境发布策略：开发、回归随意发布，回归环境只有一个，互相覆盖；线上环境发布策略：预发、线上通道独占，互斥发布；

3、回滚策略：回滚发布以新发布单形式存在，与其他共用发布单共享发布通道，回滚但不能合并到Master；

4、发布卡点：托管集群具有可配置的流程发布卡点机制，在开启发布审核时，在卡点环节会提示需要托管集群负责人审核才能进行预发和线上环境发布，保证发布的安全性，后续也会持续优化发布卡点逻辑。

以下为一个具体case，由于公共预发集群和线上集群都设置了开启审核，所以需要集群负责人审核通过后才能继续发布

7、监控告警

不同维度数据，不同负责人关注信息不一样，根据访问分布、RT访问分布，并在流程维度有RT和调用错误率的告警；

应用场景

一期流程编排暴露出来的能力是网关API和API-SDK，同时支持的数据节点主要是RPC接口、HTTP接口、本地接口调用、Groovy脚本，所以一期主要适用场景在：协议转换、数据聚合和简单逻辑编排的场景；

对于以上适用场景，可以具体应用到以下场景：

1、BFF场景

主要是解当前BFF决编排的问题，从机制上解决引擎服务集群稳定性的问题，支持paas服务的管理方式，降低服务机器成本；更多的从协议转换、数据聚合、逻辑编排维度提供能力；

2、服务端业务场景（统一服务端SDK）

灵活轻量的利用编排平台沉淀的服务端技术栈资产能力完成业务需求（只需接入引擎SDK，相当于接入了已沉淀的SDK的使用姿势），降低服务端资产使用成本，提高交付效率，在一定意义上实现技术架构转型；

总结

本文介绍了Tango Flow平台建设的问题、诉求及构建思路，首要是解决编排的问题，支持更复杂的编排场景，服务编排出来的产物可以是RPC、API服务，编排出来的RPC、API服务直接集成在BFF中，灵活解决BFF应用的服务编排问题，同时从机制上解决引擎服务集群稳定性的问题，支持paas服务的管理方式，降低服务成本，同时在平台建设过程中，注重对资产的沉淀、平台研发易用性和使用效率；从长远来看，在整个研发全链路上进行低代码尝试，对于服务端的逻辑编排、服务编排以及更长远的基于模型编排驱动方式提供基础演进路线，能够更进一步实现技术中心全栈化，提升交付效率，降低交付成本；

Tango Flow是云音乐自研的流程编排平台，具有丰富的应用场景，可以用在BFF场景、服务端业务场景（统一服务端SDK），并具有场景易扩展能力；Tango Flow可通过可视化拖拉拽的方式快速搭建、测试和发布流程，平台提供简单易用流程搭建能力，通过组件标识+JsonPath可完成参数在流程节点之间传递；支持整个流程的调试、节点维度调试（RPC、HTTP、Groovy脚本）的调试能力，并且无需发布，可指定环境、直接测试、调试记录；建立统一的运维协作机制，发布流水线全生命周期管理，秒级完成发布，卡点环节使发布可靠、低风险、随时按需执行；具有监控告警能力，不同维度数据，不同负责人关注信息不一样，根据访问分布、RT访问分布，并在流程维度有RT和调用错误率的告警；

未来规划

1、服务端低代码演进：提供更多触发场景，整合现有服务端技术栈组件；

2、前后端低代码一体化：完成模型驱动，实现前后端低代码一体化；

3、平台体验 & 效率优化：基于业务痛点及反馈，完善和优化现有平台能力；

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

客户端自动化测试在网易云音乐的实践与落地

2024-01-12T13:45:23+08:00

本文作者：吕雨强

一、背景

时间线回到 2021 年

云音乐目前版本双周迭代，在集成测试阶段会花费两天时间，在这两天时间里面有相当部分时间是人工进行用例回归，而且目前 UI 自动化现有方案会存在较多问题，导致目前这块的效率和质量均不太理想，而对业务侧又希望能降低业务上线的周期。

目前云音乐每个新版本质量稳定性不是很理想，在前一个版本上崩溃率做到了质量基线，下个版本很可能就快速反弹。

同时伴随着的以下一些痛点:

测试回归人工效率低，目前使用的 appium、smartAuto 等框架均有部分缺陷，主要集中在用例维护成本高、UI 检索稳定性保障难、新版本用例录入不及时、双端一致性难保障、问题回溯定位效率低下等；
自动化测试对于用例和设备调度及管理基本靠人工进行；
冒烟测试等工作没有对应的高效验收机制和服务能力，主要依赖线下沟通；
自动化用例没有统一的调度管理平台，在 tc 用例平台执行用例时，无法精准筛选自动化用例执行，且每次执行结果保存也不直观。

二、Saturn 平台简介

基于上述背景，2021 年下半年云音乐大前端 QA 与公技团队共同搭建 Saturn 平台。Saturn 的核心功能主要包括：

用例录制：手机端操作录制，录制过程记录控件信息、操作信息、埋点信息、截图等扩展信息；
用例管理：录制的用例上传到 Saturn 后，进行维护、分类、放到各自模块以及执行集等；
执行集：定义各自需要执行的用例的集合，方便用例快速执行与制定执行计划；
设备调度：支持私有化部署、支持私有化调度、支持按测试类型调度、支持多 APP 之间调度、支持指定设备调度、支持随机分配设备等；
用例执行：根据执行设置分配执行机，把用例分发到指定 provider 端，provider 根据下发消息调度 Athena/NETestWD 执行自动化；
报告：报告汇总、执行步骤展示及执行截图、手动标记 check、失败原因归类、执行过程录屏与日志；
设备管理：自有设备的上下线、自有设备的用途、自有设备的部署类别；
各个专项，UI 自动化，RN 自动化，启动性能自动化，稳定性测试，覆盖安装等等

接下来，本文讲重点介绍 Saturn 平台设计思路、技术演进，专项，落地成果。

三、Saturn 平台架构

Saturn 平台主要分为

平台端：主要是用户交互、设备管理与调度；
Android provider 端：部署在 mac 或者 pc 上用于 Android 手机的监控、与平台端交互、下发执行自动化任务；
Athena APP：主要用于录制与回放自动化用例、上报用例、上报用例执行结果；
Android 端内置 SDK：辅助 Athena 录制与回放自动化用例、准备用例执行环境（登录、mock、后台环境等）；
iOS provider 端：部署在 mac 上用于 iOS 设备监控、与平台端交互、下发执行自动化任务、维护 WDA、NETestWD 的稳定；
NETestWD：用于启动被测应用、接收用例、上报自动化用例执行结果；
WDA(WebDriverAgent)：处理 iOS 端设备上的系统弹框；
iOS 端内置 SDK：主要用于录制自动化用例、准备用例执行环境（登录、mock、后台环境等）、执行自动化用例；

如下面架构图所示：

四、Saturn 设计原理

4.1 Saturn 平台设备调度工作流程

设备调度工作流程用户执行用例，后台逻辑处理然后入库 history 表、发送 SystemHistory 消息入库 queue 表；SystemHistory 消息消费线程监听 queue 表中 SystemHistory 消息，获取消息后进行处理按照 Android/iOS 设备发送新的消息入库 queue 表；Android/iOS 消息消费线程监听 queue 表中 Android/iOS 消息，获取消息并锁定消息，之后检测可用设备，如果无空闲设备则释放消息，如果有空闲设备通过 websocket 下发消息并删除 queue 表中消息，provider 端接收到消息进行解析，执行自动化用例，执行完成后上报执行结果到平台，平台会更新用例执行结果并释放设备。

设备调度支持私有化部署、支持私有化调度、支持按测试类型调度、支持多 APP 之间调度、支持指定设备调度、支持随机分配设备等；

4.1.1 设备管理页面

4.2 Saturn 平台 Athena 工作流程

Athena 通过 adb 在录制时监听事件，回放时发送时间；通过 Accessibility 遍历节点、获取节点信息；

录制时

Athena 记录操作节点信息、操作信息、埋点信息；

回放时

Athena 通过内置 SDK 快速准备环境，免去大量前置步骤执行；
Athena 优先通过埋点信息确定目标节点，无埋点信息时通过使用多种查找方式遍历多次计算综合得分确定目标节点；
Athena 会自动处理系统弹框，防止弹框对自动化执行的影响。

4.3 Saturn 平台 iOS 内置 SDK 工作流程

录制时

触摸、滚动事件的采集是通过 AOP 的方式进行采集信息，比如点击事件，通过拦截 UIControl 的 sendAction 方法和 UIView 的 addGestureRecognizer 方法，滚动时间通过 hook UISCrollViewDelegate 进行消息转发；
键盘输入、断言事件的采集目前没有很自然的方式，所以都是通过一个交互工具来手动进行录制；

回放时

回放的核心点是 UIAppliction 的 sendEvent 方法，sendEvent 方法是触摸事件分发的入口，回放时通过构造 UIEvent 再通过 sendEvent 方法进行事件分发；
快速环境准备，免去大量前置步骤执行；
执行时会优先使用埋点信息确定目标节点，无埋点信息时通过 xpath 定位的方式确定目标节点。

4.4 Saturn 自动化用例平台存储

用例以 json 表达式，保存自动化的执行环境，需要 mock 的接口，账号密码，自动化步骤等信息。

4.5 设备机房

五、在云音乐中的应用

UI 自动化测试

可定时触发，可以手动触发，与能效平台打通能 CI 触发。

执行情况

算上失败重跑 2 次，一小时单台设备平均是能执行 30 条以上自动化用例

对用例执行情况，可查看截图和视频

兼容性测试

对需要测试兼容性的用例，可选择兼容性测试，自动从每一个系统中选出设备进行测试

稳定性测试

双端都可定时触发，可以手动触发，底层采用开源项目 Fastbot

启动性能自动化

通过定时打包，定时启动自动化，获取平台埋点的启动数据，可视化展示启动数据。跟踪启动数据，防止启动劣化。

RN 自动化

图像对比 RN 页面

六、云音乐客户端自动化效果

有效降低学习成本：人人均可录制测试用例；
Android 端 P0 级用例覆盖率 72.95%，执行成功率 91.87%；
iOS 端 P0 级用例覆盖率 71.86%，执行成功率 91.33%；
用例创建和维护效率，相比 Appium 和 Smartauto，分别提升了 9 倍和 3 倍；
用例执行效率提升 1.5 倍以上；
用例执行成功率提升 2 倍以上，稳定在 90%以上；
问题定位效率从天级别缩短小时；
迭代回归缩短 0.5 天；
双端同一埋点自动化用例可以复用；
用例易修改，位置变动可直接更新自动化用例的 json 数据；
平台整体录制自动化用例两千条以上；
执行自动化用例年均二十万次以上；
发现功能问题和稳定性问题几十个；

七、参考资料

[1] https://github.com/appium/WebDriverAgent

[2] https://github.com/alipay/SoloPi

[3] https://github.com/openatx/atxserver2

[4] https://github.com/bytedance/Fastbot_iOS

[5] https://github.com/bytedance/Fastbot_Android

[6] https://github.com/alibaba/tidevice

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

基于VictoriaMetrics构建云音乐亿级APM Metric监控体系

2024-01-10T17:20:04+08:00

本文作者：张琪

Metrics是服务监控的重要部分，网易云音乐中间件团队基于VictoriaMetrics构建了服务端Metrics监控体系，旨在提供易用、高效的监控解决方案，本文介绍了建设中遇到的问题、方案与成果。

一、背景介绍

Trace、Metrics、Log是APM系统（Application Performance Management，应用性能管理）的三大支柱。过去云音乐使用的Metric监控体系与APM分属不同系统，使用时相互之间没有联动，导致Metric与Trace完全割裂，问题定位中将二者关联起来时需要一定成本；另外不同系统的数据视角不同，使用风格也有较大区别，导致总体问题分析能力较弱。

为此，云音乐中间件团队规划建设了新版应用服务端监控体系（Pylon APM），重新实现了Metric体系，选型了作为云原生监控标准的Prometheus作为Metric监控基础。而云音乐庞大的服务规模，多样的监控需求也对Metric时序存储的可靠性、可用性及性能带来了很大挑战。我们最终形成了围绕VictoriaMetrics（以下简称VM）体系的Metric架构，旨在解决以下问题：

应用层Metric可观测性弱：过去音乐内部Metric监控以机器层面的Metric监控为主，虽也提供了常用框架的监控插件，但无论是性能还是可视化效果都有一定改进空间，问题排查效率低；
Metric关联到Trace的问题：Metric是发现问题最直观的方式，比如“接口错误数10”，但还需要Trace协同工作才能定位到发生错误的根因；
性能与成本问题：旧版Metric监控数据存储成本较高；而社区版Prometheus单体应用，无法支撑音乐如此大的数量级。需要一套高可用而低成本的数据采集、数据存储方案；
数据维度大，聚合查询吃力：监控数据时常应对聚合查询，应用层数据的采集维度很大，若直接查询原始数据往往需要数秒甚至数十秒，严重影响问题排查；
可视化能力弱，缺乏灵活的数据对比：监控数据时常需要同环比、多实例比较等手段来帮助定位问题，Prometheus UI和可视化工具Grafana都没有支持这项功能。

为解决以上问题，我们对围绕VM时序采集、聚合、Grafana可视化做了深度扩展，最终达成以下目标：

Metric关联到Trace的问题排查：解决信息孤岛，从Metric入手可下钻到Trace、Log排查问题；
高效的Metric监控可视化与图表分析能力：我们设计了丰富、直观、多维度的Dashboard，使用户能够在第一时间观测到Metric存在的问题，还改造Grafana提供了图表分析能力，大大提升问题分析效果；
高性能、低成本的采集存储方案：我们采用VM作为Prometheus的替代存储方案，以较低的成本支撑了音乐Metric监控；
毫秒级的聚合数据查询：为了解决数据聚合、查询效率低的问题，我们实现了时序数据预聚合Recording Rules服务和查询代理Proxy服务。受益于此，常用的大维度数据聚合查询得以在毫秒级完成。

二、项目思路和方案

2.1 选型与架构

Prometheus定义了云原生监控体系，但由于社区版性能较差且对数据持久化、高可用的支持较弱，衍生了很多数据远程存储方案，用以支持高可用、超大量级的数据。目前主流方案有VictoriaMetrics、M3DB、InfluxDB等。

其中VM以其极高的性能、对Prometheus生态的完整替代、其重新实现的PromQL进化版-MetricQL等优秀的特性，得到了业界的高度认可和广泛使用，故我们选型了基于VM来实现我们的Metric监控方案，关于VM与其他TSDB的性能对比可以参考VM作者的文章。

基于VictoriaMetrics的Metric方案整体架构如下：

架构可分为采集链路、查询链路：

采集链路负责将Metric数据分片收集、预聚合后存储到vmstorage（VM的存储引擎）中，由以下组件组成：
- Exporter：内嵌在业务服务中的Prometheus SDK，暴露数据采集端口；
- vmagent：负责数据采集；
- Nacos：注册中心，负责vmagent和Exporter之间的服务发现。监控数据采集的服务发现节点量级较大，对一致性的要求没有可用性和性能的要求高，故我们选型Nacos，并对其做了兼容Prometheus服务发现的补充；
- Recording Rules：自研的Flink任务，负责Metric数据的流式预聚合；
- vminsert：VM集群模式的组件之一，负责数据写入；
查询链路负责优化数据查询语句，查询存储引擎，由以下组件组成：
- Grafana：数据可视化，我们将其二次开发支持了数据同环比、多实例比较；
- proxy：自研的查询代理，负责解析并优化PromQL；
- vmselect：VM集群模式的组件之一，负责数据查询。

2.2 监控数据采集、预聚合和查询方案

问题背景

一条完整的Metric数据结构如下：

在此结构下应用层Metric监控数据label-value键值对取值情况多，其组合数量是乘积的关系。遇到大维度聚合查询，对存储层的查询压力很大，延迟较高，严重影响问题排查的效率。

比如我们监控一个API网关服务，集群中有200台实例，注册有10000个API，平均每个API有10种返回code，则按集群查询总的code分布情况时，存储层需要聚合的时序量有：
200 10000 10 = 20000000 条。

我们尝试了社区开源的后置聚合方案Recording Rules，发现后置聚合对存储层的压力并未缓解，整体性能并不高，并不能达到优化整体查询性能的目的。

解决方案

由于时序数据不断增长的特点，数据预处理提高查询时效率较好的解决方案。经过测试，开源方案后置聚合（数据存入存储引擎后，再查询出来聚合）的方式不能满足我们的性能要求，故我们基于Flink设计实现了预聚合的Recording Rules服务，另外为了让用户更方便地使用聚合数据，我们设计了查询代理Proxy。

预聚合的Recording Rules

预聚合服务负责将用户经常需要使用的大维度聚合查询提前的聚合，提高查询效率。

Prometheus体系下的Metric数据是时间连续的，每隔一个interval都会有一组数据上报，非常符合流式数据窗口聚合处理的特点，故我们选型大数据领域广泛使用的Flink来实现数据预聚合Recording Rules。

整体架构为：vmagent将采集上来的原始数据双写，一份直接写出到存储层，另一份写出Kafka中，由Recording Rules消费，经过滚动窗口聚合后，写出到vmstorage中。方案如下图：

经预聚合，大维度查询RT从数秒降低到毫秒级。

查询代理Proxy

经过数据预聚合的数据需要与原始数据隔离，metric名称、label都会发生变化。

比如我们有聚合前原始数据gateway_call_code_total{application="app1",cluster="cluster1",host="host1",env="online"}，按集群聚合。
按集群聚合后host这个label即丢掉，且为了隔离，表名添加前缀后变化为cluster_gateway_call_code_total{application="app1",cluster="cluster1",env="online"}。

用户若要在查询时使用聚合数据需感知聚合规则，比较不便。为解决这个问题，我们自研了查询代理Proxy，与聚合配置联动，为用户提供统一的数据查询接口，查询请求经过查询代理时直接优化修改用户的PromQL，将原始数据查询转为聚合数据查询、检测聚合数据正确性等。

Flink聚合任务数据稳定性建设

在设计我们的Flink任务Recording Rules过程中，也引入了一些新的问题，以下是一些重点问题的解决方案。

任务发布、Failover的处理

当Flink任务有需求变更、或底层资源导致的Failover，会发生任务重启，导致聚合停止。重新拉起服务时，从Kafka当前位点继续消费，无法完整拿到当前这分钟的完整数据，上一分钟的数据也可能未完全写出，故会造成数据丢失和错误。

时序监控数据的丢失、错误会直接影响到告警、问题排查，需要尽量避免。考虑到时序数据量级大，Checkpoint存储成本高、效率低，我们采用记录Kafka位点，重启时将位点向前重置、重新计算的方式。在数据处理时，定期将当前处理到的kafka timestamp offset记录下来，重启时向前推至少2个聚合间隔。offset前推引入的数据重复问题，我们借助vmstorage自带数据去重处理。

Flink任务内部序列化优化

我们的聚合数据量极大，超过了250万+QPS，且对实时性要求高，若通过简单扩容去支撑该量级，需要的IT资源过高，故需要提高任务效率。通过火焰图抓取可以发现，我们的任务花费了大量开销在Function之间的序列化上，我们的数据是JavaBean，其中包含泛型的HashMap，会劣化为性能最低的Kyro序列化。我们重新抽象了数据结构，将其设计为Flink原生的Tuple类型，其中只用基本数据类型。在同样的数据源和运行环境下对比，序列化开销从54%降低为15%（下火焰图中紫色部分为序列化），在物理资源不变的基础上，任务支撑处理的输入QPS扩大数十倍。

以下是Flink官方提供的各序列化的效率对比，可知Tuple序列化对比Kryo有巨大提升。

踩坑解决：Counter数据预聚合值下降导致Increase值突刺

问题背景

采用预聚合的方案会遇到以下问题：目前我们的数据聚合主要是针对Counter做求和聚合，Counter的特点是在同一数据源上是累增的，若要获取一段时间内的值，需要用区间末尾减掉区间开始。

我们若按照集群聚合，第n分钟该集群发布，则会有服务的Counter被重置为0，导致整个集群的聚合值下降。若此时我们用PromQL的rate或increase函数查询发布这一分钟的值，存储层会用n分钟的值减n-1分钟的值，但此时n分钟的值大于n-1分钟的值，即小值减大值。此时存储层会认为该Counter被重置，基数应当为0，则变成n分钟的值减0，得到n分钟的值。由于集群发布前大概率已经累计了很长时间的Counter，此时n分钟的值可能非常大，会导致这一分钟的increase结果非常大，展示在图表上为一个超大的突刺。

若要在预聚合中像查询时聚合一样，在rate时对每条被聚合的原始数据一一检测counter重置，那么则需要存储每条原始数据的前值并一一检测，如此存储成本和计算成本都很高，所以我们需要其他方法来规避掉这个问题。

解决方案：通过查询代理Proxy实现聚合数据正确性检测

前文的问题背景介绍中已经介绍过，Counter的聚合数据在遇到increase查询时会发生超大的突刺，我们想到在查询时检测和屏蔽这种情况。我们自研的Proxy查询代理，本身的功能是自动解析修改业务的PromQL，将普通查询转为原始查询，我们设计在这个转换过程中检测数据正确性。

通过此方案，我们解决了该问题。

2.3 Metric与Trace关联分析

为关联Metric和Trace，我们设计了关联表，单独上报存储。我们从Metric关联到Trace时，先通过Metric的label、value、时间范围查出TraceId列表，随后查出对应的Trace详细信息。

在APM平台设计上，我们将Metric数值做成了可点击的按钮，用户点击即查询出关联到的TraceId列表，进一步点击可看到详细内容。

2.4 高效的Metric监控可视化与图表分析能力

Metric可视化：我们使用Grafana来可视化Metric数据，设计了大量直观的Dashboard，维度包括应用总览，各组件如HTTP、RPC、Redis、数据库、MQ等的总览、异常、错误、请求执行的图表。如以下为某服务的请求总览Dashboard，用户可直观看到总量、P99、异常率、平均耗时、错误码、线程池等信息，非常方便。

图表分析能力：在日常故障排查中，经常需要进行时间跨度和实例之间的比较分析。我们选型的Grafana虽然对时序数据的可视化支持很好，但对图表比较分析的支持较弱。因此我们对Grafana做了二次开发，支持了以下功能：
- 环比分析：支持用户对监控项跨时间段比较；
- 多实例比较：支持用户同集群内的同监控项跨实例比较，还支持按照不同的数据指标排序、查看TopK的实例等；
- 指标分析：帮助研发一键计算曲线的数据指标，方便数据统计方面的需求。

三、总结

基于VictoriaMetrics的Metric监控目前已经在云音乐各业务线全面推广，目前支撑活跃时序近7亿。其带来的优势如下：

Metric与Trace关联排障，打破信息孤岛；
应用层监控能力提升：补足应用层各维度Metric监控数据可视化，应用观测能力明显提升，可直接产出P99等指标，问题定位能力强；
大规模业务低成本Grafana可视化：利用Grafana的低代码配置，省去大量开发成本；
低成本解决大规模时序数据存储：基于VictoriaMetrics的存储方案成本低、性能高，经对比所占用资源仅需如M3DB等方案约三分之一。

在未来我们将持续拓展监控能力，在智能分析、智能告警等方向持续深挖，为业务发展保驾护航。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

X6 在云音乐低代码流程编排中的实践

2024-01-04T09:33:54+08:00

本文作者：辰木

本文通过介绍了当前云音乐 BFF 研发模式现状，阐述了对当前研发现状的一些思考以及总结了 X6 在低代码流程编排中的实践历程；通过阅读本文，可以快速了解和学习如何通过 X6 构建符合业务诉求的可视化流程编排产品。

背景

目前云音乐已经建立了基于 GraphQL 的 BFF 研发模式，具体介绍参见《基于 GraphQL 的云音乐 BFF 建设实践》，在探索前后端协同的 BFF 研发模式上，起到了一定的作用和影响。然而，这种研发模式并未解决业务侧研发人员的核心痛点，同时又引出了一些新的问题，主要体现在以下几方面：

BFF 场景下业务逻辑的编排诉求

逻辑编排能力低：由于 GraphQL 是用于 API 查询的 DSL，比较侧重数据聚合和选择；当存在一定的业务逻辑时，诸如对输入参数、输出结果做相应的处理，需要增加逻辑判断等，只能在 Groovy 脚本中实现；由于脚本实现没有相应规范，很容易导致大量业务逻辑会通过脚本实现，造成脚本滥用。
资源开销成本高：不论是测试接口还是业务实现接口，都会产生机器资源开销，目前存在大量无流量应用和实例，造成资源浪费。
交互复杂，上手成本高：由于产品概念较多且交互复杂，中间实现链路较长，导致接口调试不便，排查问题困难。
角色分工不清晰，服务治理能力弱：前端研发人员主要负责 API 接口搭建、自测，从而完成接口的交付；但在引擎服务集群稳定性、流量水位方面缺少评估经验，而这部分内容服务端研发人员相对更擅长点；另一方面，由于前端和服务端研发人员需要关注的领域和内容不同，一些运维操作通常都需要跨平台使用，导致服务治理困难。

服务的沉淀与复用

在活动玩法场景下已存在简单的轻量级流程编排能力，但由于接入复杂、平台使用困难，目前使用并不广泛；与此同时，在该场景下一些固化配置和逻辑处理也并未沉淀成为服务资产，导致相应业务逻辑的复用能力较低。

全链路低代码建设

另一方面，云音乐已经构建了 Tango 低代码搭建平台，具体介绍参见《网易云音乐 Tango 低代码引擎正式开源》。Tango 在 UI 层已经极大地提升了需求交付和研发效率，但在基础逻辑编排、基础服务编排、乃至模型驱动 UI 的基础资源编排方面还是一片空白，构建服务端低代码产品，建立全链路低代码研发模式是重要建设目标。

思考

BFF 的应用场景是根据当前业务需要，对多个微服务接口返回的数据进行组装，会承载一些业务逻辑判断或数据格式转化，方便客户端（包括：PC Web，H5，App，小程序等）消费的架构模式，其主要是为了解决多访问终端业务耦合问题。

云音乐当前的 BFF 的研发模式只是交付 C 端部分业务场景的方式之一，其他 C 端场景以及大量 B 端场景也或多或少都存在相类似的诉求，但交付需求的方式依旧是传统的研发方式。相比较前端可通过组件、模块、页面模版、样板间、微前端架构等众多方式快速复用 UI 和交互能力，服务端想沉淀和快速复用一些服务资产时，存在诸多不便。这些不便主要体现在：接口实现规范较多，统一实施难以落地；微服务较多边界较模糊且占用资源不一，一些场景下又需要将多个微服务合并成一个微服务。

那么在云音乐当前研发现状下，有没有一种方式，即能实现自由组装服务资产，清晰地表达服务间依赖关系和对应业务场景逻辑；又能通过一定的手段沉淀和复用服务资产，在给定输入值后可自动调用依赖服务输出结果；与此同时，还可搭配 Tango 低代码搭建平台，在整体研发链路上进一步降低开发成本，提升交付质量和效率。

答案是存在的，那就是：基于流程编程 (Flow-based programming)

关于 FBP

基于流程编程是一种特殊形式的数据流程编程范式，其可以将程序表达为具有输入和输出的有向图，图内每个节点具备一定的中间运算过程，并通过特殊逻辑关联将节点衔接起来，当给定输入时，就会自动执行并输出结果。

典型的 FBP 程序图表达如下图所示：

通过对 FBP 程序的图表达分析不难发现，这种有向图包含着明确的输入和输出节点、中间依赖节点、以及节点间连接关系，其是可以通过流程图的方式表达的。

解法

为了解决当前研发现状所面临的诸多问题，基于 FBP 的理念和流程图可视化编辑能力，云音乐公技低代码团队发起了 TangoFlow 项目。项目旨在通过组装式架构，整合云音乐服务端技术栈，提供基础逻辑编排能力，以网关 API、统一 SDK 等方式暴露编排结果；从长远目标来看，期望构建符合云音乐研发现状的服务端低代码平台，结合 Tango 搭建平台在提升需求交付效率和吞吐率、降低交付成本的同时，建立起完整的全链路低代码研发模式。

架构设计

我们期望开发者在平台创建好流程后，借助可视化搭建能力对服务资产进行编排组装，通过接口将图信息传给服务端；服务端得到图信息后再将其转化为 DSL 并发送给流程引擎，引擎在得到 DSL 后会自动解析和执行并以特定方式暴露编排结果，从而提供给客户端消费，用户使用流程大致如下：

那么基于以上思考、期望目标以及用户使用核心链路，我们明确了 TangoFlow 的产品架构，整体设计如下：

技术选型

构建基础逻辑编排能力，首当其冲是要实现可视化的流程图编辑能力。在对比了社区众多相关流程图编辑产品后，决定使用蚂蚁开源的 X6 图编辑引擎，其主要有以下优势：

核心功能稳定，持续迭代并完善自身能力
开箱即用，组件和插件完备，便于定制，也可通过相应注册机制灵活扩展能力
事件驱动，有完备的事件机制来处理相关交互逻辑
数据驱动，支持图内的节点和关系的序列化和反序列化
丰富的案例实现，可快速查看和在线调试运行

产品设计

由于流程编排本质上是抽象输入、输出、服务为节点组件，通过可视化拖拉拽将这些组件按流程图方式组织，从而完成对应的逻辑表达需求。鉴于社区不乏相关优秀的产品，比如 XFlow、LogicFlow、ProcessOn、Figma、语雀、ioDraw等, 通过对这类产品的抽象和总结，最终确定 TangoFlow 的可视化编排界面结构如下图所示：

顶部导航

顶部导航需要展示一些核心的信息，同时也需要承载一些核心操作以及其他跳转入口，主要体现在以下几方面：

核心信息：所属应用、编排的流程、分支信息等
核心操作：分支切换、撤销/重做、画布缩放、保存、发布等
其他入口：回到首页、前往 APM、问题反馈等

物料

物料面板不仅需要显示有哪几类、哪些节点组件，同时也需要节点组件具备拖拽至画布内自动添加和显示的能力。通过对流程图的抽象分析，我们将流程中包含的节点分为以下几大类：

触发器：流程对应的输入节点，其主要是暴露网关服务端 HTTP 服务
逻辑控制：一些常见的逻辑表达，如 if-else、switch、for 迭代逻辑等
基础服务：适配云音乐的服务资产，如：RPC 接口、Groovy 脚本、网关 API 接口等
数据结果：流程对应的结束节点，其主要是控制 BFF 服务输出的内容格式和数据结果。

画布

画布作为流程编排的核心能力，不仅需要提供流程节点的展示、节点组合嵌套、节点连接关系表达外，同时也需要承载一些快捷交互能力，诸如节点信息编辑、节点菜单、画布菜单、边标签设置等。

属性设置

通过对流程中涉及每个节点的属性抽象，产出相应的节点属性配置；由于每个节点所对应的属性配置是不同的，每个属性在设置时所需的 UI 组件也不尽相同，这就要求属性设置是一个动态表单，且需要具备足够的灵活度以及扩展能力。

控制台

在对流程进行调试时，控制台区域不仅需要展示请求入参和输出结果，也需要展示引擎运行 DSL 时的调用过程，方便在调试出错时能快速定位具体是哪一部分发生异常。

总结

以上是借助 X6 在构建云音乐低代码流程编排能力时的一些实践历程，其强大的图编辑和自定义能力，使得可快速实现符合业务需要的流程编排诉求。在实现某一具体场景的编排产品时，个人觉得需要注意以下几点：

明确编排能力的核心诉求，并确定优先级
多参考和分析其他类似的优秀产品相关能力，然后多尝试用一些设计工具实现
做更多的技术预研，分析各个相关工具的优缺点，明确其擅长的应用场景
相比代码实现，前期的产品设计和技术预研至关重要

未来展望

随着当前编排能力的趋于成熟稳定，在继续完善全链路低代码建设的同时，也会在 AIGC 方向探索更多的可能，不断地重塑产品能力，未来主要包含以下方面：

继续整合服务端相关技术栈资源，借助编排的方式实现对相关资源的最大化利用
结合 Tango 完备的前端搭建体系，构建模型驱动 UI 的研发模式，进一步提高需求交付效率
集成 AIGC 能力，借助 AI Agent 能力根据用户的自然语言输入，自动识别用户意图从而完成一系列动作
最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐曲库读缓存实践分享

2024-01-02T11:53:09+08:00

本文作者：伍佰（周斯航）

云音乐曲库缓存经过多年的实践和改善，形成了一套自有的缓存使用体系，并取得了很好的效果。本文将以实战为主，介绍曲库缓存设计的动机和思路，帮助读者了解背后的原因，并在其他场景中借鉴相似的思路。

背景知识

缓存基础介绍

缓存是系统设计中，用于提升底层系统访问能力的一种技术手段，它同样作用于云音乐的各个系统中，一种常用的缓存使用调用链路如下：

转化为时序图，如下图所示：

整个缓存的数据放入，是采用懒加载的方式，先取缓存，取到则返回，取不到则透过到下一层，拿到后会回写当前层的缓存，这是整个云音乐缓存使用的整体思路。

在正式进入实战之前，介绍一些概念数据：

一次简单的DB操作，耗时在 0.5~0.6ms
一次简单缓存操作（非本机），耗时在 0.5~0.6ms
一次简单的本机缓存操作，耗时在 0.2~0.3 ms

云音乐曲库读是整个云音乐服务中接口调用量最高的几个之一，曲库读整体服务的rpc峰值调用qps能够达到 50w+ （双机房累加），通过多种缓存使用的尝试及调优，并最终从以下角度进行考虑并实践，得到较好的效果。

曲库数据的特点

很多中间件、组件等设计，在考虑设计时，都会朝通用化方式去实现，而契合业务场景的特点，则更能将性能做到极致，曲库的缓存实现，是与曲库数据特性有着深度的联系，具体如下：

读多写少
可以读写分离
数据变化秒级延迟用户不敏感
热点数据集中
通过List（列表）获取数据的场景很多，有大量 MultiGet 操作

有上述特点的业务场景，都可以参考曲库的缓存使用姿势。

实战场景讲解

实战场景1：缓存的高并发保障

日常对曲库读服务的高并发保障中，主要会遇到以下两个问题：

歌曲（尤其是热门歌曲）发布时，短时间内会出现大量热点请求，此时由于数据冷启动，缓存没有存储对应数据，会有大量请求直接访问数据库，引起数据库压力瞬间增大。
针对预售但暂未入库的歌曲，上游有持续不断的请求，此时由于数据库和缓存都没有数据，导致请求都进入数据库查询，给数据库带来极大的压力。

以下是曲库读缓存服务针对这两个问题进行优化的策略。

场景1：保障热点数据的获取

曲库将缓存服务分两级进行部署：在最靠近数据库层部署了一套分布式Memcache作为中心缓存，用于缓存歌曲数据；在曲库读服务的主机侧部署本地Memcache缓存，用于缓存最热门的歌曲数据。为了防止发布瞬间出现的缓存击穿现象，曲库采用了缓存穿刺的做法，具体做法如下：

对于缓存中的 Key-Value ，将每个Value变成这样一个对象：

public static class HoleWrapper<T> implements Serializable {
       private long expire; // 对象的过期时间
       private T target; // 对象本身
   }

即每个在缓存中的对象，都带上自身的过期时间，这样在获取对象的时候，就知道缓存是否快过期了，如果能得到这个信息，结合业务特点 对于秒级延迟不敏感、热点数据集中，则可以这么进行设置，在曲库，我们称之为穿刺 :

通过 key 获取 HoleWrapper
查看 HoleWrapper中的 expire 是否快过期（快过期：可以定义5min、1h）
如果是，当前线程将获取到的 HoleWrapper 的 expire 时间延长，并放入缓存（此操作耗时较少）
当前线程向下穿透到下一层取数据，并将最新数据进行更新

时序图如下：

穿刺体现在步骤3中，此处不能完全杜绝击穿的风险，但由于缓存操作远远快于DB操作，这样产生击穿的概率就下降了极多；有了穿刺，对于热点数据就能很好的做好防护，并且qps越高、越热点，越能体现优势。

场景2：数据库不存在的数据请求的保障

如何保障数据库不存在的数据请求，是缓存优化中比较经典的“防穿透”问题，又一个简单而通用的思路：

从缓存取不到的数据，在数据库中也没有取到，这时也可以在缓存中写入一个特殊值进行标记，缓存时间的设置可以视情况确定（如果主动清理可以设置长一点、否则短一点）

由于这种做法比较通用，故而在曲库封装的缓存代码中，将其通用化封装，即对于下面时序图，第四步进行设置：

实战场景2：缓存扩缩容

场景1：缓存容量够，但性能不够时，如何进行扩容

在热门歌曲或大型活动期间，此时缓存的容量足够存储需要缓存的数据，但缓存本身的性能可能会出现瓶颈（例如缓存上限qps是20w，此时系统压力达到30w），此时会新增多个缓存集群，每个集群缓存同样的数据内容，以提升缓存的性能，本方法也被称为 横向扩容(Scale Out) 。

横向扩容需要考虑以下两个问题：

如何保障多组缓存数据是一样的？
新扩展的缓存集群冷启动，如何防止大量请求打到db的问题？

为了解决这两个问题，曲库的最佳实践是设计了一个缓存代理，所有的缓存操作均通过代理进行执行，代理对于缓存命令的执行形式为：随机读、顺序写

通过这种方式，可以保障在一定的时间范围内，多个缓存集群缓存的数据能够基本一致。

在解决了一致性问题后，还需要保障扩容阶段的系统稳定性。此时我们通过配置缓存访问权重的方式实现缓存预热，短时间内只有很少的读请求能够进入新集群，由于代理顺序写的逻辑，在一段时间后，新集群会缓存足够多的数据，此时再通过修改代理配置，使新缓存能够提供读请求。

注：曲库提供的这套横向扩容的缓存方案比较适合“读多写少”的场景，在频繁写的场景下，由于需要频繁的更新缓存，本套方案的性能可能会降低。

场景2：缓存性能够，容量不够时，如何进行扩容

随着曲库数据量的逐步变大，缓存的占用量也越来越高，扩容缓存一个简单的做法，就是在单个缓存集群上增加更多资源，以提升缓存的容量。这种办法被称为纵向扩容(Scale Up)。

纵向扩容最可能出现的问题是由于节点增多，如果使用普通哈希算法存储缓存，如果只有一组缓存（大部分场景都够用），可能会导致扩容后缓存全部失效，此时会导致极高的系统风险。下图对风险进行了详细介绍：

扩容前：
扩容后：

为了解决这个问题，我们采用了一致性哈希算法来进行缓存的存储，通过这种方法，可以降低缓存集群内节点扩缩容带来的系统风险。本文不过度赘述一致性哈希算法的原理，感兴趣的读者可以参考5分钟理解一致性哈希算法。

实战场景3：缓存清理

曲库数据的特点是读多写少，且可以接受数据变更后秒级的延迟。基于这种特点，我们设计了异步缓存清理的方案。其中在设计缓存key-value时需要遵循这样的原则：

所有的缓存清理，由于曲库数据支持秒级延迟的特点，可以进行异步清理
所有的缓存清理，由数据库变更（binlog消息）消息触发
所有关联的Key，可以由单条binlog生成

只要遵循这样的设计，曲库缓存的清理就可以变得比较轻巧，可以采用监听数据库binlog的形式进行异步清理。

场景1：缓存数据出现变化时，如何保障一致性

场景1是比较基础的缓存清理场景，在此不做过多描述，需要注意的是如果是多级缓存，需要从缓存的部署形式分析，按离数据库从近到远的形式进行清理。（例如监听数据库binlog后，先清理中心缓存，再清理本地缓存。）

曲库的最佳实践是只有清理中心缓存的服务直接监听binlog消息，在清理完中心缓存后再将消息转发到另一个消息队列，清理本地缓存的服务监听新的消息队列，这样就能实现有序清理缓存的目的。在清理本地缓存时，我们提供了一个清理sdk插件，嵌入曲库读服务，每个服务在启动时会实例化一个独立的消费者，这样虽然对业务有部分侵入，但由于每个消费者只需要清理本地缓存，曲库读服务的扩缩容会变得异常简便，也更适用于当前容器化部署的形式。具体流程图如下：

场景2：缓存数据结构出现变化时，如何保障一致性

如果某个缓存对象的数据结构发生了变化（例如新加了一个字段），此时需要把该类型对应已缓存的对象全部清理。

在这里，我们采用了一个简单做法：不去主动清理已存在的缓存，而是想办法把这部分缓存“失效”掉（线上服务访问不到）。主要的做法是利用了构建缓存key的生成器，在生成缓存key的时候添加一个“缓存版本”。后续如果遇到需要清理所有缓存的时候，只需要把缓存版本进行升级，就可以达到访问不到老缓存，重新从数据库获取数据的效果。

注：通过升级版本号的方案其实是无法精确清理所有缓存对象的情况下的trade off，升级版本号后，在发布服务时需要注意缓慢灰度发布，否则可能会造成大规模的缓存雪崩现象。

总结

以上，是曲库缓存使用的实践历程，涉及的细节较多，不同业务场景可以参考不同的考虑方式进行部分借鉴。

后续曲库缓存的发展方向，是将元数据中额MetaData数据与状态数据分开，并将MetaData数据进行纯静态化处理，结合业务数据变化的特点，将状态部分数据的降级等引入考虑，进行更深度的缓存使用。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐D2C设计稿转代码建设实践

2023-12-29T10:23:56+08:00

本文作者：魏慷

本文从 UI 研发的痛点出发，谈一谈网易云音乐在解决 UI 研发效率上的思考和实践，包括「海豹 D2C」产品研发中的方案设计与技术挑战，并介绍如何使用「海豹 D2C」实现高效的 UI 研发。

背景

在产品交付链路中，UI 研发的高效与否直接关系到产品的上线节奏。在网易云音乐，我们发现，随着业务的发展以及技术体系的升级和迭代，UI 的研发过程也渐渐暴露出了一些问题。

常规的一次产品交付链路中，涉及到 UI 研发的过程主要有：

设计师使用 UI 设计软件进行设计，将设计稿交付给研发工程师；研发工程师手动将设计稿中的内容还原为代码，并交给设计师走查；接着，设计师提出修改意见，再次由研发工程师修改代码。待走查完毕后，方可发布项目。

在这个过程中，会存在这些情况：

设计稿本身无法完整描述设计意图，需要通过标注另行说明；
研发工程师对于设计软件不熟悉，遗漏了设计稿中的一些关键点没有还原到代码中；
因为项目时间紧任务重，研发工程师赶工式开发，导致 UI 还原度低。

这些问题导致在 UI 还原为代码的过程中，设计师需要通过标注表达设计意图，在走查过程中效率低，一般需要重复多次走查，方能让研发工程师修复所有问题；

另外，对于设计师而言，由于彼此的分工不同以及一些历史债务，导致设计师的设计工具并不统一，像 Figma / MasterGo / PhotoShop 都有在使用。

而对于研发工程师来说，例如在网易云音乐，为了支撑业务的快速发展，存在着较为多样化的 UI 技术体系，涉及到 H5、React Native、动态 DSL、动态图片等。为了应对不同的业务场景，研发工程师需要学习多种技术体系和平台下的 UI 还原。

如果我们对上面流程中的问题进行总结，就会发现网易云音乐 UI 研发的痛点主要为：

沟通成本比较大
工作效率比较低

具体而言，研发链路长就会导致沟通成本大，手写代码还原 UI、UI 还原度低、技术体系多样化导致工作效率低，而设计工具的多样化、UI 走查的低效既会导致沟通成本大，也会导致工作效率比较低。

在此背景下，我们希望有一个工具来代替前端人肉还原 UI，从而从繁冗的设计稿还原工作中解放出来。
我们将它命名为「海豹 D2C」（Design to Code），它的定位是一站式的智能 UI 研发解决方案，根据设计稿一键智能生成代码。

我们期望 D2C 的还原度是 99.9%, 相比于人肉还原的代码要更精准。此外，它还要去智能分析设计意图。这也有望让设计稿的标注和走查这两个流程节省下来，从而去节省开发和设计师间的沟通成本。

应用了「海豹 D2C」的新流程，我们希望，对于设计师，带来的收益有：

设计提效，让设计师免除了繁琐的标注工作，稿子画完即可交付
沟通降本，让设计师省下了 UI 走查的时间，大大降低了与前端的沟通成本

对研发的收益，我们希望能够达成：

研发提效，让机器替代人肉还原 UI，只需要不到 10 分钟即可搞定一张页面
沟通降本，免除了因还原度不达标而与设计师反复沟通的问题。

产品设计

通用性

我们希望「海豹 D2C」产品，它应当具备足够的通用性：

输入阶段的通用性要求

支持常用的设计工具
需要支持包括 MasterGo, Figma, PhotoShop, Sketch 等在内的设计工具
不对设计稿做要求
在我们的前期调研中发现，设计师都有自己的一套设计风格，这个风格也包括了对 UI 设计软件的使用习惯上。由于使用 D2C 产品的用户往往是开发，他们无法要求设计师一定要按照某套规范来作图，如果强行对设计稿规范做要求，势必会导致产品难以推广落地，因为它不是一套通用的方案。

D2C 生成阶段的通用性要求

组件识别支持任意组件库
优先支持网易云音乐使用的海豚组件库。但是，对于组件的识别应当是通用方案，可以运用在任何组件库上。

只做UI还原，不做逻辑识别
在 UI 设计软件上，目前还很难表达逻辑、动画等等内容，D2C 的产物必然是静态页面。如果强行在 D2C 阶段增加对逻辑绑定等操作，一是不具备通用性，二是势必让产品操作流程变复杂。专业工作交给专业工具，我相信对于逻辑绑定这部分内容，应该在一个脱离 UI 设计软件的独立平台做会更方便，例如在网易云音乐，就有 Tango 低代码平台可以做这样的事情。

输出阶段的通用性要求

支持多种技术体系和搭建平台
要支持最常用的技术栈，并且应当有一个通用的、开放的方案，可以对接到搭建平台。也就是说，只要愿意，任意的搭建平台都可以消费「海豹 D2C」的产物。

由此，我们设计出「海豹 D2C」整体流程。经过我们的反复迭代，目前它的流程是这样的：

在设计工具方面，支持目前广泛使用的 MasterGo, Figma, PhotoShop, Sketch 等多种格式的设计稿。

由于 UI 应用场景的不同，在技术体系上，网易云音乐主要涉及了 React, React Native 等多种技术栈，「海豹 D2C」需要支持这些类型代码的交付；

另外，网易云音乐也有通过「灵渠」DSL 搭建页面，和「云雀创意中心」动态合图的方式进行搭建交付，为此，「海豹 D2C」需要提供对接的开放能力，以无缝对接这些搭建平台，实现设计稿一键生成搭建物料。

对于这些通用性要求要如何实现，我们会在后面再做详细介绍。

无损的信息提取

D2C 的本质是从设计稿中进行信息提取，并转换成代码的过程。

之前有一些 D2C 产品，包括微软的开源方案，可以基于图像识别做信息提取。它的好处是不依赖设计稿，但是缺点也很明显：

图层边缘信息易受其他图层干扰；
矢量数据丢失；
布局结构难做等。

而假如使用的 UI 设计软件提供的 Open API，我们可以确保拿到所有的原始数据都是无损！通过图层本身信息的无损提取，做到 0.0001 px 精度还原。此外，UI 设计软件还提供了这些有效信息来帮助我们识别设计意图，生成更加友好的代码：

布局结构，例如对于自动布局、约束的描述；
图层的分组信息；
组件信息；
token 信息。

很简单的道理，当我们在 PhotoShop 中保存 PSD 格式文件，那么下次打开该文件仍然可以继续编辑，但是对于一张导出的 PNG 图片，想要二次编辑就会比较犯难。设计软件本身包含的结构化信息，一定是大于一张二维图片的。

多软件适配

使用 Open API 的唯一缺点，就是每个 UI 设计软件都有自己的一套标准，我们需要分别去适配。

我们最终考虑去支持 Figma Plugin API 和 MasterGo Plugin API，也就是说「海豹 D2C」是以插件的形式运行在 Figma 和 MasterGo 中，这是一个运行在浏览器中的 iframe 页面，同时利用 Plugin API 与 UI 设计软件进行交互。

对于网易来说，除了 Figma, MasterGo，常用的设计软件还包括 PhotoShop, 早期还有 Sketch。由于 MasterGo 支持导入 Sketch, XD 等格式的设计稿。我们只要支持 MasterGo，无需额外开发也就间接也支持了这些设计稿。对于 PhotoShop 格式的设计稿，我们也间接进行了支持，实现思路如下：

Adobe XD (也可称为 Experience Design) 是由 Adobe 公司开发并发行的一款 UI 设计软件，尽管它有点冷门并且已处于维护模式，但它支持打开 PhotoShop 的 PSD 文件并保存为 XD 文件。而 MasterGo 恰恰又支持导入 XD 文件。最重要的是，XD 与 PhotoShop 同属于 Adobe 公司开发，可以保证在 PSD 文件转换为 XD 文件过程中的还原度。

所以，到这里解法就很清晰了，我们并不是直接支持 PhotoShop，而是采用了曲线救国的办法：先将 PSD 转成 XD，XD 转 MasterGo，然后由 D2C 消费 MasterGo 设计稿。「海豹 D2C」对 PhotoShop 的支持，不仅实现成本低，而且还原度也能得到保证。

最终下来，我们只要让我们的插件适配 Figma 和 MasterGo 就可以了。他们的 Plugin API 高度相似，这使我们节省了不少开发成本，往往只需要开发好一端的插件，再去适配另外一端的插件即可。当然，高度相似不代表完全一致，特别是一些细节实现上，总会有让人意想不到的差别。

中间产物 Uniform UI Schema

为了实现兼容多种设计稿和代码模式，我们制定了一个 D2C 中间产物的规范，叫 Uniform UI Schema。通过 Uniform UI Schema，就可以在不同格式的设计稿和不同的代码模式之间实现统一。比如，对于 Figma 设计稿而言，就可以提供一个 Figma Transformer，将其转换成 Uniform UI Schema，然后搭配不同的 Code Generator，便可以生成不同的代码。

Schema 统一方案，标准开放，支持流转到其他平台，支持多种代码，且可以快速对接支持新框架。

例如，在网易云音乐我们主要使用 React 技术栈，一开始没有支持 Vue。但在网易集团，存在其他事业部以 Vue 作为主要开发框架，我们便快速支持了 Vue 代码的生成，在这个过程中，并不是从 Figma/MasterGo 使用 Plugin API 信息提取到 Vue 代码输出的完全重写，而是 Uniform UI Schema 到 Vue 代码的转换，总体仅消耗 1 人日时间。

到后来，我们甚至提出了插件中的插件的概念——微插件。作为「海豹 D2C」插件的使用者，也可以参与到输出代码产物的过程中，通过开发一个微插件，介入到 Uniform UI Schema 到代码转换的过程中，从而产出「海豹 D2C」本体未支持的框架。

所见即所得

我们也可以基于 Uniform UI Schema 快速输出 HTML Code。由于 HTML Code 相比于 React 代码，可以不经过编译在浏览器中更快打开，适合作为我们 D2C 生成效果的预览。有什么好处呢？

相比于常规的流程，我们从设计稿生成代码，最理想的情况，开发需要使用像 VS Code 这样的 IDE 将代码复制过去，编译运行，最终在浏览器中预览效果。如果因为设计稿本身的问题导致生成的代码有瑕疵，此时就要修改设计稿规避这种问题，就需要重新走 D2C 流程，这个过程略显繁琐。
另外，在 D2C 这一新鲜事物刚出来的时候，大家可能还是会持怀疑的态度，担心生成的代码还原度不好。如果在打开插件时，马上就能看到最终生成的效果预览，就可以根据生成的质量，再决定是否导出代码。

因此，在我们的「海豹 D2C」插件的首页，我们提供了预览图，这个预览图并不是基于设计稿简单的导出图片，而是实打实通过我们的 D2C 出码生成的真实 HTML，可以直接看到 D2C 出码后的效果。不管效果是好还是不好，一目了然。

设计稿优化

前面说到，我们不对设计稿规范做要求。那么会有哪些问题呢？这里简单举几点：

设计稿中存在无用图层，例如已经隐藏，无实际有效填充，未在可视区域内等。这样导致生成的代码也包含了冗余元素。
图片未指定导出的格式，比如是生成 PNG 格式的图片，还是生成 SVG 格式的图片更合理。这在代码生成时无法推断图片格式。
还有一些图层适合作为整体导出图片，但是没有设置导出，例如复杂的背景元素。在代码生成时，可能无法获知要整体导出，导致生成的代码过于复杂。
部分容器适合使用响应式布局，但是设计稿中并没有设置。导致生成的代码无法响应不同设备尺寸，需要开发再去调整。
设计稿未按照逻辑进行成组，通过父-子的图层关系结构去描述这种逻辑关系，而是一个扁平的图层结构。这导出生成的代码可读性不强，也会影响相对布局的定位。

使用「海豹 D2C」插件的是我们的前端开发工程师，不会那么熟悉设计软件，上手学习需要一定的时间成本。那么要如何处理这些问题，让生成的代码符合我们的预期呢？我们先看下其他 D2C 产品是怎么处理的。

手动优化
以 Figma Dev 模式下提供的 Figma To Code 为代表，原样还原设计稿中的信息，输出代码一定符合预期。如果设计稿有一些问题影响了代码的生成，就需要进行手动优化，优化的效果会保存在设计稿中。问题在于手动优化比较繁琐、耗时，并且有一定的学习成本。
自动优化
常见的 D2C 产品，往往会对设计稿做自动识别，无需人工介入。但完全不需要人工的问题就是，可能遗漏需要设置的内容，同时误设置不需要的内容。

「海豹 D2C」提出了智能识别的概念。在自动识别的基础上，我们加入了人工介入审核内容，避免错误设置或误设置不需要的内容。当然了，对于遗漏设置的内容，我们还是支持手动优化的。

智能识别是我们的默认模式，如果觉得人工确认过于麻烦，你还是可以选择快速生成模式来生效自动识别。

通过智能识别，我们可以做到：

设计稿中存在无用图层：我们能够识别到这些图层并做移除；
图层未指定导出图片或适合作为整体导出图片，但是没有设置导出：根据图层内容推荐导出图片，可在导出设置中生效；
适合使用响应式布局，但是设计稿中并没有设置：我们能够识别到这些图层并做相应的设置；
设计稿未按照逻辑进行成组：调整图层，使他们按照逻辑形成父-子的图层关系结构。

基于此，我们的开发即使不熟悉设计软件的使用，也可以在「海豹 D2C」的引导下，对设计稿进行优化。

技术挑战

C2D2C 组件识别

网易云音乐有两种典型的页面类型：

一种是活动页面，它创意性强，没有固定的设计规范，比如恋爱人格测试活动，摸鱼计算器活动等等。D2C 在还原这类页面时，无需识别它是具体哪个组件库；
另一种是产品功能页面，它强调 UI 的一致性，有固定的设计规范和交互逻辑，所以需要识别组件并将其转换为对组件库中组件的引用。

而业界的组件识别方案一般有两种思路：

一种直接在设计稿上进行人工标注，它的优势是技术实现成本低，但是缺点是工作量会转移到设计师，标注成本比较大。
另一种思路则是利用 CV 技术，也就是利用计算机视觉相关的图像识别算法对组件进行识别，它的优势是无需人工标注，模型自动识别组件，缺点是模型的训练和更新成本比较大，ROI 比较低。

这两种方法都不适合网易云音乐的实际情况，于是我们探索出了基于 C2D2C 的组件识别方案。它的优势是无需人工标注即可识别组件，而且技术实现成本低，ROI 比较高，它的缺点是组件库有一定的接入成本，但是我们也提供了工程化的解决方案。

它的具体思路是，我们将组件的代码库，通过 C2D 技术，也就是 Code to Design，将其转换成设计软件的 Library，并同步诸如组件相关的元数据。这样设计师在使用 Library 的时候，通过元数据就自动实现了对组件的标注，最后在 D2C 的过程中将就会被识别出来。

具体而言，就是将 HTML 的元素，比如对于 div 标签、p 标签、svg 标签，可以依次映射成 Figma 的 Frame 节点、文字节点和矢量节点。按照其在 React 组件库中的组件名称，到 Figma 中，在 Library 中实现相应的组件。

这里截图显示的就是我们通过 C2D 技术生成的 Library，以 Button 为例，当设计师使用了 Library 中的 Button 后，借助组件变体和属性功能，便可以像使用 React 组件一样，随意更改组件的属性，并且能够在 D2C 阶段通过元数据识别出来。

在做 C2D 的时候，为什么要在图层中绑定元数据呢？其实就是用来做物料识别的。原理并不复杂，基于 C2D 的产出的设计稿，我们会解析设计图层和元数据，同时进行物料的识别，最后还原成代码。

比如，对于 Button 而言，C2D 在生成设计稿时，会为图层绑定组件的元数据，包括组件名、组件 Props，API 文档等，D2C 时，直接读取组件元数据，翻译成代码即可，其间不会丢失任何的设计细节。

布局优化

层级调整

部分设计师习惯采用扁平的图层结构，未按照业务逻辑进行良好的图层分组。如果直接基于此生成代码，尽管还原度也能够得到保障，但最终代码的可读性比较差，二次编辑也较为困难。

为了能够生成可读性好、能二次开发的代码，势必要对布局进行优化。而布局优化的本质就是将 扁平的结构 转换成 行列嵌套 结构。

例如下图中，左下角有个设计稿，包含 ABCD 四个节点，如果不进行布局优化，那么整个页面将是一个扁平的结构，生成的是绝对定位的代码。虽然还原度能够保证，但是可读性比较差。

而布局优化的过程，则是对 ABCD 进行分组，首先将页面分为 ABC 和 D 两行，然后将 ABC 分为 A 和 BC 两列，最后将 BC 分为 B 和 C 两行。

分好组后，通过新增三个布局容器，形成行列嵌套结构，这样最终生成的代码将符合开发者的直觉，具备较好的可读性。

不难发现，做布局优化，其实就是在做行列分割，人眼一眼就能看出来需要这么分割，那对程序来说，具体要如何实现呢？

我们独创了行列分割算法（专利公布号：CN116861853A）。整个流程，大致可以分为以下 5 步。

首先，我们需要获取到待处理的节点坐标；
然后，进行节点关系的处理：判断它们是处于包含、还是相交还是相离关系
- 包含关系：将被包含的节点作为其子节点处理。
- 相交关系：两者看做一个整体，且其中一个相对于整体作绝对定位处理。
- 相离关系：不做额外处理。
节点关系处理完成后，则是做二维空间投影，找到行列分割的依据。比如，通过纵向投影，我们就知道了 ABC 和 D 是属于不同的两行，通过横向投影，我们就知道了 A 和 BC 属于不同的两列。
接下就是做行列分割了，其主要工作就是依据二维投影信息，添加布局节点，进行分组。
最后就是样式的计算，生成包括 Flex 布局、绝对定位以及 Margin 偏移量等。

自动布局的识别

在层级调整的基础上，我们还需要识别自动布局。自动布局转换为代码后，其实就是 Flex Box。通过 Flex Box，就能够让页面实现响应式，例如在屏幕变宽以后，一些元素弹性放大，或者是选择不放大，但是一行内能够容纳更多的元素。

那么如何识别自动布局呢？我们大胆猜测，自动布局往往是运用在由相似元素组成的列表。那么具体的实现算法就变成：

识别相似元素，可以从尺寸、描边、背景填充、文本大小等角度去计算相似度，而文本的内容、图片的内容则认为是合理的差异，不应当参与计算。并且在实际的识别中，还需要对元素的子元素进行遍历，也做一遍相似度的计算；
可信度计算：由于这些元素最终组成了列表，还需要分析下元素所在的容器是否是一个正常的列表形态，包括元素相似度、元素间距、元素对齐方式等。如果元素间距完全不一致或者元素未按照某些方式对齐，则可信度较低，不像是一个列表；
识别自动布局中，元素的尺寸约束：约束主要分为三种，包括
- 固定值 (Fixed)：调整父框架大小时，如果我们不希望元素尺寸发生变化，可以选择这个来保持固定的尺寸；
- 填充容器 (Fill)：自动调整尺寸，使之填充父框架的剩余可用空间；
- 拥抱内容 (Hug)：当子元素也是自动布局框架，或者是一个文本类型的图层时，允许设置为Hug。对于文本类型，其拥抱内容的方法是，保持尽可能小的尺寸将其中的文本完整显示。
  我们可以分析现有设计稿的设计意图，选择合适的约束。比如，目前元素总是占据父元素 100% 的宽度，可以认为是一个 Fill 的约束。但如果它是一个文本节点，则可以更正为 Hug 的约束。

当然，智能识别也可能无法准确识别出约束时，这时候就需要用户自己做决定了。

如何让代码和手写的一样

D2C 直接导出的代码，有一些问题。比如：

className 使用无意义的数字，这会导致代码的可读性变差
重复样式多，未合并，当后期手工调整一些样式时，需要搜索到这多个重复样式分别修改，不太方便

className 语义化

对于 className，我们希望进行语义化，我们想到了使用 ChatGPT 来实现。

只要将「海豹 D2C」生成的代码，交给 ChatGPT，并通过 prompt 告知需要对 HTML 中的 className 进行语义化即可。当然，如果需要更好的效果，需要将尽量多的图层信息，也交给 ChatGPT 进行分析。可以看下生成的效果，还是比较符合预期的：

基于此，className 从简单的以图层 ID 得到，变成了由更具语义化的词语组成，提升了代码的可读性，也有利于我们对代码进行二次修改。

合并重复样式

对于重复样式，我们也有尝试过使用 ChatGPT 进行优化，但是效果不太理想。

好在对于重复样式的识别，主观性其实没有那么强，即使不借助 AI，也可以提炼下算法来实现。一种实现思路是这样的：

对兄弟节点本身的样式（不包括他们的子节点）进行统计，如果重复样式的数量比较多，对这些样式合并到同一个选择器中。

如果发现有一些兄弟节点的样式高度一致，那么再遍历他们的子节点，注意应该是相同位置，也就是相同数组索引的子元素，也进行统计，按照前面的流程再走一遍，将相同的样式合并到同一个选择器中。

总结与展望

目前，「海豹 D2C」已在网易云音乐绝大多数业务场景中落地，对于我们的 UI 设计稿还原为代码，能够做到 99% 的准确度。在还原度、生成速度、易用性、平台支持度等方面，相比于业界其他 D2C 产品，具备一定优势；对于我们的研发工程师在 UI 还原方面，平均能够做到 30% 以上的提效。

由于 D2C 技术方案本身足够通用，我们的插件适用于任意场景的设计稿，「海豹 D2C」已在 Figma, MasterGo 社区中发布，已累计协助生成数千个页面。值得一提的是，「海豹 D2C」是MasterGo 插件社区中第一款也是目前唯一一款 D2C 产品。

在未来，我们会重点提升「海豹 D2C」对于自适应布局识别与还原的支持。对应的解决方案，其实在本文也已经做过介绍，已在内测中，不久就可以和大家见面。

我们也会考虑借助大模型技术在例如层级调整、组件识别、逻辑意图识别等方面让「海豹 D2C」达到更高的智能化水平。

此外，当前「海豹 D2C」解决的问题，本质上是 UI 研发过程中的效率问题和沟通问题，但是却没有触及到 UI 研发的上游，也就是 UI 生产的问题。所以我们希望，在 AIGC 的能力之下，我们的设计协同变成设计和生产一体化的设计协同，也就是先 AI2D，然后 D2C，设计协同将会从工程化阶段，全面迈向智能化阶段。在后续，我们将继续带来有关AI2D2C 的技术分享。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

网易云音乐设计协同演进之路

2023-12-28T10:25:57+08:00

本文作者：刘甲

万字长文带你了解云音乐设计协同的演进之路，干货满满~

序言

前端和设计师一直以来都在致力于为用户提供出色的人机交互体验。在这个过程中，如何为双方提供高效的协同产品，降低设计师与前端的沟通成本，以及提升双方的工作效率，都是非常有价值的探索点。

笔者来自网易云音乐-公共技术部，目前是云音乐设计中台的技术负责人。从 2021 年 7 月入职网易到现在，一直在「前端与设计协同」领域里探索和实践，期间沉淀了若干经验和方法论，希望能和大家一起分享，于是就有了这篇文章。

本文将从问题出发，详细介绍云音乐设计协同的演进之路。按照时间的维度，云音乐设计协同的演进之路为：

原始阶段 ➡️ 工程化阶段 1.0
工程化阶段 1.0 ➡️ 工程化阶段 2.0
工程化阶段 2.0 ➡️ 智能化阶段

PS：本文很长，万字有余，赶时间的同学可在 ChatGPT 的陪同下阅读。

背景

提起「前端与设计协同」（后面简称「设计协同」），相信大家都不陌生。它伴随着互联网精细化的分工而出现，在 PC 互联网时代发展壮大，在移动互联网时代趋于成熟。

而所谓「设计协同」，其主要功能就是在设计师和前端的协同工作下，将产品需求转化成代码的过程。

所以，我们研究「设计协同」的目的，就是设法使协同流程变高效，缩短产品的交付时间。

为此，我们需要解决以下三个问题：

降低设计与前端的沟通成本
提高设计的工作效率
提高前端的工作效率

然而，同时解决这三件事并不容易。

因为，这三件事彼此互为关联，并不独立，在协同上下游上相互影响。如果单纯 Case By Case 地解决，很容易出现【解决了问题 A，但引发了问题 B】的尴尬情况。

所以「设计协同」需要的不是单点方案，而是系统化的解决方案。

原始阶段 ➡️ 工程化阶段 1.0

问题

时间回到 2021 年，彼时云音乐的设计协同还较为初级，我称之为 「原始阶段」。

「原始阶段」存在的问题比较多，可以用下面这张图来说明：

首先，设计资产是通过人肉管理的，设计规范也是人肉同步，而且不同的设计团队之间设计标准不统一，设计资产存在重复建设。

此外，开发作为设计的下游，设计侧存在的问题，也会同步影响到开发侧，具体体现在：

对于同一个组件，因为规范的不同而重复开发；
类似换肤的三端联动场景，开发需要重复实现三遍；
开发侧完全人肉还原 UI，效率低。

思考

分析之后不难得出，以上问题存在的根本原因在于：

没有统一的设计规范；
缺少工程化的管理和提效手段。

而业界解决此问题的传统思路，一般是采取以 设计系统 为中心的「有损」设计协同。

作为背景知识，在这里容我先简单介绍一下设计系统。

设计系统（Design System）不是系统设计（System Design），前者是关于设计的系统，后者是关于系统的设计 🤣。

具体而言，所谓设计系统，就是一系列遵循严格设计规范的可复用的组件集合，由风格指南、模式库和组件库三部分组成。 而关于它的定义，最早可追溯到 Design Better - Introducing design systems 这篇文章对其的介绍。

而以 设计系统 为中心的「有损」设计协同，具体而言，就是为设计系统提供两套组件实现：

一套是给设计师使用的 Sketch 或 Figma 组件库
一套是给前端用的 React 或 Vue 组件库

基于此的工作流程一般为：

这种做法能在 一定程度上 解决「沟通成本」和「开发效率」的问题，但同时也会在无形中造成设计意图传递的损耗。

为什么这么说呢？

这是因为，在以设计系统为中心的解决方案之中，设计规范存在两套相互独立的实现：

实现一：设计资产
实现二：组件代码

这就导致二者并不同源。

因此，设计意图从设计师传递到前端的过程中，不可避免引入「信息损耗」，而这种「损耗」则必须通过人的沟通才能解决，从而导致了不确定性和时间成本的产生。

所以，解决问题的关键在于，能否设法消除这种「信息损耗」？

于是，我们提出了基于 C2D2C 的无损设计协同。其核心思路是：通过工程化的手段，打通设计和前端，统一协作语言。

具体做法为：

设计系统的组件实现，有且仅有一套组件代码。
设计师使用的设计资产，利用组件代码，通过 C2D（Code to Design）技术动态生成的，以此保证两者的同源。
C2D 生成设计稿时，自动注入组件元数据，包括组件名、组件参数等开发相关的细节；在 D2C 阶段，自动解析此「元数据」，便可以直接将设计稿翻译成组件代码。

整体如下图所示：

此方案的好处主要有：

低维护成本，因为只需在开发侧维护一套组件库即可。
降低沟通成本，因为设计细节无损保存在元数据中，免去了双方的反复确认。
提高研发效率，因为前端可利用 D2C 一键还原 UI，免去人肉还原 UI 的繁琐过程。

解法

为此，为了实现基于 C2D2C 的无损设计协同，我们构建了三个子产品：

海豚设计系统
Fin 1.0 设计插件
海豹 D2C

这个三个子产品共同实现了 C2D2C 的闭环流程：

这里有一个完整的演示，用来说明三者是如何相互联动， C2D2C 闭环的：

海豚设计系统

海豚设计系统是 C2D2C 的基石，但是构建起来并不容易。

技术选型

首先，由于云音乐 App 使用的跨端技术栈有两套：

产品功能页面：React Native
营销活动页面：H5

所以，海豚组件库需要同时支持 React Native 和 H5。在技术选型上，有两种方案可供选择。

方案一：分别为 React Native 和 H5 独立实现两套组件库

优势：
- 架构简单
- 不用考虑兼容适配的问题
缺点：
- 开发工作量大
- 维护成本大

方案二：只实现一套 React Native 组件库，利用 react-native-web 实现 H5 的兼容

优势：
- 最大化代码复用，显著减少开发量
- 维护成本低
缺点：
- 在组件架构上会引入复杂度
- 有一定的兼容适配成本

鉴于需要开发的组件数量较多（50 +），且开发资源有限（2 人），综合考虑投入产出比后，最终选用了方案二。

架构设计

好的技术架构决定产品的生命力，特别是像组件库这种生命周期长的产品。在选用了方案二后，摆在我们面前的问题有：

虽然 react-native-web 提供了 H5 的兼容方案，但并不是所有的 React Native 组件都可以转成 Web，比如一些业务上的 Native Component；
react-native-web 无法保证 100% 的 Web 兼容性，考虑到部分组件的兼容性成本，会存在着为同一组件分别提供 React Native 和 H5 两种实现，比如 Form 表单组件；
存在着一些平台专有组件，比如 Charts、Table 这种 H5 Only 的组件。

为了解决以上问题，我们设计了海豚组件库的三层架构：

它主要特点有：

稳健的底层：提供完全与业务无关的核心能力，包括底层能力、元组件、原子 UI 组件、功能组件和复合 UI 组件等，能够被 RN 和 H5 复用。
强大的中层：基于底层能力，提供与业务相关的功能组件，能够被 RN 和 H5 复用。
灵活的上层：基于中层提供的业务组件，按照平台特性的不同，灵活地提供不同平台的专用组件包。

配置化方案

换肤是云音乐 App 的重要功能；此外，云音乐还存在着像直播、音街这类不同子品牌的 App。

所以，为了支持以上这些场景，海豚组件库需要：

支持全局换肤
支持细粒度的品牌定制

那具体要如何实现呢？

我们的核心思路是：抽象变与不变，描述组件的组成关系。

以海豚 Button 为例，决定 Button 样式变化的 4 个属性分别为：

参数	说明	类型	默认值
type	类型	'surface', 'outline', 'text'	'surface'
level	层级	'primary', 'secondary', 'normal'	'primary'
ghost	是否是幽灵按钮	boolean	false
size	大小	'xs', 's', 'm', 'l', 'xl', 'xxl'	'l'

所以，可以按照这四个维度，将 Button 拆解成 变化的视觉 + 不变的骨架。

变化的视觉为：

Button 内间距
高度
圆角
...

不变的骨架，是由这四个属性排列组合成的正交变体：

surfaceSecondaryLight 变体
surfaceDark 变体
outlinePrimaryLight 变体
...

通过将变化的视觉解构成两类 token:

全局 token：用于更改整体风格
- colorPrimary1
- colorNeutral4
- spaceModule1
- spaceComponent1
- fontSizeMedium1
- ...
组件 token：对全局 token 的引用或自定义，用于细粒度配置组件
- buttonPaddingXS: theme.spaceComponent5
- buttonHeightXS: 18
- ...

最后，只要配置不同的全局 token 和组件 token，就能实现全局换肤和组件粒度的品牌定制。

Fin 1.0 设计插件

Fin 1.0 设计插件的定位是提供给设计师的设计资产管理工具，让设计师可以利用 C2D 技术搭建出设计稿。

鉴于当时（2021 年）Sketch 还是主流设计软件，Figma 在设计团队中的使用也比较多，这就要求我们要同时支持 Sketch 和 Figma。

跨平台的插件架构

为了降低研发成本，我们设计了跨平台的插件架构，其核心思路就是用 Web 来承载 UI 和业务逻辑。

我们可以把插件分成 端容器 Client 和 Webview：

容器负责渲染和通信
Webview 负责 UI 和业务逻辑

这样拆分后，Sketch 和 Figma 便能完全复用 UI，仅需要针对「端容器」和「Webview」通信方式、设计稿渲染逻辑上的不同，在 Client 上做差异化处理即可。

C2D 技术选型

C2D 的本质是代码转设计稿。

在业界，目前做 C2D 一般有两种思路：

思路一：将 Sketch 或 Figma 作为 React 的一个端，利用类 RN 的语法，渲染出设计稿，比如 airbnb 的 react-sketchapp；

思路二：直接将组件的 html 转设计稿，比如 ant-design 的 html2sketch。

对 Sketch 而言，由于其发布的时间较早，C2D 的生态相对成熟，基于 html 的开源方案有 html-sketchapp、 html2sketch，但是 html2sketch 作为后来者在还原度上更佳，所以最终选用了 html2sketch 作为 Sketch 的 C2D 方案。

而 Figma 是 2016 年发布的，相对年轻，其 C2D 的生态还不够成熟，基于 html 的开源方案有 figma-html，但是其还原度还不够好，所以我们参考了 figma-html 的思路，选择了自研 html2figma。

html2figma 的本质，其实就是 DSL 的转换：将描述网页的 html，转换成描述 Figma 设计稿的 Schema。

具体而言，就是将 html 的元素，比如 div 标签、p 标签、svg 标签，映射成 figma 的 frame 节点、文字节点和矢量节点。

举个 🌰：我们有一个 div 元素，长和宽为 80px，圆角为 40px，背景色为红色。

我们可以将其转换成 Figma Frame Schema：长和宽分别为 80px，填充色为红色，圆角为 40px。

转换之后，通过 Figma 的 Plugin API，就可以将其渲染到画布上，可以看到，二者在视觉上完全一样。

更多转换细节就不再展开了，感兴趣的同学可参考 figma-html 关于此转换的实现。

海豹 D2C

海豹 D2C 是 C2D2C 的最后一步：将设计稿转换成代码。

说到 D2C，想必大家也并不陌生，比如阿里巴巴的 imgcook，或者是京东的 Deco 。特别是 imgcook，由于其率先将基于 AI 的 D2C 用在生产环境，而且取得了不错的效果，这可能就会给大家造成一种误解：认为 D2C 就一定要用到 AI。

其实，不一定。

因为 D2C 的本质是将设计意图还原成代码，所以 D2C 的关键就在于如何让机器理解设计意图。

对于一张图片而言，由于其是非结构化的，它的所有信息完全包含在其二维像素平面内。对于这种场景，用基于 CV 技术的 AI 模型做组件识别，然后基于识别结果做 D2C 是非常合适的，但实现成本会比较高，因为会涉及到大量的数据标记和模型训练工作，整体 ROI 会较低。

但是，对于 Sketch 或 Figma 设计稿而言，因为其本身是结构化的，所以将其转换成代码是完全可行的，社区也有很多插件能做到这点，但真正的难点在于组件识别，也就是如何识别图层，将其与已有的组件库进行关联。

而海豹 D2C 的优势就在于，以较低的成本，实现了基于元数据的组件识别方案。

基于元数据的组件识别方案

在「Fin 1.0 设计插件」的介绍中，我们知道，通过 Fin 1.0 C2D 产出的设计稿，会默认注入组件元数据，所以在 D2C 的过程中，只需要检测当前图层是否包含元数据，便能实现组件识别功能。

具体的处理流程为：

若包含元数据，则是识别成海豚组件，解析元数据，然后还原成组件引用；
若不包含元数据，但存在子节点，则深度遍历判断是否包含元数据；
若不包含元数据，也不存在子节点，则将节点还原成普通的 div、img 等。

布局优化

由于设计稿是设计师在画布上通过拖拉拽搭建出来的，受设计师作图习惯的影响，设计稿中的元素一般都是平铺的。

如果不进行布局优化，那么整个页面将是一个扁平的结构，生成的将是绝对定位的代码，虽然还原度能够保证，但是可读性会比较差，比如：

而布局优化的过程，则是对 ABCD 进行分组，首先将页面分为 ABC 和 D 两行，然后将 ABC 分为 A 和 BC 两列，最后将 BC 分为 B 和 C 两行。

分好组后，通过新增三个布局容器，形成行列嵌套结构，这样最终生成的代码将符合开发者的直觉，具备较好的可读性：

从上面优化的过程可知，布局优化，其实就是在做行列分割，完整的流程如下图所示：

第一步，获取待处理的所有节点坐标。

第二步，对所有节点做节点关系处理，判断它们是处于包含、还是相交还是相离关系。处理逻辑为：

如果是包含关系，则将被包含的节点作为其子节点处理；
如果是相交关系，则将两者看做一个整体，且其中一个相对于整体作绝对定位处理；
如果是相离，则不做额外处理。

第三步，对处理完成的节点做二维空间投影，找到行列分割的依据，例如：

通过纵向投影，我们就知道了 ABC 和 D 是属于不同的两行；
通过横向投影，我们就知道了 A 和 BC 属于不同的两列。

第四步，依据二维投影得到的信息，对节点做行列分割，然后添加布局节点，进行行列分组。

最后一步，就是计算样式，生成包括 Flex 布局、绝对定位以及 Margin 偏移量等。

由于篇幅有限，关于设计工程化阶段 1.0 更为详细的介绍，可参阅笔者在 GMTC 上的分享：《网易云音乐基于 C2D2C 的无损设计协同》

工程化阶段 1.0 ➡️ 工程化阶段 2.0

工程化阶段 2.0 是对工程化阶段 1.0 的补充和完善。

背景

为什么要做设计工程化阶段 2.0 呢？那肯定是 1.0 存在某些问题。（笑

随着 Fin 1.0（C2D）和 D2C 落地的深入，一些问题也慢慢暴露出来。

C2D 的问题

在 2022 年中的时候，在线协同类设计软件慢慢崛起，Sketch 已是明日黄花，云音乐的设计团队已基本全面拥抱 Figma / MasterGo 这类在线协同类设计软件。

随着设计师对此类工具了解的加深，他们发现使用 Fin 1.0 C2D 来做设计稿存在以下问题：

基于 Fin 1.0 的工作模式不符合设计师的工作习惯，使用成本较大。
设计师希望能够直接使用 Figma / MasterGo 的 Library 来做设计。

D2C 的问题

在 D2C 最初的产品设计中，我们将云音乐的页面类型分为两种：

产品功能页面
营销活动页面

我们的判断是：

产品功能页面强调 UI 的一致性，有固定的设计规范，需要识别组件。
营销活动页面创意性强，没有固定的设计规范，无需识别组件。

所以，我们认为 C2D2C 非常优雅地解决了组件识别的问题。

但随着业务落地的深入，我们发现，对于营销活动页面而言，虽然没有既定的设计规范，但也会用到一些通用的 UI Pattern，比如弹窗：

对于此类场景，由于弹窗的样式并不稳定，无法沉淀成规范，这就导致：

无法通过 C2D2C 进行还原；
直接 D2C 还原，出码产物将是 div 等基本元素的组合，只有样式，但是没有弹窗的逻辑。

最后造成前端需要基于已有组件库（比如 antd）进行大量的样式复写，工作量大且低效。

另外，虽然 D2C 在出码阶段进行了布局优化，但是用户反馈生成的代码可读性还是存在一些问题，特别是生成的 className：

总结一下，工程化 2.0 面临的问题主要有 3 个：

需要提供一套对设计师友好的 C2D 方案。
需要解决营销活动组件 D2C 还原的问题
代码的可读性需要优化。

思考

什么是对设计师友好的 C2D？

在回答这个问题前，我们需要做一些拆解。

对设计师友好的 C2D = 对设计师友好的工作方式 + C2D

那什么是对设计师友好的工作方式呢？通过用户调研后发现，对设计师友好的工作方式，有以下几个特点：

不引入额外成本，设计软件原生支持
简单好用、符合直觉
生态繁荣

具体到设计稿生产，就是能利用 Library 来做设计。

那 Library 要如何与 C2D 进行结合呢？通过对 Library 调研后发现，Figma / MasterGo 原生提供的 Library 能力很强大，支持 Component 和 Variant ，能实现设计稿与代码的一一对应：

且通过原生提供的属性配置面板，能非常高效便捷地完成组件的配置！

因此，对设计师友好的 C2D，就是为设计师提供一套海豚组件的 Library，但是这套 Library 是通过 C2D 生成的！

相应地，我们做 C2D 的思路，就从「运行时动态生成并注入元数据」变成了 「预构建 Library 并注入元数据」，由于设计稿元数据的格式没变，所以后续的 D2C 流程完全不受影响，完美！

D2C 要如何还原营销活动类组件？

对于这个问题，现有 D2C 难以解决的原因是：

若走 C2D2C 的方案，则要求组件具备稳定的样式规范，但这就满足不了活动 UI 个性化的诉求；
若走常规 D2C 方案，能够解决活动 UI 个性化的问题，但只剩下单纯的视觉还原，丢掉了组件的交互逻辑。

那有没有既能解决 UI 定制化的问题，又能保留组件的交互逻辑的方案呢？

于是，我们提出了基于 Headless UI 的 D2C 方案。

作为背景知识，首先简单介绍下 Headless UI。

Headless UI，顾名思义就是没有样式的 UI，只保留了骨架和交互逻辑，样式完全依靠用户自定义。它可以看成「样式与逻辑分离」在组件库上的一种实践。

所以，利用 Headless UI，将「样式与逻辑分离」的思想，应用在 D2C 上，不就可以实现了吗？！

如何做 D2C 产物语义优化？

对于这个问题，若在前 LLM 时代，是非常难解的。

但随着 LLM 时代的到来，GPT 3.5、GPT 4 等大模型的成熟，这个问题变得非常简单了：直接丢给大模型做语义优化即可。

当然，由于大模型的黑盒性质 + 结果不稳定，需要通过一些工程实践来规避由此带来的不确定性。

解法

基于 Library 的 C2D 方案

以海豚的 Button 为例，和样式相关的 API 有：

参数	说明	类型	默认值
type	按钮类型	"outline" \	"text" \	"surface"	surface
level	按钮层级	"primary" \	"secondary" \	"normal"	primary
ghost	是否为幽灵按钮	boolean	false
size	按钮大小	"m" \	"xs" \	"s" \	"l" \	"xl" \	"xxl"	l
disabled	是否禁用	boolean	false
leftIcon	左侧图标	ReactNode	-
rightIcon	右侧图标	ReactNode	-
loading	设置按钮载入状态	boolean	-

如果要构建 Button 的 Library，则需要为 Button 的每一种不同的样式组合，在 Library 中提供一个对应的变体（Variant）。

我们可以简单估算一下，下面是 8 个与样式相关的参数的枚举值统计：

参数	枚举数量
type	3
level	3
ghost	2
size	6
disabled	2
leftIcon	7（默认提供 7 种）
rightIcon	7（默认提供 7 种）
loading	2

组合而成的变体数量为： 3 *3*2*6*2*7* 7* 2 = 21168 个。

是不是很震惊？

一个 Button 就有上万个变体，50 多个组件全加在一起，数量将是巨大的。

人工来做完全不现实。

所以，肯定要借助工程化的手段，通过脚本来批量生产。

得益于我们在 Fin 1.0 中 C2D 技术上的积累，我们通过 html2figma 实现了 Library 的自动化生产。

以 Button 为例：

首先，通过脚本在网页上渲染出所有的 Button 变体；
然后，利用 html2figma 技术，将其批量转换成组件变体，并注入元数据。
如果需要支持 MasterGo，利用 MasterGo 「导入 Figma 文件」的功能即可，不用重新实现。

视频演示为：

这是我们采用此方案构建的海豚组件库 Library ：

基于 Headless UI 的营销活动类组件 D2C 方案

由于营销活动的组件非常业务化，所以最好是可以将此能力开放出来，让用户自行定义、自行处理。

为此，我们设计了 D2C 的微插件方案，通过为用户暴露 D2C 生命周期各阶段的 Hook，让用户可以实现：

自定义标注规范
出码产物二次处理

然后，基于微插件，业务开发利用我们提供的 Headless UI 微插件脚手架，适配到自己的业务场景即可，具体的使用流程为：

视频演示：

基于 LLM 的 D2C 产物语义优化方案

如果直接将 D2C 生成的 JSX 和 CSS 输入给 LLM，让其对 className 进行语义化，并输出 JSX 和 CSS，在大部分情况下能正常 work，但是存在两个潜在的问题：

输入输出包含全部的 JSX 和 CSS，很容易 token 超限。
输出的内容可能是有损的（例如代码片段的丢失，输出的新的 className 名称发生了重复），容错能力差。

为此，我们对此过程进行了改造：

只用输入 JSX，不用输入全部代码
不再要求其输出完整代码，而是输出「className 优化前后的名称映射」
如果遗漏了某个 className 未优化或者发生了重名，将由后续代码逻辑来校验、兜底（只需要判断是否发生了重复，如果重复额外添加后缀，逻辑非常的简单），并不会对 HTML 文档造成破坏。

具体的 Prompt 为：

You are a front-end technologist.

Help me process the incoming JSX code so that the className is well semanticised and overall readable.

Then output the mapping relationship before and after the className to me in JSON (direct JSON output). For example:

Input:

```jsx
import React from 'react';
import '. /index.css';

const App = () => {
  return (
    <div className="music_1_1">
      <div className="music_1_2"> 上一步 </div>
      <div className="music_1_3"> 下一步 </div>
    </div>
  );
};
export default App;
```

Output:

```json
{
  "music_1_1": "main",
  "music_1_2": "prev",
  "music_1_3": "next"
}
```

Understood, please reply 1

这样做的好处是：

可最小化输入，节省 token；
可基于 LLM 的输出做容错处理，添加兜底逻辑。

Prompt 演示：

在 D2C 上的最终效果为：

工程化阶段 2.0 ➡️ 智能化阶段

背景

时间来到 2023 年。

回顾过往，设计工程化所解决的问题，主要集中在 「降低设计与前端的沟通成本」 和 「提高前端工作效率」 上，然而，在「提高设计工作效率」方面，设计工程化的贡献相对有限。

随着 AIGC 的火爆出圈，在了解到 AIGC 在「提高设计工作效率」上的潜力后，我们决定要利用 AIGC 搞一些事情 👻。

为此，我们对云音乐的设计师进行了多次田野调查，梳理出了当前的设计流程，并按照需求来源的不同，将其分为两种：

1、需求源自策划的设计流程：

2、需求源自运营的设计流程：

通过分析后发现，现有的设计流程存在以下痛点：

沟通成本高
设计效率低
AIGC 使用少、门槛高

具体情况如下图所示：

思考

我们都知道，问题能被解决的关键，在于是否能清晰地定义问题。

因此，为了从根本上解决上述问题，我们必须回答：UI 设计的本质是什么？

为此，我们可以对设计流程进行抽象和简化，如下图所示：

可以看到，UI 设计可以抽象成一个输入输出模型：输入是自然语言描述的需求，输出是设计稿。

因此，UI 设计的本质，就是一个「将自然语言描述的需求翻译成设计稿」的过程。

具体而言，就是将「自然语言描述的需求」翻译成由若干由「组件」、「图标」或「图片」组合而成的设计稿，这个过程可以用下面的公式来表达：

那么，造成的「UI 设计低效」的原因，就在于这个「翻译的过程」大部分是由人参与并执行的，这是因为：

多人协作引发了沟通问题。
技能水平、专业门槛和生理限制导致了效率问题。

所以，如果想从根本上解决 UI 设计的效率问题，就应该利用 AIGC 重构这个「翻译过程」：

解放设计生产力，摆脱繁琐的设计细节，转而去关注产品的整体功能和体验。
赋能非专业设计师来做设计，突破职能限制，实现一专多能，「人人都是设计师」。

而为了实现以上目标，我们需要解决以下三个「翻译问题」：

文生图：如何让 AI 理解设计意图，生成图片？
文生 ICON：如何让 AI 理解设计意图，生成图标？
文生稿：如何让 AI 理解设计意图，并用组件和素材（图标、图片）搭建出 UI ？

解法

为此，我们推出了全新的产品——Fin 2.0，提供三大 AIGC 能力矩阵（文生稿、文生图、文生 ICON）+ AIGC 资产共享中心，赋能策划、运营、设计，降低沟通成本，提高设计效率，让业务创新变得简单。

AIGC 能力矩阵

文生稿：

赋能产品 / 运营，将「文字需求稿」转换成高保真的设计稿，减少沟通环节。
赋能设计师，提供低成本的创意、灵感来源和竞品分析能力。

文生图：

赋能设计师，降低插画生产的时间成本。
基于 DreamMaker 二次封装，提供易用的文生图功能，降低文生图使用门槛。
DreamMaker 为内部平台，消除了数据安全的隐患。

文生 ICON：赋能设计师，降低 ICON 生产的时间成本。

AIGC 资产共享中心：对用户 AIGC 过程中产出的设计组件、提示词、图片和 ICON 进行回流沉淀，共享复用。

未来工作模式

1、需求源自策划的设计流程

新流程特点：

赋能策划，利用「文生稿」直接将文字需求转为高保真初稿，避免了设计出多套方案 & 反复对焦，降低沟通成本。
设计基于高保真初稿进行二次修改，利用「文生图」和「文生稿」生产物料，提高设计效率。
AIGC 的产物（图片、ICON、设计组件、提示词），最后都会回流进 DOLA AIGC 资产库，实现共享复用。

2、需求源自运营的设计流程

新流程特点： 赋能运营，基于「文生稿」功能，搭配「文生图」和「文生 ICON」直接出稿，免去了和设计之间沟通协作，提高了设计效率。

产品设计

对于 AI 驱动的应用而言，单纯的 AI 能力（GPT 3.5/4、Stable Diffusion）并不能构成产品的核心竞争力，因为大家都是调包工程师。（笑

所以，核心竞争力在于是否具备产品力，用大白话讲，就是是否能真正解决实际问题。关于这这一点，不管是内部产品还是外部产品，同样适用。

所以，一个好的产品方案至关重要。

为了实现这一目标，Fin 2.0 的产品设计遵循以下原则：

AI is the UI
小而美

AI is the UI

在 LLM 时代，AI 的内涵和外延都应该被重新定义：AI 既是一种技术，也是 UI 本身，是人与机器交互的终极方案。

不管是 ChatUI、 Conversational UI 还是 Dialog UI，都是 AI 这种全新 UI 的实现。

某大佬曾言：在 LLM 时代，所有应用都值得被 AI 重做一遍。

我的理解是：这句话的本质，讲的其实就是将现有的 GUI 重构成 AI 这种 UI。正如在图形界面时代，所有的 CLI 应用被 GUI 重做一样。

所以，我们基于 AI 这种全新的 UI 来设计产品交互，通过自然语言对话的方式提供一个「超级入口」，轻松触达所有功能，比如：

文生稿
文生图
文生 ICON
设计规范问答
换肤
字高修复
位图转矢量图
...

小而美

「小而美」也是我们产品设计的一个重要理念。但是，我们需要明确一个事实：小而美是实现路径，而非目标，产品的目标永远是创造价值。

在产品从 0 到 1 的阶段里，小而美是为了控制成本，聚焦产品，是非常必要的：永远是做简单且完整的产品，不是复杂事物的 0.1 版，而是简单事物的 1.0 版。

何为「小」？

1、信息架构简单且清晰

充分利用对话式 AI 的优势，保证整体的信息架构简单且清晰，层级结构尽可能简单，2 层是极限。

2、功能简单但完整

简单且完整的功能，除了能解决问题外，还能带给人秩序感和愉悦感：

3、聚焦

通过聚焦，砍掉不必要的功能，降低研发投入：

何为「美」？

1、精美的图标

2、合理的排版

3、流畅的动效

4、合理的引导和提示

核心功能演示

文生图

文生稿

生成视觉稿

生成线框稿

技术方案

Chat UI

Fin 2.0 Chat UI 的技术架构为：

其基本流程是：

用户通过自然语言与 Fin 2.0 对话
Fin 2.0 利用 Adora(云音乐 LLM 基建)进行意图识别，转换成 Action
Dispatch Action，根据 Action Type 的不同，执行不同的操作：
1. 路由跳转
2. 渲染图文消息
3. 唤起微应用

以上流程中，最核心的部分是意图识别。

在前 LLM 时代，意图识别一般采用 NLP 来实现，其成本高，准确率低。
LLM 时代到来后，意图识别变得非常简单和直接。

比如，我希望用户在输入「文生图」后，可以识别此意图，并自动路由到「文生图」页面上。现在只需利用 GPT 的 Few-shot learning 能力，给出类似下面的 Prompt 即可：

System:
You need to analyze the content of Inputs based on the information of Resources, follow the constraints of Constraints, and return data that conforms to the Response Format format

Input:
打开文生图

Constraints:
1.According to Inputs, match a most relevant command KEY
2.If there is no suitable match in the preset instructions, "NOOP" is used by default

Resources:
"TEXT_TO_IMG":[STRING]当用户想要打开「文生图」功能时命中，例如输入 「打开文生图」「文生图」「AI 生图」
"TEXT_TO_DESIGN":[STRING]当用户想要打开「文生稿」功能时命中，例如输入 「打开文生稿」「文生稿」「AI 生稿」
"TEXT_TO_ICON":[STRING]当用户想要打开「文生 ICON」功能时命中，例如输入 「打开文生 ICON」「文生 ICON」「文生 icon」「AI 生 ICON」
You should only respond in JSON format as described below
Response Format:
{
"payload": “the matched instruction key",
"type": "route",
}

Ensure the response can be parsed by Javascript JSON.parse();

For example:

Input:
文生图

output:
{
"payload": "TEXT_TO_IMG"
"type":"route"
}

Understood, please reply 1

GPT 经过学习之后，就能充当一个非常好的意图识别器：

文生图

对于「文生图」而言，图片的 AIGC 已比较成熟，不管是闭源的 Midjourney，还是开源的 Stable Diffusion，都能生成效果非常棒的作品。

但正如在上面的「痛点」中所提到的：

Midjourney 费用开销较大，对于保密项目存在着数据安全的风险。
内网部署的 Stable Diffusion（DreamMaker）参数配置复杂，使用门槛高。

所以，综合考虑收益和成本后，最终的方案是：基于内网部署的 Stable Diffusion（DreamMaker）进行二次封装，提供简单易用的「文生图」方案。

更为详细的介绍，可以参考：《如何使用 Fin2.0 文生图登上云音乐首页》

文生 ICON

对于「文生 ICON」而言，SVG 矢量图标的 AIGC ，业界暂无成熟方案。

但是，学术界已有了相关尝试：借助 Stable Diffusion 和 VectorFusion 技术，可以实现「文生 ICON」。然而，此方案仍处于实验阶段，暂无法用于生产。

所以，考虑到实际情况后，最终的解法是分阶段来实现：

第一阶段（本期），整理优质的可商用的图标资源，并提供语义化检索功能，满足用户找图标的诉求；
第二阶段，待社区有了相关实践后，基于已有数据集，利用 Stable Diffusion + Lora 训练 ICON 的像素模型，并搭配 VectorFusion，实现生图标的需求。

语义化检索最大的优势，就是根据语义进行检索，不是传统的「关键字匹配」，更好用，更符合人类直觉。

因为图标的数量很大，有接近 2 万个，要怎么用 ChatGPT 实现语义化搜索呢？如果直接将其作为 ChatGPT 的上下文输入，必然会超限，而且也会存在较大的 IO 性能问题。

为此，我们采用 embedding API 来实现，其基本原理是：

首先，将所有的 ICON 数据标准化成下面的格式：

{
  "id": 17246,
  "name": "zoom",
  "library": "icon-park",
  "label": "滑动,侧滑,放大,zoom,Hands,手势动作",
  "style": "outlined"
}

然后，通过 OpenAI 的 embedding API 进行向量化，并存储到向量数据库中，比如 pinecone，或者 chroma。

这里需要注意的是，由于 API 字符数的限制，需要使用文本分词器进行分批向量化。

最后，用户通过关键字进行语义搜索时，首先会对关键字进行向量匹配，向量数据库会按照相似度返回近似结果，然后将此结果连同用户的原始输入，一并提供给 ChatGPT，ChatGPT 就会返回在语义上最匹配的 ICON 了。

文生稿

对于「文生稿」而言，问题就稍为复杂一点。

大语言模型 LLM 能很好地理解自然语言，但由于其输入输出是基于文本的，所以并不能直接生成设计稿。因此，这中间必然有一个 Text2Design 的过程。

于是，就有了下面两种方案：

方案一：LLM 返回 HTML，通过 C2D 技术转成设计稿。

优势：
- 实现成本低
- HTML 灵活，自由度大
缺点：
- 难以与 Design System 关联，形成统一的样式规范
- C2D（html2figma、html2mastergo）还原度无法保证 100%

方案二：LLM 返回自定义 DSL，解析 DSL 转成设计稿。

优势：
- DSL 可以做到结构简单、精炼
- 能与 Design System 关联
- 不依赖 C2D 技术，避免了潜在的还原度问题
缺点：自行设计和实现 DSL 协议和渲染，有一定的开发成本，但是并不复杂。

考虑到「文生稿」需要与设计系统结合，最终选用了方案二。

DSL 的设计

我们设计的 DSL 结构非常简单，每个节点只有两个属性，componentName 和 props：

interface NodeDSL {
  componentName: string;
  props?: Record<string, any>;
}

type DSL = NodeDSL[];

但是利用 Figma / MasterGo 的 Component 和 Variant 能力，就能释放强大的表达能力（有点类似前端的可视化搭建）:

const page: Page = [
  {
    componentName: 'StatusBar',
    props: {
      title: '歌单列表 & 专辑卡片',
    },
  },
  {
    componentName: 'List',
    props: {
      title: '歌单列表',
      content: [
        {
          title: '张杰新歌',
          subTitle: '曲风：流行',
          icon: '🎵',
        },
        {
          title: '周杰伦经典',
          subTitle: '曲风：流行',
          icon: '🎧',
        },
        {
          title: 'KTV 最爱',
          subTitle: '曲风：流行',
          icon: '🎤',
        },
        {
          title: '说唱力 MAX',
          subTitle: '曲风：说唱',
          icon: '🔥',
        },
        {
          title: '粤语老歌',
          subTitle: '曲风：粤语',
          icon: '🎵',
        },
      ],
    },
  },
  {
    componentName: 'Card',
    props: {
      title: '推荐专辑',
      content: [
        {
          title: '跨时代',
          tag: '周杰伦',
          icon: '🎧',
        },
        {
          title: '周杰伦的床边故事',
          tag: '周杰伦',
          icon: '🎤',
        },
        {
          title: 'Universe',
          tag: '杨峰',
          icon: '🎵',
        },
        {
          title: 'F.A.M.E.',
          tag: '马尔代夫',
          icon: '🔥',
        },
        {
          title: '语重心长',
          tag: '林宥嘉',
          icon: '🎵',
        },
        {
          title: '灿烂人生',
          tag: '林忆莲',
          icon: '🎧',
        },
      ],
    },
  },
];

Prompt & 意图识别

为了能让用户用自然语言准确地描述设计需求，我们对 Prompt 进行了规范：

Prompt = 动作 + 主体 + 主题色 + 设计风格 + 布局

比如下面的 Prompt：

设计一个音乐 App 首页，主题色为蓝色，扁平化风格，采用瀑布流

我们利用 ChatGPT 实现了一个简单的意图处理器（和 Chat UI 部分意图识别类似，不再展开），可以将用户的输入转换成下面的结构化数据：

{
  "actionType": "add",
  "style": "flat",
  "main": "一个音乐 App 首页",
  "theme": "#0000ff",
  "layouts": "flow"
}

有了这样的结构化数据后，用户的意图就变得清晰了，方便后续利用不同风格的组件库、布局模版模仿人类来搭建设计稿。

让 ChatGPT 学会使用组件

通过上面所说的「意图识别」后，我们已经能够明确用户的设计需求了。那怎么让 ChatGPT 利用已有的物料模仿人类完成搭建呢？

问题的关键在于让 ChatGPT 学会使用我们提供的组件库。

因为 ChatGPT 拥有非常强大的文本理解能力，所以我们的做法其实非常简单：直接将组件的 API 文档作为上下文提供给 ChatGPT。

这种做法看似粗暴，但是效果出乎意料的好。下面是一个简化了的小 Demo：

具体的 Prompt 对话可见：https://chat.openai.com/share/69aee90a-101f-4356-87fe-e59729e...

当然，实际在项目中的使用并没有这么简单，需要考虑很多工程上的问题，比如:

token 超限的问题
组件隔离的问题
换肤的问题

这些问题解决起来都不难，鉴于本文已经很长了 😅，就不再展开了。

落地效果

截止到今天（2023-12-26），Fin 2.0 已累计生图 11360+，产出设计稿 921+，覆盖云音乐 10+ 业务场景，综合提效 33% ～ 200%。

总结展望

网易云音乐的设计协同经历了原始阶段、工程化阶段 1.0 和 2.0，目前已进入智能化阶段。

尽管智能化刚刚起步，但充满了潜力和想象空间，尤其是近期 AI Agent 技术的蓬勃发展，将彻底重构现有的协同流程。

因此，在未来，我们将持续探索基于 AI Native 的智能化设计协同，打造云音乐设计生产一体化方案——AI2D2C 👏。

鸣谢

筚路蓝缕，以启山林，最后感谢为云音乐设计协同添砖加瓦的每一个人 ❤️，他们是：

研发人员：葛星、刘甲、魏慷、李磊、章伟成、张永聪、徐超颖、尤振飞、邵锁
设计人员：吕峰、张渝堃、徐晓强、顾容玥、关昊斌、袁安、王孟锴

感谢你们！

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

网易云音乐 RN 升级前端篇

2023-12-27T10:50:24+08:00

本文作者：黄喆

本文将从前端的角度来聊一聊网易云音乐 RN 升级的实践与思考，以及其中一些决策的依据。

文章《网易云音乐 RN 新架构升级实践》总体介绍了云音乐 RN 在升级过程中遇到的问题及解决方案，本篇文章将会进一步聚焦，讲一讲前端在升级过程中做的一些工作。整个升级过程大致分为四个阶段：调研、方案设计、实施、分流验证。除了分流验证阶段，其余三个阶段前端都深度参与其中，接下来将按照顺序来逐一介绍。

调研

凡事预则立，不预则废。好的调研方案，可以明确收益和风险，便于我们评估 ROI，整体收益、风险前文已详细描述，这里不在赘述。
相对于客户端关注底层的一些变化，对前端业务开发来说关注的更多是 API 层面的 break change。因为 break change 会切实影响我们的升级方案，因此需要明确影响范围，并给出具体的解决方案，这样在正式升级时才能做到心中有数。

调研最开始我们使用 react-native 升级工具查看需要升级的依赖，比如 babel、react，这里相对简单只给出了最基础的依赖。对于更多的三方依赖、内部组件则需要人肉一个个去筛查出来。

以筛查出来的基础依赖为根基，接着查看 RN 以及所有依赖的 changelog 和 commit 信息，梳理出版本升级全部的 break change，并根据业务使用情况整理出需要重点关注的 break change，并给出解法。当然实际情况远比这复杂，还需要考虑依赖之间的互相依赖情况，以及隐式依赖。由于实际依赖的情况异常复杂，调研是不可能面面具到的，但是调研的越仔细，对于后续的压力愈小，因此我们做了非常详细的调研。下面介绍一些在调研阶段就发现的 break change 及其解法。

Break change

不同的 break change 影响范围不同，兼容方法不同，升级策略也不同。这里介绍几个常用的升级策略，以及其适用的 break change 类型。

patch-package 打补丁

patch-package是一个用于修补（patch）npm软件包的工具，所谓打补丁是指在不修改原始 npm 包的情况下，对其进行补丁修复。
有些基础能力涉及范围特别广，几乎不可能一个个去改，但是使用起来相对简单，此时就可以用这个方法。
比如官方包移除了 Image.propTypes, Text.propTypes 等一系列 propTypes
总共移除了7个类似的 propTypes 我们调研发现大量的内外部依赖使用了这些能力，包括依赖的依赖，如果一个个修改起来是工作量是非常大的。针对这类问题我们使用 patch-package 给 react-native 官方包来打补丁。当然不仅限于这些变动，对于一些不方便升级依赖都可以使用此方法打补丁兼容，具体步骤如下

按照 patch-package 文档生成模板 patch 文件

在升级工程目录下创建如下 patch 文件（上一步生成的）

diff --git a/node_modules/react-native/index.js b/node_modules/react-native/index.js
index d59ba34..1bc8c9d 100644
--- a/node_modules/react-native/index.js
+++ b/node_modules/react-native/index.js
@@ -435,32 +435,16 @@ module.exports = {
},
// Deprecated Prop Types
get ViewPropTypes(): $FlowFixMe {
-    invariant(
-      false,
-      'ViewPropTypes has been removed from React Native. Migrate to ' +
-        "ViewPropTypes exported from 'deprecated-react-native-prop-types'.",
-    );
+    return require('deprecated-react-native-prop-types').ViewPropTypes;
},
};
...

项目依赖增加包 deprecated-react-native-prop-types
工程脚本增加 npm hook "postinstall": "npx patch-package"

写法兼容

所谓写法兼容，是指通过判断属性、方法是否存在来决定使用方式。比如 Animated 组件的 ref 移除 getNode 方法，在 RN@0.65 之前，获取 Animated 组件实例需要使用 ref 的 getNode 方法，在这之后，直接使用 ref 即可，参考下面示例

...
if (this.scrollView.getNode) {
    this.scrollView.getNode().scrollTo(...);    
} else {
    this.scrollView.scrollTo(...);    
}
...
<Animated.ScrollView
  ref={(scrollView) => { this.scrollView = scrollView; }}
  ...
>
<Animated.ScrollView>

由于该方法使用不多，直接在升级文档中标注了需要业务方按需自行修改，没有使用类 jscodeshift 的方式通过编译来解决。
类似的 break change 还有移除removeListener，Image 组件移除 width，height 属性等等。

能力下沉

对于无法通过写法来同时兼容 0.60、0.70 的 break change，可以将能力下沉到组件，用组件的两个版本分别适配 0.60、0.70，上层暴露相同的 API 来处理。
比如 react-native-pager-view 升级之后名称变为 @react-native-community/viewpager，接口也不再一致，而且 @react-native-community/viewpager 开启了 TurboModule，在 0.60 版本，构建时因为缺乏相应的 codegen 就会报错。这时可以将使用到 react-native-pager-view 的地方封装成组件提供给上层使用。

// 0.70 版本
import ViewPager from '@react-native-community/viewpager'
const WrapperViewPager = () => {
  // 组件实现
  ...
  return (
    <ViewPager {...props} >
  )
}

// 0.60 版本
import ViewPager from 'react-native-pager-view'
const WrapperViewPager = () => {
  // 组件实现
  ...
  return (
    <ViewPager {...props} >
  )
}

// 业务使用
import WrapperViewPager from 'WrapperViewPager'

依赖升级

break change 不仅会影响业务代码的实现，更多的其实是在依赖里面。依赖可以分成三类：

第一类是官方包，比如 react-native、react、@react-native-community/cli、metro 等一系列 RN 配套。
第二类是云音乐常用的 RN 社区依赖，比如：react-navigation、react-native-svg、react-native-gesture-handler。
第三类就是内部封装的各类组件，可以分为基础依赖，比如：@music/mnb-rn （底层 bridge）、utils，以及各式各样的业务包。

依赖是一环套一环的，第一类升级之后会影响第二第三类，第二类会影响第三类，第三类之间也可能互有影响，所以最后梳理下来需要升级的包有 60+。
当然这不是一个应用的，而是所有应用使用到的依赖集合，每个应用按使用情况略有不同。对于需要升级的依赖我们有一个基本原则所有修改尽量是在底层，底层做好兼容，保证 API 不变，确保业务升级时是无感的。

社区依赖升级

由于我们需要升级到版本 0.70 刚推出没多久，大部分社区依赖还没有适配完成，部分依赖虽然完成适配，但其自身有大量 break change，这会造成适配工作的成倍增长。针对这种情况，我们将依赖分成三类来处理。

依赖自身 API 变动非常大

比如 react-navigation 我们当时使用的是 4.x 版本，当时社区已经迭代到了 7.x 版本了，从 4.x 到 7.x API 变动非常大，业务升级成本非常高。
经过评估 4.x 其实已经满足我们的业务需求，因此对于 react-navigation 我们仍使用 4.x 版本，同时为了适配 0.70 版本，我们将 react-navigation 私有化处理。

API 变动小，但是没有适配 0.70

还有一些依赖虽然未适配 0.70，但自身这些年也有诸多能力升级，且都是底层变动或者 bugfix，对业务适配影响不大，升级上来百利而无一害，这些我们选择了升级。对于不适配 0.70 版本的地方
通过私有化的方法来处理，比如：react-native-gesture-handler、react-native-linear-gradient 等。

无需适配

当然也有些神仙依赖什么都不用改，在 0.60 和 0.70 都可以运行，比如：react-native-screens、react-native-swiper。

内部依赖升级

内部依赖的升级主要是在两个方面，一个是前文提到的 break change 适配；一个是其自身依赖的升级，主要就是前面提到的官方依赖、社区依赖。这里重点说下依赖的升级，
在梳理内部依赖的过程中发现大量的历史债务（版本依赖不正确），比如 react-native 版本写死的 0.60，又或者不同的依赖使用不同版本基础依赖，导致最后打包进两份相同的依赖，在普通 H5 应用中或许不是大问题，但在 RN 中就会导致页面红屏。

其实对于云音乐里的 RN 应用来说因为使用的都是同一个容器，因此依赖的 react-native 版本完全是由容器来决定的，因此声明对 react-native 的依赖完全可以放入 peerDependencies，
版本用 * 描述，类似的还有 react-native-gesture-handler、react-native-linear-gradient 等有客户端依赖的组件。

{
    "dependencies": {
-        "react-native": "0.60",
-        "react-native-gesture-handler": "^1.3.0"
        ...
    },
    "devDependencies": {
+        "react-native": "*",
+        "react-native-gesture-handler": "*"
        ...
    }
}

方案设计

因为客户端在运行时 RN 0.60 和 RN 0.70 不能共存，使用 0.70 版本 or 0.60 版本没办法以 RN 应用是否升级完成决定。所以 100 多个 RN 应用需要同时完成升级，而同时业务不能停，相当于给飞驰的汽车换轮子，稳定性压力是非常大的，这就需要我们有很好的灰度验证方案。但前端又不同于客户端，RN 应用没办法分流验证，每次使用的都是同一套构建产物。鉴于这一特性最初考虑了两套方案。

RN 应用按版本分叉

此举就是和客户端分流逻辑保持一致，客户端灰度期间、RN 应用基于当前 master 拆分出一个分支，比如 0.70 单独升级维护，业务日常交付
依然使用原来的 master 分支，升级的分支 0.70 根据业务需要不定时同步 master 分支。待升级验证完成之后再将 0.70 修改同步到 master。
这套方案的最大好处就是，升级的代码分支不会影响现有业务运行，所有改动都在灰度的分支上。但可惜的是与我们的好多基础
设施不兼容，比如投放、部署、数据平台等，为了升级而去改动他们是不明智的，会导致影响范围的扩大化，不符合我们再最小集内完成升级的原则。

一份代码两份 bundle

源代码是同一套，但是同时产出 0.60 版本的 bundle 和 0.70 的 bundle, 客户端按需获取。支持 0.60 版本的客户端就拉 0.60 版本的 bundle；支持 0.70 版本的客户端就去拿 0.70 版本的 bundle。乍一听很疯狂，仔细想想也不是不可能，RN 自身的构建也是同一份源码分别产出支持 IOS、Android 的 bundle；其次经过我们前期的调研可以知道，RN 升级导致的 break change 是可枚举的，小部分可以通过写法来同时支持 RN 的 0.60 和 0.70 版本，而对于无法通过写法兼容的变动，可以转换为组件版本的切换问题。
因此这套方案的主要问题就是解决不同版本的依赖问题。基于此我们产出了如下的打包方案

在验证时很快发现这个方案有两个明显的问题。一个是由于我们的打包工具也是作为一个依赖放在 npm 包里的，在删除依赖时无法删除干净，导致再次打包 0.60
版本 bundle 时会出现各式各样莫名其妙的错误。

还有一个就是依赖的管理问题。在打 0.60 版本 bundle 时对于需要修改版本的依赖时无法确定其对应的 0.60 版本的依赖，
同时对于私有化的社区依赖，在引用时是使用未私有化的包名 react-navigation 还是私有化后的名字 @music/react-navigation，使用
react-navigation 时在打 0.70 bundle 时会报依赖找不到，反之则是在打 0.60 bundle 时找不到依赖。

依赖提升

针对第一个问题，我们使用了依赖提升的方案，将原先安装在 RN 应用工程包里的打包工具安装到打包机器上，每次构建时先全局安装打包工具。
因为打包工具提升到全局，这样删除应用工程依赖时可以做到删的干干净净。再次打包产出的 0.60 版本 bundle 也就没有问题了。

依赖管理

针对无法确定 0.60 版本 RN 的依赖版本问题，我们想到在 package.json 增加一个配置保存适配 0.60 版本的包版本。

...
"degrade": {
    "devDependencies": {
        "@babel/core": "^7.5.5",
        ...
    },
    "dependencies": {
        "react-native": "0.60.5",
        ...
    }
}
...

至于私有化依赖的问题，我们决定通过 babel-plugin-module-resolver 的 alias 功能来处理。针对 0.70 版本增加如下
babel 配置

"alias": {
    ...
    "react-navigation": "@music/react-navigation",
    ...
}

同时在 0.60 版本打包时删除对应配置

最终我们的打包流程如下。其实这一块仍然有进一步的优化空间，比如打包时并行构建 0.60、0.70 的 bundle，提升构建速度。

同时为了配合客户端的 AB，整个技术方案如下

升级

可行性分析

前述的方案设计探讨的都是技术上的可行性，但在落地到具体实施上却又是另一番景象。
首先有两个不得不面对的问题：
一是业务不能停，虽然会投入一定人力来做升级这件事，但是业务同时是在快速迭代的。
二是 100 多个 RN 应用必须同时完成升级，在客户端进行灰度之前完成上线。

按照前述方案我们整理下，在基础功能完备（基础依赖升级完成、打包适配）之后升级一个 RN 应用需要多少步。

生成并增加 patch 文件，package.json 增加 postinstall 脚本 "postinstall": "npx patch-package".
按需升级依赖，并将当前版本放入 degrade，这点不难，难得是从60多个依赖中，准确找到要升级的依赖。
package.json 增加 preinstall 脚本 "preinstall": "npx npm-force-resolutions@0.0.3"，同时增加 resolutions 配置。
修改 babel 配置，增加私有化包的 alias
增加 vscode 相关配置，使用 vscode 调试（原来通过 Chrome 的调试方式已经不再支持）
部分业务代码中的 break change 使用兼容写法适配（较少）

看起来每一步都不难，开始时我们用文档记录下来所有的改动点，结果执行时状况百出，
要么 patch 文件没有生成，要么脚本命令没添加，更多的是依赖的升级问题，需要把每个应用自己的依赖（十几到几十）和需要升级的依赖（60+）交叉比对，确定哪些依赖升级，并配置降级版本。
上面任意一步出了差错，不是应用本地无法启动，就是构建完成之后无法打开。对于有明确报错信息的，可以快速定位问题，但更多是没有明确报错信息的问题，叠加双端的容器也还在不断适配，
导致前期定位问题就需要耗费大量资源。

即使完全按照文档一步步升级下来，也能正常运行了，但是随着验证、测试的深入仍然会不断发现问题，这些大部分都是小范围的共性问题，如果仅仅使用文档来承接会非常低效，每个应用都需要从文档中筛选出自己需要的信息。
随着文档新增内容越来越多，对于每一个升级的 RN 应用来说显得噪音越来越多，无法快速知道哪些是必要的。

自动化脚本

鉴于此我们提供了一套脚本来沉淀我们的适配方案，并随着适配的进度不断更新完善，由脚本来沉淀我们的适配方案，对外只暴露一个升级命令，只需一个命令即可完成升级的绝大部分工作。考虑到脚本需要不断优化，因此需要脚本有动态更新的能力。
此时 Node.js 脚本配合 npx 毫无疑问是个绝佳的组合。Node.js 轻量、文件操作简单，脚本编写完成之后发到 npm 仓库。
配合 npx 的从 npm 的仓库中临时下载并运行指定的包的能力，可以实现脚本的动态更新，保证每次运行脚本使用到就是最新的。最后统计了一下适配脚本迭代了 110+ 次。

暗礁

每当我们觉得方案已经完美的时候，现实总是会给你当头一棒，会触碰到很多隐藏在水面之前的暗礁。

消失的 JSON 文件

RN 打包时会将所有资源分为两类，一类是代码，打包最终产物是 bundle；一类是静态资源，比如图片、视频，这种会直接 copy 放入最终的资源包。其中 JSON 比较特殊，其既作为一个文件存在，又作为代码的一部分打入 bundle。这个 JSON 文件在 RN 官方开源的场景下完全是多余的，于是 Metro 在一次更新中Remove JSON from default asset types修复了这个问题，JSON 文件在打包后不再作为资源处理。

我们在接口预加载场景下客户端会依赖资源包里面的 JSON 文件读取接口配置信息，从而实现性能的提升。这个问题很隐蔽，一方面这不是个功能问题，容易忽略；二是接口预加载并不是全部开启的，所以缺失 JSON 文件并没有异常日志。客户端同学也是花了很久的时间才定位到是缺失了 JSON 文件，前端接力往下查为什么会缺失，跟着源码一步步下来才发现 Metro 的这个修复。

Hermes 的雷

部分语法的不支持

Date.parse 不再支持，比如 Date.parse('2023/3/30') 会返回 NaN，需要自己手动实现此功能。
正则不支持命名捕获组，比如 (?<Name>x)，参考 Regex causes "Quantifier has nothing to repeat"

打入 bundle 的 sourceMap

这其实是夸张的说法，之所以这么说因为默认情况下的 hbc bundle 中会保留原始的源代码结构和变量名。这和我们的 hermes 版本是 0.7 有关，默认启用的是最低级别的优化，即关闭所有的优化，此时编译过的代码将保留很多源码信息，以便于调试和分析，但这些对于生产环境是负担。因此我们改为使用最高级别的优化，对于一些源码原始信息通过 sourceMap 保留，上传我们的云端，处理线上异常时再还原代码。

庞大的 patch 包

在升级过程中，我们发现开启了字节码的 bundle 的 patch 包会明显大于普通 js bundle 的 patch 包。其原因是我们默认使用的 diff 算法是 bsdiff，而 bsdiff 主要用于文本文件的差异生成，对于字节码文件来说，差异文件的生成和应用会变得复杂和不可靠。比如字节码对于位置信息更敏感，很简单的位置变更都可能导致 patch 包体积庞大。
针对这种情况可以在编译时使用增量编译的方案。即在编译时增加 --base-bytecode previous.hbc 参数，previous.hbc 是上次构建的产物。这样编译时将会检查输入文件的更改，这样一方面只编译那些发生更改的部分，减少构建时间；最重要是会生成描述信息用于重排，可以减少 diff Patch 体积。

参差的依赖

因为在升级之前的 RN 0.60 版本已经在线上运行了三年时间，不同时期创建的应用依赖版本千差万别，
在未升级之前因为 lock 文件的存在，问题暴露的还不明显。根据上文提到的打包过程可以知道打包 0.60 版本 bundle 时是需要删除 lock 文件的。因为 package.json 语义化版本的存在，重新安装时会有部分依赖自动升级而部分不会，这就导致版本不兼容，引出一系列问题。

babel-runtime 版本太低找不到相应模块，Unable to resolve module @babel/runtime/helpers/regeneratorruntime
需升级 babel-runtime到最新版本
部署完成后，如下报错 Unhandled JS Exception: Unexpected identifier '_classCallCheck'. import call expects exactly one argument. no stack
升级 metro-react-native-babel-preset 到匹配 0.60 版本的最新版本
NativeCoponent 注册两次导致红屏， Invariant Violation: Tried to register two views with the same name xxxx
这种需要梳理清楚依赖关系，或者强制锁定版本
React 兼容性问题 Unable to resolve module react/jsx-runtime
升级 React 到16的最新小版本

总结

以上就是云音乐 RN 升级前端工作的介绍，从调研开始至升级完成的整个过程。这次升级给我的感触有两个：一是虽然调研、方案已经做的足够翔实，但在升级过程中
不断会有问题涌现，此时要做的就是稳住心态不要慌，遇到一个解决一个。二是协作，这次升级涉及所有业务线，升级过程中不断有方案的调整，如果没有业务团队的支持，
和我们一起解决问题、完善方案，升级是不可能完成的。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

网易云音乐 RN 低代码体系建设思考与实践

2023-12-25T11:04:39+08:00

作者：BoBo (沈萧寒)

前情回顾

开源情况

目前 Tango 设计器引擎部分已经开源，正在积极推进中，可以通过如下的信息了解到我们的最新进展：

Github 仓库：https://github.com/NetEase/tango
文档站点：https://netease.github.io/tango/

欢迎大家加入到我们的社区中来，一起参与到 Tango 低代码引擎的开源建设中。有任何问题都可以通过 Github Issues 反馈给我们，我们会及时跟进处理。

往期系列文章

本文主要探讨基于 Tango 低代码在 RN 场景如何打造一套标准低码研发体系。

为什么选择 RN 作为跨端方案

主流的跨端方案，建全的社区生态

RN（React Native）是 Facebook 开发的一种基于React框架的移动应用开发框架。它可以用于同时开发 iOS 和 Android 平台的跨平台移动应用程序。

在 npm trends 上可以看到，RN 每周的下载次数，稳固上升，相比5年前，下载量已经翻了接近10倍之多，Github Star 数量也来到了 110K 之多，拥有非常庞大的社区生态。

React 生态圈，支持动态更新

RN 上手成本较低，对于前端开发同学，React 技术栈可以无缝迁移，学习成本较低，对于客户端同学，RN 方案省去了大量编译的时间，相比于传统的原生开发，RN 可以大大减少代码重复，提高开发效率。此外提供了丰富的组件库和API，开发者可以使用这些组件和API快速构建用户界面和实现各种功能。同时，RN还具有良好的性能表现，可以轻松实现原生应用的用户体验。

在国内，无论大公司、小公司都钟情于应用的动态更新。因为动态更新能降低产品的试错成本。如果产品策略有调整，可以立马上线，线上有小问题也可以快速修复。但能够既满足动态更新，又能跨端，还能满足复杂业务需求的只有 JavaScript 语言。

新架构开启全新时代

2022 年，对于 React Native 来说是一个大年，因为重构已久的 React Native 新架构已经确定会在今年正式推出，相对于老架构，新架构在最关键的性能问题上有了非常大的提升，这将会为 React Native 开启一个全新的阶段。

React Native 新架构默认用的 JavaScript 引擎是 Hermes 引擎。Hermes 是一款专为移动端打造的 JavaScript 引擎，它支持 JavaScript 的 AOT 预编译。带来了更好的启动性能，此外在渲染机制，通信性能上均有成倍的提升，云音乐也第一时间进行了“尝鲜”，详细迁移过程见：网易云音乐 RN 新架构升级实践。

云音乐 RN 研发现状

RN 有着众多优势，云音乐也有相当多的 RN 需求，在需求不断地迭代，研发不断地投入过程中，还是暴露了一些问题。回顾一下 C 端场景的特点，往往是重视觉，重交互，我们来看一下目前介入一个 RN 需求开发并最终交付上线的核心过程：

研发过程

准备开发环境

Mac 电脑 / 手机设备 (依赖物理设备)
App 测试包 (依赖客户端打包)
模拟器 & XCode & ... (依赖运行环境)
RN Debugger (依赖调试工具)
RN 开发相关文档 & 平台 (依赖多个平台跳转)
编辑器 IDE

静态页面开发 & 还原视觉(交互)稿

如图所示，开发第一阶段，还原设计稿，这个过程其实可以追溯到需求评审阶段：设计稿的页面构成，哪些已有现成组件，哪些需要定制开发，样式部分的代码如何编写等。

进入业务开发阶段

不同场景的 RN 需求对应的实际业务开发有所不同，以下三种是最为常见的业务开发类型。

埋点开发: 页面曝光埋点，点击播放埋点等，需要开发者手动注入埋点，进行上报。
数据获取: 例如获取歌曲列表接口，编写代码获取数据，组件消费数据。其实这个过程往往是会被开发者忽略的环节，假设某个业务场景消费的是相同的数据和逻辑，那么这时候我们可能有两个选项：复制之前的代码,或是将其封装为工具包或者耦合至组件进行复用。
协议调用: 音视频播放等客户端协议调用联调，需查阅相关协议文档或工具组件文档。

项目验收/测试

视觉反复修改验证，多主题验证，多机型验证 (开发)
双端兼容性，多主题适配性 (开发 / 视觉)
视觉验收页面还原度 (视觉 / 策划)
业务方验收整体功能（QA / 策划）

较高的研发成本

相对 H5 应用，RN 应用本地开发环境较重，依赖较多。
页面灵活度高，需要熟悉现有组件体系，识别组件，还原视觉。
研发链路周边生态零散，未整合，开发时平台跳转重，链路长。
相同业务逻辑代码跨项目复用率低，未得到有效处理。
...

我们期望构建一套为低码为中心的在线研发体系，通过整套体系标准化来解决目前的问题，降低研发成本和门槛，提高效能。

标准化的低码研发体系

研发链路前后对比

RN 迭代从需求到交付涉及到多个核心环节，以下是目前开发现状和低码研发体系的对比。

Tango 将提供以源码为中心的 RN 在线搭建能力，支持 RN 应用快速交付，并提供标准化的线上研发流程

传统移动端搭建的问题和瓶颈

云音乐在移动端传统搭建上已经有了一些实践，但是在实际使用过程中遇到了一系列的问题。

DSL 方案局限性

首先传统搭建平台大多基于 DSL 驱动，再交由 DSL 解析器进行渲染，映射到对应的组件。DSL 本质上其实就是对代码的一种抽象，描述为一种 Schema 的形式进行可视化编排，最终还是要映射到真实的组件，组件消费 DSL 中携带的信息。

如果面向业务模式稳定的固化场景，进行深度垂直定制，在这个前提下一套 DSL 确实可以解决大部分场景，剩下的场景可以直接放弃(交由开发介入)。

但是移动端场景的特点就是灵活性高，而此类产品的特点往往面向运营等非开发角色进行无码搭建，快速交付。 在实际使用过程中，会遇到 DSL无法满足业务需求，需要开发介入定制DSL，升级组件 的情况。

这个过程中其实带来了较大的成本:

搭建平台基于 DSL 驱动，随着业务的迭代，DSL 需要不断升级以满足需求的变化
DSL 的版本迭代和规范需要严格遵守，对应组件库和解析器等中间件的维护仍需要投入开发资源
DSL 映射为客户端组件时，DSL 的变更依赖客户端迭代，存在隐形风险，且容易出现 RN 对应一套标准客户端组件库，DSL 对应另一套客户端组件库的情况，维护成本非常高，侵入性强。
面向运营，最后很大概率是研发进行兜底开发，逐渐降低使用意愿

基于 AST 驱动

Tango 通过 AST 驱动，可视化的修改实际上就是对源码进行修改，对源码的直接修改其实就跳过了 DSL 映射到源码的过程，这样做的好处是，没有中间产物的形成，不需要额外的开发资源维护，也不会耦合至其他环境，可以跟现有的云音乐 RN 研发生态较好的融合。所以 Tango 主要面向研发同学，解决灵活场景下的 RN 开发，侧重对研发环节进行提效。在一些轻量场景，也可以作为 NoCode 平台，提供运营同学可视化搭建的能力。

从上图可以看出：无论 DSL 还是 AST，最终都是映射到实际的组件，组件能力的强大与否会直接影响整个低码体系，以及需求交付的效率。组件，是非常重要的！

构建在线真机预览调试环境

RN 和 Web 应用在线开发最大的区别在于 运行环境的不同，Web 场景可以基于 CodeSandbox 实时预览，RN 场景依赖 App 物理环境。

常见的 RN 应用调试环境:

方案	描述	优点	缺点
Expo Snack	在浏览器中运行和预览 React Native 代码	无需安装任何本地环境	依赖于 Expo SDK，功能受限，不适用于业务场景
模拟器	使用本地模拟器（如 iOS 模拟器、Android 模拟器）	提供与实际设备相似的运行环境	需要安装和设置本地模拟器，可能占用较多资源
物理手机	在真实手机设备上运行和预览应用	提供与实际设备完全一致的运行环境	需要连接和配置实际设备，可能受限于设备的可用性和数量
RN for Web	在浏览器中运行和预览 React Native Web 代码	可以在多个平台（包括桌面浏览器）上预览应用	组件需要适配 Web，原生 API 可能不可用或存在差异

目前云音乐 RN 研发主要使用模拟器 + 真机扫码两种形式进行开发，起步我们考虑了相对轻量的方案：RN For Web 进行初步搭建及预览，再结合真机扫码进行实际联调，这样做的好处是在设计器运行沙箱上可以复用现有 CodeSandbox 能力，不需要做定制，但该方案马上暴露了一系列问题：

现有组件并非均兼容 RN Web，接入存在较大适配成本，收益低
Web 环境无法模拟真机环境，协议无法调用，无法满足实际开发场景
RN Web 与真机视觉还原度存在一定差异，视觉存在二次回归成本
...

综上，选用 Mac IOS 模拟器作为真机运行环境，完美贴合本地开发体验。也带来了更大的挑战，我们需要模拟一套在线开发环境(远程本地开发):

代码在哪里运行 ?
模拟器在哪里运行？
页面如何获取模拟器界面 ?
多人使用模拟器如何分配调度 ?
页面如何与模拟器通信交互 ?
App 内置的联调工具如何使用 ?
RN 运行日志如何透出 ?
与低代码平台怎么结合 ?

下面我们来具体看一下如何解决这些问题。

Metro 远端构建服务

首先我们来解决第一个问题，回顾一下本地开发过程：启动 RN 项目，通过模拟器或者真机 App 访问 RN bundleUrl 进行调试预览，本地启动的 dev server 其实就是打包服务(metro dev server)，产物为:

xx://10.10.10.10:8081/index.ios.bundle

那么远端构建其实就是将本地流程容器化：拉取项目代码，构建打包，输出产物。如图所示：

在低码平台初始化时将完整的代码推送至构建服务，构建服务分配一个实例进行上述构建过程，平台或者手机访问打包产物即可，代码变更时 patch 最新代码，触发 HMR 热更新即可。

基于直播流的模拟器投屏方案

模拟器运行环境

接下来第二个问题，模拟器运行环境可以使用 Mac 系列设备，包括不限于 Mbp，Mac mini，Mac Studio 等均可，在 Mac 物理机上对模拟器进行多开，实际可以并发启动的数量与设备性能正相关，相同规格的设备，推荐使用 ARM 架构的设备，性能会更加好。接下来对应第三个问题就是如何将模拟器的画面传输至页面。

图传方案/投屏方案对比

社区方案，Expo Snack dev，支持真机预览 & Web 两种形式。

Expo 真机界面通过实时图传的方式进行返回 (如下图所示)，我们也进行了类似方案的实践，实践结果是在 20 ~ 30FPS 帧率下实时截屏图传返回至 Web 再显示，Socket 存在时序和堆积问题，造成画面时序不一致且闪烁严重。

其实还有一种方式可以获取到屏幕的实时画面，通过直播推流的形式，将物理屏幕进行捕获推流，网页拉流播放即可，也就是传统意义上的"直播"。

起初使用 ffmpeg 进行画面捕获并推流，但由于同一台物理机上会多开模拟器，并且存在遮挡问题，模拟器窗口的定位，宽高的识别成本较高。

ffmpeg -f x11grab -video_size 1280x720 -i :0.0+100,200 -f alsa -i default -c:v libx264 -preset ultrafast -pix_fmt yuv420p -c:a aac -f flv rtmp://your-streaming-server-url/your-stream-key

最终采用 OBS 进行窗口捕获及推流，OBS 优势：自带窗口捕获，画布调整，完整的推流参数配置，以及内置 Web Socket 服务器可以进行直播控制。

OBS 低延迟直播方案

常见的直播方案如下：

方案	性能	响应速度	优缺点
RTMP	高	快	优点：广泛支持、低延迟、稳定性较好；缺点：需要服务器支持、不适用于移动设备
HLS	中	快	优点：适用于移动设备、可实现自适应码率；缺点：较高的延迟
WebRTC	高	快	优点：低延迟、实时性好、支持点对点传输；缺点：浏览器兼容性较差
SRT	高	快	优点：低延迟、稳定性好、可靠性高；缺点：需要额外的配置和支持
DASH	中	较慢	优点：适用于移动设备、高度可定制；缺点：较高的延迟、需要额外的服务器支持
RTSP	中	较慢	优点：适用于视频监控、支持多种传输协议；缺点：延迟较高、不适用于移动设备

由于云手机交互时效性要求，需要一套 低延迟直播方案，经过综合对比：

选用 SRS 流媒体服务器进行转码，使用 OBS RTMP 进行推流，Web 使用 WebRTC 进行拉流得到云手机实时画面。

SRS 服务器

SRS是一个开源的（MIT协议）简单高效的实时视频服务器，支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181等协议。 SRS媒体服务器和FFmpeg、OBS、VLC、 WebRTC等客户端配合使用，提供流的接收和分发的能力，是一个典型的发布（推流）和订阅（播放）服务器模型。 SRS支持互联网广泛应用的音视频协议转换，比如可以将RTMP或SRT，转成HLS或HTTP-FLV或WebRTC等协议。

使用官方 Docker 镜像，一键启动。详见 SRS 官方文档。

CANDIDATE="192.168.1.10"
docker run --rm -it -p 1935:1935 -p 1985:1985 -p 8080:8080 \
    --env CANDIDATE=$CANDIDATE -p 8000:8000/udp \
    registry.cn-hangzhou.aliyuncs.com/ossrs/srs:5 ./objs/srs -c conf/rtmp2rtc.conf

OBS 推流与拉流

接下来对 OBS 进行一定的配置，Mac 设备优先选用 H264 硬件编码进行推流，码率和帧数控制在一定范围，推流地址设置为 rtmp://{your_ip}/live/{your_livestream_key} 即可。

网页端使用 WebRTC 播放器进行拉流，WebRTC（Web Real-Time Communications）是一项实时通讯技术，它允许网络应用或者站点，在不借助中间媒介的情况下，建立浏览器之间点对点（Peer-to-Peer）的连接，实现视频流和（或）音频流或者其他任意数据的传输。

对 WebRTC 还不太熟悉的同学可以详细阅读一下 Web RTC API。

效果如图所示，平均响应速度在 0.5s 至 2s 内：

至此，我们已经获取到实时画面，模拟器摇身一变成为云手机，接下来的核心问题：解决云手机的通信和交互，以及多台云手机如何调度分配的问题。

基于 Socket 网关的云手机调度 & 通信交互方案

基于调度中心的通信机制

首先解决如何分配的问题，场景是：用户访问低码平台时，需要使用一台云手机，而一台物理机上可以启动多台云手机，并可以同时有多台物理机，需要正确的分配到一台设备。

有同学可能发现了，这个模式非常像"反向代理"，那么顺着这个思路，我们需要实现一个虚拟网关，负责通信和调度，我们来看一下大致过程：

将物理机中的设备主动上报到调度中心，并建立 Socket A，上报的设备存储在一个"虚拟设备池"中。
调度中心对低码平台暴露一个 /lock 接口，从设备池中获取可用设备并占用，返回占用的设备信息，同步设备池状态，完成分配。
低码平台与云手机建立 WebRTC 连接，获取到屏幕实时画面。

这里还有一个问题，如何保证高并发下云手机与用户的一致性（不会出现同一个设备被重复分配的问题），服务端的同学应该非常熟悉这个场景，关键词如："库存"，"超卖"，"秒杀"，”抢票“，“下单”，“抽奖”等场景均会涉及到这个问题，我们可以通过加锁来保证资源访问的单一，如 Redis 分布式锁，感兴趣的同学可以自行查阅一下相关资料。

此时用户已经分配到云手机，且可以看到实时画面。接下来就要解决如何通讯的问题，既然是通讯那么肯定首选长连接，我们需要与云手机建立 Socket B，该 Socket 可以将页面的消息发送至云手机 App 并将 App 中的数据返回至平台。上述流程如图所示：

此时云手机通讯机制已经建立，我们可以请求云手机加载某个 RN 页面，但此时云手机无法"使用"，云手机需要支持基本的点击/滑动交互：

在线调试能力

基于已经建立的通讯连接，我们可以远程"操控"云手机并获取到 App 中运行的信息以及日志，在平台侧进行展示，为在线联调提供了通道，目前主要开放了以下几个能力：

快捷工具栏：为了还原本地开发体验，我们将调试工具中常用的能力进行了可视化，在云手机一侧提供了工具栏，进行快速使用。

运行状态栏: 在底部状态栏的左侧显示了目前云手机的设备信息以及当前 App 的信息。

日志信息栏: 显示当前 warning,error的数量，点击后展开 Console 面板，查看当前 Metro 日志信息，对齐 Chrome Console 体验。

至此，前文提到在线开发的7个问题均已解决，我们来看最后一个问题，如何与低码进行结合

多维度的可视化搭建

模拟节点选中效果，结构树可视化编排

在 C 端场景 Tango 也保持了社区常见的交互形式，通过页面结构树面板可以对页面中的节点进行增删改查，调整位置等操作。

常见交互为大纲树和设计器都需要在点击后回显选中的节点，由于 RN 代码实际运行在客户端中，此处就带来了另一个问题: 静态的 RN 代码节点与客户端运行时的节点如何映射，确实是一个比较有趣的问题，我们可以延续之前模拟点击交互传的思路，大致如下：

通过标记节点，客户端计算返回选中的节点坐标宽高信息，模拟选中框覆盖在云手机上，达到选中的效果。

双模式切换，源码模式左看右写快速开发

对于专业 RN 开发同学，或复杂场景需切换至源码进行开发，我们也对源码模式下的开发体验进行了增强，提供"左看右写"的模式，结合完善的在线调试工具，典型场景下，可以完全脱离本地开发环境，使用线上进行开发。

多形式的代码生成

Tango 本质上基于源码驱动，在 CMS B 端场景，CRUD 类型的页面可以通过数据模型驱动来快速初始化一个可用页面。由于 C 端场景的高灵活度，开发时大部分时间是在还原样式，实现静态页面。通过 D2C AIGC 模板市场等能力可以对设计稿，典型场景进行快速还原并得到初始代码，再结合低码平台进行二次搭建，来降低从 0 搭建成本。

低码生态建设

Tango 低码的理念不仅限于"在线"，"可视化搭建"，旨在构建一个以源码为中心，完整的低码研发生态体系。

运行时框架 & 组件

低码接入的组件能力完善与否也直接影响开发搭建效率，我们针对典型场景使用的高频组件进行细分，对此类组件进行"低码化"增强，减少原子组件重复低效使用的问题。

此外 Tango RN 也延续了 Tango Boot 的应用架构推崇 View-Model-Service 三层模型，演化为 Tango RN Boot 应用框架，其中模型层定义了 Observable States，视图层观察 Model 的变化而进行自动更新，服务层用来创建一组服务函数，供视图层和模型层消费。基于 Tango MVVM 理念，Tango RN Boot 在 Stores & Services 以外，对 RN 常见开发能力进行封装，让开发者可以快速构建 RN 应用。

数据资产沉淀与可视化编排

这里先挖个坑，后续会有专门的文章详细介绍。

...

云手机还能做什么

云手机顾名思义就是取代了物理手机，目前依赖物理手机的场景大部分都可以通过云手机进行平替，并且由于云手机拥有建全的通信机制，交互能力，可以畅享更多的可能性，以下罗列了一些比较常见的应用场景：

扫码场景
所有扫码类的场景都可以接入云手机进行效果预览，通过云手机代替真实手机访问扫码结果
协议调用/服务化
客户端协议可以通过云手机进行远程联调调用，测试协议调用情况，可以借助云手机作为运行容器将协议的调用服务化，包装为 API 接口供三方平台使用。
视觉验收
可以使用云手机来查看应用程序在不同设备和屏幕尺寸上的显示效果，并确保界面元素的布局、颜色和交互行为的一致性。
测试回归
可以用于测试回归，测试团队可以使用云手机来运行自动化测试脚本，执行一些特定的任务。

低码的天平问题

篇幅较长，如果您看到这里了，非常感谢，希望能给各位带来一些收获。最后还是想聊一点题外话，市面上大大小小的"低码"产品非常多，包括不限于各种可视化搭建平台，(X)aaS平台，代码插件工具等。

低码理念的出现本质上是为了解决某个(类)问题或某个(些)场景。在近几年社区低码概念的发展以及业务实践经验来看:

过于通用的方案: 不够贴合业务，无法开箱即用，接入成本高，门槛高，拓展性强。
过于垂直的方案: 贴合业务场景，可以开箱即用，接入成本低，门槛低，拓展性差。

这就是一个 "天平" 问题，如何寻找到平衡点是一个值得持续探讨的问题，低码的本质是提效，是解决问题，在这个大前提下，如何做到高内聚，低耦合的 T 型架构，是值得低码从业者持续思考和实践的 ~ 共勉 ~

总结

目前 RN 低代码研发体系建设正在持续进行，相关周边生态的能力正在不断完善，后续我们会将云手机能力下沉服务化，并逐步支持覆安卓云手机，以中台的形式开放给更多有需要的同学快速使用。之后我们会对核心模块的技术细节，以及可视化数据编排等进行更为详细的介绍，请持续关注我们的低码系列文章，感谢 ~

参考链接

https://time.geekbang.org/column/article/499434

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐视频图像技术应用

2023-12-21T12:00:48+08:00

本文作者：蔡苗苗

互联网的快速发展引领了视频图像内容的需求和消费的急剧增长，大量的用户和流量催生了多元化的视频图像技术需求，用以满足创新内容创作需求、支持多样性社交互动、以及高效处理大量数据。本次我们将探讨云音乐中所运用的视频图像技术，通过了解这些技术，我们将更好地理解视频图像领域的发展动态，并了解如何利用这些技术为我们的业务注入更多的价值和可能性。

一、背景介绍

1. 当前现状

随着互联网的飞速发展和智能设备的广泛普及，视频及图像内容的需求和消费呈现出爆炸式的增长趋势。这种现象在云音乐表现得尤为显著，基于庞大的用户群体和流量基础，云音乐不断衍生出多元化的视频图像技术需求。这些技术不仅在满足日益更新的内容创意方面发挥着关键作用，还为日新月异的社交互动玩法提供了强大的支持。同时，对于庞大的后台数据的高效处理，这些技术同样扮演着举足轻重的角色。本次文章将深入探讨云音乐中都运用了哪些视频图像技术，这些技术如何在云音乐的各项业务中发挥重要的作用。我们将详细介绍这些技术在提升用户体验、增强音乐可视化效果、优化社交互动以及高效处理数据等方面的具体应用。

2. 技术架构

在业务应用的过程中，视频图像算法需要与其他环节进行紧密的耦合，以形成一个完整的技术价值链，从而实现与业务的协同效应并最大化其价值。因此，我们构建了一套全面的视频图像技术体系，其中包括以下模块：算法训练策略平台、基础算法库、算法服务端应用集群以及算法客户端应用引擎。这个技术体系实现了后台服务端和用户客户端之间的双向链路应用，从而在整个业务流程中发挥着综合且高效的作用。

二、算法方向

基于上述视频图像技术体系，本文章主要介绍视频图像基础算法模块。基础算法模块又可归纳为：内容理解、智能生产、智能审核、视频交互四个方面，下面我们将对这4个方面分别进行详细介绍。

1. 内容理解

a. 视频分类

视频分类，即对输入的长视频或短视频都需要进行分类。视频分类在一定意义具有很多的不确定性，因为有很多视频在分类过程中，不一定是视觉可分。单从视频本身可能无法准确定义出类型，因此云音乐使用跨模态方法进行视频分类，在整个分类过程中把音频信息和文本信息联合去做分类。

b. 乐谱识别

乐谱随着时代、科技的进步被不断创新，而数字乐谱在新兴科技的催化下，已经演变成了一个集乐谱、音频、视频的多维、能适应未来多种场景并具有多功能的音乐表现体系。乐谱识别加强了科学与艺术的交融，让“艺术越来越科学，科学越来越艺术”。而乐谱识别技术是基于图像识别的方法自动识别乐谱图片,提取其中的乐谱语义,结合歌词信息,一键生成相应的智能曲谱。一方面可以让一些珍贵的纸质乐谱转变为便于保存和传播的电子乐谱，另一方面又能让静止的图片乐谱动起来。我们研发了一套基于端到端的算法识别系统，从输入的乐谱图片中，基于分割算法对单行乐谱进行分割，并利用基于transformer的方法获取高精准的乐谱语义理解。

c. 歌单识别

在一定等场景下，用户在平台内看到歌单内的部分歌曲或者其他平台上看到心仪的歌单想在站内构建一样的歌单，为了简化用户操作流程，我们将用户上传的歌单截图中的歌曲进行识别，并一键生成云音乐歌单，避免用户手动逐首歌曲进行歌单创建过程，降低用户使用成本。我们使用版面分析结合OCR识别技术对截图歌单歌曲文字内容进行识别，并利用NLP进行纠错处理，输出最后的截图上的各个歌曲信息，给用户自动创建相应歌曲的歌单。

2. 智能生产

a. 视频增强

视频增强是指对输入的视频图像进行优化和提升，以改善其视觉效果，提高用户观看体验。在云音乐中，存在着一些老旧片源，如老版mv、早期用户上传的作品，或视频图像经反复缩编解码导致压缩噪声等，又或者由于用户设备、环境等原因导致拍摄的图像视频模糊、抖动、噪点、色彩昏暗等，都会促使站内资源中低质量视频图像存在。但是随着硬件设备的提升，这些低质量视频不能满足现在用户的观感需求，就需要对站内低质量视频进行视频增强，让画质清晰，提高用户观感体验。我们对使用场景切分，对不同的场景进行分别增强处理，并利用不同场景识别到的色彩系统动态调整亮度和色彩度，让画质看起来颜色明亮鲜明。同时相对于其他区域，人脸的增强对视觉感受的影响力最强，因此我们针对人脸区域单独做了人像增强，让人脸部分看上去皮肤光滑、细节清晰。

b. 智能封面

在视频作品中，封面往往起着至关重要的作用，它决定了用户对整个多媒体内容的第一印象。一个好的封面可以吸引用户的眼球，提高视频的点击率，增加视频的曝光率，可以帮助视频更好地推广。智能封面技术主要是利用AI技术对视频帧进行智能分析，并选取最优的帧作为封面。我们针对输入的视频序列，首先采用关键帧图像动态搜索算法搜索到整个视频中最优关键帧排序，在候选关键帧中再根据图像中的人脸信息综合根据五官、角度等综合计算图像中人脸质量分数排序，同时根据不同的展示位置尺寸比例要求，裁剪出最合适的区域，综合评定出最合适的图像帧作为封面。

c. 高光片段

在视频作品推广、直播间推荐等应用中，需要集中高效地传递信息，以迅速抓住用户的眼球，留住用户并促成点击。否则由于用户浏览速度快，如果不能在较短的时间内播放最可能吸引用户的精彩内容，那么就无法完成推广。动态封面相比静态封面，情节更丰富，让观众立即了解视频主题，具有更强的视觉冲击力和吸引力。而动态封面的生成需要使用提取视频中的最精彩的片段即为高光片段。我们以关键帧为基础，将视频切分成不同的视频片段序列，综合采用片段中的视频质量打分方法以及业务逻辑需求，提取最符合逻辑需求的高光片段。

3. 智能审核

在社交业务应用中，往往对用户的头像有一定的要求，例如头像要是人且非公众人物，上传的图像需要保持清晰，不能过于模糊等。云音乐利用3000+的明星名人识别、人脸属性信息如人脸检测、人脸年龄、性别、颜值等对用户头像进行管理审核，极大提高了用户管理成本。同时采用人脸聚类算法进行黑产用户挖掘，打击黑色产业，净化社区环境，提高人工审核效率，改善用户体验。

4. 视频交互

1. 美颜美妆

在社交直播业务中，美颜美妆技术对用户来说起着至关重要的作用，美颜美妆可以帮助主播改善外貌，以更好的状态与观众互动，吸引更多粉丝，增加营收。云音乐基于自研移动端上实时人脸检测、人脸关键点、五官分割等技术，为直播、社交互动、智能拍摄等应用场景提供完整的全套美颜美妆sdk，打造自然美颜、贴合真实的妆容效果。并结合上百种贴纸，为用户交互提供趣味性，提升用户体验。同时自研美颜美妆sdk在稳定性和低功耗方面有不错的表现，可支持复杂用户场景和360度人脸角度稳定持妆不掉妆，不同性能的机型流畅运行。

2. AI特效

特效在短视频内容生产中扮演着重要的角色，它们能够为视频增添趣味性和视觉吸引力，从而促进内容的生产和消费。云音乐基于用户需求，研发了多种实时高效的AI特效，这些特效不仅丰富了视频内容，还提高了产品的吸引力和用户的参与度。在移动端上，云音乐的AI特效可以在拍摄或上传视频的同时进行实时处理和优化，使得特效更加真实、生动、有趣。这些特效为创作者提供了更多的创作空间和想象力，提高了产品的吸引力和用户的参与度，推动了视频内容的生产和消费。

除此之外，尚存在多样的视频技术，然而考虑到篇幅限制以及技术保密的重要性，我们在此不进行深入阐述。我们热切期待与各位进行专业交流，并诚挚欢迎任何形式的批评指正，以共同推动这一领域的进步。

三、未来展望

我们身处在一个充满变革和机遇的时代。互联网技术正在以惊人的速度发展，尤其是近年AIGC为行业带来的新变革。视频图像技术在云音乐业务中的应用和规划，会更多探索多模态音视频创新，让用户可以更加生动地分享自己，分享生活，提高用户对产品的体验。同时，也会加强合作与交流，时刻保持行业敏锐度，共享资源和技术，共同推动视频图像技术的发展和创新。

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐自研客户端UI自动化项目 - Athena

2023-12-18T14:03:12+08:00

本文作者：郑超

本文介绍了云音乐面对客户端自动化测试命题下解决思路和方案，文章介绍了自动化主流框架的对比，云音乐自动框架的实现以及落地情况。

背景

网易云音乐是一款大型的音乐平台App，除了音乐业务外，还承接了直播、K歌、mlog、长音频等业务。整体的P0、P1级别的测试用例多达 3000 多个，在现代互联网敏捷高频迭代的情况下，留给测试回归的时间比较有限，云音乐目前采用双周迭代的模式，具体如下图所示:

每个迭代仅给测试留 1.5 天的回归测试时间，在此背景下，云音乐采用了一种折中的方式，即挑选一些核心链路的核心场景进行回归测试，不做全量回归。这样的做法实际是舍弃了一些线上质量为代价，这也导致时不时的会有些低级的错误带到线上。

在这样的背景下我们的测试团队也尝试了一些业内的UI自动化框架，但是整体的执行结果离我们的预期差距较大，主要体现在用例录入成本、用例稳定性、执行效率、执行成功率等维度上，为此我们希望结合云音乐的业务和迭代特点，并参考业内框架的优缺点设计一套符合云音乐的自动化测试框架。

核心关注点

接下来我们来看下目前自动化测试主要关心点：

用例录入成本

即用例的生成效率，因为用例的基数比较庞大，并且可预见的是未来用例一定会一直膨胀，所以对于用例录入成本是我们非常关注的点。目前业内的自动化测试框架主要有如下几种方式：

高级或脚本语言
高级或脚本语言在使用门槛上过高，需要用例录入同学有较好的语言功底，几乎每一条用例都是一个程序，即使是一位对语言相对熟悉的测试同学，每日的生产用例条数也都会比较有限；
自然语言
```
场景: 验证点击--点击屏幕位置
  当   启动APP[云音乐]
  而且 点击屏幕位置[580,1200]
  而且 等待[5]秒
  那么 全屏截图
  那么 关闭App
```
如上这段即为一个自然语言描述的例子，自然语言在一定程度上降低了编程门槛，但是自然语言仍然避免不了程序开发调试的过程，所以在效率仍然比较低下；
ide 工具等
AirTest 则提供了ide工具，利用拖拽的能力降低了元素查找的编写难度，但是仍然避免不了代码编写的过程，而且增加了环境安装、设备准备、兼容调试等也增加了一些额外的负担。
操作即用例
完全摒弃手写代码的形式，用所见操作即所得的用例录制方式。此方式没有编程的能力要求，而且录入效率远超其他三种方式，这样的话即可利用测试外包同学快速的将用例进行录入。目前业内开源的solopi即采用此方式。

如上分析，在用例录入维度，也只有录制回放的形式是能满足云音乐的诉求。

用例执行稳定性

即经过版本迭代后，在用例逻辑和路径没有发生变化的情况下，用例仍然能稳定执行。

理论上元素的布局层次或者位置发生变化都不应该影响到用例执行，特别是一些复杂的核心场景，布局层次和位置是经常发生变化的，如果导致相关路径上的用例执行都不再稳定，这将是一场灾难（所有受到影响的用例都将重新录入或者编辑，在人力成本上将是巨大的）。

这个问题目前在业内没有一套通用的行之有效的解决方案，在Android 侧一般在写UI界面时每个元素都会设置一个id，所以在Android侧可以依据这个id进行元素的精准定位；但是iOS 在写UI时不会设置唯一id，所以在iOS侧相对通用的是通过xpath的方式去定位元素，基于xpath就会受到布局层次和位置变化的影响。

用例执行效率

即用例完整执行的耗时，这里耗时主要体现在两方面：

用例中指令传输效率
业内部分自动化框架基于webdriver驱动的c/s模型，传输和执行上都是以指令粒度来的，所以这类方式的网络传输的影响就会被放大，导致整体效率较低；
用例中元素定位的效率
相当一部分框架是采用的黑盒方式，这样得通过跨进程的方式dump整个页面，然后进行遍历查找；

用例执行效率直接决定了在迭代周期内花费在用例回归上的时间长短，如果能做到小时级别回归，那么所有版本（灰度、hotfix等）均能在上线前走一遍用例回归，对线上版本质量将会有较大帮助。

用例覆盖度

即自动化测试框架能覆盖的测试用例的比例，这个主要取决于框架能力的覆盖范围和用例的性质。比如在视频播放场景会有视频进度拖拽的交互，如果框架不具备拖拽能力，这类用例就无法覆盖。还有些用例天然不能被自动化覆盖，比如一些动画场景，需要观察动画的流畅度，以及动画效果。

自动化框架对用例的覆盖度直接影响了人力的投入，如果覆盖度偏低的话，没法覆盖的用例还是得靠人工去兜底，成本还是很高。所以在UI自动化框架需要能覆盖的场景多，这样才能有比较好的收益，业内目前优秀的能做到70%左右的覆盖度。

执行成功率

即用例执行成功的百分比，主要有两方面因素：

单次执行用例是因为用例发生变化导致失败，也就是发现了问题；
因为一些系统或者环境的因素，在用例未发生改变的情况下，用例执行失败；

所以一个框架理想的情况下应该是除了用例发生变化导致的执行失败外，其他的用例应该都执行成功，这样人为去验证失败用例的成本就会比较低。

业内主流框架对比

在分析了自动化框架需要满足的这些核心指标后，对比了业内主流的自动化测试框架，整体如下：

维度	UIAutomator	XCUITest	Appium	SmartAuto	AirTest	Solopi
录入成本	使用Java编写用例，门槛高	使用OC语言编写，门槛高	使用python/java编写用例，门槛高，且调试时间长	自然语言编写，但是理解难度和调试成本仍然高	基于ide+代码门槛高	操作即用例，成本低
执行稳定性	较高	一般	一般	一般	一般	较高
执行效率	较高	较高	一般	一般	一般	较高
系统支持	单端(安卓)	单端(iOS)	是	是	是	单端(安卓)

注：因用例覆盖度和执行成功率不光和自动化框架本身能力相关，还关联到配套能力的完善度（接口mock能力，测试账号等），所以没有作为框架的对比维度

整体对比下来，没有任何一款自动框架能满足我们业务的诉求。所以我们不得不走上自研的道路。

解决思路

再次回到核心的指标上来：

用例录入成本：我们可以借鉴solopi的方式（操作即用例），Android已经有了现成的方案，只需要我们解决iOS端的录制回放能力即可。

用例执行稳定性：因为云音乐有曙光埋点（自研的一套多端统一的埋点方案），核心的元素都会绑定双端统一的点位，所以可以基于此去做元素定位，在有曙光点的情况下使用曙光点，如果没有曙光点安卓则降级到元素唯一id去定位，iOS则降级到xpath。这样即可以保证用例的稳定性，同时在用例都有曙光点的情况下，双端的用例可以达到复用的效果（定义统一的用例描述格式即可）。

用例执行效率：因为可以采用曙光点，所以在元素定位上只要我们采用白盒的方式，即可实现元素高效的定位。另外对于网络传输问题，我们采用以用例粒度来进行网络传输（即接口会一次性将一条完整的用例下发到调度机），即可解决指令维度传输导致的效率问题。

用例覆盖度&执行成功率：在框架能力之余，我们需要支持很多的周边能力，比如首页是个性化推荐，对于这类场景我们需要有相应的网络mock能力。一些用例会关联到账号等级，所以多账号系统支持也需要有。为了方便这些能力，我们在用例的定义上增加了前置条件和后置动作和用例进行绑定。这样在执行一些特定用例时，可以自动的去准备执行环境。

在分析了这些能力都可以支持之后，我们梳理了云音乐所有的用例，评估出来我们做完这些，是可以达到70%的用例覆盖，为此云音乐的测试团队和大前端团队合作一起立了自动化测试项目- Athena；

设计方案

用例双端复用，易读可编辑

首先为了达到双端用例可复用，设计一套双端通用的用例格式，同时为了用例方便二次编辑，提升其可读性，我们采用json的格式去定义用例。
eg：

Android端设计

因为 Solopi 有较好的录制回放能力，并且有完整的基于元素id定位元素的能力，所以这部分我们不打算重复造轮子，而是直接拿来主义，基于 Solopi 工程进行二次开发，集成曙光相关逻辑，并且支持周边相关能力建设即可。因为 Solopi 主要依赖页面信息，基于 Accessibility 完全能满足相关诉求，所以 Solopi 是一个黑盒的方案，我们考虑到曙光相关信息透传，以及周边能力信息透传，所以我们采用了白盒的方式，在 app 内部会集成一个 sdk，这个 sdk 负责和独立的测试框架 app 进行通讯。
架构图如下：

iOS 端设计

iOS 在业内没有基于录制回放的自动化框架，并且其他的框架与我们的目标差距均较大，所以在 iOS 侧，我们是从 0 开始搭建一整套框架。其中主要的难点是录制回放的能力，在录制时，对于点击、双击、长按、滑动分别 hook 的相关 api 方法，对于键盘输入，因为不在 app 进程，所以只能通过交互工具手动记录。在回放时，基于 UIEvent 的一些私有 api 方法实现 UI 组件的操作执行。

在架构设计上，iOS 直接采用 sdk 集成进测试 app 的白盒形式，这样各种数据方便获取。同时在本地会起一个服务用于和平台通讯，同时处理和内嵌 sdk 的指令下发工作。

双端执行流程

整体的录制流程如下：

回放流程：

录制回放效果演示：

接口mock能力

对于个性推荐结果的不确定性、验证内容的多样性，我们打通了契约平台（接口 mock 平台），实现了接口参数级别的方法 mock，精准配置返回结果，将各个类型场景一网打尽。主要步骤为，在契约平台先根据要 mock 的接口配置相应参数和返回结果，产生信息二维码，再用客户端扫码后将该接口代表，在该接口请求时会在请求头中添加几个自定义的字段，网关截获这些请求后，先识别自定义字段是否有 mock 协议，若有，则直接导流到契约平台返回配置结果。

mock 方案：

平台

saturn 平台作为自动化操作的平台，将所有和技术操作、代码调度的功能均在后台包装实现，呈现给用户的统一为交互式操作平台的前端。包括用例创建更改、执行机创建编辑、执行机执行、自定义设备、定时执行任务等功能；

问题用例分析效率

在用例执行时，我们会记录下相应操作的截图、操作日志以及操作视频为执行失败的用例提供现场信息。通过这些现场信息，排查问题简单之极，提缺陷也极具说服力，同时在问题分析效率上也极高。

私有化云机房建设

云音乐通过参考 android 的 stf、open-atx-server 等开源工程，结合自身业务特点，实现了即可在云端创建分发任务、又即插即用将设备随时变为机房设备池设备的平台，对 android 和 iOS 双端系统都支持云端操作，且具备去中心化的私有化部署能力。

私有化机器池：

整体架构

落地情况

在框架侧，我们的录入效率对比如下：

用例执行效率：

目前在云音乐中，已经对客户端 P0 场景的用例进行覆盖，并且整体覆盖率已经达到 73%。双端的执行成功率超过 90%。

具体覆盖情况：

具体召回的用例情况：

对于迭代周期中，之前 1.5天 大概投入 15人日 进行用例归回，现在花 0.5天，投入约 6人日，提效超过 60%。

现在 Athena 不光用在云音乐业务用例回归，在云音乐的其他业务中也在推广使用。

总结

本文介绍了云音乐在UI自动化测试上的一站式解决方案，采用录制的方式解决录制门槛高、效率低下的问题，在回放过程中前置准备用例执行环境以及结合曙光埋点提升用例执行的稳定性，并且会保留执行过程中的现场信息以便后续溯因。最后通过私有云部署，在云端即可统一调度Android和iOS设备来执行任务。目前该套方案在云音乐所有业务线均已覆盖，我们未来会在自动化测试方面继续探索和演进，争取积累更多的经验与大家交流分享。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

网易云音乐 RN 新架构升级实践

2023-12-14T15:46:35+08:00

本文作者：王永亮

本文介绍了从 RN 新架构源码实现角度出发，介绍了如何升级适配，以及网易云音乐在升级适配时遇到的问题及解决方案。

一、背景

网易云音乐从 ReactNative 0.33 版本开始接入，在 2019 年时开始把 RN 作为主要跨端方案进行建设，并从 0.33 升级到了 0.60，升级 0.60 时还只有十几个页面使用 RN 开发，时至 2022 年底已经有 100+ 业务模块使用 RN 开发，对应 100+ RN 项目，P0 级别项目占比超过四分之一。云音乐 RN 已经拥有完善的组件库和自定义协议库，并且建设了从开发脚手架、一站式开发平台、分发服务、端侧定制容器以及监控体系等一系列的配套设施。

虽然使用 RN 开发的页面越来越多，但受限于 JS 的解释执行速度以及 RN 的多线程通信架构等问题，RN 页面在启动性能和某些交互体验上和纯原生仍有一些差距，特别是核心场景，业务对页面打开效率和使用体验特别的敏感，这也导致跨端使用场景进一步扩大受阻。为了突破性能瓶颈，我们在横向对比了业界各主流 App 上使用的动态化跨端方案，同时考虑基于当前 RN 版本进行改造和引擎替换等方案，最终结合云音乐自身的特点和已有基建情况我们选选择了 ReactNative 新架构升级方案。本文主要介绍网易云音乐升级 RN 新架构遇到的一些问题和解决方案，希望给想要升级的同学提供一些可参考的信息。

二、项目思路和方案

新架构调研

升级前我们首先使用 Demo 对新老版本从性能、Bundle 包大小、客户端包大小、内存占用等多角度进行了详细的数据对比，测试机型为 iOS iPhone 6 iOS 12.5、iPhone 12 iOS 16.1，Android 小米8 SE 和红米 Note 9 Pro，测试环境为 RN 0.60 版本 + JavaScriptCore 引擎和 RN 0.70 版本 + Hermes + 字节码预编译，详细对比信息如下：

性能对比

经过对比，使用新架构 + Hermes 引擎 + 预编译后 Android 小米8 SE 首帧提升 71.5%，LCP 提升 40.1%；红米 Note 9 pro 首帧提升 77.3%，LCP 提升 41.9%；iPhone 6 首帧耗时提升 63%，iPhone 12 提升 42%；LCP iPhone 6 提升 48.5%，iPhone 12 提升 18.3%，详细数据如下表：

首帧时间：

版本	iPhone 6	iPhone 12	小米 8 SE	红米 Note 9 pro
RN 0.60	1563.66ms	189.66ms	987.2ms	743.4ms
RN 0.70	578.66ms	110ms	281ms	168.4ms

LCP 时间：

版本	iPhone 6	iPhone 12	小米 8 SE	红米 Note 9 pro
RN 0.60	2482.2ms	886.5ms	1720ms	1358.6ms
RN 0.70	1276.6ms	724.25ms	1030.2ms	788.4ms

离线包大小影响

Hermes 引擎的一大优势是预编译和字节码执行能力，但是将 JS 文本编译成字节码是有额外成本的，编译后相比编译前 demo 的 bundle 包的大小压缩前增加 18.1%，ZIP 压缩后相比于非字节码 ZIP 后增加了 57.6%，根据我们后续实际打字节码包的经验，JS Bundle 在字节码预编译后 ZIP 包会有 40% ~ 100% 不等的增加，在网络状态差的情况对离线包的到达会有一定的影响，需要采取一些优化措施， demo 详细数据如下：

是否压缩	bundle大小	bundle（bytecode）大小
ZIP前	2.7M	3.3M
ZIP后	623kb	1.4M

客户端包大小影响

iOS新版本不引入 hermes.framework 时 IPA 包大小为 1.1MB，引入后为 3.1MB，增加了 2MB 包大小。
Android新版本依赖大小 6.12M，老版本 6.14M，影响较小

内存占用影响

使用 Demo 验证在内存（包含 App 本身的内存使用）使用上，RN 0.70 也比 RN 0.60 也有明显优化，iOS 新版本相比老版本内存占用减少了 50% 左右，Android 小米8 SE 内存占用减少 33.2%，红米 Note 9 Pro 内存占用减少31%，具体数据如下：

版本	iPhone 6	iPhone 12
RN 0.60	42.2MB	47.4MB
RN 0.70	21.4MB	25.7MB

Android

版本	小米 8 SE	红米 Note 9 Pro
RN 0.60	208.4MB	223.1MB
RN 0.70	139MB	153.9MB

其他影响

我们对通信耗时、长列表场景帧率和页面交互能力等场景也进行了 demo 验证，使用 TurboModule、FabricComponent 后通信性能有了 50% 以上的提升，长列表场景帧率无明显变化，页面交互能力和 Native 基本持平。

综上调研结果，RN 0.70 新架构 + Hermes 引擎 + 字节码预编译开启在各个方面上表现都要优于云音乐之前使用的 RN 0.60 + JavaScriptCore 引擎。

新架构适配

RN 新架构的核心主要有三方面的优化 —— Fabric、TurboModule 和 Hermes，分别对应组件渲染、信息通信和执行引擎，三项优化都可以独立开启和关闭，接入复杂度上 Hermes 接入适配成本相对最低；Fabric 和 TurboModule 都需要进行代码改造适配后才能启用，TurboModule 开启后 NativeModule 仍然可以使用，改造成本适中，Fabric 的开启最为复杂，由于 Fabric 开启后只支持渲染 FabricComponent，所以需要将原来的 NativeComponent 全部改造为 FabricComponent 才能使用，Fabric 在三者中适配成本最高。

这里从 Android 端的角度介绍下新架构的基本原理和适配:

Hermes 升级适配

Hermes 在 0.70 版本时开始被作为双端默认的 JavaScript 引擎，Hermes 引擎最大的优势是支持预编译能力，预编译将原本在端上解释执行时进行的抽象语法树解析、词法解析、以及各种编译优化放到了打包时，直接输出执行效率更高的字节码，具体原理可以参考官方图：

Hermes 支持执行纯文本 JS Bundle 和 JS Bundle 预编译后的字节码文件（HBC 文件），纯文本执行性能相比于其他引擎性能降低明显，但是执行预编译后的二进制文件时性能可以说有了质的提升，尤其是在 Android 系统上，比较直观的体现是 JS Bundle 预编译成字节码后页面首屏渲染速度的显著提升。
但是也带来了一些副作用，首先是 JS Bundle 预编译为二进制后体积增加 50% 以上，另外一个问题是 JS Bundle 预编译为字节码后使用 bsdiff 打出的差量包的大小相比于原来纯文本的 diff 包增加了 80% 以上，从几 kb、几十 kb 增加到了上百 kb，在一些弱网等场景包大小的增大可能会直接带来离线包下载失败率的提升。对于 diff 包增大的问题经过排查我们发现在打字节码包时增加 -base-bytecode 指令可以降低 diff 包的大小，指令如下：

hermes -emit-binary -out bundle.hbc -base-bytecode bundle.hbc

原理可以参考 hermes 的 issue，这里不得不吐槽下 Hermes 官方文档实在是内容太少了，没有对这方面内容的说明。

对于打字节码后包增大的问题，虽然对大部分场景用户都可以通过差量包进行升级，但是对于新用户和刚刚升级到 RN 0.70 的用户还是需要全量拉取的，为了解决这个问题我们对字节码离线包进行了剪裁和引入了新的压缩算法。

使用 Hermes 引擎后 JS 代码打包时会经过混淆、压缩和预编译等步骤，在之前文本打包的基础上，字节码预编译后会生成 HBC SourceMap 来关联字节码和 JS SourceMap，HBC SourceMap 大小在非 ZIP 情况下可以占到 HBC 包大小的 30% 左右，HBC SourceMap 主要作用是字节码执行出现异常时将字节码堆栈还原为纯文本堆栈，在运行时不需要使用，所以我们在打包时把 HBC SourceMap 从 HBC 包中移除并上传到了云存储，在异常监控平台解析堆栈使用时直接从云存储获取，通过 HBC 包的剪裁压缩后包大小可以缩小 10% ~ 20%。

另外经过调研和对比还引入了 XZ 压缩算法，XZ 压缩算法有更高的压缩比，相比于 gzip 压缩比提升 10% 以上，但是压缩时间和解压缩时间都增加了几十倍，压缩由于发生在打包时时长增加可以忽略不计，在中低端手机上测试解压缩时间从原来的 0.0x 毫秒上升到了几毫秒，时间增加完全可以接受。

经过两项优化后离线包整体大小缩小 30% 以上。

TurboModule 升级适配

TurboModule 提供了 JS 同步调用客户端代码的能力，原理上是以 C++ 代码作为桥梁实现不同语言间的通信，通过 JSI 和 JNI 实现跨语言的通信，代码中利用 JSI 能力在 C++ 代码中向 JSRuntime 注入了 “__turboModuleProxy”，通过 ”__turboModuleProxy“ JS 可以直接调用到 C++，C++ 则通过框架初始化时使用 JNI 注入的 TurboModuleManager Java 对象的引用获取 TurboModule Java 层实现，最后通过 Java 层获取到 C++ 层方法映射完成 TurboModule 的获取。

TurboModule 需要通过 Codegen 来生成，具体方法可以参考官方文档，使用 Codegen 生成的 TurboModule 包含 Java 代码和 C++ 代码两部分，C++ 代码中维护了当前 TurboModule JS 到 C++ 方法的映射，以及对实际实现 TurboModule 的 Java 对象的引用，最终调用 Java 层 TurboModule 方法时则通过 JavaTurboModule 的 invokeJavaMethod 统一中转到 Java 层，这里需要注意的是如果 TurboModule 中定义的方法如果返回值是 void 类型，则会自动转为异步调用方式，相关代码如下：


```
case VoidKind: {
  TMPL::asyncMethodCallArgConversionEnd(moduleName, methodName);
  TMPL::asyncMethodCallDispatch(moduleName, methodName);

  nativeInvoker_->invokeAsync(
      // 具体方法实现
      );

  TMPL::asyncMethodCallEnd(moduleName, methodName);
  return jsi::Value::undefined();
}
```

改造为 TurboModule 后，如果需要使用同步方法，则函数定义的返回值也需要改为非 Void。在 RN 新架构中虽然新增了 TurboModule，但是之前的 NativeModule 也还是可以使用的，并且新增的 TurboModule 也是向前兼容的，所以云音乐的做法是先将频繁使用的 NativeModule 改造为 TurboModule，降低改造成本和前端适配的成本。

Fabric 升级适配

Fabric 对渲染系统进行了重构，重构后渲染系统分为渲染、提交、挂载三个阶段，渲染阶段主要是运行 JS 渲染逻辑，为每个通过 React Fiber 框架计算生成的 Element 节点创建对应的 C++ 影子树节点（shadowNode），提交阶段使用 Yoga 引擎对前一阶段生成的影子树（ShadowTree）进行布局计算，挂载阶段在客户端 UI 线程中将计算好的布局信息和来自于 JS 的样式信息解析为客户端的视图树。新的渲染系统将影子树逻辑和相对应的 Yoga 布局计算直接放在了 C++ 中，优化掉了原来 Java 代码中的影子树和不必要的 YogaJNI 调用，提升了数据传输的效率，整体架构如下图：

Fabric 的适配成本相对来说还是比较高的，和 TurboModule 不同，由于代码中 UIManager 和 FabricUIManager 只能二选一，所以在一个 RN 应用中开启 Fabric 需要将这个 RN 应用依赖的所有 NativeComponent 都改造为 FabricComponent，否则在页面上使用该组件的位置会展示一个未实现组件的提示，FabricComponent 需要使用官方提供的 Codegen 工具生成，这里除了自研组件需要适配，依赖的社区开源的组件也需要升级和改造，这里依赖组件过多改造成本高的话也可以选择分页面逐步迁移以降低开发成本。

前端代码适配

RN 升级除了客户端 RN SDK 升级、NativeModule、NativeComponent 的改造外，前端的兼容适配也有比较大的工作量，首先要解决的是 RN 本身迭代导致的变更，跨越 0.60、0.70 版本不少改动和优化需要适配，另外就是新架构的 API 变更，开启 Fabric 后一些老的 API (如 findNodeHandle、setNativeProps 等) 已无法使用，API 迁移可以参考官方文档说明，这些 API 使用非常广泛，除了业务源码中使用外、我们自己开发的二方组件、社区的三方组件都需要进行适配或者更新，部分三方常用组件还没有新架构的适配版本需要我们自行进行适配，为了尽快完成升级工作，我们选择了先临时对三方库进行私有化，在私有化基础上进行适配改造，稳定性验证完毕后可以回馈给社区，这也带来了另一个问题，常用三方库除了直接在业务代码中依赖在其他三方库中也可能被依赖，这样就造成了私有化的连锁反应，为了解决这个问题我们通过 alias 方式避免依赖膨胀，后续会有前端篇文章专门来介绍。

云音乐升级实战

对于云音乐来说，RN 新架构升级这要有两个问题：

1. 兼容成本高。 升级新架构，除了客户端之前的 NativeModule、FabricComponent 需要升级适配外，还要对在云音乐中已存在 100+ RN 应用进行逐个适配回归，这里面还包含一些营收广告之类的重要页面，回归和上线都需要格外谨慎。

2. 新架构不确定性高，稳定性风险大。 项目开始时距离 RN 0.70 版本发布只过了 3 个月的时间，还没有有关大型 App 对新架构的使用和稳定性情况的消息，另外在老架构中我们就遇到一些 JSC 相关的出现概率不低偶现 Crash，新架构担心会有相同问题。

针对以上问题我们调研制定了比较稳健的升级上线方案，主要涉及工作如下图：

其中主要工作还是围绕降低升级成本和稳定性保障两个方面：

降低升级成本

自动化脚本减少适配工作量

在整个 RN 升级工作中工作量占比最高的就是业务的适配和回归工作，在没有遇到疑难问题的情况下熟手适配一个应用需要 0.5d，100+ 应用理想情况下预估完全适配完成可能需要 2~3 个月的时间，适配同时还需要兼顾各业务线的迭代排期，可能进一步拉长项目时间，并且已有页面还在不断的迭代中，时间越长适配成本就会越高，后期项目可能会失去掌控。
针对以上问题，我们经过分析发现除了少量 API 升级后参数出现变更，很难通过自动化改造外，大部分情况可以将改造点收敛到依赖中，升级依赖即可完成版本升级，所以针对这个特点我们实现了自动化升级脚本，大部分升级工作通过执行脚本完成，只有少量 API 改造和升级出现的 UI 适配问题需要投入人力，实际每个应用适配工作量缩短到 1h~2h 左右，整体升级成本大大降低。

RN新架构源码改造，降低改造成本

新架构中客户端一项重要的工作就是 NativeModule 和 FabricComponent 的改造，这块在新架构适配部分也有介绍，对于 NativeModule 我们选择了对部分高频使用的 Module 进行改造，比如我们的自定义协议传输的 Module，几乎所有业务的 JS 和客户端通信都需要通过这里，这个 Module 改造完已经解决了大部分问题，对于 FabricComponent 我们通过分析源码发现虽然新架构源码中 FabricUIManager 必须使用 FabricComponent，但是仍然可以通过修改源码进行兼容，通过 Codegen 生成的 C++ 代码当前版本的主要作用是实现 Props 的类型定义，真正执行时还是会通过 TS 中的 RawProps 来操作需要变更的属性。所以最终我们通过更改 ComponentDescriptorRegistry.cpp 和 SurfaceMountingManager.java 的查找逻辑实现了兼容，重点代码如下：

ComponentDescriptorRegistry.cpp:

SurfaceMountingManager.java:

通过该更改节约了大量的自研组件升级带来的工作量。

新老版本一套代码、一次打包即可同时上线新老 RN 版本客户端

对于已经存在 100+ RN 项目的大型 App，RN 新架构升级这种量级的改动是无法直接线上全量的，需要通过 Android 分流、iOS AB 切换的方式逐步放量，放量时间短则一两个迭代，长则可能到一两个月，这时 RN 页面日常迭代发布就需要考虑 RN 0.60 和 RN 0.70 同时兼容的问题，对此我们设计了一套代码出双包的方案，使用该方案业务更改后，一套代码一次打包可以同时发布运行在线上使用 RN 0.60 版本的客户端，以及线上使用 RN 0.70 版本的客户端，整体方案通过自动化升级脚本和 RN 打包脚本改造实现，尽量做到具体业务最小的开发适配成本，改造后整体架构如下：

相对应的开发调试流程也需要相应的变化：

在打包发布平台上兼容模式是可配置的，RN 70 全量后，对于一些如营收相关的页面线上存量的 RN 0.60 版本客户端也非常重要，集成在 RN 0.60 版本客户端上的页面需要持续的维护，直到 RN 0.70 版本覆盖率到达到一定程度，到时才可以放弃少量的存量版本，这种情况可以一直保持 RN 0.60 版本和 RN 0.70 版本的配置，对于大部分应用在RN 0.70 全量后 RN 0.60 的兼容包就不需要再维护，则去掉打 RN 0.60 兼容包的配置即可。

稳定性保障

RN 升级需要适配页面众多，改造成本极大，新架构还带来了很多的不确定性，对此我们做了非常多的工作进行稳定性保障，RN 升级上线后做到了 0 线上问题。

源码改造，新增 Hermes、FabricComponent、TurboModule 降级能力

RN 新架构中 Hermes 引擎、FabricComponent 和 TurboModule 都还是比较新的东西，为避免出现线上问题，我们对 Hermes、Fabric、TurboModule 都增加了动态降级能力，通过配置的实时下发随时可以切换到降级模式，避免异常突增或某些业务突现 bug 造成诸如资损等严重问题。

iOS 双动态库方案，实现 AB 阶梯放量

在 RN 0.70 版本中，新架构和引擎都存在非常大的不确定性，根据我们之前的 RN 使用经验，老版本中Android JavaScriptCore 引擎在开发测试期间都比较稳定，但是上线后会有一些出现概率不低的引擎侧异常，iOS 切换为 Hermes 后很可能有相同问题，所以要提前设计好上线的方式和节奏，尤其是在 iOS 系统上，由于苹果应用市场的限制，几乎不可能做到和 Android 一样的灰度和逐个应用市场放量的能力，所以为了避免风险，我们设计了 RN 0.60 和 RN 0.70 版本双动态库方案，即保证了稳定性，又为 AB 数据实验做好了准备，详细实现可以关注后续文章。

三、升级收益

性能提升
升级后页面线上性能数据普遍提升，首次渲染白屏有效解决，低端机提升尤其显著

升级后 RN 页面 JS 渲染执行时的 loading 展示时间已完全不可见，除了体感的提升外，我们还对线上的性能数据进行了全面的统计，统计结果中各项性能数据均显著提升，其中 Android 最大元素渲染完成时间（LCP）提升 20%~50%，iOS LCP提升 10%~20%，在 Android、iOS 低端机上提升都更加显著，RN 升级后页面 LCP 时间基本都可以做到 1s 内，做到了页面秒开。

稳定性提升
升级后客户端各项稳定性数据均有提升

RN 升级后 Android 端稳定性得到显著提升，JavaSriptCore 引擎偶现崩溃得以解决，Hermes 偶现万分位异常，引擎带来的稳定性问题基本已被解决，由于新架构新引擎的内存占用减低，一些内存不足引起的异常也减少很多。

相关链接：
https://reactnative.dev/docs/next/new-architecture-intro
https://reactnative.cn/architecture/fabric-renderer

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐 AI Agent 探索实践

2023-12-12T10:49:55+08:00

本文作者: kkdev163

一. 前言

本篇文章介绍了大语言模型时代下的 AI Agent 概念，并以 LangChain 为例详细介绍了 AI Agent 背后的实现原理，随后展开介绍云音乐在实践 AI Agent 过程中的遇到的问题及优化手段。通过阅读本篇文章，读者将掌握业界主流的 AI Agent 实现原理及实践优化手段，对应用自研 AI Agent 或理解 Open AI 最新提出的 Assistants API 都具有一定的参考价值。

二. AI Agent 简介

2.1 什么是 AI Agent ?

相信阅读这篇文章的读者，都在今年感受到了大语言模型带来的爆炸影响力，也都有过与之直接进行交互的使用经历，感受到了它的强大和无所不知。

但大语言模型也存在一些限制，比如:

他的数学计算能力相对薄弱，对于复杂的运算可能会出现错误。(如问 3457 * 43216 = ?，它可能会回答 149,623,912。这是错的正确答案是 149,397,712)
训练的数据集不包含近期的数据，所以无法直接知道最近的天气和最近发生的新闻。(OpenAI 近期推出的 gpt-4-1106-preview 的训练数据集更新至23年4月)

区别于直接与大语言模型进行对话，AI Agent 是通过工程化的手段，为大语言模型提供了获取外部工具、知识的能力。他是介于人类、大语言模型之间的代理。
当用户向 AI Agent 输入问题时，AI Agent 可以使用大语言模型作为推理引擎，将一个复杂的任务进行分解、给出任务执行规划。
之后 Agent 会调用外部工具获取结果，并将大语言的上次推理和工具调用结果返回给大语言模型，让大语言模型继续思考、规划。如此循环，直到将一个复杂的任务完成。

基于以上的理解，我们可以给 AI Agent 下一个定义：

他是人与大模型之间的智能代理，在接到任务时，它会使用大语言模型作为推理引擎，进行自主的任务规划、执行调度。

2.2 AI Agent 的应用场景

AI Agent 又有哪些应用场景呢？在《AI Agent 的千亿美金问题》这篇文章中，作者详细介绍了 AI Agent 的应用场景，笔者从中引用3个大家可能比较熟悉的例子:

1. AI 辅助编程场景

Cursor

Cursor 将自己的产品称为 AI-first IDE，其产品 UI 与 VS Code 接近，加入了很多 LLM 原生的 feature，比 Github Copilot 能做得更深入。可以认为是 AI agent 化的 VS Code + Github Copilot.

Vercel v0

v0 是由 Vercel 团队打造的 AI 前端代码生成工具。其使用过程非常直接：用户使用自然语言描述需求，v0 根据需求描述来生成组件代码。然后用户继续对不满意的地方提出修改意见，将其迭代为 v1、v2... 直到满足用户的要求。当用户想将一个生成网页的标题改为渐变色时，只需要选择标题部分并提出“增加一个渐变色”，产品便会只对这一部分代码进行修改。

2. 个人助理类场景

Lindy.AI

Lindy.ai 是一款基于办公场景的智能个人AI助手产品，帮助用户智能化处理日常办公任务。它可以帮人类做日程规划预定、邮件起草发送、会议纪要撰写和总结等。

三. 如何来构建 AI Agent ?

对 AI Agent 做了简要的介绍后，我们接着来看，如何构建 AI Agent？目前市面上比较火的 Agent 相关的项目有 AutoGPT、BabyAGI、LangChain 等。

AutoGPT 在今年3月份发布后取得了惊人的增长，目前已经是一个 152k start 的项目。
BabyAGI 则提出了 Plan and execute Agent，他的实现方式是: 一次性对任务做全局的规划，后续严格一步步执行，不再变更任务计划。
LangChain 则是一个通用的大语言模型应用层开发框架，提供了 Python、TS 两种语言库，内置各种 LLM 工具，在 Agent 领域，它也提供了多种 Agent 的实现思路，包括了 AutoGPT、BabyAGI 的实现，本文选择 LangChain 展开介绍。

3.1 LangChain Agent 使用示例

前文提到 LLM 不擅长解决复杂数学计算，我们接着来看 LangChain 使用外部工具来增强 LLM 的数学运算能力的官方示例。本示例的用户提问是: "5~10之间的随机数的平方是多少?" 。

一共分为4大步：

初始化大语言模型接口，可以传入 modelName、temperature、maxTokens 等参数。
初始化工具列表，示例中使用了一个 LangChain 内置的计算器工具，以及动态构建工具。我们重点来看下这个动态生成工具:
1. name 是工具的名字
2. description 是工具的介绍，是供大语言模型理解的。
3. schema 是工具的入参定义，这里定义了 low 和 hight 都是数字类型，分别代表随机数的下界和上界。
4. func 是工具的方法调用定义，参数是 schema 中的定义，函数体是一段 js 随机数生成代码。
有了工具和大语言模型接口后，随后构造出了 Agent 执行器。
最后一步是将用户的输入传给 Agent 执行器。

最后输出的随机数平方是 45.067

3.2 LangChain Agent 执行步骤拆解

在本地执行的过程中，Langchain 会输出详细的执行调度日志，如下图所示:

通过分析这些日志可以揭开 Langchain Agent 背后的运行原理。

执行步骤一: 调用大语言模型

如下图所示， Agent 执行的第一步是将用户的输入与一个系统的 prompt 进行组装，我们暂时先称其为 “魔法咒语”，后续会详细介绍。大语言模型会返回他的思考: "用户的问题是 5~10之间的随机数的平方。我可以使用「随机数生成工具」先生成一个随机数，然后使用计算器工具计算它的平方。" 并以 JSON 指示下一步采取的动作是: 调用「随机数生成工具」，入参为 low 5， high 10。

执行步骤二: 调用工具-随机数生成器

接着 Agent 执行器会调用「随机数生成工具」入参为 {low:5, hight:10}，工具返回 6.7132

执行步骤三: 调用大语言模型

如下图所示，Agent 执行器会把用户的原始问题，和上一步大语言模型的思考、工具调用和工具的输出做拼接，传给大语言模型继续思考。大语言模型回复说: 随机数是 6.71..，现在我可以使用计算器工具来计算它的平方值。并使用 JSON 格式指示下一步动作是: 调用计算器工具，入参是 6.71..的平方的数学描述。

执行步骤四: 调用工具计算器

接着 Agent 执行器会调用计算器工具，入参为 6.71...^2，计算器工具返回的结果为 45.06..

执行步骤五: 调用大语言模型

如下图所示: Agent 执行器将上一步的思考、工具调用、结果做拼接，传递给大语言模型继续思考。大语言模型回复说: 我知道了最终的结果，答案是 45.067

当我第一次运行 Agent 示例，看到 Agent 能如此丝滑地一步步思考，执行外部工具，并得到最终结果时，我非常惊叹于 Agent 的能力，也十分好奇背后的原理的是什么。经过一番探索，发现其核心原理就藏在魔法咒语里。我们接着来看这里的魔法咒语是什么？

3.3 LangChain Agent 的魔法咒语

魔法咒语片段一

魔法咒语是由多个片段组成，片段一指示了大语言模型可以使用一些工具，但必须要遵循工具的 JSON Schema，然后给出了合法的 JSON Schema 示例。紧接着给出了大语言模型可用的工具介绍，包含工具的名字、工具的描述和入参的 JSON Schema。

魔法咒语片段二

片段二主要指示大语言模型如何使用工具。需要通过一个 JSON markdown 格式包裹，包含 action 和 action_input 字段，action 必须为 Final Answer 或工具名。并给出了 Action 的示例。

魔法咒语片段三

我们知道大语言模型是生成式 AI，而片段三指示了大语言模型生成的内容需要遵循的段落结构。分别是:

Question 问题是什么
Thought 思考如何去解决
Action 下一步采取的行动
Observation: 行动的结果

并指示生成的思考、行动、结果是可以重复 N 次的。并指示 LLM 在知道最终的结果后，输出 Final Answer。

这一段是大语言模型能将复杂任务分解、逐步执行、继续思考如此循环的关键。而这一思考框架称为 ReAct。

知道了 LangChain 背后的魔法咒语后，我们能否直接在 ChatGPT 中直接输入魔法咒语试下效果呢？答案是可以的。

我们把这段魔法咒语直接复制到 ChatGPT 上。我们看到大模型确实按照 Thought、Action、Observation 的段落格式进行生成输出。

但好像又有点问题，他返回的结果和此前步骤拆解中的步骤一不太一样。步骤一只返回需要调用「随机数生成器工具」，随后 Agent 会介入工具调用，完成工具调用后再交由大语言模型进行思考，而这里大语言模型直接返回了后续的工具调用结果、下一步思考、下一步的行动，在多步重复后，把一个错误的结果输出给我们了，那么问题出在了哪里呢？

事实上在 Agent 执行器调用大语言模型时，有一个关键的参数 Stop Sequences，这个参数的作用是让大语言模型在准备生成这个词前就强制停住，不再往下生成。

Agent 会传入 Observation 作为这个参数的值，意思就是让大语言模型生成到 Observation 时就强制停止，这样控制权才会转交回给 Agent，Agent 可以继续调用外部工具、执行后续的步骤。

我们在 ChatGPT 上加上这个参数，这一次大语言模型的输出就符合预期了。以上就是 LangChain Agent 的核心原理。

四. 云音乐 Adora 平台在 Agent 方面的实践

Adora 是网易云音乐内部的智能数字助理搭建平台，提供 LLM 相关服务。内置专属 Chat UI 界面、配置中心，可轻松实现知识库管理、智能问答、意图识别、行为翻译等功能。帮助用户快速构建属于自己的智能助手。我们后续也会有文章介绍 Adora，各位读者敬请期待。

4.1 基础能力整合

接着我们来看云音乐 Adora 平台在 Agent 方面的实践。首先是基础能力整合。

步骤一

我们还是基于这段官方示例进行扩展。这里的 ChatOpenAI 是 LangChain 提供的大语言模型接口，底层是调用的 OpenAI 官方 Client。由于各种原因，我们无法直接使用，所以要做下替换。

得益于 LangChain 的面向对象封装，我们只需继承 LangChain 的 ChatOpenAI 类，重写其中的一个函数即可。将 OpenAI 官方 Client 调用替换为内部封装的 gpt-client 即可。

步骤二

第二步是将 Adora 平台在线录入的服务转换为 LangChain 的 Tools。我们在 Adora 原有的服务定义上，增加了 description_for_ai 字段，以及 input_params 字段，有了这些配置，我们就可以将 Adora 在线录入的服务，转换为 LangChain 的 Tool。

做完了以上的两步，再加上一些胶水代码，我们就为 Adora 平台整合入了 Agent 的能力。

Adora 平台的用户在创建 Agent 智能体时，只需在可视化界面上，选择 Agent智能体动作，并圈选这个Agent 所需的服务，即可完成一个 Agent 的构建。

在完成基础能力的整合后，我们还遇到了哪些问题，以及做了哪些优化呢？

4.2 问题及优化手段

问题1: 如何高效地调试 Agent ？

我们此前提到 Agent 在执行时会输出日志，对于我们理解 Agent 的执行逻辑很有帮助，但这些日志也存在一些冗余的信息，并且是平铺式的，难以快速提炼关键信息。

我们做的第一步是将这些输出日志做采集、提炼。将 Agent 的执行步骤，归纳为关键的 Thought 和 Tool 两大步骤，并以结构化的方式在前端做呈现。

如下图所示，在 Thought 中我们会展示此次调用大语言模型的 system prompt、human input，以及大语言模型的回答，并展示出整体的耗时。

在 Tool 环节，会展示 Agent 使用的工具、耗时。以及工具的入参和出参。

通过结构化的展示，我们将 Agent 执行的每一步，都可视化呈现在开发者眼前，若 Agent 的思考出错或工具调用传参不对，开发者都可以及时看到，并通过改进 prompt 优化整体效果。

值得一提的是 LangChain 官方出品的开发者平台 LangSmith，也将 Agent 的执行可视化作为了关键特性在宣传，可见可视化调试的重要性。

问题2: 如何解决 Agent 执行的异常中断

我们在调试过程中发现，当 LLM 返回的 action_input 不符合工具的 schema 定义时，Agent 会执行抛错，中断整体执行逻辑。此外在外部接口调用返回异常时，tool 也会直接抛错，导致 Agent 的整体执行逻辑中断。

举例来说，正常情况下使用「会议室查询」服务，需要有 buildingName、bookDay 两个参数，我们也在 Prompt 中提示了大语言模型这两个字段为必填项。

但 LLM 由于上下文信息过多，可能会出现遗忘的现象。导致输出的结果中，遗漏了 buildingName 字段。当前 LangChain 的默认处理是当 Schema 校验不通过时，直接抛错，这样 Agent 的执行就结束了。

我们的优化做法是改写 DynamicStructuredTool 逻辑，在入参不符合预期时，不直接抛错，而是给 LLM 返回错误提示，让其继续思考。这样 LLM 在看到上一次工具的输入、错误提示后，在下次思考时，就会尝试纠正自己，给出正确的工具入参。具体的改写代码如下所示:

同理在接口调用环节，如果遇到外部返回异常时，也可以采样同样的思路进行优化。比如会议预定接口，假设接口调用时传入了一个已被占用的时段，后端接口响应就会返回 { code: 400 ，message: 该时段已被占用} ，此时在 request 中，遇到返回码非 200 时，不直接抛错，而是包装一个错误信息返回给 LLM，这样 LLM 在下次思考时，也会纠正自己，尝试给出合理的工具入参。参考代码如下所示:

问题3 如何让 Agent 请求用户协助？

我们此前提到，Agnet 的执行过程，只有思考、工具调用的重复循环，直到给出任务执行的最终结果。中间没有留给用户介入的机会。

但我们在一些场景，我们是希望能有用户介入的机会，比如在订咖啡、订会议室的场景，在上下文信息不足时，我们希望 Agent 能够向用户去征集偏好、选项，而不是自行决策，一条路走到黑，导致预定失败。

我们的做法是: 首先调整工具的描述，告知 LLM 在不知道参数时，需要向用户提问。

但只靠这一步，效果并不好，有时 LLM 的输出会不符合 Action 格式要求，所以我们还对系统提示词做了逐步的调整，以强化对 LLM 的提醒。

通过以上的 Prompt 优化，现在当输入「今天下午有哪些会议室?」时，大语言模型会回复「请问您想要查询1号楼、2号楼还是3号楼的会议室？」。现在大语言能够正确地向用户提问了，把控制权交给了用户，后续用户回答「2号楼」时，我们只需将上一轮的对话作为记忆带到下一轮的 Agent 执行中，就达成了人工介入 Agent 补充信息的效果。以会议室预定为例，详细的步骤如下所示:

最终实现的效果:

我们通过可视化调试界面加深下理解: 在第三轮对话的第一个 Thought 环节。第一条 system 为系统提示词，后续的 human、ai、human、ai 是前两轮的对话记忆，最后一个 human 才是第三轮对话的用户输入，这6消息整体作为入参 messages 发送给 LLM ，最后一条 ai 是这次调用 LLM 的返回结果。

会议预定 Agent 完整执行步骤如下:

问题4 模型推理能力、响应速度

在实践中，我们遇到的最大问题是模型的推理能力与响应速度无法兼得。举例来说，当我以「帮我预定2号楼7楼今天下午 3点到5点的会议室」这个问题进行测试时，gpt-4.0-0613 模型分别以 19.07秒、24.78秒、19.01 秒完成任务，中间没有任何步骤推理出错。而使用 gpt-3.5-turbo-0613 模型时，在第一次测试时，Agent 调用的 tool 并不存在，导致任务失败，第二次测试时，Agent 第一步调用 tool 仍然不存在，但在第二步思考时，Agent 进行了纠正，整体完成任务耗时为 13.51秒。第三次测试时，Agent 一次性完成了任务，仅耗时 8.09秒。

下图为 gpt-3.5-turbo-0613 第二轮测试效果:

整体测试总结来看，gpt4.0-0613 可以以100%的正确率完成任务，但平均解题耗时需要 20+秒，而 gpt-3.5-turbo-0613 虽然任务完成率只有 66% ，但整体耗时仅为 10.8秒。

对于 gpt-4 的推理能力更强，应该是符合我们大家直觉的，但耗时更久却有点反直觉。我们随后查看了官方的文档，在文档中可以看到，gpt-4 的出字速度确实是比 gpt-3.5 要慢上几倍，这是符合官方预期的。

受限于推理能力、响应速度难以兼得。当下想要将 Agent 正式投入生产环境，还是有一些挑战的。比如当我们把会议预定、咖啡预定 Agent 在公司 1024 的活动上推出时，部分用户身上表现出了一定的等待焦虑:「为什么还没有反应」「我还要等多久」「是不是挂了」。

在这里工程上能做的优化可能比较有限，比如除了 Loading 外，我们可以加入一些其他的响应提示，如 Agent 目前的思考步骤，以缓解用户的焦虑。

整体上，推理能力与速度的同步提升，还是较大依赖大模型厂商的逐步优化。正如 OpenAI 最新发布的 gpt-4-turbo-1106 在响应速度上就已经有了一些提升。我们相信随着推理能力和响应速度的提升，基于大语言模型实现的 AI Agent 在不远的未来会有大规模的落地的可能。

五. 总结

在 11 月的 OpenAI 的开发者大会上，官方同时也发布了最新的 Assistants API ，为构建 AI Agent 提供了官方支持，使得 AI Agent 的构建更加简单、高效。虽然官方的方案可能会演变为最终方案，但我们相信对 LangChain Agent 的实践不会白费，他会加深我们对 Agent 发展脉络的理解，而且使用过后，我们就会发现 Assistants API 的封装与 LangChain Agent 有许多共通之处。我们后续也会对此进行跟进、实践，请大家继续关注我们，我们会第一时间分享我们的实践经验。

引用

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐签约平台建设实践

2023-12-05T15:45:45+08:00

本文作者：袁晟

云音乐签约平台系统为业务侧提供方便、快捷的进行文件签约的能力，本文介绍了平台建设中的一些问题与思路。

一、背景介绍
在音乐版权领域中，签约是时常发生的一件事情，云音乐需要通过合同签约来拿到对应艺人的歌曲授权，才可以对歌曲进行后续的上架等操作。
在没有电子签约能力的时候，商务正常的签约流程如下：

一个合同，经过上面一套过程下来，整体需要15-30天的签约周期。目前，云音乐内容技术部基于e签宝，搭建了一套文件签约流程，然而目前的流程在后续业务接入时存在较多问题需要改善。

签约模板发布不灵活：目前的签约模板基于代码生成，每次需求改动需要经历整个需求上线周期。如果出现线上文件内容需要紧急替换的，需要额外增加时间做发布操作，大大增加了线上问题修复的时间。

签约流程不灵活：在目前的版权域和音乐人域中，存在大大小小的签约场景几十种（如下图）。对于现有的逻辑体系中，无法做到在特定节点前后增减具体处理节点。目前对于这种场景只能新增实现类，通过拷贝或者继承等方式去处理额外逻辑。开发者需要评估逻辑是否兼容，而且对于后续修改代码的人会造成一些理解成本。

签约文件准确性无法保障：对于生成的签约文件，历史上发生过多次文件内容异常导致需要重签的情况。比如，签约文件中缺少了盖章内容或者文件中缺少歌曲信息等。
二、项目方案
2.1 模板配置能力
对于现有的合同内容来说，主要分为两块内容，一块是法务侧提供的静态内容数据。这块内容对于相同场景的每个合同来说都是一样的。但是其中还存在如图中的一些空缺位置，这块内容主要是此次签约的一些动态数据。比如，此次的签约时间、歌曲信息、艺人信息等。这块内容需要在每次签约发起的时候动态填写。并且在业务的发展过程中，时常存在模板内容变更的场景，我们需要能对模板内容进行动态的调整。
签约模板整体创建流程如下：

具体的配置页面如下，使用html + 动态参数填充生成具体的pdf内容：

Html转pdf的能力目前使用的是itextpdf来进行实现，由于部分协议中需要导入图片内容，存在图片过大导致超出pdf范围的可能性，所以需要对图片大小进行缩放

ITextRenderer renderer = new ITextRenderer();
// 如果携带图片则加上以下两行代码,将图片标签转换为Itext自己的图片对象，Base64ImgReplacedElementFactory为图片处理类
renderer.getSharedContext().setReplacedElementFactory(new Base64ImgReplacedElementFactory());

在Base64ImgReplacedElementFactory中，我们对传入的图片进行整体缩放逻辑处理

public class Base64ImgReplacedElementFactory implements ReplacedElementFactory {
     /**
     * 实现createReplacedElement 替换html中的Img标签
     *
     * @param c 上下文
     * @param box 盒子
     * @param uac 回调
     * @param cssWidth css宽
     * @param cssHeight css高
     * @return ReplacedElement
     */
    public ReplacedElement createReplacedElement(LayoutContext c, BlockBox box, UserAgentCallback uac,
             int cssWidth, int cssHeight) {
        Element e = box.getElement();
        if (e == null) {
            return null;
        }
        String nodeName = e.getNodeName();
        // 找到img标签
        if (nodeName.equals("img")) {
            String attribute = e.getAttribute("src");
            FSImage fsImage;
            try {
                // 生成itext图像
                fsImage = buildImage(attribute, uac);
            } catch (BadElementException | IOException e1) {
                log.warn("buildImage failed",e);
                fsImage = null;
            }
            if (fsImage != null) {
                double scale = 1.0;
                // 10000大小 scale=1 就差不多了
                if (fsImage.getWidth() > 8000) {
                    scale = fsImage.getWidth() / 8000.0;
                }

                fsImage.scale((int) (fsImage.getWidth() / scale), (int) (fsImage.getHeight() / scale));
                return new ITextImageElement(fsImage);
            }
        }

        return null;
    }
}

对于后期发布的版本，如果存在线上问题等情况需要临时回滚等操作，目前提供了多版本控制的能力。

目前模板配置已经应用于大部分的签约场景中，对于后续的开发和迭代上减少了大量人力成本。并且对于现有的部分前端内容，如一些用户手册等也已经接入，用于减少动态内容的开发效率。

2.2 流程配置能力
对于各种签约场景流程或者数据处理逻辑上各不相同，由于考虑到需要适配多种签约场景，为了更好的兼容现有的业务场景，以及后续能方便新场景的接入。所以在功能设计的时候不能和历史代码设计思路一样，将签约中的状态固定死，需要有对于签约链路的动态调整能力，将这块能力交由到业务方使其方便其灵活配置。这就需要在设计的时候考虑能对场景灵活的进行调整。这边设计时候的思路是基于签约状态+签约事件的概念，基于事件驱动的逻辑来触发签约流程的整体流转。

如上图为一个完整的签约流程，其中每个方框节点代表了签约流程中的一个状态（一个签约流程在某个时间点只会处于某一个状态），对于每个状态中间的连线，则代表了状态流转所需要触发的具体事件。在每个状态变更成功后，签约平台都会发送对应的MQ消息到对应的Topic中，业务方可以监听其进行后续的业务流转。

目前的流程配置很好解决了需求变更导致流程中需要增减节点的情况，而且可以避免前后发布时候的数据处理问题。

2.3 文件巡检能力
基于已生成的Pdf文件，需要确保文件内容的准确，所以定期需要对生成的文件内容进行解析和正确性检测。

对于历史数据，由于数据不可追溯，使用PaddleOCR库（https://github.com/PaddlePaddle/PaddleOCR）对pdf进行图像识别，返回每行的文本数据已经文本匹配度，整体效果如下

目前线上文件巡检已经涵盖18种主要签约场景，目前匹配准确率约为97.9%。通过线上文件巡检，定位和发现3万+历史歌曲文件存在异常情况，及时排查和修复了业务逻辑，并对问题数据进行上报防止资损。

2.4 流程数据监控
对于不同的签约场景，会有不同的流程节点，我们需要去关注特定节点的block情况。比如音乐人签约中存在人审，人审的周期一般是1-2天，那我们就需要对于人审环节增加两天的预期阻塞，如果此节点阻塞超过两天就会被标记为一条签约异常数据。
整体处理流程如下：

数据报表页面部分内容如下：

基于签约流程数据监控，发现了较多阻塞的异常数据，并针对各个场景进行了数据分析，经过分析需要是产品设计上存在部分问题，提交了修改建议到产品侧进行优化。

三、成果和总结
以上就是签约平台的整体的设计思路。在项目的整体推进过程中，我们对于工具的兼容性等设计上的思路更加清晰了。在平台上线后，通过签约平台的开发和后续的业务接入，也帮助我们熟悉和梳理了音乐人/版权相关签约流程的业务逻辑，方便了后续业务问题的定位和排查。同时，我们也需要接入更多的签约场景，优化我们平台侧的对外能力，做到更好的服务业务方。
最后

https://hr.163.com/

云音乐基于代码关系的API文档管理实践

2023-11-29T14:24:56+08:00

本文作者：胡亦萍

业界有非常多优秀的API文档管理方案，大多都是基于IDE插件或maven插件的方式做集成。本文主要介绍云音乐自研的基于代码关系、中心化、自动化的API文档管理方案。

背景

随着微服务的发展，在前后端基于API协作的研发模式下，业界涌现了一批优秀的API文档管理工具，如网易自研的NEI、swagger、yapi、smart-docs等等，这些工具通过围绕API文档构建了一系列的能力，极大提升研发效率。
但随着研发流程的迭代更新，也对API文档管理提出了更高的要求。云音乐使用的NEI处于维护阶段，相关功能已经无法满足最新的研发要求，主要体现在：

依赖手动更新，比较依赖研发人员，文档信息变更时容易存在通知遗漏，影响下游测试或对接方获取最新信息。
与研发流程结合度低，NEI是基于项目维护API文档信息，缺少研发流程信息，与研发流程的其他系统存在割裂。
API文档维护与代码分离严重，很多代码不维护API文档注释，信息只维护在NEI，随着时间的流逝信息的不一致也给维护带来了问题。

所以我们希望通过构建一个全新的API文档管理平台，解决当前存在的问题，推进API标准化，同时增强API文档的生命周期管理，与研发流程更紧密结合，进一步促进研发提效。

思路&方案

思路

API文档管理平台首先需要确保API文档准确性，在此基础上降低研发人员的维护成本，所以我们需要解决以下几个关键问题：

如何解决当前存在的文档与代码分离带来的维护问题？
业界的API文档管理工具基本上都给出了答案，使用javadoc注释。javadoc作为一个通用的类、方法、成员等注释提取标准，使用javadoc作为不需要额外的代码侵入，有天然的优势，而且市面上的AST工具也都支持javadoc提取；通过javadoc可以非常方便地实现代码即文档，降低维护成本。
如何及时完成API文档创建和更新，且同时保证等待耗时较小呢？
云音乐的代码都是使用gitlab进行管理，所以我们可以利用gitlab的webhook进行commit信息的推送，基于推送的变更信息做增量解析，避免全量代码的冗余处理；同时采用源码解析方式，减少编译带来的时间损耗；但这里也存在一个问题，就是依赖研发人员及时push代码。
增量的commit其实存在信息缺失的情况，如何保证完整的变更信息被有效识别？
API文档中的关系包含API与数据模型的关系、数据模型与数据模型的关系。如果我们能够有效地管理他们的关系，那在增量解析的时候就可以通过这些关系获取完整的信息，从而进行有效的API文档更新。使用传统的数据库无法高效地维护关系，但图数据库能很好地解决这个问题。当某一节点变更时，通过查询节点间的路径关系可以快速获取完整的受影响范围，从而进行有效的信息更新。

基于上述思考，我们确定了以代码为依据，基于AST解析的API文档管理方案。

整体方案

关键流程

新接入的应用（由研发协作平台通知）做全量的代码扫描，后续基于gitlab的推送进行增量代码扫描；全量扫描后生成基线的代码关系。
基于增量代码分析获取基础的变更信息，再基于代码关系获取完整的变更影响范围；每次变更分析后更新代码关系。。
基于完整的变更范围解析出完整的接口变更信息，更新API文档。
对更新的API文档进行变更分析，生成变化的差异表；下游可以通过差异表很容易获取变更的内容。
基于代码所属应用与需求的关系获取API的干系人并进行通知。

关系管理

关系管理在是本方案中一个非常重要的支撑，如果关系无法有效管理，就无法实现高效准确的API文档更新。最终的关系如下图所示

图数据库中管理的关系包含：

API节点与数据模型节点的关系：请求、响应等。
数据模型节点与数据模型节点关系：字段、关联、继承等。

其中所有的节点都包含分支属性，分支属性在节点中的维护的关系如下：

基线关系：master分支节点之间，如DtoA某个字段为DtoB，则关系为DtoA(master)-[field]->DtoB(master)
当进行分支开发时：
- 当在dev分支中DtoB节点变更，则此时的关系为DtoA(master)-[field]->DtoB(master)，DtoA(dev)-[field]->DtoB(dev)
- 如DtoA节点变更，则此时的关系为DtoA(master)-[field]->DtoB(master)，DtoA(dev)-[field]->DtoB(master)。
如果没有master分支，只有开发分支，则此时不存在基线关系，所有的分支都按相同分支名维护

功能展示

API文档详情

API文档变更内容

API文档变更通知

实践的过程遇到的一些问题

因为采用源码解析，如果API中引用了二方包，会导致API文档信息缺失
基本二方包的维护也是基于git仓库，所以我们约定采用相同分支名进行全局匹配的策略（存在极少的相同路径的情况使用特殊处理）。

虽然我们在定API标准的时候希望不要有非标的结构，但在实际的API文档的维护中，不可避免会有定义Map结构的场景。
针对这种情况，我们通过引入特殊的解析逻辑，如下所示

@Data
public class AppDTO {
/**
* 应用id
*/
private Integer id;

/**
* 测试map，
*
* @OxLink key1 描述1 {@link CanvasDTO}
* @OxLink key2 描述2 {@link AppDTO}
* @OxLink key3 描述3 {@link ComponentDTO}
*/
private Map<String, Object> addedMap;
}

总结

这种代码即文档的中心化API文档管理实践带来了许多好处。首先，开发人员只需要在代码中进行Javadoc的修改，就能自动更新API文档，大大简化了文档维护的工作。其次，这种方案使得大部分场景下的API文档更新可以在30秒内完成，提高了开发效率。最重要的是，开发人员将API信息维护在代码中，保证了文档与实际代码的一致性。

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

2024年了，虚拟DOM该何去何从

2023-11-27T15:03:48+08:00

本文作者：Hello

诞生之初

从命令式到声明式

在上古流行的字符串拼接时代，jQuery一家独大，当时 jQuery 的语法还是停留在那种命令式 DOM 操作之中，

$("ol li").click(function() {})
let li = $("<li>我是一个li</li>");
$("ol").append(li);

而在 2013 年，Facebook 的 Jordan Walke 提出来了：把 2010 年 FaceBook 做出来的 XHP 的拓展功能迁移到 Javascript 中，形成以 JSX 作为拓展的新编码形式，并且把写法由命令式转变为声明式，像这样：

//声明一个 data列表
const Component = (
  <ul>
    {data.map(item => <MyItem data={item} />)}
  </ul>
);

而在声明式框架的建立之时，需要 DOM 操作这种 “行为”，交给框架处理，并引发一些思考：

既然 DOM 操作集中交给框架了，那框架岂不是可以去 “批处理” DOM 操作，更好的减少开销？
既然开始写声明式了，那如何让数据和 DOM 关联起来？如果每次数据发生变化，该如何监听数据源？

虚拟 DOM 乍现

计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决. --------David Wheeler

而当时虚拟 DOM，也就是在代码和实际 DOM 操作，由框架做了一层中间层，从而实现代码 -> 虚拟 DOM 树 -> 真实 DOM 树；

这个概念是由 React率先开拓，随后被许多不同的框架采用，并且当时有一本书《高性能的 javascript》，具体在第三章开头，里面有个观点就是：

DOM scripting is expensive, and it's a common performance bottleneck in rich web applications

而前 React 核心团队 Pete Hunt 也在 2013 年时，对 React 的宣传演讲中吐槽了一波重复性 DOM 操作的 “巨大开销”：《重新思考典范实例的意义》。

这套虚拟 DOM 的优势在于：

打开函数式 UI 编程的大门，使得组件抽象化，使得代码更易维护
跨平台，因为虚拟 DOM 本质上只是一个 Javascript 对象，作为抽象层还能提供给其他应用使用，比如小程序、IOS 应用、Android应用等。
数据绑定，更新视图时，减少 DOM 操作：可以将多次 DOM 操作合并为一次操作，比如添加 100 个节点原来是一个一个添加，现在是一次性添加，减少浏览器回流（比如 1000 个节点的 DOM 操作，合并为 1 次，进行批处理）

const fragment = document.createDocumentFragment();

for(let i = 0; i < 1000; i++) {
  const div = document.createElement('div');
  fragment.appendChild(div);
}

// 将文档片段一次性插入到目标容器中
const container = document.getElementById('container');
container.appendChild(fragment);

用相对轻量级的 Javascript 操作进行 DOM diff，避免大量查询和复杂的真实 DOM 的存储（包含大量属性）
- 虚拟 DOM 借助 DOM diff 可以把多余的操作省略掉，减少页面 reflow、repaint。
- 缓存 DOM，更新 DOM 时保存节点状态。

虚拟 DOM 现状

为什么现在有部分框架开始摒弃虚拟 DOM？

上方 Pete Hunt 在发表演讲后遭到大量网友的抨击，随地马上做出了解释道：

React 不是魔法。就像你可以使用 C 进入汇编程序并击败 C 编译器一样，如果你愿意，你可以进入原始 DOM 操作和 DOM API 调用并击败 React。但是，使用 C 或 Java 或 JavaScript 是性能的一个数量级改进，因为您不必担心...... 关于平台的细节。使用 React，您可以构建应用程序，甚至不考虑性能，默认状态很快。

更有甚一些框架开始以 “无虚拟 DOM” 作为噱头，作为其 “优势”，所以我们要先先直视虚拟 DOM 的一些缺点：

首次渲染大量 DOM 时，由于多了一层虚拟 DOM 的计算，理所当然会比直接 innerHTML 插入慢
虚拟 DOM 需要在内存中的维护一份虚拟 DOM
面对频繁的更新，虚拟 DOM 将会花费更多的时间处理计算的工作

所以当项目大起来之后，即使现代框架对此进行了优化，虚拟 DOM 的进行对比和计算，还有虚拟 DOM 树都是有一定开销的。

一些评价

Uber：当然有些企业，比如说Uber，通过广泛手动使用 shouldComponentUpdate 来最大限度地减少对渲染的调用。

React：React 16 后面推出了 React fiber，通过对不同事件划分的优先级（lane 模型）的打断机制，其中对虚拟 DOM 树每每深度遍历，继而阻塞主进程的问题，有一定程度的改善。

Vue：而尤雨溪在《Vue3 的设计》也提及到了致力于寻找对虚拟 DOM 瓶颈的突破，打破这种看起来比较野蛮的算法比较模式：

The framework figures out which parts of the actual DOM to update by recursively walking two virtual DOM trees and comparing every property on every node. This somewhat brute-force algorithm is generally pretty quick, thanks to the advanced optimizations performed by modern JavaScript engines, but updates still involve a lot of unnecessary CPU work.

Svelte：Svelte 作者 RICH HARRIS 在 Svelte 的文档也出了一篇《Virtual DOM is pure overhead》来讲述他对虚拟 DOM 这一数据驱动模型在某些情况下，亦或者一些频繁的更新带来的不必要的开销，而虚拟 DOM 也只是当初 React 想要以状态驱动 UI 开发的一种手法而已。

2024 年了，我们到底还需不需要虚拟 DOM 呢？

现阶段无虚拟 DOM 主力军

React 在迭代中不断尝试更合理的调度模式，Vue3 着重于对虚拟 DOM 的 diff 算法优化，ivi 和 Inferno 在引领着虚拟 DOM 框架的性能前沿，目前在虚拟 DOM 仍然盛行在主流框架，无虚拟 DOM 框架 Svelte、Solidjs 带领着他们的新的模式进入大众的视野。

Svelte

Rich Harris 是 Svelte 的作者，也是 rollup 的作者，他把 rollup 关于代码打包策略的造诣带入了 Javascript 框架，并且在走一条自己的道路：

the best API is no API at all ——Rich Harris

这里我们一般讲的是 Svelte3，Svelte3 作出了巨大的改变，以一种更加轻量级的语法，更少的代码量，去做好响应式的 Javascript 框架。

实际上它在编译阶段，帮我们直接把声明式代码转化为更加高效的命令式代码，并且减少了运行时代码。

<script>
    let count = 0;

    function handleClick() {
        count += 1;
    }

    $: {
        console.log(`the current count is ${count}`);
    }
</script>

 <div class="x-three-year" on:click={handleClick}>
     <div class="no-open" style={{ color: 'blue' }}>{`当前count: ${count}`}</div>
</div>

我们可以看到通过基本的声明，我便得到了一个响应式的变量，继而通过点击事件的绑定，得到一个通过点击驱动视图数据的普通组件

而此时通过 Svelte 的编译后会自动给响应式数据打上标记 $$invalidate

function instance($$self, $$props, $$invalidate) {
    let count = 0;

    function handleClick() {
        $$invalidate(0, count += 1);
    }

    $$self.$$.update = () => {
        if ($$self.$$.dirty & /*count*/ 1) {
            $: {
                console.log(`the current count is ${count}`);
            }
        }
    };

    return [count, handleClick];
}

Vue Vapor mode

尤雨溪曾在知乎上提及过 Vue2 时期引入虚拟 DOM 的问题（Vue 的理念问题）

React 的 vdom 其实性能不怎么样。Vue 2.0 引入 vdom 的主要原因是 vdom 把渲染过程抽象化了，从而使得组件的抽象能力也得到提升，并且可以适配 DOM 以外的渲染目标。这一点是借鉴 React 毫无争议

继 Svelte 将预编译这一套带入大众视野之后，Vue3 在编译时也有自身的编译优化 ---- “带编译时信息的虚拟 DOM”，详情可以在官网的介绍中查看，其实也就是在编译阶段针对部分静态节点附带上编译信息，使得在虚拟 DOM 树遍历阶段减少不必要的开销，一定程度上优化了虚拟 DOM 带来的问题。

而在 2022 年稀土掘金开发者大会上，尤雨溪《2022 前端生态趋势》在演讲中便提及到对 “无虚拟 DOM” 的探索 —— Vue vapor 模式。

虽然这并不是信号的必要特征，但如今这个概念经常与细粒度订阅和更新的渲染模型一起讨论。由于使用了虚拟 DOM，Vue 目前依靠编译器来实现类似的优化。然而，我们也在探索一种新的受 Solid 启发的编译策略 (Vapor Mode)，它不依赖于虚拟 DOM，而是更多地利用 Vue 的内置响应性系统。

这种预编译模式性能上先不说，首先体积上肯定是更偏向轻量级，其实也属于 vue 对未来前端框架的趋势一种新探索。

Solidjs

Soidjs，你也可以叫它Solid，它和 Svelte 同理，二者都是基于编译的响应式系统，Solidjs 的颗粒度响应是通订阅发布模式进行数据驱动的，并且曾在 js-framework-benchmark 斩获榜首而以性能出名，其语法更接近 React，对 React 重度用户较为友好。

我们在 Solid 的官方 playground 上可以看到框架在编译阶段将 jsx -> html 的输出结果：

Solid 在官网上标为：“真正的响应式”，与其说是真正的响应式，倒不如说像 React，是根据状态变化，更改虚拟 DOM，重新 render（也有可能是父组件更新），对比起来 Solidjs、Svelte 响应单独针对的是数据级别的粒度，React 响应的体量是组件级别的粒度。

下面我们来看看，Solidjs 的 “颗粒度响应” 是的设计与实现。

createSignal

主要看下 createSignal 的状态管理，很多文章会以为 Solid 用的是基于 Proxy 的响应式，实则不然，只是部分 API 用了 Proxy，其响应式还是用的 Knockout 那一套发布订阅的数据响应。

首先我们得先知道 2 个重要的角色类型： SignalState、 Computation

信号主要通过一个对象存储，类型为 type SignalState

value：当前的值
observers：观察者数组，类型为 type Computation
observerSlots：观察者对象在数组的位置
comparator：比较器，通过比较则更改 value，默认 false，浅比较

export function createSignal<T>(
  value?: T,
  options?: SignalOptions<T | undefined>
): Signal<T | undefined> {
  options = options ? Object.assign({}, signalOptions, options) : signalOptions;

  const s: SignalState<T | undefined> = {
    value,
    observers: null,
    observerSlots: null,
    comparator: options.equals || undefined
  };

  if ("_SOLID_DEV_" && !options.internal) {
    if (options.name) s.name = options.name;
    registerGraph(s);
  }

  const setter: Setter<T | undefined> = (value?: unknown) => {
    if (typeof value === "function") {
      if (Transition && Transition.running && Transition.sources.has(s)) value = value(s.tValue);
      else value = value(s.value);
    }
    return writeSignal(s, value);
  };

  return [readSignal.bind(s), setter];
}

export interface SignalState<T> extends SourceMapValue {
  value: T;
  observers: Computation<any>[] | null;
  observerSlots: number[] | null;
  tValue?: T;
  comparator?: (prev: T, next: T) => boolean;
}

我们可以看到在创建状态时，实际上就是创建了一个 SignalState，通过 readSignal 和 writeSignal 分别读取和改写 SignalState。

在全局下还有一个 Listener，用于暂存一个 Computation 类型的观察者，在组件渲染（createRenderEffect），或者在调用createEffect时，会通过一个叫 updateComputation 的方法对全局的 Listener 进行赋值，为后续的依赖追踪铺垫。

let Listener: Computation<any> | null = null;

export interface Computation<Init, Next extends Init = Init> extends Owner {
  fn: EffectFunction<Init, Next>;
  state: ComputationState;
  tState?: ComputationState;
  sources: SignalState<Next>[] | null;
  sourceSlots: number[] | null;
  value?: Init;
  updatedAt: number | null;
  pure: boolean;
  user?: boolean;
  suspense?: SuspenseContextType;
}

function updateComputation(node: Computation<any>) {
  if (!node.fn) return;
  cleanNode(node);
  const owner = Owner,
    listener = Listener,
    time = ExecCount;
  Listener = Owner = node;
  runComputation(
    node,
    Transition && Transition.running && Transition.sources.has(node as Memo<any>)
      ? (node as Memo<any>).tValue
      : node.value,
    time
  );
//...
  Listener = listener;
  Owner = owner;
}

由于对 signal 的读取，是通过函数调用的形式进行数据读取

 <div class="no-open" style={{ color: 'blue' }}>{`当前count: ${count()}`}</div>

所以在任何一个角落读取 SignalState 时，都会调用 readSignal 函数，并且把当前全局下被暂存的 “观察者” Listener，也就是引用到 SignalState 的地方，放入自身的 observers（观察者数组）中，并且把观察者源（source）指向当前 signal，实现数据绑定，并且返回对应的 SignalState。

export function readSignal(this: SignalState<any> | Memo<any>) {
  //这里Transition可以先不用管，它用于 `useTransition`  ，批量异步更新延迟提交使用的
  const runningTransition = Transition && Transition.running;
  if (
    (this as Memo<any>).sources &&
    (runningTransition ? (this as Memo<any>).tState : (this as Memo<any>).state)
  ) {
    if ((runningTransition ? (this as Memo<any>).tState : (this as Memo<any>).state) === STALE)
      updateComputation(this as Memo<any>);
    else {
      const updates = Updates;
      Updates = null;
      runUpdates(() => lookUpstream(this as Memo<any>), false);
      Updates = updates;
    }
  }
  //添加观察者，绑定数据
  if (Listener) {
    const sSlot = this.observers ? this.observers.length : 0;
    if (!Listener.sources) {
      Listener.sources = [this];
      Listener.sourceSlots = [sSlot];
    } else {
      Listener.sources.push(this);
      Listener.sourceSlots!.push(sSlot);
    }
    if (!this.observers) {
      this.observers = [Listener];
      this.observerSlots = [Listener.sources.length - 1];
    } else {
      this.observers.push(Listener);
      this.observerSlots!.push(Listener.sources.length - 1);
    }
  }
  if (runningTransition && Transition!.sources.has(this)) return this.tValue;
  return this.value;
}

对于信号的写入，则调用 writeSignal 函数，在闭包内改变当前 SignalState 后，遍历在在 readSignal 阶段被收集的观察者数组，于当前 Effect 执行列表中推入观察者。

export function writeSignal(node: SignalState<any> | Memo<any>, value: any, isComp?: boolean) {
  let current =
    Transition && Transition.running && Transition.sources.has(node) ? node.tValue : node.value;
  if (!node.comparator || !node.comparator(current, value)) {
    if (Transition) {
      const TransitionRunning = Transition.running;
      if (TransitionRunning || (!isComp && Transition.sources.has(node))) {
        Transition.sources.add(node);

        .tValue = value;
      }
      if (!TransitionRunning) node.value = value;
    } else node.value = value;
    if (node.observers && node.observers.length) {
      runUpdates(() => {
        for (let i = 0; i < node.observers!.length; i += 1) {
          const o = node.observers![i];
          const TransitionRunning = Transition && Transition.running;
          if (TransitionRunning && Transition!.disposed.has(o)) continue;
          if (TransitionRunning ? !o.tState : !o.state) {
            if (o.pure) Updates!.push(o);
            else Effects!.push(o);
            if ((o as Memo<any>).observers) markDownstream(o as Memo<any>);
          }
          if (!TransitionRunning) o.state = STALE;
          else o.tState = STALE;
        }
        if (Updates!.length > 10e5) {
          Updates = [];
          if ("_SOLID_DEV_") throw new Error("Potential Infinite Loop Detected.");
          throw new Error();
        }
      }, false);
    }
  }
  return value;
}

此时我们的 Effect 列表就保存了当时的观察者们，然后遍历执行 runEffects，进行消息的重新分发，然后在对应的节点（Computation）重新执行 readSignal 函数，此时我们就可以得到最新的数据结果了。

createEffect

而像 createEffect 这种自动追踪依赖的实现时调用时直接创建一个 computation 对象（createComputation），也就是一个观察者，随后被添加到 Effects 执行数组中。并且随后会和之前的流程一样，执行 runEffects -> updateComputation -> 去执行 createEffect 内部的代码逻辑。

function createEffect<Next, Init>(
  fn: EffectFunction<Init | Next, Next>,
  value?: Init,
  options?: EffectOptions & { render?: boolean }
): void {
  runEffects = runUserEffects;
  const c = createComputation(fn, value!, false, STALE, "_SOLID_DEV_" ? options : undefined),
    s = SuspenseContext && lookup(Owner, SuspenseContext.id);
  if (s) c.suspense = s;
  if (!options || !options.render) c.user = true;
  Effects ? Effects.push(c) : updateComputation(c);
}

通过 updateComputation ，如上面所说对 Computation 的介绍所说的，在 updateComputation时，在对全局的 Listener 进行赋值。

组件的更新

组件的更新和 createEffect 同理，只不过组件的引用是走 createRenderEffect -> updateComputation

function App() {
    const [count, setCount] = createSignal(0);

    return (
        <div class="x-three-year" onClick={() => setCount((pre) => pre + 1)}>
            <div class="no-open">你有个蛋糕店待开业</div>
            <div class="no-open">{count()}</div>
        </div>
    );
}

在点击事件发生后，和我们上面所描述的writeSignal 行为一致，触发updateComputation，走到对 SignalState 的获取readSignal，整体调用栈如下：

Solid 的一些需要注意的点

一、Solid 不能使用 rest 和 spread 语法来拆分和合并 props，也就是不能直接对响应式的 props 数据解构。（但是直接传一个 signal 的调用方法则可以）

原因是通过解构的这种浅拷贝的形式（同样的Object.assign 这些方法也不可以），拷贝当时获取的值，会切断 signal 的更新，脱离追踪范围而失去响应。

正因如此，请时刻记住不能直接解构它们，这会导致被解构的值脱离追踪范围从而失去响应性。通常，在 Solid 的 primitive 或 JSX 之外访问 props 对象上的属性可能会失去响应性。除了解构，像是扩展运算以及 Object.assign 这样的函数也会导致失去响应性。

比如

//不行
function Other({count}) {
    return (
    <div>
        <div>{count}</div>
    </div>
    );
}

//可以
function Other(props) {
    return (
    <div>
        <div>{props.count}</div>
    </div>
    );
}

function App() {
    const [count, setCount] = createSignal(0);
    return (
        <div class="x-three-year" onClick={() => setCount((pre: any) => pre + 1)}>
            <div class="no-open">你有个蛋糕店待开业</div>
            <div class="no-open">{count()}</div>
            <Other count={count()}></Other>
        </div>
    );
}

//可以
function Other({count}) {
    return (
        <div>
            <div>{count()}</div>
        </div>
    );
}

function App() {
    const [count, setCount] = createSignal(0);
    return (
        <div class="x-three-year" onClick={() => setCount((pre: any) => pre + 1)}>
            <div class="no-open">你有个蛋糕店待开业</div>
            <div class="no-open">{count()}</div>
            <Other count={count}></Other>
        </div>
    );
}

而且官方还提供 mergeProps、splitProps 这类 API 去让子组件修改响应式的 props 数据，内部实际上是通过 Proxy 代理做动态追踪。

二、Solid 的依赖追踪只能针对同步跟踪。

假设你在 createEffect 中使用 setTimeout 来异步直接获取 SignalState ，则无法追踪 SignalState 的更新，比如以下例子：

const [count, setCount] = createSignal(100);

createEffect(() => {
  setTimeout(() => {
    // no way
    console.log('打印count', count());
  }, 100);
});

实际上是因为此时走 readSignal 函数读取 Listener 的时候，基本流程已经走完，数据已经被清空（Listener = null Owner= null ），所以在读取时无法对该 SignalState 进行追踪。

不过可以通过一定方式避免：

createEffect(() => {
  const tempCount = count();
  setTimeout(() => {
    console.log('打印count', tempCount;
  }, 100);
});

框架对比

前端框架流行程度一览

npm 下载量查询网址

目前 state of js 只有 2022 的数据（仅供参考），但是从数据上看使用度还是 React、vue、angular 三巨头独霸一方，但是满意程度确实两大无虚拟 DOM 主力军异军突起。

Solid 和 Svelte

Svelte is to Vue as Solid is to React —— Leo Horie

就像在国内两极派别的 Vue 和 React，Svelte 和 Solid 的崛起不仅带来了带来了无虚拟 DOM，在编译阶段做更多的事情，还让我们看到新的发展可能性

虽然两者都是无虚拟 DOM 的框架，但是从最新的 js-framework-benchmark 的公示状况（Chrome 119 - OSX）来看，两者的性能情况大差不差，在 DOM 操作时间，Solid 似乎相对有更好的性能数据，而在内存和启动时间，Svelte 有更好的数据。

与其他框架的对比

这边我摘取了 js-framework-benchmark 的公示状况（Chrome 119 - OSX），并选择了 ivi、Inferno、Solid、Svelte、Vue、React 进行整体的对比，就结果上来看 Svelte、Solid 的性能是比我们最熟知的 Vue、React 更好一点的，但是对比 ivi、Inferno 这类以性能出名的虚拟 DOM 框架，并没有优势。

在Ryan Carniato 的 The Fastest Way to Render the DOM 中，他采用 jsx、标签模板和 HyperScript 三种渲染模版用 Solid 进行渲染，再与其他在 js-framework-benchmark 上性能表现良好，且相同渲染模版的的 Javascript 框架进行对比，以求更公平的性能对比；

而最后得到的结果虚拟 DOM 框架和非虚拟 DOM 框架从性能上来看是大差不差的（严格来说是针对一些性能良好的虚拟 DOM 框架），所以其实没有最好的技术，在历史不断修正和优化中，虚拟 DOM 并不慢，不断的探索是对技术最大的尊重。

I will admit it was React’s rhetoric about the Virtual DOM’s performance that led me into this space in the first place. The ignorance of opinions going around was infuriating.

结语

前端框架之争从 jQuery 到日不落 React，把虚拟 DOM 带入了我们的视野，再到如今 Javascript 框架的百家争鸣，更多的技术点在得到重视，改进、发展和探索。

2024 年虚拟 DOM 依旧是大头，但是无论是依赖追踪，还是在编译阶段做更多的事情 / 优化，是目前的发展趋势。

没有最好的技术，只有更好。

参考

State of js 2022

JavaScript UI Compilers: Comparing Svelte and Solid

The Fastest Way to Render the DOM

稀土掘金开发者大会 —— 2022 前端生态趋势

Pete Hunt：React：重新思考典范实例的意义

Virtual DOM is pure overhead

The process: Making Vue 3

js-framework-benchmark

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐RPC稳定性建设与实践

2023-11-22T14:47:56+08:00

本文作者：断空（王松松）

在典型的微服务架构中，RPC框架扮演着连接各个服务、组件的关键角色。作为云音乐的基础组件之一，本文将分享我们在RPC稳定性建设过程中的经验和实践。

背景

在典型的微服务架构的架构中，RPC框架扮演着连接各个服务、组件的关键角色。作为云音乐的最基础组件之一，支撑了用户、会员、广告、数据平台等各个业务的平稳运行。然而随着当前云原生理念的快速发展落地，在当前整体降本增效的大背景下，对RPC也提出了新的挑战。一旦RPC框架出现问题，整个系统的可用性和性能都会受到影响，用户可能会面临播放中断、延迟增加等不良体验，导致用户的流失、客诉等。因此我们开始从架构、流程等各方面重新梳理，参考业界的优秀实践，结合音乐特殊的业务场景，我们开始了RPC的稳定性建设历程。

整体架构

由传统的单体应用迁移到微服务后，应用被拆分、部署到了独立的节点、集群，进程内的函数调用不再适用于分布式场景，于是RPC框架应运而生，但同样的也引入了一系列新的问题：

服务发现: consumer如何快速发现provider所有的节点？ provider下线后如何快速将通知下发到consumer
连接管理：单连接还是连接池？网络抖动后如何重连、自愈？
面向云原生：容器化部署后，节点异常、宕机常态化，如何快速感知异常节点并快速熔断
重试：请求异常、超时应当选择怎样的重试策略合适？

稳定性是一个非常复杂的话题，从故障的角度来看，可以分为以下几个阶段：

故障前：这个阶段主要是预防，例如在问题上升为故障前，通过自动化测试、流程规范管控、监控报警、等手段快速发现。
故障中：这个阶段主要是发现、恢复和定位故障。需要快速发现系统出现的故障，及时采取措施进行恢复，并准确定位故障原因，最大化降低对用户的影响。
故障后：这个阶段主要对故障发生的原因进行分析和总结，找出不足之处并采取措施进行改进，思考通过标准化、流程化、自动化的手段，避免同样的故障二次出现。

在后续的行文中，我们将从这几个方面来探讨稳定性的话题。

故障前

SLO体系建设

You can't manage what you can't measure.

就RPC而言，音乐内部有N套平台可以用于故障的发现、预警，例如异常日志、核心指标(线程池、CPU、内存、GC等)、自动化用例等。太多的指标会导致我们忽视真正核心的问题；而选择过少的指标，例如只有异常日志告警，会导致故障无法被及时发现。我们需要站在用户的角度思考问题，当用户使用一个系统是时候更关注的是哪些指标？例如CPU使用率达到80%是一个现象，我们更希望知道对用户的影响是什么，接口可用率下降还是RT升高？

SLO是什么？
SLO是指服务等级的目标值或范围值，通常用于衡量服务健康状况。SLO提供了一种标准化的方式来描述、衡量和监控微服务应用程序的性能、质量和可靠性。SLO为应用开发和平台团队、运维团队提供了一个共享的质量基准，可作为衡量服务水平质量以及持续改进的参考。
示例如下：
90%的RPC请求能够在200ms以内完成
99%的请求返回的code为200

对于RPC这种在线服务的场景来说，例如歌曲播放、查看评论、会员充值等场景，相对来说我们会更关注接口的成功率、延迟等核心指标，即接口能正常响应用户的请求吗？花了多久？因此前期我们选择了成功率、RT来作为SLO的数据源，并重分利用了SLO平台提供的监控、告警等能力，有效实现了对接口可用性的度量，当SLO出现波动时，开发需要及时介入排查。

日志治理

早期版本打印的日志非常混乱，大部分异常缺少说明，导致用户无从下手。因此我们针对日志进行了一系列治理措施。

链路串联：将日志和trace打通，当业务排查问题时，通过traceId即可将上下游所有应用关联在一起，并快速跳转到APM平台
异步适配：RPC和单体应用时代不同，天生就具备了异步的特性，请求发出后，consumer等待，而当provider处理完成之后，框架内部根据requestId关联到对应的请求，并将结果返回。过程中会存在很多线程池切换，例如业务现场、IO线程、worker线程等，而线程池的切换可能会导致traceId丢失，从而影响问题的排查。因此我们针对内部所有的异步、线程切换等进行了统一的治理，有效避免类似问题的发生。
梳理&&完善核心链路日志
日志标准化，例如统一前缀、模块，错误码等信息，从而能够根据接口、ip等信息快速匹配到相关异常日志

异常大盘

当前告警机制更多偏向应用、资源维度，例如应用的异常日志超出配置的阈值、线程池队列堆积等，而RPC作为中心化的组件，一旦出现问题爆炸半径往往不太可控。因此我们在思考如何能够快速的发现框架层的问题。

对于RPC来说，组件能的问题往往都会通过异常日志体现，例如超时、接口熔断、限流、服务上下线、未知异常等，因此我们通过梳理出所有的logger以及异常日志，并基于此构建了以RPC为中心的异常大盘。并提供了应用维度的topN计算、离群点检测、日志采样等丰富的能力，从而能够协助中心化负责人快速发现问题、确定受影响应用、并通过日志采样等功能进一步根因定位。

故障中

降级

降级平台目前在音乐内部广泛使用，当前已有数千应用接入，通过与降级平台的打通联动，RPC提供了丰富的降级能力：

模板规则：用户无需触动配置，当错误率查出一定阈值时，自动触发降级
支持丰富的兜底策略，例如fallback方法调用、固定值，并与缓存平台打通，支持故障时返回缓存中的数据
监控告警：具备丰富的指标监控以及告警能力，对于BFF等类网关应用，支持支持将告警分发给对应的接口负责人
动态调整：降级规则支持秒级动态调整与下发，应用无需重启、发布
便捷：无需主动接入，平台配置后动态生效

限流

通过接入内部的限流平台，提升应用对于异常流量的应对能力，并支持丰富的限流策略：

单机、并发限流
分布式限流
参数限流
高频限流等

离群节点剔除

在分布式系统中，宕机是常态时间，而站在服务消费者的层面来说，如果不能及时检测到服务提供者中的异常节点，并快速剔除，将会影响服务的可用性(SLO)，进而导致客诉。因此组件层面提供了离群节点检测与剔除能力，当个别节点错误率不符合预期时会将该节点剔除，在指定时间窗口内不再将流量分配到该节点，并再探活成功后，将该节点重新加入服务列表中。

线程池隔离

若所有的接口都路由到同一个线程池，那么这些接口变会资源争抢的风险，接口A的RT抖动，会导致接口B的吞吐下降，因此对于一些核心的业务，我们希望能够进行线程池的隔离。因此我们对RPC框架的线程池使用进行了梳理之后，提供了丰富的隔离能力：

产品：支持不同的产品配置路由到各自单独的集群，例如云音乐、直播等不同的APP路由到各自独立的集群、线程池，从而实现更好的隔离
应用、接口、方法：支持各个粒度的隔离
区分普通请求、重试请求：例如将重试请求放到单独的线程池中，避免阻塞正常流量

快速失败

针对超时、堆积等场景，在执行业务逻辑前、执行业务逻辑后进行多层超时判断，例如超时配置为100ms，而provider在收到请求时会进行一次计算，若此时耗时已经大于100ms，则直接返回超时异常，而无需调用业务接口，从而有效避免无效请求。同时结合客户端、服务端提供的异步能力，更进一步减少线程资源的使用。

注册中心弱依赖

对于RPC框架来说最核心的依赖便是注册中心，当前云音乐内部使用Zookeeper作为主要的注册中心，而在之前的版本中对于Zookeeper是强依赖，导致Zookeeper一旦抖动或发生网络异常，provider便会大量下线，导致客户端路由不到正确的节点，影响整体的可用性。

从一致性的角度出发，Zookeeper底层基于Zab的类Paxos协议实现，更注重的是CP，即一致性，因此各种大数据、中间件都会利用Zookeeper来进行元数据、配置的管理。而对于注册中心的场景来说，对于一致性的要求并没有那么高，举个例子，服务提供者有一个节点OOM宕机，没有调用下线接口从Zookeeper中摘除，因此客户端会认为该节点没有下线，仍会保留在路由表中，如果仍将流量达到该节点，那么必然会导致请求失败，但RPC框架通常会具备探活能力，此时下游节点OOM宕机，网络链接断开不可用会直接被节点剔除，对可用率没有任何影响。我们发现对于注册中心来说，底层存储大多数时候只需最终一致即可，不需要这么强的一致性。以这个思路出发，我们对RPC框架进行了一系列专项改造：

Zookeeper调优

配置、重试策略调优，例如sessionTimeout调整到30s，那么网络抖动只要在30s以内，由于session不会过期，provider也不会触发批量下线，对于服务的可用性几乎没有影响。这个参数需要结合实际的应用场景调整。
事件监听优化，区分sessionId，若sessionId未变化，说明session未过期，此时provider不需要重新注册。在服务规模较大时，能够减少大量无用的写入操作。
配置化：重试、超时等参数可动态配置，并将连接串统一管理，节点扩容下线业务无需感知

回收站

当服务下线时，将该节点的元数据暂存到缓存中，并支持根据容量、过期时间等策略进行清理。当发生Zookeeper大规模故障时，支持从回收站中将已下线节点重新添加到路由表中。

这里需要注意的是，容器化部署后，节点的ip可能会被其他应用复用、回收站中的节点已经真实下线，因此不能无脑回收，需要对节点进行探活、异常节点检测，从而能够快速将离群节点剔除，最小化对于可用率的影响。

自动化降级

区别于dubbo、Nacos的推空保护，平台支持手动以及自动化的降级，当监控集群检测到Zookeeper服务端异常时，例如无法正常建立链接、写入失败等，则会根据配置自动打开注册中心的回收站机制，从而有效应对注册中心变更(扩容、修改配置)、网络分区等情况。

多注册

在新版本中，我们完善了RPC框架的多注册能力，支持将Nacos作为备，并支持动态调整，例如开关打开后，provider会同时往Zookeeper、Nacos注册，而客户端也支持了多订阅能力，并支持丰富的路由策略，例如优先从Nacos读、若Nacos不存在可用节点，从Zookeeper读取作为兜底。

同时由于平台默认支持了Zookeeper、Nacos的多注册能力，我们在启动时对Zookeeper、Nacos做了强弱依赖的管理，例如当进行Zookeeper扩容、迁移操作时，支持将Zookeeper作为弱依赖，即Zookeeper连接、注册、订阅失败不影响应用启动，框架底层会异步重试，从而更进一步降低RPC对于注册中心的依赖。

故障后

经验库沉淀

区别于业务异常，RPC组件内部的代码相对稳定，不会频繁变动，因此问题的定位、排查通常具备一定的套路。因此通过日常的答疑、故障定位等逐步积累了组件的经验库。例如当发生指定异常时，平台自动根据异常、堆栈等信息匹配到对应的经验库，进一步优化用户看到异常后无法自助处理的问题。

总结

RPC作为一个微服务框架来说，稳定性、性能是最基本的要素，需要我们持续的打磨、治理，同时我们需要思考在当前云原生、降本增效的大背景下，如何能够更好的支撑未来的架构，并给开发者提供更好的使用体验。

最后：

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

低代码在云音乐数据业务中的落地实践与思考

2023-11-20T16:37:10+08:00

本文作者：凯尔希

本文主要是介绍下云音乐低代码研发方式，在中后台领域的落地实战路径、成果总结

前言

笔者负责一个业务型的前端团队，支撑云音乐数据相关的B端产品，需求吞吐量一直是一个关注的重点

但想要提升团队交付量，无非两个方向，增加人手，研发提效，加人显然不符合当前的经济环境，并且很有可能演变成 “面多加水，水多加面” 的人力黑洞，通过低代码的方式，对现有生产过程的进行改造，进而提升生产力，是一个相对可行的方案

1.业务痛点

1.1 产品线较多，跨部门协同效率很低

由于是跨部门支撑，缺乏其他职能角色，对接的流程比较乱，且后端团队规模远超前端，各业务组竞相锁定人力，团队割裂，目标混乱，前端很难做出价值

1.2 团队水位低，需求吞吐量很难提升

基层成员因能力受限，不能有效参与日常业务，需求大量积压在头部成员手中，导致交付吞吐量很难提升

2.如何将低代码落地到业务中

2.1 外部协作流程重构

2.1.1 分类分级保障标准

我们将过去混乱的产品线进行分类，将保障标准与业务价值锚定，将前端资源进行聚焦

2.1.2 研发元信息标准化

为了进一步约束上游需求侧的产出，理清合作边界，减少业务侧对前端的强绑定，我们依托内部的技术产品对研发流程进行了元信息标准化，为低代码落地创造 “技术条件”

Overmind：云音乐自研产品，具备排期、拆分任务等事项管理，人力可视化的能力
OX：云音乐自研产品，具备将 Java 代码解析为接口文档的能力，接口即文档

2.1.3 双周评审PK机制

为了保证上述方案能够落地，前端主导发起双周评审PK，需求先在后端内部PK，再根据 “分级保障标准”，一部被分流给后端搭建，一部分被挤出，我们会为其提供必要的使用培训、落地辅导，为低代码落地创造 “机制保障”

2.2 团队研发模式转型

在处理完流程机制上的问题后，需要对内进行研发模式转型

2.2.1 混合式架构迁移

全盘的重建显然不现实，也没必要，基于微前端的混合交付依旧是最优解

2.2.2 团队站位重分配

为了提升基层人员的参与度，需要对各层级成员进行重新站位，将过去只能由少数人员才能解决的问题，通过复杂度抽离，进行下放，进行生产力改造

2.3 团队的高阶在做什么？

2.3.1 面向前端开发的轮子

我们的业务特征就是天天与数据打交道，可视化的诉求相当多，在传统的技术提效路径下，我们已经基于 ECharts 封装了 React 组件，做到面向大部分场景的开箱即用，让初级工程师、外包，在能够兜住底线的情况下，进行快速的交付

2.3.2 面向后端的生码工具

但是在低代码平台上，这个玩法是走不通的，因为前后端的搭建理念是不一致的，导致后端根本玩不转

基于这个发现，我们基于平台提供对 AST 的操作能力，诞生了面向后端的图表智能搭建助手，这种基于一定组合规则的引导式搭建，在玩法固定的交互设计下，是一种非常适合非前端研发角色的生码工具

3. 阶段数据

3.1 团队需求吞吐量

在前端团队结构劣化挑战下，依旧取得了需求吞吐量提升约 100% ，有效支撑了持续膨胀的业务

并且做了进一步的占比分析，上述举措确实能让基层人员有效承接业务需求，解决了长期“头重脚轻”的问题

4. 能得到哪些有用的经验

4.1 LowCode 核心是让开发者享受到模板红利，部分新增需求可以通过模板快速交付

相信很多研发者看到低代码会觉得，浏览器中托拉拽的搭建方式看似高级，在可维护性、可拓展性上存在很大瓶颈，但我认为这只是产品层面的展示形式，Tango本身基于源码的低代码方案，这些问题都不大

低代码的核心是让开发者享受模板红利，通过减少编码的工作量，来换取效率的提升

这种操作在ProCode时代是一个惯用操作，只不过我们选择了将模板进行在线化管理，打破过去的项目禁锢，将单个开发者可见，变成了全局可见，让模板红利变得更加普惠

4.2 长尾需求可通过低代码模式 “换道超车”

所有的项目都希望自己的需求能尽快上线，但资源有限，往往会导致长尾需求的积压，通过低代码的方式后端自闭环，让长尾需求 “换道超车”，让前端开发者专注于核心业务，而不是被长尾需求拖累

4.2 依托 LowCode 的生产方式改造，是一个相对经济的解决方案

怼人力是一个短期很有效的方式，如同玩游戏一样，大力氪金一定出活，但在现实中我们往往要面对招聘、落地、成长等一系列时间和经济成本，依托 LowCode 拉低门槛，让过去不能参加，不能有效参加的成员都能参加进来，是一个非常经济可行的解决方案

5. 依旧存在的问题

4.1 业务侧资产的相对匮乏

举一个例子：为什么后端会觉得上手成本高？

我认为直接原因上是由于平台侧提供的物料，大多都是原子化组件，页面的成型完全依赖开发者对组件的组合与配置，在当前业务侧资产的相对匮乏下，只能依赖前端编码来弥补这部分差距；

把 “从零到一搭建” 转变为 “修改页面模板”，大幅减少页面成型的工作量

我们希望改变后端搭建页面的流程，把 “从零到一搭建” 转变为 “修改页面模板”，大幅减少页面成型的工作量，其中需要大量的业务侧资产的沉淀（样板间、业务组件封装）

最后：

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐 FinOps 体系建设

2023-11-16T17:24:32+08:00

本文作者：吴荣军

云音乐设计研发了 FinOps 一站式平台，满足对成本洞察、优化和运营的需求，协同业务获得最大的投入产出比。

背景

当前互联网增长红利消失，要实现 "正循环中，做大用户规模"，就需要关注企业经营毛利和利润，除去内容成本，技术侧 IT 成本是非常大的一块，过去一年（2022 年），云音乐开始了技术侧降本增效，其中云原生、容器化主要做的事情包含：

Horizon 一站式平台（云音乐自研且已开源的容器部署平台），全面推进业务云原生、容器化，实现资源精细化管理
Serverless 技术支持在离线混合调度大幅提升了资源的利用

经历了一年技术降本的实践，总结发现仍然有很多挑战：

安迪 - 比尔定律：DevOps 提效，会出现典型的安迪 - 比尔定律，资源越容易获取，用得也越多
成本关注较少：由于缺乏成本跟踪运营管理平台，所以业务线、平台方也主要关注研发、质量、业务增长，没有花太多的精力关注成本，而且对于没有货币化的资源用量，对业务和开发来说，其实相对模糊和没有 “概念” 的
一本大账：底层基础服务现在都是一本大账算，权责不清，相关干系人很难盘活推进治理
增长控制难：底层技术侧项目制的成本优化效果好，但是也很容易反弹，很难持续跟踪和控制成本增长
缺乏平台支撑：缺乏统一的成本运营管理平台，数据散落，跟踪大多依赖 excel 传递，效果和效率都不好

为了解决这些问题，结合音乐的现状，我们学习和借鉴了当前比较流行的 FinOps 云财务管理的理念：

FinOps 是一种不断发展的云财务管理科学和实践，通过数据驱动支出决策帮助财务、技术和业务团队进行协作，使得组织能够获得最大的业务价值

本文将介绍云音乐内部自研的 FinOps 平台，将从成本洞察、成本优化、成本运营三个角度说明 FinOps 提供的平台能力支撑，希望能给

一些希望开发类似平台的人一些经验参考和启发。

介绍

名词解释

ROI：投资回报率（Return on Investment），是衡量投资项目盈利能力的指标。它通过计算投资项目的净利润与投资成本之间的比率来衡量投资的效益。公式为：ROI = （净利润 / 投资成本）* 100%。一般来说，ROI越高，说明投资项目的盈利能力越好

成本洞察

成本洞察主要包含资源跟踪、成本可视化、成本分配和账单管理，也就是发现成本问题。

下图展示 FinOps 的基础架构图：

成本采集需要做到：

统一成本接入：集团内部服务、账单系统是多样纷杂，导致对应账单和用量数据格式也不统一，Finops 首先需要解决统一数据接入的问题，对接外部系统，然后归一化汇聚到 FinOps 系统。
资源货币化：对业务和开发来说，资源用量的多少和对应的成本其实相对模糊和没有概念的，所以需要对内部服务产品进行定价、计费及统计，这样让业务和开发实际感知对应资源对应的成本，从而更好的驱动大家对项目 ROI 的评估。更多信息可查阅云音乐技术团队之前分享的这篇文章：云音乐 KubeCost 助力 FinOps 降本增效
大账拆小账：有很大一块成本都是没有拆分的大帐，例如计算资源（如一台物理机上部署了多个业务的云主机），内部的服务平台如发布平台和大数据处理平台等，相关成本都是直接归属相关负责平台的技术团队，上面业务并不感知这块计算资源的成本，所以也没有优化的动力

成本优化

可以通过 FinOps 查看到资源的利用率等指标，评估资源是否存在浪费，最后执行相关优化动作。

以云原生为例，目前会给出 CPU 和 Memory 利用率的评级打分，如下表格，当前对于 CPU、内存利用率为P 不合格、B 糟糕、M 合格的，都建议进行优化到至少A 良好的标准

实际操作层面，基于负责人机制，我们设计了治理页面，针对云原生容器、大数据、PaaS服务等进行针对性的展示，如下为容器内存治理的界面：

每个进入页面的人会看到自己名下有哪些待治理的集群，昨日的峰值内存利用率如何，当前内存规格和推荐规格是多少，如果采用新的规格，每个月能节省的成本有多少，方便应用负责人针对性地进行优化，也展示了近14d待治理集群数的变化趋势，方便负责人验收治理效果。部门负责人可以看到本部门下所有待治理的集群，各个组员待治理集群数的排名，方便跟踪优化

成本运营

成本优化推进之后，如何长期控制增长，就依赖持续的成本运营，这里驱动的基本逻辑就是：

首先 - 平台服务方：这里主要包括容器、大数据、中间件等内部私有平台服务提供方
- 定价计费：货币化所有资源成本和收入，让所有人切实感知成本，目前包括大数据、云原生、中间件日志服务等
- 模式转变：服务平台从成本部门转变为经营收益部门，驱动内部平台提供更有竞争力的服务，避免内部腐化
然后 - 业务线：
- 通过内部和外部平台服务统一分账到业务线，业务线感知资源使用成本
- 再通过分析成本组成，进而可以计算业务 ROI
- 根据实际业务 ROI 情况，决策控制和优化资源用量
最后 - 开发：
- 收到来自业务线和平台服务方治理优化的需求，然后根据 FinOps 提供的利用率等手段进行评估和优化

这其中的核心就是通过 治理分权 + 数据驱动 去盘活所有干系人参与进来，进而全面建立成本和用量意识，持续改进运营流程。

（1）治理分权：FinOps 首先通过 类别（Category） 的功能，可以实现任意数据范围的圈选，使得管理者、财务、业务负责人、一、二、三、四级部门负责人以及每一个开发都能看到自己相关成本和用量等数据，进而将治理分权下放给所有干系人

其中 Category 的核心逻辑是设计了如下 json 表达式来圈选数据范围：

{
  "and": [
    {
      "tags": {
        "key": "department",
        "values": [
          "技术中心"
        ]
      }
    }
  ]
}

如上就表示圈选名为 “技术中心” 的部门下的所有成本、用量数据到一个类别下

（2）数据驱动：成本用量等数据贯穿整个运营的生命周期，所有干系人都根据数据指标来跟踪和指导下一步动作。例如业务负责人根据成本评估 ROI；或者开发，可以根据其提供服务使用资源的利用率数据，识别出哪些资源浪费，进而可以推动优化，简单的可以通过降配、闲置资源回收，复杂的可以升级架构来提升资源利用率，例如从固定副本数升级为 Serverless 弹性伸缩。

未来规划

成本洞察：
- 成本分配：目前音乐内部仅有部分服务，例如容器，大数据、物理机、RDS 等已经将成本拆分到部门和业务线，未来还会和更多的服务提供方合作（例如 CDN、中间服务日志、消息队列等），通过标签等方式，将资源用量和成本拆分业务线和部门，避免 “糊涂账”
- 资源生命周期管理：资源挂到人头上，确保业务线等必要的标签打上且正确，实现资源从生产、转移（业务变动、人员离职、转岗）到结束的整个生命周期跟踪
成本优化：
- 成本治理层面，目前探索了云原生容器领域的治理实践和闭环，后续将把经验拓展到PaaS服务、大数据任务等更多的场景
- 架构治理：架构师团队联合推动一些技术架构治理和升级：例如切换至 JDK 17 部署等
成本运营：
- 通过责任人机制的建立高效推进各项资源治理 (所有Poor评价以及以下治理到Accept评价以及以上)
- 运营机制：设计奖惩，激发自主降本，保持良性循序
- 和内部其他核心平台联动，如和CICD平台联动展示成本信息和优化建议，将成本治理变成大家日常都可以轻松完成的事情

参考

OpenCost: https://github.com/opencost/opencost/blob/develop/spec/opencost-specv01.md
FinOps: https://www.finops.org/introduction/what-is-finops/
Clickhouse: https://clickhouse.com/docs/en/intro
毛老师倾情分享B站FinOps实践思路: https://www.bilibili.com/video/BV1ca4y1T7q8/?vd_source=b9faf4...

最后

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

如何使用 Fin2.0 文生图登上云音乐首页

2023-11-14T11:43:55+08:00

本文作者：原草（李磊）

Fin2.0 是一款由云音乐公共技术部开发的智能设计助手。产品愿景是：通过 AIGC 赋能设计过程，降低设计的门槛和成本，让业务创新变得简单。本文通过商务同学如何通过 Fin 2.0 的文生图功能完成了歌曲推广任务这一案例，为大家介绍如何使用文生图生成自己想要的图片，同时为大家带来 Fin2.0 文生图功能在设计和开发过程中的思考和实践。

一、背景介绍

1.1 什么是 Fin2.0？

Fin2.0 是一款由云音乐公共技术部开发的智能设计助手。产品愿景是：通过 AIGC 赋能设计过程，降低设计的门槛和成本，让业务创新变得简单。

我们利用 AIGC 能力矩阵：「文生图」、「文生 ICON」、「文生稿」，重构了整个设计流程。可以让策划、设计和运营，充分利用 AIGC 的相关能力来赋能设计过程，不仅能提高设计效率，还能降低沟通成本，同时可以避免使用外部服务造成数据安全的风险。

1.2 事件背景

Jersey 是云音乐电波工作室的一位商务同学，负责站内的歌曲推广。这天临时需要设计资源对新歌做推广，可是设计师大大们的档期已经约不到了。这种情况下，商务同学大多数时候会选择请求外部资源。

还好， Jersey 同学之前通过设计师室友了解到过 Fin2.0 产品，加上自己有过美术相关的设计功底，因此选择通过 Fin2.0 文生图，来生成设计原画，自己来做文字的排版和布局。

最终，Jersey 同学通过半天时间的文生图尝试，完成了两张高质量的 banner 位图片资源，很好完成了站内的歌曲推广工作。

1.3 落地成果

通过 Fin2.0 文生图功能，可以快速生成大量高质量的图片，大大节省了生产内容的时间和成本。不同类型的场景可以生成不同类型的内容，满足不同的设计和业务需求，扩大内容生产的覆盖面。

本次文生图案例，帮助 Jersey 同学完成了临时设计资源的需求，助力歌曲很好的进行站内流量转化，歌曲实现了日飙升榜「第 2 名」的好成绩。

二、Fin2.0 文生图功能介绍

在 Fin2.0 产品设计之初，我们经过了大量的走查调研，了解设计团队现阶段使用 AIGC 工具的方式，以及在使用 AIGC 生成图片的一些问题。

主要有以下三类问题：

Dreammaker（公司内部署的 Stable Diffusion 服务）使用门槛较高，生图过程需要完成复杂的配置，比如：大模型、Lora、提示词、负向提示词、controlnet、采样器、VAE 等；
Midjourney 工具需要自费使用，每个团队都有大量生图资源和多账号需求，一般会选择采购多个账号，这对团队开销形成了一定压力；
对于保密项目，使用外部生图工具（例如：Midjourney）又会担心项目数据安全的问题；

我们选择与 Dreammaker 合作，使用其底层计算能力，这样所有的生图数据都会存在公司内部，不必要再担心使用外部设计工具存在的数据泄露问题。同时，Dreammaker 丰富的计算资源，也为 Fin2.0 的服务稳定和生图效率提供了保障。

2.1 三步生成图片

使用 Stable Diffusion 进行创作，一个文生图步骤，最少需要 30 多个配置参数，主要分为三大类：

必须类型：

参数名称	参数说明
model_name	模型名称，底模
prompt	正向提示词

基础类型：

参数名称	参数说明
negative_prompt	负向提示词
sampler_name	采样方法
steps	采样迭代步数
width	图片宽度
height	图片高度
cfg_scale	提示词相关度
n_iter	迭代次数，图片数量
seed	随机种子

辅助类型：

参数名称	参数说明
enable_hr	是否开启高分辨率
hr_scale	高分辨率放大倍率
denoising_strength	重绘幅度
hr_upscaler	高分辨率放大算法
hr_resize_x	将宽度调整到
hr_resize_y	将宽度调整到

LoRA：用于完成特定功能、特定风格、特定形象，一般和底模配合使用

参数名称	参数说明
model_name	模型名称
text_encoder_weights	高分辨率放大倍率
denoising_strength	文本编码权重
unet_encode_weights	unet 编码权重

ControlNet，用于特殊场景配置

参数名称	参数说明
open	是否开启
processor	预处理
model	模型名称
weight	权重
pixel_perfect	是否使用 pixel_perfect

我们总结了一些常用的设计场景：推广和礼物原画的设计场景、游戏图标设计场景、3D 设计场景、赛博朋克设计场景、中国风设计场景、绘画风设计场景等。配合上一个能力强大的基础模型 SDXL，汇合成应用场景下的选项。用于满足在设计和运营日常需求的大部分设计场景。

每个设计场景，都配置了一套上面的生图参数，每个场景的需求不同，使用的模型也不同。像是用于偏向原画生成会选择 nijiv5style 模型，用于人物生成会选择 MeinaMix 模型，用于写真场景会选择 revAnimatedv122 模型等。另外场景会配合用于生成特定功能、特定风格、特定形象 LoRA 进行微调。共同实现该场景下图片生成的工作。

这样，一个看上去复杂的生图工作，就被汇总为简单三步：书写提示词、选择应用场景、点击生成。即刻获得理想的设计素材。

2.2 提示词模版

在上文的三步生图步骤中，第一步就是提示词。提示词关系到了图片生成的内容、风格、角度等。提示词之于文生图，就仿佛剧本分镜之于电影，就仿佛草稿大纲之于小说，就仿佛说明规则方法之于 AutoGPT。是决定了一张图片灵魂与命运的主旋律。

但是，往往越是重要的东西，很多同学在使用的时候越是无从下手。因此，我们总结了一套公式，用于拼装组合成文生图的提示词。有了这套公式，在书写提示词也会知道如何下手，并且如何科学的修改提示词。

提示词万能公式 = 画面主体 + 主体修饰 + 镜头光影 + 风格设定

这套提示词主要包含四部分：

画面主体：画面中主体内容，通常是人物、动物、物体。例如：少年、美少女、羊、湖泊、高山、礼物盒、黑胶、唱片机等；
主体修饰：接下来就是描述主体状态的词语。例如：五官（大眼睛、红嘴唇）、表情（微笑、困惑、叹息）、头发（长头发、粉色头饰）、服饰（牛仔裤、汉服、圣诞帽），动作（跑、跳、飞），环境（城市、草原、日出、花海、沙漠、戈壁、大海）
镜头光影：这部分主要就是成像的角度和光影，有摄影经验的同学会有体会。例如：镜头角度（中景、俯视图、水下拍摄、广角）、光线（氛围光、丁达尔效应、霓虹光）、画面质量（大师质量、高清画质）
风格设定：最后就是整体呈现的画面风格，这部分有些情况下也会由模型和 LoRA 来代替。例如：风格（吉卜力风格、皮克斯动画）、画面类型（照片、写实、纹理、中国风）

如此按照上面的结构，就可以完成一个标准的文生图提示词。至于为什么需要这么做，我会在下面章节「如何写好提示词」进行进一步的阐述。

但是，像是 SDXL 这样的模型，已经完全摆脱了这样类似 tag 的描述方式。SDXL 完全支持通过语义化描述画面内容的方式，例如我在一次业务中使用到的描述：

远处是沙漠,近处是胡杨树林,大面积的湖面,戈壁,少量羊,蒙古包,丰富细节,水粉画,远景,风景

2.3 高级设置、历史记录、素材库

对于 Stable Diffusion 的高级玩家，或是对生图需要细致调节的用户，我们也准备了高级设置功能。

尺寸-分辨率：常用模型尺寸围绕 512*512 进行配置，SDXL 围绕 1024*1024 进行修改，这是和模型训练时使用的资源相关的；
迭代次数：Stable Diffusion 是基于噪点图像生成图片的，每次的迭代会对比提示词和当前迭代结果，默认值即可，某些情况下增加迭代次数可以增加图片细节；
提示词强度：迭代过程与提示词的对比强度；
随机种子：代表起始生成的噪点图；

我们还支持了生成历史和素材库两个功能。

「生成历史」包含了使用 Fin2.0 生图工具过程中生产的所有图片，收藏功能便于用户查找精品图片。

「素材库」是 Fin2.0 内部画廊，优秀作品的展出舞台。想要生成同款素材可以使用一键同款功能，复制提示词和参数，生成自己的素材。

三、Fin2.0 生图经验分享

在推广 Fin2.0 生图工具的过程，有各种各样的使用生图工具的姿势。最典型的一种就是只描述自己的需求，但是没有描述图片的具体内容。例如：

我想要一个盲盒皮肤

想要使用好工具，除了通过定制生图模型参数、科学配比提示词，最好的方式就是了解生图模型是如何运作的。这样，知其然知其所以然，才能更好的使用生图工具。下面我就通过自己的视角，来解释生图模型和提示词在其的作用。以及如何在使用最基本的生图模式的情况下，更好的完成复杂图片的生成。

3.1 如何理解生图模型

Stable Diffusion 的生图原则，就是将文字信息和图片信息通过噪声预测器进行转化。这样在文生图的时候，就可以把文字信息转化为图片信息。图生图同理，把图片信息加上一定的文字信息（作为修改）再转化为图片信息。

因为每张图片像素分布满足一定规律分布，比如人脸有眼睛鼻子嘴巴，汽车是长方体有轮子。因此可以利用文本信息作为指导，把一张纯噪声的图片逐步去噪，生成一张跟文本信息匹配的图片。

整个生图过程是一个组合系统，里面包含了多个模型子模块。

首先，把文本信息转化为数字信息，这里就用到了文本编码器 text encoder（蓝色模块），可以把文字转换成计算机能理解的某种数学表示，它的输入是文字串，输出是一系列具有输入文字信息的语义向量。

接下来，有了这个语义向量，就可以作为后续图片生成器 image generator（粉黄组合框）的一个控制输入，这也是 stable diffusion 的核心模块。图片生成器生成潜在图像（也就是噪声图片），噪声预测器根据语义向量估计噪声图片中的噪声，从噪声图片中减去预测出来的噪声，生成新的潜在图像。多次重复上面的「预测+去除噪声」过程，最终得到生成图片。

想要使用好文生图，理解到这里就够了。因此想要生成一张好的图片，最好的办法就是描述出图片中的信息，也就是描述清楚提示词。

3.2 如何理解提示词

上面提示词模版介绍了如何科学的书写提示词。那么根据上文中图片信息是由文字信息转化来的，这里的文字信息一般用 token 表示（对，就是 ChatGPT 里同样使用的 token）。因此，也就难怪为什么我们描述图片信息的时候，都是一个一个的单词或短语了。当然，最新的 SDXL1.0 模型已经支持用自然语言描述图片内容。

至于为什么这么写提示词，我们还是从训练模型的过程中找找原因。训练一个图片模型，一定会需要图片和文字信息成对存在，也可以称为打标签。接下来，我们来做个测试。下面是是一张我用 Fin2.0 文生图创建的图片，请描述下面的图片：

如果没有经过一定的训练，或是按照一定的标准。我想大家的描述可能会是这样的：

戈壁图片，有山、有水、有羊；
黄色的草原氛围图；
新疆山水+胡杨树+羊；

我实际采用的描述词是这样的：

远处是沙漠,近处是大面积的胡杨树林,大面积的湖面,戈壁,绵羊,蒙古包,丰富细节,近景,风景,儿童水彩画,

可以看到，一张图片在不同人的理解下，所使用的文字描述一定是不同的。但是，在进行模型训练的时候，大多都是采用 tag 的方式，按照画面主体、主体描述、风格设定、镜头光影，这样大致的分类来分层次描述。因此，这也是为什么采用上面的格式书写提示词，才是最高效的。

3.3 如何制作复杂图片

在实际使用文生图的过程中，已经按照提示词模版科学的书写提示词，可是画面还是不受控制，还是没有达到我想要的样子，这是为什么呢？

有一部分原因是对模型理解的不到位。比如：使用了一个擅长生成风景的模型来生成人物；使用了一个擅长生成国风风格的模型来生成漫画风；使用 1024*1024 尺寸来要求模型（训练时采用的 512*512 尺寸图片）生成图片，结果图片崩坏多头多手（SDXL1.0 是支持 1024*1024 尺寸图片生成的）。

因此，对一个新需求最快捷的完成方式是：一方面，查看模型的预览图，查找最合适的模型，按照常规 512*512 尺寸生图；另一方面，可以采用同一批提示词，对不同模型进行尝试，查找最符合自己需求的模型或场景。

选好了模型，再有就是给模型提供更多的信息。按照上文模型生图的原理，除了可以提供文字信息，也可以提供图像信息，通过图生图来生成。

下面，我就介绍下在没有 controlnet 或是其他 Stable Diffusion 插件的情况下，实际生产过程是如何如何生成复杂图片的。比如有这样一个需求：需要生成一个盲盒贴图，画面中有情侣头像、爱心、花朵、问号元素。如果简单把元素输入到提示词当中，那一定是抽盲盒似的，每次生成的内容都是不一样的，而且很少有图片能达到设计需求。

通过图生图生成图像，就好像为图片生成了一部分草稿，让模型按照我们的要求来生成图像。因此我先生成局部头像，然后采用设计工具 mastergo 或 figma 对图像进行拼装，配合上底色和关键元素问号。最后，使用这样一张草图让模型进行重新润色。这样只需几个简单的过程，就可以很快的得到理想的图片。

四、总结

现在 Fin2.0 文生图已经有大量的落地案例。例如：

云音乐商务推广运营位图片
云音乐商城 H5 头图
社交直播盲盒贴图
社交直播称号背景图
...

想用好一个工具，最好的办法还是多练习。本文只是从很基础的方式介绍了如何使用 Fin2.0 生图工具，如何填写提示词，如何理解模型、理解提示词，如何采用更高效的方式生成更复杂的图片。除此之外，Stable Diffusion 还有很多值得去学习的知识。例如：上面罗列的那么多文生图过程中使用的参数，对生成图像有什么影响？文中提到的 ControlNet 是什么东西？如何生成更高清画质的图像？

回到文章最初，Fin2.0 工具的愿景就是：通过 AIGC 赋能设计过程，降低设计的门槛和成本，让业务创新变得简单。接下来我们会持续收集用户在使用文生图过程中的反馈。持续迭代优化产品，通过 Fin2.0 为用户提供更多便捷易用的功能。

参考链接

更多岗位，可进入网易招聘官网查看 https://hr.163.com/

云音乐社交直播活动校验自动化

2023-11-10T10:32:49+08:00

本文作者: 赵浪、孙佛喜

针对社交直播活动的特殊性，从日常任务榜单回归以及线上配置检查2个角度出发，搭建活动体系下的回归校验平台，提高人效，保障线上活动质量。

背景

活动在社交直播的业务中占比较重，且周期短、频次高、玩法复杂多样，在人力投入有限的情况下，活动的质量保障存在以下挑战:

回归投入人力高：对于运营类的日常活动，一次开发完成后，后续高频的日常的活动多以运营为主，但每次启用此类活动，都需要投入人力回归一遍。因此，寻求一套自动化的回归方案，变得必要且重要。
配置校验易出错：活动有着复杂的玩法场景，但为了保证其运营的自由度，往往会存在大量的运营配置。运营一般是以文档的形式编写活动所需的所有配置，然后提供给各需求方查阅。一方面，大量的文本信息，查阅方难以准确的定位到各自业务关注的信息；另一方面，这些配置数据配置到线上各个后台后，需要再拉齐开发、QA和策划完成线上配置的人工检查，效率极低。

针对以上两点，分别实现活动回归和配置校验的自动化流程。

活动回归自动化

运营类的日常活动，场景基本固定，回归流程也比较标准。但人工回归成本较高，且存在人员调整对业务不熟悉的情况。因此可按照标准回归流程，实现一套自动化回归的流程。

目前使用的GoAPI平台存在以下困难：

构造活动场景的数据困难。活动数据的构造，需要一系列的配置辅助，目前GoAPI比较独立，无法形成联动。
场景用例较为复杂，GoAPI的场景能力无法支持。
结果校验，GoAPI自由度不够，校验有限。
无法生成活动的整体回归报告。

因此，考虑通过平台调度+用例脚本的形式，实现从造数，到场景执行，再到校验，最后生成可视化报告的整体流程。流程如如下：

任务管理系统:负责管理计划任务的创建、执行和可视化报告：
一类活动对应一套用例，维护在单独的脚本工程中，并通过Jenkins任务调度执行。
任务管理系统触发Jenkins任务，先执行前置脚本，完成整体的准备工作，再逐一执行用例脚本,完成该类活动的回归执行。
用例执行结果异步上报任务系统，再生成可视化报告（支持分组维度和结果维度）：

活动配置校验自动化

在一次大型的活动中，存在多场次不同类型玩法的组合，每个玩法是不同的运营人员来规划运营和协作，当前的配置和检查流程如下：

各个运营人员按照各自的业务需求,在共享文档中,对各自业务的玩法配置做记录；
然后在各自在线上配置后台中完成活动配置数据的录入;
上线前，运营人员协同技术人员，通过人工检查的方式,对线上配置数据进行检查。

以上流程存在的痛点：

配置信息量大，没有标准化的配置文档，配置的层次结构不清晰，一方面无法统筹整个活动配置，一方面难以聚焦关注的配置数据。
线上配置分散在多个平台页面中，靠人工检查，容易遗漏。

方案

为了解决以上配置非标准化带来的各种痛点问题，我们结合当前活动的业务场景，将配置规范化为四大模块：榜单、任务、抽奖、兑换。然后在此基础上，结合业务提供的配置查询能力，实现一整套活动配置校验的自动化。架构如下：

文档：在活动的维度，以在线导图的形式，记录活动配置数据。支持大纲视图和导图两种预览形式。
Template：比对模板，配置数据中存在大量的属性数据，属性数据有些是需要校验，有些是不需要校验，因此转成统一的模板,来进行对比校验。
Validator：校验器，完成线上配置数据的比对模板与文档配置数据的比对模板的校验,并输出校验结果。

操作流程

具体的后台操作上，我们考虑借鉴导图的模式，来实现统一的数据规划。通过实现在线结构化导图的形式，来替代非标准化的共享文档记录方式，既能够更清晰的统筹一次活动的所有配置数据，也能够快速聚焦到某一块关注的配置数据。具体操作界面如下：

一次大型活动的所有配置称之为“文档”，或者说文档就是活动所有配置的集合体，统一在文档后台管理：
文档的具体配置中，以活动为根节点，借鉴在线导图的形式，逐级划分子活动，然后子活动中挂载具体的业务场景配置（也就是规范出来的四大模块），整体的结构如下：
导图中，节点支持增删改，双击模块节点可进入模块的配置面板。结合每个模块需要的业务配置项，将业务预期的结果数据，转化为标准的配置数据，具体如下：
文档管理后台触发校验后，后端异步执行校验，并将校验结果划分为四类：
- 线上一致：某一项配置数据，文档和线上的配置一致。
- 线上缺失：某一项配置数据，文档中有，但线上没有配置。
- 线上多出：某一项配置数据，文档中没有，但线上有配置。
- 线上差异：某一项配置数据，文档和线上都有配置，但是配置数据不一致。
校验报告同样按照子活动-结果分类-具体配置项的层级聚合展示，示例如下：

至此，一整个配置和校验流程结束。

总结

活动回归自动化，实现了计划管理、Jenkins任务调度、场景用例脚本执行和可视化报告的能力，完成了直播&社交直播下活动榜单和活动任务的核心场景接入。在借助平台的自动化回归能力，可快速完成榜单和任务模块的回归验证，从原有的人工手动验证1d降低至0.2d，在提升回归效率的同时又增加了活动核心场景的保障维稳手段。
活动配置校验自动化，实现了文档的管理能力、活动业务数据查询能力、文档配置与线上配置的比对校验能力。同时提供了丰富的可视化文档页面，可快速进行活动模块数据的查阅。在配置比对效率上，从原有的各项目参与同学线下拉会对齐（单人*0.5d），降低至单人0.1d，提高了整个活动团队的配置比对效率，在大型活动中效果更为显著。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe@corp.netease.com！

云音乐服务监控系统（Pylon APM）建设实践

2023-11-07T10:45:11+08:00

本文作者：碧海（蒋星韬）

云音乐服务监控系统（代号：Pylon APM）为业务提供服务监控，链路追踪，治理分析，问题诊断等能力，本文介绍了平台建设中的一些实践经验。

一、背景介绍

云音乐服务端原有的服务端应用监控体系，存在很多痛点和问题，导致出现线上问题时，定位的效率不太理想。服务端应用监控体系主要存在以下几个问题：

Trace链路完整性问题：老的trace是通过组件sdk埋点的形式，进行trace的记录与输出，导致了trace的完整性依赖埋点逻辑，如果链路埋点处理不正确，会出现上下文异步透传丢失，trace数据冲突混乱的问题。同时，对于异常的非采样链路，在采集时，无法回溯上游来源，经常出现定位信息不足的问题。
Trace与Metric割裂问题：trace与metric之间缺少数据关联，metric服务监控数据依赖其他平台，导致慢请求，慢sql之类的问题场景定位时，找不到具体发生问题的trace。线上发生异常错误指标报警时，很难找到对应的错误链路，定位问题效率低下。
Trace与日志联动问题：业务服务产生ERROR日志时，有追溯异常调用的来源的需求。低采样率的线上场景，只能找到日志，而找不到请求的具体链路，对问题排查帮助很小。
版本升级迭代困难：版本升级依赖业务服务升级sdk，推进困难，功能迭代效率低。

开源项目中Pinpoint和SkyWalking都是目前比较成熟的链路追踪方案，两者各有优劣，在对比中，我们发现Pinpoint与云音乐的链路模型更加接近，插件开发也更加友好，并且国内有多个基于Pinpoint的商业化落地项目落地，稳定性有保障。

最终我们选择基于Pinpoint开源方案，进行了深度的自研改造和优化，希望达成以下目标：

业务服务解耦：Java Agent形式实现应用监控功能，与服务代码完全解耦，业务无感知接入，无感知升级。插件化实现，能够在管控平台通过开关动态控制细粒度功能的开关。
保证链路完整性：通过异步上下文管理无感知解决了链路异步透传的问题，保证trace透传的完整性。同时通过TailBased方案，实现了异常错误链路完整采样的能力，最大限度的保证链路问题定位有效性。
集成Metric能力：通过集成prometheus组件，实现了应用服务监控的能力，开发相比哨兵监控项更加简单。同时实现了Metric监控联通Trace的能力，对于指定监控指标，能够根据监控值检索对应Trace。
问题快速诊断：不论是异常日志，还是错误、长耗时调用，都能通过元数据或监控数据关联到完整的链路，在平台快速下钻，提升问题定位效率。
问题诊断工具：提供自动异常现场采集能力，集成白屏化诊断工具，完善问题分析能力。

二、项目思路与方案

2.1 项目整体架构

主要分为Agent和Console两个部分，Agent主要负责Trace生成与传递，Metric记录与上报，实现了一套字节码注入工具，以及数据处理框架，再通过插件化的形式，实现不同组件的trace与metric能力。Console主要负责数据的收集与存储，分析与展示，将Trace，metric，log联动的数据模型，通过链路问题定位能力串联起来，实现快速的问题诊断。

2.2 基于Pinpoint开发的Java Agent

开源的Pinpoint实现了插件化的Trace能力，并且实现了很多常用的中间件的插件，但是开源Pinpoint Agent依旧存在以下问题：

Trace模型过于简单，对于部分Trace使用场景无法很好支持（比如消息队列多个消费者的场景，消费者之间无法区分），支持的链路类型有限，元数据管理不方便。
上下文透传能力支持不足，Trace上下文因为支持透传，很多时候业务上下文，可以复用这部分能力，不需要重复开发，Pinpoint这块支持不足。
异常链路回溯采样不完整，对于非采样链路，出现异常时，无法回溯采集上游，定位效率会大打折扣。
不支持Metric能力，无法关联监控数据，浪费了切面中的数据与状态结果。

2.2.1 扩展Trace数据模型

基于Pinpoint Trace-Span-SpanEvent的模型，扩展了部分关联字段和透传字段，使得Trace能够支持多下游关联，异步下游关联，异步回调关联等能力。在上下文透传上，支持进程内字段透传，跨进程字段透传，跨进程字段反向透传，并提供专门的透传sdk供接入方使用。

2.2.2 异常链路后置采样

链路上发生单点异常时，如果只是把异常点及其下游链路采集上来是比较容易的，但是这样带来的问题定位收益并不高，很多时候不知道上游来源的话，问题定位无法继续下去。为了解决异常链路完整采样的问题，我们实现了一套TailBased的异常链路采集能力。具体方案示意如下图：

每个服务节点上，对于短时间内的Trace，会先全量输出到一个全量日志中，当链路上发生异常时，对应服务的Agent会将异常TraceId写入到中心化缓存中，并在Trace上下文信息中带上标记。独立的Tail线程会以一个稳定的延迟（30s~1min），扫描全量日志中的trace数据，发现存在于缓存中的异常TraceId后，将该TraceId关联的链路数据写入到最终的采集日志中，实现完整的链路采集。

2.2.3 Prometheus监控集成

我们在Agent端集成Prometheus sdk，用以记录和输出监控数据，服务端通过Pull请求定时拉取每台服务上的监控数据，进行数据的预聚合，最终写入到vm storage存储中。监控数据在记录过程中，还会与当前TraceId进行关联，输出到关联日志中，保证每项监控数据，都有一定的Trace链路数据进行关联定位与分析。关联示意图如下所示：

2.2.4 自动Jstack采集

线上服务在发生问题时，经常要面对抓不到现场的情况。我们对于有可能出现服务阻塞的场景，启动了异步监听任务。当调用方法执行时间超出设定阈值时，对当前线程执行一次Jstack堆栈采集，将当前的执行现场保存下来，同时关联TraceId和方法监控指标，便于追溯。流程示意图如下：

2.3 APM产品设计

开源的Pinpoint自带了pinpoint-web管控界面并不能满足我们的需求，我们重新开发了一套APM平台，以应用为中心视角，划分不同维度的监控指标，再到不同监控视角下，通过Trace，Metric，Log联动，来帮助快速定位线上问题，APM平台主要具备以下几个能力。

2.3.1 链路详情诊断

完整的展示从请求入口到下游所有节点的调用拓扑关系，以及请求耗时分布信息，是链路详情的基本功能。为了定位关键透传字段丢失的情况，验证链路上下文正确与否，平台链路详情中还包含透传字段以及部分请求参数，使用者可以选择全局视角或进程视角查看调用栈，状态参数帮助快速定位到异常节点。

在链路详情页可以查看关联的日志信息，实现与日志联动定位问题。

单个调用接口的详情页中，除了进程内调用栈，还有监控信息联动。

2.3.2 应用监控图表

平台以应用视角为中心，利用Agent集成的监控数据采集，构建了监控图表大盘，通过不同的元数据分类，平台支持HTTP，RPC，消息，数据库，缓存等各个独立视角的监控数据，以大盘曲线结合表格下钻的形式展现。

大盘图表在Grafana基础上，做了二次开发，支持同环比分析，多实例比较等实用的数据分析功能。

2.3.3 异常错误长耗时关联分析

为了解决目前查找异常监控点相关链路时，找不到可用链路，导致问题定位进展困难的问题。我们平台打通了监控数据与关联的TraceId，让使用方能够快速的找到关联链路，推进问题定位。平台提供了监控大盘图表，以及相关的下钻链路检索，用户可以在界面上定向检索关联的异常链路TraceId，每个TraceId下钻后，会到达详细的Trace详情页。

2.3.4 耗时请求Jstack追踪

触发了自动Jstack采集的方法，在平台上会给出提示文案。每个具体的Jstack采集结果，有详细的堆栈信息，关联的Trace上下文信息以及线程池信息。除开自动Jstack采集，平台还支持主动下发Jstack请求，主动抓取现场。

2.3.5 Arthas在线诊断

平台还集成了Jstack，Arthas等使用频率较高的定位工具。通过Agent连接，用户可以在平台上使用工具直接对服务进行信息采集。采集结果被收集后，平台提供更友好的展示和进一步分析的能力。

三、项目总结

在项目的开发学习过程中，我们积累沉淀了一些线上问题定位的方法论，总结了很多针对服务端问题定位的流程与工具。我们希望能够将这部分经验通过产品的形式呈现出来，来帮助面对问题无从下手的同学，通过路径引导快速得到问题信息。对于有一定问题定位经验同学，提供更加易用，更加高效定位工具，打通定位流程上的各个环节。最终达到快速定位发现线上问题，快速止血的目标。

当然，线上服务治理不是光靠单一平台就能完全覆盖的，Pylon大平台下还提供了业务日志，监控分析，告警治理，场景事件等多个子平台，来帮助我们更好的进行线上服务治理。我们会在后续的文章中，逐一介绍这些平台的建设实践。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们
grp.music-fe(at)corp.netease.com！

云音乐 CMS 平台 AIGC 实践与新特性实现总结

2023-11-02T11:05:24+08:00

本文作者：辰木

本文主要是介绍下云音乐 CMS 平台在 AIGC 方向的一些探索、实践以及相关能力的实现总结

背景

现如今随着 LLM 在实际业务生产中的不断尝试和实践落地，在中后台场景下以 ChatUI 为主要交互方式的智能助手，是必不可少的存在；这种通过聊天对话就能完成用户使用诉求的方式，在一定程度上极大地改变了用户传统的使用习惯。

目前由于云音乐 CMS 平台大都已使用 Tempo 框架，相关介绍参见上一篇分享《云音乐 CMS UI 框架建设思考与实践》，一些平台的个性化定制和移动办公诉求也接踵而至，这些诉求对 Tempo 提出了新的要求。

现状

为了更好更快地响应业务平台的一些个性化诉求，Tempo 通过不断抽象平台属性以完善其配置能力。对于诸如修改平台 Logo、Logo 跳转链接、标题、页脚信息、Layout 布局、自定义搜索内容等，期望都可在线一键修改配置完成，以便减少业务开发人员因增加或修改这类需求而带来的研发和时间成本。

由于 Tempo 已经在近 100+ 的主应用中落地使用，尽管主应用的发布频率较低，每次 Tempo 的升级都需要主应用升级相关依赖版本并在 Febase（PS：云音乐前端应用研发和部署平台）重新部署，而这种方式带来的升级成本也是很高的。

与此同时，鉴于内部日常的沟通和办公都是基于 Popo，其登陆态并未与 CMS 平台打通，平台移动端样式也未适配，导致一些业务场景办公只能在 PC 端完成，无法满足这类用户移动办公的诉求。

问题

通过对主应用的日常迭代需求和当前研发现状分析，不难发现一些问题：

Tempo 的每次版本升级，都需要主应用需要更新依赖版本重新发布部署，无法做到免发布部署上线。
平台功能复杂，新用户使用上手成本高，无智能问答和交互能力
CMS 平台未支持登录态互通和多端样式适配，用户无法实现移动办公
无论是对于简单还是复杂需求，都需要研发人员代码开发，无法做到在线配置，插件加载

解法

为了解决以上问题，Tempo 明确了一切新特性都需构建在免发布部署之上，从而重新定义了主应用的研发模式，并支持了几项新特性分别如下：

免发布部署

由于免发布部署是构建一切新特性的基础能力，通过对日常主应用迭代的需求做了总结和分类，明确主应用新的研发模式为：简单需求在线配置，复杂需求代码开发和插件加载，公共特性自动升级。

简单需求：修改平台 Logo、标题、页脚信息、Layout 布局、搜索内容自定义等
复杂需求：业务内特殊场景的自定义功能模块，如：无权限展示、人群圈选规则等
公共特性：智能助手接入、移动办公支持等

由于 Febase 默认的构建部署以及静态资源服务能力，无法对构建后的 html 内容做自定义修改；尽管靠建设新的网关和渲染服务可以实现 html 内容的自定义和动态渲染，但对于想尽快上线免发布部署能力来说，这无疑是增加了更多的实现和后期运维成本。

实现方案

那么，有没有一种 ROI 较低的方案来实现免发布能力呢？答案是有的，即：通过在 Febase 云构建时 external 主应用中 Tempo 的依赖，在构建完成后修改 html 内容增加 meta 标签用以存储获取版本的关键参数和真实 entry 文件路径，并动态修改 entry 入口为 loader 脚本；该脚本的作用是通过接口获取主应用的配置信息和 Tempo 的最新版本，在获取到版本信息后，在动态加载 Tempo 的 umd 资源地址和真正 entry 文件路径即可。整体流程如下：

成本收益

通过这样的方式改造和实现后，后续免发布能力仅需维护 loader 和构建插件逻辑即可。带来的收益也是很可观，主要体现在以下 2 个方面：

对于 Tempo 来说：
- 仅需维护 loader 和构建插件逻辑，升级范围在一定程度内是可控
- 对于 Tempo 来说，在自身版本升级后，可全量推送新特性，无需推动已接入的主应用重新部署。
对于接入 Tempo 的主应用来说：
- 仅需一次部署，后续能力自动生效，对简单需求可做到在线一键配置直接发布，对复杂需求可通过异步加载插件的方式实现。
- 支持加载指定的 Tempo 版本，无需担心 BR 可能带来的任何问题
- 无需关注 Tempo 升级而带来的主应用发布部署成本，可直接享受升级后的最新公共特性能力。

当然，由于 Tempo 新版本默认打开免发布部署能力，考虑到一些主应用许久未更新 Tempo 版本，可能会出现一些未知的 BR。因此也支持关闭免发布部署能力，仅需在 chitu.config.js 中修改参数即可，示例代码如下：

AIGC 探索与实践

由于 ChatGPT 的横空出世，基于 LLM 的逻辑理解和推导能力以及对话式交互方式，掀起了 AIGC 的新一轮浪潮。相比较 C 端场景，在中后台场景下其交互和业务逻辑的复杂性使得平台本身具备一定的复杂度。当新用户想要快速了解和使用平台能力时，很多时候只能通过翻阅文档或摸索使用来确定平台具体的功能，这在一定程度上增加了平台的上手和理解成本。

而云音乐各类 CMS 平台也面临着类似的诸多问题，在这个背景下云音乐公技前端团队探索并构建了一个低成本接入 LLM 服务的产品方案；通过建设基础服务、收敛和沉淀通用服务、UI 交互和表达的方式，帮助业务快速地、低成本地构建知识库、智能问答、AI 驱动产品功能等一系列能力。

智能识别

相比较通过 NLP 来识别用户意图，LLM 的逻辑理解和推导能力更胜一筹；不仅能准确理解用户输入的内容，也能借助 Prompt 来提取用户输入的关键参数，具体展示如下：

智能回答

在识别到用户的意图后，可根据服务返回的结果类型展示不同的内容，具体展示如下：

智能交互

根据已识别的用户意图动作也可进一步与平台交互通信，比如打开页面、回填表单数据等，主要交互方式如下：

多端样式适配

为了满足业务人员移动办公的诉求，Tempo 支持多端自适应能力，并将用户的登录态与 PMS（PS：云音乐权限管理系统）做了打通处理，当在 Popo 内打开 CMS 平台应用链接时可直接免登成功。
在实现自适应能力时，主要考虑了以下三点：

屏幕宽度区间

根据不同屏幕大小的宽度，对屏幕宽度区间做了划分处理，整体分为三大类：

PC 屏幕展示（Screen >= 1200px），Layout 菜单支持上-左、左、上的布局，内容弹性布局展示，显示如下：

Pad 屏幕展示（1200px > Screen >= 768px），Layout 菜单仅支持左侧布局，内容弹性布局展示，显示如下：

Phone 屏幕展示（768px > Screen），Layout 菜单默认不显示，通过点击 Logo 后左侧浮层唤出，表单内标题和控件各占一行显示，具体布局风格如下：

组件适配

当确定了屏幕宽度区间后，就可以对依赖的组件进行样式适配，由于高频场景下都是一些容器、表格和表单、详情展示类组件，因此仅对这些高频组件做了相应的适配支持，主要包括：Modal、Table、Form、Layout、Description。

在对组件适配各端样式时，考虑 Pad 会有横屏模式，因此整体对端类型做了 5 种分类，实现了公共的 hook 以及获取屏幕类型、高度、宽度方法，具体方法实现如下：

链接分享

具体的免登实现是在在一个 H5 中转页面内做逻辑验证处理（具体实现不再此处过多说明），在 CMS 平台升级完成后，默认会在右下角增加分享当前页面的 Popo 链接地址入口，展示如下：

在线配置

在线配置能力是基于 PaaS 提供的主应用配置服务而实现的，Tempo 对一些常见的平台属性做了进一步的抽象和默认配置；不仅支持在线修改，也提供了相应的原子组件方便自定义动作或渲染逻辑；配置属性的优先级是：原子组件属性 > 主应用在线配置 > Tempo 默认配置，抽象的配置属性如下：

插件加载

异步加载插件是 Tempo 提供的另外一个能力，借助主应用在线配置能力，配置好目标插件的 umd 资源后，在平台初始化显示时自动加载该资源脚本。

当主应用或者子应用需要消费该插件时，可通过全局的 window 对象来获取，其对应的 key 为 umd 包的 library 名称。异步加载插件的组件核心实现如下：

总结

以上就是 Tempo 带来的新能力增强以及相关实现思路，通过免发布部署能力，让已接入 Tempo 的主应用具备自动升级特性，直接具备多端适配和移动办公能力；通过在线增加相关配置，可一键接入智能助手，这在一定程度上极大的降低了主应用因升级依赖而带来的研发部署成本。

未来，Tempo 会继续从业务实际场景出发，进一步封装和完善相应能力，为业务提效带来更多便利。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe(at)corp.netease.com！

Corona技术专题-时序数据分析

2023-10-27T10:23:41+08:00

本文作者: kkdev163

Corona 技术专题系列文章:

一. 前言

在 Corona 平台的技术体系建设中，时序数据库承担了时序数据的「存储」和「分析」的关键作用。本文将介绍三款数据库在 Corona 时序分析场景下的应用。分别是 InfluxDB、ClickHouse、ElasticSearch。无论您是大前端或是服务端开发同学，通过本文的阅读您都将掌握时序数据库的基本概念、特点，从而帮助您更好地理解和使用市面上的监控类产品，也为您创建类似的服务提供一些启发。

二. 时序数据库简介

2.1 什么是时序数据？

时序数据是按时间顺序排序的一组数字序列，它可以反应某一现象的变化规律。在我们的日常生活中时序数据随处可见，如「天气预报时序走势图」它反映了温度随时间变化的规律; 如「油价时序走势图」它反应了油价随时间变化的规律:

在应用监控领域，时序走势图能够反应「应用健康度」随时间变化的趋势，是用户最为关注的几类图表之一:

除了分钟级粒度的数据，有时也需要按「小时级」、「天级」粒度查看走势数据：

除了整体维度，用户也可以按某个特征维度对走势数据做分类(下表对比了不同档次机型的加载时间走势):

对时序数据做上述分析的过程我们可以称其为时序数据分析。便于存储时序数据、提供时序数据分析能力的数据库我们称其为时序数据库。

2.2 时序数据库中的基本概念

1.时间列

时序数据库的主要查询和分析能力与「时间」字段有较大关联，所以在设计时序数据库的表结构时通常会将「时间」字段作为「索引」字段。

这样的设计方便应用快速筛选出目标范围的时序数据，并且时序数据库也提供了一系列「时间」相关的工具函数，方便我们在时序数据上按不同的时间粒度(如分钟、小时、天 )做聚合分析。

2.维度列

在储存时序数据时，通常会附带上这条数据的维度信息，维度信息可以在后续分析时作为过滤或聚合的条件。如天气时序数据中，会有「城市」维度，维度值为北京、上海、杭州等。油价时序数据中，会有「汽油标号」维度，维度值为 92、95、98 等。

在表结构设计时通常高频的查询和聚合维度也是建议作为「索引」字段存储。

3.数值列

时序数据的数值，如天气时序数据中的「温度值」、油价时序数据中的「价格」，会作为数值列进行存储。

时序数据库会提供一系列的工具函数对数值列做分析计算。常见的分析函数有：

avg 求平均值
max 求最大值
min 求最小值

组合以上的基本概念，我们可以运用时序数据库就做一些常见的时序分析，如:

查询 2023 年 9 月份杭州每天的平均温度值走势 SQL：

SELECT toStartOfDay(time), avg(degree)
FROM table_temperature
WHERE
    time>='2023-09-01' AND
    time<'2023-10-01' AND
    city='杭州'
GROUP BY toStartOfDay(time)

查询最近 10 年各品类汽油每年的平均价格走势 SQL:

SELECT toYear(time), model, avg(price)
FROM table_gas
WHERE
    time>='2013-01-01' AND
    time<'2023-01-01'
GROUP BY toYear(time), model

4.数据过期时间 TTL

时序数据的另一个特点是关注近期的数据，距离当前比较久远的数据相对来说没那么重要，有时出于存储容量的考虑，我们甚至会希望自动删除老旧的数据。

时序数据库一般会提供 TTL (Time To Live) 功能，在设计数据库表结构时，一般会根据数据表的聚合粒度设置相应的过期时间。如原始数据或分钟级的数据保留 30 天，小时或天级的聚合数据保留 1 年。

简要介绍完时序数据分析和时序数据库的基本概念后，下文将介绍三款经典数据库在 Corona 时序分析场景下的应用。分别是 InfluxDB、ClickHouse、ElasticSearch。

三. InfluxDB

3.1 简介

InfluxDB 是一款经典的开源时序数据库。在 InfluxDB 中有几个常用的概念

1.measurement

measurement 是 InfluxDB 中的数据表。一张 measurement 中可包含一个时间列(time column)、多个维度列(tag column)、多个数值列(field column)。

用户无需手动使用 CREATE 语句创建 measurement，InfluxDB 会在写入的数据时动态创建 measurement、动态新增维度列与数据列。

2.tag

tag column 是 InfluxDB 中的维度列，InfluxDB 会为所有的维度列建立索引。在设计表结构时，我们需要将经常作为查询条件、聚合条件的字段作为 tag 列进行存储。

在设计 tag 列时，需要特别留意的是 tag 列的潜在值是要可收敛的，不能是无限增长的。

举几个对比的例子:

Good Case	Bad Case
监控页面的域名(location.host)	监控页面的 URL (location.href)
设备操作系统	设备 UUID
歌曲文件类型	歌曲 ID

以监控页面的 URL 为例，它可能会带有路径参数或 query 参数，导致维度值非常离散，我们需要避免将这一类难以聚合的字段设计为 tag 列的原因是: InfluxDB 为了查询/写入性能，会为所有的 tag 列建立索引，而索引的规模直接影响内存的占用开销。若 tag 列设计不合理，极易造成 InfluxDB 的内存持续增长甚至出现 OOM 的情况。

3.field

field column 是 InfluxDB 中的数值列，数据类型可以是数字、字符串型。在设计表结构时，我们需要将未来用于数值统计分析的字段作为 field 列存储。一些不常作为查询条件、无法收敛的额外信息也可以放到 field 列进行存储。

4.retention policy

RP(retention policy) 数据保留策略，是 InfluxDB 的 TTL 实现机制。RP 可以在创建数据库后随时新增、变更。我们可以为一个数据库创建多个 RP。如:

create retention policy one_week on apm_log duration 7d default;
create retention policy one_year on apm_log duration 365d;

在数据写入时，我们可以根据数据的重要度、时效性显示地指定使用哪个 RP，数据在超过保留时间后，就会自动删除。

5.continue query

CQ(continue query) 持续查询，可用于数据归档、降采样。举例来说当我们采集的原始数据是分级的，我们可以使用 CQ 功能，将原始表的数据聚合写入小时级表。

CREATE CONTINUE QUERY "cq_event" ON "apm_log"
BEGIN
  SELECT SUM("pv") as pv
  INTO "one_year"."cq_hour_event"
  FROM "one_week"."cq_minute_event"
  GROUP BY time(1h), *
END

创建完 CQ 任务后，InfluxDB 就会每小时执行一次聚合任务。这样后续在查询的时候，可以直接从聚合结果中查询，加快查询速度。

3.2 在 Corona 中的应用场景

InfluxDB 在 Corona 平台中主要有以下几个应用场景:

存储 C 端用户上报的访问量、性能等「预聚合结果」数据
存储平台自身运行健康度的「原始」数据

1.存储「预聚合结果」数据

在平台上线初期，我们曾使用 InfluxDB 直接存储用户端上报的原始日志，并使用 CQ 功能聚合出分钟级、小时级粒度的聚合表。但随着接入应用数的增多、上报日志量的持续增长，CQ 功能查询的内存开销出现了成倍的增长，导致 InfluxDB 的查询性能骤降。

随后我们在架构中引入了流计算引擎 Flink , C 端上报数据经过外部计算引擎预聚合后，再存入 InfluxDB。经过这样的调整后，InfluxDB 只存储 C 端用户每分钟、每小时的聚合结果，每分钟存储量只与 series 量级(group by 维度组合结果量级) 挂钩，不再与用户量直接关联。 InfluxDB 自身的查询性能也得到保障。

举例来说，我们可以在 Flink 中配置分钟级 PV 聚合任务：

SELECT
   TUMBLE_START(PROCTIME(), INTERVAL '1' MINUTE) as wTime,
   count(os) as pv,
   os as osName,
   moduleName as moduleName
FROM performance_log
WHERE
    props['mspm'] = 'ReactNativeApplication'
GROUP BY
    TUMBLE(PROCTIME(), INTERVAL '1' MINUTE),
    os,
    props['moduleName']

我们将 Flink 的聚合结果，写入 InfluxDB 表中，表结构示例如下 (moduleName、osName 为 tag 列, pv 为 field 列):

time	moduleName	osName	pv
2023-01-01 12:00:00	rn-app-1	android	10000
2023-01-01 12:00:00	rn-app-1	iphone	8000
2023-01-01 12:00:00	rn-app-2	android	5000
2023-01-01 12:00:00	rn-app-2	iphone	4000
2023-01-01 12:01:00	rn-app-1	android	10000
2023-01-01 12:01:00	...	...	...
...	...	...	...

这样在查询每小时、每天 PV 走势时，我们可以直接基于分钟级表的数据做分析，相较于查询每个用户上报的原始日志，查询数据量级大幅降低、性能大幅提升。 (细心的读者可能想到了，这里的 Flink 与之前介绍的 InfluxDB CQ 的作用其实是一致的)

后续我们可以这样查询 InfluxDB:

SELECT
   moduleName,
   osName,
   sum(pv) AS pv
FROM rn_minute_pv
WHERE
   moduleName='rn-app-1' AND
   osName='android' AND
   time>='2023-01-01' AND
   time<='2023-01-02'
GROUP BY time(1h)

查询结果:

time	moduleName	osName	pv
2023-01-01 12:00:00	rn-app-1	android	600000
2023-01-01 13:00:00	rn-app-1	android	600000
2023-01-01 14:00:00	rn-app-1	android	600000
...	...	...	...

2.存储「原始」数据

Corona 使用 InfluxDB 的另一个场景是存储平台自身运行健康度的「原始」数据，提升平台自身运行的可观测。相较于 C 端场景的海量数据，机器、集群的健康度数据量级较为可控，我们可以使用 InfluxDB 进行存储、 CQ 计算。

例如当我们需要观测自建的「数据消费服务」的健康度时，我们使用 InfluxDB 采集每个进程每次批量处理的事件数，同时包含机器、进程、事件上报平台等维度列。表结构示例如下:

time	hostname	pid	platform	events
2023-01-01 12:00:03	music-corona-worker-1	130616	web	10
2023-01-01 12:00:04	music-corona-worker-1	128204	android	50
2023-01-01 12:00:04	music-corona-worker-2	33096	ios	30
...	...	...	...	...

有了原始数据表，我们可以按 hostname 维度、platform 维度观测集群的数据消费健康度。可视化方案推荐使用 Grafna :

四. ClickHouse

4.1 ClickHouse 简介

ClickHouse 是 OLAP(On-Line Analytic Processing) 联机分析处理数据库。在数据分析时，可直接对亿级原始日志做在线的实时聚合计算，并且能在秒级给出聚合结果。

4.2 在 Corona 中的应用场景

Corona 在引入 ClickHouse 之初，是为了补充原有性能监控架构的分析能力(如多维的分位数 P50、P95 统计能力)，随着我们对 ClickHouse 使用经验的积累和特性原理的认识，我们发现在 Corona 的性能分析应用场景上，ClickHouse 能够完全取代 Flink 、InfluxDB 的作用。并且整体的架构更加简洁，数据分析的方式也更加灵活、轻便。

目前 Corona 上的建设的性能监控指标，已完全由 ClickHouse 提供存储与数据分析的能力。主要的分析功能有:

1). 基于上报数据维度字段，提供多维的组合筛选能力

2). 在线实时聚合计算，统计平均值、分位数、PV、UV 走势

3). 按照某个维度聚合，对比不同维度值的走势

4). 查看不同维度值的占比

5). 统计指标值的详细分布情况

4.3 表结构设计及查询示例

ClickHouse 在写入数据前，需要使用建表语句创建表结构。以 ReactNative 启动耗时监控为例, 以下为示例的表结构:

CREATE TABLE rn_monitor_cold_boot_stage_local
(
    `appName` String, -- 应用名，如 云音乐
    `osName` String, -- 操作系统名
    `appVersion` String, -- 应用版本
    `rnModuleName` String, -- ReactNative 模块名
    `deviceTag` String, -- 设备性能分档
    `uploadTime` DateTime, -- 日志到达服务端时间
    `uid` String, -- 用户 uid
    `stageName` String, -- 阶段名
    `stageCost` Float32, -- 阶段耗时
)
ENGINE = MergeTree
PARTITION BY (appName, osName, toYYYYMMDD(uploadTime))
ORDER BY (rnModuleName, uploadTime)
TTL uploadTime + toIntervalDay(90)
SETTINGS index_granularity = 8192, use_minimalistic_part_header_in_zookeeper = 1

在示例表结构中，uploadTime 为时间列， stageCost 为数值列，其他字段都为维度列。

MergeTree 是 ClickHouse 中最重要的表引擎，这种表引擎的特点是，数据在批量写入时，ClickHouse 会将数据写入新的临时分区中, ClickHouse 会在后台对临时分区与已有的数据分区做 Merge，以此来提高数据的写入性能。

PARTITION BY 数据的分区策略，示例表以 appName, osName, 上报时间(天) 所组成的联合键建立分区。 ClickHouse 会为每个分区建立一个目录，合理的分区策略，可以让 ClickHouse 在后续查找数据时，直接选中分区目录，大大降低扫描的数据行数。

ORDER BY 数据的排序键，ClickHouse 默认会为排序键建立索引。

TTL 数据自动过期时间，此处设置了 90 天。

index_granularity 索引粒度为 8192 行(可理解为 8192 行数据，建立一条索引)。

示例数据如下:

{
   "appName": "music"
   "osName": "android",
   "appVersion": "8.9.0",
   "rnModuleName": "rn-playlistrank",
   "deviceTag": "高端机",
   "uploadTime": "2023-04-27 12:00:00",
   "uid": "9999999",
   "stageName": "render",
   "stageCost": 1000
}

查询示例:

SELECT
    toStartOfDay(uploadTime) as "time",
    avg(stageCost) AS "avg",
    quantiles(0.5, 0.9)(stageCost) AS "quantiles",
    count() AS "pv",
    uniq(uid) AS "uv"
FROM rn_monitor_cold_boot_stage_shard
WHERE
   uploadTime>=1682006400 AND
   uploadTime<=1682611199 AND
   stageName='render' AND
   rnModuleName='rn-playlistrank'
GROUP BY toStartOfDay(uploadTime)
ORDER BY toStartOfDay(uploadTime) ASC

查询结果示例:

以上的查询示例，包含了平均值、分位值、PV、UV 的统计，是 Corona 性能监控分析最基础 SQL。其他的性能分析都是基于该 SQL 的变种。

4.4 数据读写架构及配套建设

得益于 ClickHouse 的高性能 (举例来说，当上述的示例 SQL 的扫描数据量级达到 6 亿行时，也仅需 2 秒就可以完成数据分析），

在绝大多数的场景，我们可以直接使用 ClickHouse 直接对原始数据做实时聚合分析，这也使得我们的性能分析架构变得简洁。

数据写入

在数据写入前，我们使用自建的「性能日志处理服务」订阅不同 type 的性能日志，每个消费者订阅一种日志类型，在预处理后，会根据每张表的建表分区规则，在服务端对数据做预分区，每个分区的数据单独批量写入 ClickHouse。以此达到批量写入同时又减少 ClickHouse 在后台对数据做再次分区的开销，提高写入性能。

数据批量写入时，使用了自建的集群版 ClickHouse NodejsClient，做数据 Schema 校验并随机请求集群中的 Node 达到数据均匀分片的目的。

数据查询

细心的读者可能发现了，我们在上面示例中，我们所建的示例表，是以 _local 结尾，而我们的查询示例表是以 _shard 结尾。

事实上，我们在建表时，会同时创建 local 表与 shard 表。在数据写入时，性能日志处理服务是直连每个 ClickHouse node 向 local 表写入数据。可以理解为每个 node 只保存了整个完整表的 1/4 行的数据。在查询时，查询任意一个节点的 shard 表，ClickHouse 会在后台自动汇总 4 个 node 的全部数据做分析。

注: 该图 local 表中的行号仅用于示意分片的数据量级，并非实际的存储或索引行号。

在自建的性能日志处理服务和可视化后台上，我们也加入了一些监控指标，来观测 ClickHouse 集群的读写健康度。

写入侧监控:

每分钟批量写入的请求数
每分钟批量写入的日志数
每分钟不同分区的写入日志数
每分钟忽略的日志数(Schema 校验不通过)
数据消费的延时
数据批量转换耗时
数据批量转换条数
数据分区转换并写入 ClickHouse 耗时
ClickHouse 写入请求耗时

查询侧监控:

每分钟总查询次数
每分钟平均查询耗时
慢查询 SQL 详情

4.5 存在的痛点

ClickHouse 在 Corona 的性能分析场景满足了我们绝大多数的诉求，如果非要让笔者想一个痛点的话，那可能是缺少像 InfluxDB 一样的 CQ ( Continue Query) 能力。什么情况下需要 CQ 呢？

ClickHouse 虽然具有强大的实时在线分析能力，但是他的处理性能也是有资源开销的。在机器资源有限的前提下，如果需要做时间跨度大，数据量级超几百亿的分析，也是有相当大的资源开销和等待时间的。

举例来说，在 Corona 比较分析 App 版本性能走势场景时，由于 App 发版时间跨度大，每个版本仅存在一段时间的高峰流量期，如果需要客观地对比每个 App 的性能，需要让每个版本的样本量尽可能大，我们如果还是选择在线分析的话，就需要把时间跨度拉到好几个月，此时数据分析的等待时间就会特别长。

为了解决等待耗时长的问题，我们还是转为离线分析的思路，在应用层，每日对 Top3 日活的版本做性能归档快照。在分析 App 版本走势时，使用归档快照数据做分析。

如果 ClickHouse 原生具备 InfluxDB 的 Continue Query 能力，可能实现起来会相对容易些。

五. ElasticSearch

5.1 简介

Elasticsearch 是一款基于 Apache Lucene 的分布式搜索和分析引擎，用于全文检索、日志分析、数据可视化等场景。它支持实时搜索、数据聚合、自动化分片和复制等功能，并提供了 RESTful API 和丰富的插件生态系统。Elasticsearch 被广泛应用于企业级搜索和日志分析等领域。

5.2 在 Corona 中的应用场景

在设计 Corona 平台时，我们引入 ES 的主要目的是用于存储异常监控的原始日志，并借助 ES 的全文检索能力，提供丰富、灵活的日志搜索功能。

下图为 Corona 的搜索面板，在此处我们意图搜索包含 undefined 信息的错误日志。

下图为 Corona 的搜索结果列表，展示了包含 undefined 错误信息的 Issue。

关于 ES 搜索的概念，在这篇文章中不作更多展开，感兴趣的读者可以查看笔者的这篇文章。除了日志的搜索功能外，Corona 也希望为用户展示异常发生的时序趋势图。由于原始日志的存储我们已经使用了 ES 进行存储，在设计时序分析功能实现时，我们其实是有两条技术实现路线可供选择:

将原始日志另写入一份至消息队列 -> Flink 聚合 -> InfluxDB
使用 ES 的聚合能力，基于原始日志直接做时序数据分析。

考虑到架构的简洁、减少依赖等因素，并参考了 ES 与 InfluxDB 的性能对比文章后，我们最终选择了方案二。以下是使用 ES 做的一些时序分析功能演示:

下图为应用整体的异常趋势图:

下图为单条 issue 的异常趋势图:

5.3 表结构设计及查询示例

ES 在写入数据前，不要求建立表结构。ES 会根据写入的数据自动推断数据类型进行存储。但为了避免类型的错误推断导致后续查询功能不符合预期，建议是在写入数据前，对表结构进行约束。

ES 对表结构进行约束的方式是创建模板。模板中可包含索引匹配规则 (可理解为表名)，表中的数据结构类型。

下面我们创建一个演示的模板，模板中的索引包含了 5 个字段

project_id: 应用 ID，类型为 long
issue_id: 聚合错误 ID, 类型为 long
os: 上报操作系统，类型为 keyword
ts: 上报时间，类型为 date
error_obj: 错误详情对象，JSON 类型，JSON 中包含 message 字段，message 为文本类型，支持分词检索。

PUT _template/template_web_demo
{
   "indx_patterns": ["web_demo_*"],
   "mappings": {
      "_doc": {
          "project_id": {
              "type": "long"
          },
          "issue_id": {
              "type": "long"
          },
          "os": {
              "type": "keyword"
          },
          "ts": {
              "type": "date"
          },
          "error_obj": {
              "properties": {
                 "message": {
                     "type": "text",
                     "fields": {
                        "keyword": {
                            "type": "keyword",
                            "ignore_above": 256
                        }
                     }
                 }
              }
          }
      }
   }
}

以下是一些示例数据：

[
  {
    id: 1,
    project_id: 1,
    issue_id: 1,
    os: "iphone",
    ts: "2023-04-27 15:00:00",
    error_obj: {
      message: "Cannot read properties of undefined (reading 'providerLog')",
    },
  },
  {
    id: 2,
    project_id: 1,
    issue_id: 2,
    os: "android",
    ts: "2023-04-27 15:01:00",
    error_obj: {
      message: "e.forEach is not a function')",
    },
  },
];

查询示例: 查询项目 id 为 1 的所有 issue 的最近 7 天每日上报量走势

{
  "query": {
    "bool": {
      "filter": {
        "bool": {
          "must": [
            { // 指定查询的项目id 为 1
              "term": {
                "project_id": 1
              }
            },
            { // 指定查询时间范围 >= 2023-04-21 00:00:00
              "range": {
                "ts": {
                  "gte": 1682006400000
                }
              }
            },
            { // 指定查询时间范围 <= 2023-04-27 23:59:59
              "range": {
                "ts": {
                  "lte": 1682611199000
                }
              }
            }
          ]
        }
      }
    }
  },
  "aggs": { // 聚合，按 issue_id 字段做聚合
    "issueId": {
      "terms": {
        "field": "issue_id"
      },
      "aggs": { // 子聚合，按时间1天粒度做聚合
        "series": {
          "date_histogram": {
            "field": "ts",
            "interval": "1d",
            "format": "yyyy-MM-dd HH:mm:ss",
            "time_zone": "+08:00"
          }
        }
      }
    }
  }
  "size": 0, // 只统计聚合结果，不返回原文档
}

对于首次接触 ES 的同学来看，这个查询条件看上去会比较地复杂。上面的查询如果用 InfluxDB SQL 的话其实就是:

SELECT COUNT()
FROM `web_demo`
WHERE
  project_id = 1 AND
  time>=1682006400000 AND
  time <=1682611199000
GROUP BY issue_id, time(1d);

5.4 数据读写架构

本节我们只介绍 ES 在 Corona 时序数据场景下的应用层架构

1) 基于原始日志做时序分析

Corona 平台的异常日志原始日志由异常日志清洗服务做预处理后批量写入 ES。可视化管理后台在后续可直接请求 ES 做时序数据分析。

2) 基于聚合数据做时序分析

在 Corona 的告警场景，考虑到查询聚合表会比查询原始表有更高的性能，并且为了方便追溯告警的历史走势，我们在应用层配置了定时任务做分钟级的数据聚合，告警任务在执行时，直接读取分钟级聚合表。

5.5 存在的痛点

Corona 使用 ES 做时序分析的场景相对来说还比较有限。对于 ES 在时序分析下的性能，是否存在瓶颈，尚未有深入的探索。我们的痛点主要是集中在使用姿势上。

通过 5.3 节的示例，读者不难发现，在时序分析场景，ES 查询的请求体的书写和理解相对于 InfluxDB 来说，具有一定的复杂度。如果我们的项目需要用到 ES 来做时序分析，建议是在应用层封装一些 Utils 工具类，协助做请求体生成和数据解析。NodeJS 环境下推荐基于 bodybuilder 做上层的封装。

六.小结

本篇文章介绍了时序分析的基本概念，并结合 Corona 平台的应用场景，分别介绍了三款时序数据库的基本概念和使用建议，下表是简要的总结，希望对读者有一些帮助和启发，限于笔者的个人水平，文中难免存在解释不到位或描述不准确的地方，欢迎读者留言讨论交流。

数据库	特点	痛点	适合存储、分析场景
InfluxDB	使用便捷、部署低成本	官方仅开源单机版无高可用、内存敏感型	客户端侧预聚合后的性能日志、服务器侧的原始性能日志
ClickHouse	海量数据在线实时计算、列式存储压缩、使用便捷	部署规格高、无 CQ	客户端侧原始性能日志
ElasticSearch	具备强大的文本搜索功能	时序分析场景下的使用姿势较为复杂	具有搜索需求的文本型数据

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe(at)corp.netease.com！

云音乐Android Cronet接入实践

2023-10-19T17:46:46+08:00

本文作者：[答案]

背景

网易云音乐产品线终端类型广泛，除了移动端（IOS/安卓）之外，还有PC、MAC、Iot多终端等等。移动端由于上线时间早，用户基数大，沉淀了一些端侧相对比较稳定的网络策略和网络基础能力。然而由于各端在基础能力上存在不对齐的现状：移动端双端在这些能力细节上有差异，同时PC、MAC这方面能力相较于移动端又略微滞后。为了避免各端在网络侧反复投入人力进行能力维护和定位解决问题，同时统一网络基础设置，将端侧稳定网络策略进行沉淀复用，经过调研，我们计划采用 Google chromium 项目的 Cronet 作为跨端通用网络库。Cronet 在chrome 中经过多年的打磨，稳定性得到了验证，同时 Cronet 支持 QUIC 协议，可以支持后期对弱网场景进行专项优化。安卓端作为 Cronet 的首先落地一端，已经全量在线上运行了一年多的时间，本文主要介绍接入方案和过程中解决的问题。

介绍

Cronet 网络库

Cronet是 google chromium 的网络组件，可单独编译成库提供给 Android/Ios 应用使用。Cronet在性能方面表现出色，目前已经有 Youtube、Goolge 全家桶等大量应用使用 Cronet 作为网络模块。

它有以下功能：

支持 HTTP2/QUIC/websocket 协议
支持对请求设置优先级标签
可以使用内存缓存或磁盘缓存来存储资源
支持 Brotlin 压缩（有研究表明，对于文本文件，相同的压缩质量下，brotlin 通常比 gzip 高出了20%的压缩率）

接入方案

目前项目中使用 Okhttp 作为网络基础库，Cronet 的对外接口和 Okhttp 无法兼容，在接入上主要有两个方向：

网络业务接口根据新的 Cronet 接口重新封装接口层，逐步替换老接口；
业务侧不做改动的情况下，底层入口统一切换到 Cronet 侧，通过中间的胶水层来抹平差异。

方向一需要对项目中的网络请求接口做改造，但由于项目中广泛使用了 Okhttp 的特性，例如 Interceptor、cookiestore、cache、eventlistener 等等，直接使用 Cronet 接口意味着这些特性全部需要重新实现，改造成本巨大；

方向二的实现思路是在 Cronet 的最底层通过创建 CronetInterceptor 来实现 Cronet 请求，并且将它放到 Okhttp Interceptors 的最末尾保证原有 interceptors 全部执行，同时通过适配层将 Okhttp 原有能力无缝桥接到Cronet实现，不对上层有任何侵入和改动，做到业务调用侧无感知。

P.S google 官方后来推出的 Cronet 接入库 https://github.com/google/cronet-transport-for-okhttp，也是同样的思路。

结合我们的项目现状，我们决定使用方向二的思路来接入 Cronet。

Android 网络库整体架构

作为一个通用的网络模块，我们将整体抽象出了四层来展示，从底层到业务层方向分别为：协议层、通用能力、适配层、业务支撑层。

协议层

这部分主要是从 chromuim 中抽离出的 Cronet 源码部分，主要是 Cronet 的基础能力，包括了不同网络协议的实现以及 Cronet 内部的优化，是 Cronet 的最核心实现。这部分除了一些向上接口之外，通常不会对源码做过多的改动。

通用能力层

这一层主要包括我们从 java 侧沉淀到 C++ 层的一些通用网络策略和网络组件（APM、Httpdns等），这一层通过拆分出不同组件的方式相互隔离，共同依赖于协议层。

适配层

适配层定义为胶水层，主要目的是保证在上层接口无须做任何改动的情况下将底层实现在 Okhttp 和 Cronet 间进行切换。

业务支撑层

支撑端侧各种业务的能力，这层无须做改动。

适配方案

okhttp接口适配

1、interceptor 适配

前文提到，通过创建 CronetInterceptor 且放到 okhttp addInterceptor 的最末尾保证 interceptor 全部执行，但是仍有部分 interceptors 是覆盖不到的，那就是 Okhttp 内置的 interceptor。内置的主要有：

RetryAndFollowUpInterceptor 
BridgeInterceptor
CacheInterceptor
ConnectInterceptor
CallServerInterceptor

其中

RetryAndFollowUpInterceptor 
BridgeInterceptor
CacheInterceptor

这三个主要负责重定向、鉴权、cookie、缓存等逻辑，和 Okhttp 的接口息息相关，这部分逻辑是我们主要适配的内容。适配也非常简单，只需要把这些 interceptor 的核心逻辑移植到我们创建的 CronetInterceptor 即可，这样就能保证上层业务使用到的 cookiestore、cache 等 okhttp api 不受影响。

ConnectInterceptor
CallServerInterceptor

这两个 interceptor 主要负责的是核心的网络请求的全部后续细节，Cronet 有自己来接管自然无需适配。

2、eventlistener适配

由于 okhttp eventlistener 依赖的一些回调例如 connectEnd、dnsEnd 等是在这两个拦截器中调用的，虽然Cronet 有自己的是 Callback：


public abstract void onRedirectReceived(UrlRequest var1, UrlResponseInfo var2, String var3) 
public abstract void onResponseStarted(UrlRequest var1, UrlResponseInfo var2)
public abstract void onReadCompleted(UrlRequest var1, UrlResponseInfo var2, ByteBuffer var3) 
public abstract void onSucceeded(UrlRequest var1, UrlResponseInfo var2);
public abstract void onFailed(UrlRequest var1, UrlResponseInfo var2, CronetException var3);

但是没有 okhttp eventlistener 提供的全面，如果需要完整的实现 okhttp eventlistener，需要对 Cronet 的核心关键请求点做改造来透出给 java 层，考虑到成本和使用场景，我们没有对这部分做改造，而是直接采用 Cronet 的 callback 做桥接来实现了部分的核心 eventlistener 的 callback。

3、超时逻辑适配

业务侧指定请求的超时时间来做一些策略也是常见的操作，而 Cronet 并未提供超时相关的 api，于是我们基于Cronet 源码开发了建链超时和读流超时等能力

void CronetURLRequest::SetOriginRequestID(uint32_t origin_request_id)
void CronetURLRequest::SetConnectTimeoutDuration(uint32_t connect_timeout_ms）

并通过 jni 暴露给 java 层，java 层通过适配层桥接到 Okhttp 接口：

CronetUrlRequest.java类

mRequestContext.onRequestStarted();
if (mInitialMethod != null) {
if (!nativeSetHttpMethod(mUrlRequestAdapter, mInitialMethod)) {
throw new IllegalArgumentException("Invalid http method " + mInitialMethod);
}
}
if (mRequestId > 0) {
nativeSetOriginRequestID(mUrlRequestAdapter, mRequestId);
}
// 将业务侧设置的超时时间传递到Cronet
if (connectTime > 0) {
nativeSetConnectTimeoutDuration(mUrlRequestAdapter, (int) connectTime);
}
// 将业务侧设置的超时时间传递到Cronet
if (readTime > 0) {
nativeSetReadTimeoutDuration(mUrlRequestAdapter, (int) readTime);
}

这样上层业务侧无需任何改动既可继续使用 Okhttp 原有能力。

网络请求适配

1、请求维度适配

发起请求时，由原先的通过 Okhttp 内置 interceptor 发起请求切换到使用 Cronet 发起请求后，需要在 Okhttp 接口到 Cronet 接口间做一下请求和响应的适配转换。

网络请求切换示意图

同时由于将之前的一些 java 层网络策略下沉到 C++ 实现，之前的一些 java 层的直接调用和传参我们通过基于CronetUrlRequest 进行扩展打通了向 Cronet 的 jni 调用

2、全局调用适配

下沉到 C++ 的网络策略，为尽可能做到和 Cronet 原有代码的解耦，在 C++ 以一个个独立插件形式存在。java 侧通过 CronetRequestContext 设置到 C++ 侧，然后向对应注册的组件进行分发，这个链路上涉及到 java、jni 和C++ 的代码改动，为了降低后续网络策略的开发维护成本，采用了类 JsBridge 的方法，开发了'CppBridge'，将java 和 C++ 之间的方法调用协议化，通过 json 传递数据，这样避免了后续对插件做更新带来的 java 到 C++ 请求链路上繁琐的开发工作，且 C++ 策略可以通过java层的配置中心能力进行动态配置。

解决问题

1、线程优化

众所周知，网络请求需要在子线程中发起，在 Cronet 的官方文档介绍中，推荐通过传入 Executor 来负责执行网络请求：

然后在 okhttp interceptor 中已经是子线程的执行环境，如果仍然传入独立对 executor，会造成不必要的线程切换和时间消耗。通过查看 Cronet 源码，发现其 CronetHttpURLConnection 使用的 MessageLoop 类实现是在当前线程，使用 MessageLoop 即可减少不必要的多余线程引入。

通过 MessageLoop 请求生命周期

2、兼容性解决

不同网络库之间切换，兼容性问题在所难免。虽然同样遵循 http 协议，但是对于一些边界条件的处理不一致或处理严格程度不同也会引起兼容性偏差。篇幅所限，这里仅介绍几个兼容点：

Cronet 库对于http链接数设置为了6个，如果有对于 http 请求的不当使用，例如不正常持有未释放，一旦达到了6个，后续的请求将会 block 直到前序连接资源释放，这在 http1.1 下更容易触发；

Cronet 对请求做了检测，如请求 body 未设置 Content-Type，将会直接抛出异常，

if (!hasContentType) {
    throw new IllegalArgumentException("Requests with upload data must have a Content-Type.");
}

在某些特殊设置情况下，存在有 request body 未设置 Content-Type 的情况将会直接导致请求抛异常；

Cronet 请求返回4xx时，会直接抛出异常，而 okhttp 是通过将结果连带 code 返回到上层，交由使用者自己去处理。

兼容性优化没有统一的解决办法，只能见招拆招，通常是向前保证兼容性或推动优化不合理代码来解决。

3、重定向问题解决

Http 请求发生重定向时，请求 header 中的 Host 字段需要更新为新的目标主机地址，否则服务端校验Host字段和实际请求的 host 不一致时会拒绝请求。首先看一下 Okhttp 是如何实现的这个功能：

okhttp 在 RetryAndFollowUpInterceptor 类中，302会触发重新构建请求对象:

之后在 BridgeInterceptor 中，重新设置 Host：

而 Cronet 在 android 侧的默认实现中，并未对此进行更新，查看cronet代码：

类：cronet_url_request.cc

可以看到，cronet 下层接口是支持对重定向时传入修改的 header 的，但是默认传入了空，也没有提供暴露给 java 侧的接口来进行设置。

解决方案：对 cronet 重定向时更新 header 的能力进行打通，新增设置接口：

void CronetURLRequest::NetworkTasks::SetRedirectHeader(
    const std::string& key,
    const std::string& value) {
  DCHECK_CALLED_ON_VALID_THREAD(network_thread_checker_);
  DCHECK(url_request_.get());
  if (redirect_request_headers_ == base::nullopt) {
    redirect_request_headers_ = base::make_optional<net::HttpRequestHeaders>();
  }
  redirect_request_headers_->SetHeader(key, value);
}

在重定向时将从 java 侧设置下来的 header 传入：

  @Override
    protected void handleRedirectReceived(UrlRequest request, UrlResponseInfo info, String newLocationUrl) {
        try {
            Uri newUri = Uri.parse(newLocationUrl);
            String host = newUri.getHost();
            // 更新Host
            request.setRedirectHeader("Host", host);
            request.followRedirect();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

cronet 执行 FollowDeferredRedirect (真正重定向的方法)时，将原有方法替换为传入重定向 header 的方法：

void CronetURLRequest::NetworkTasks::FollowDeferredRedirect() {
  DCHECK_CALLED_ON_VALID_THREAD(network_thread_checker_);
#if defined(WOW_BUILD)
  url_request_->FollowDeferredRedirect(
      this->redirect_request_headers_ /* modified_request_headers */);
#else
  url_request_->FollowDeferredRedirect(
      base::nullopt /* modified_request_headers */);
#endif
}

灰度&上线

网络库切换牵扯业务的方方面面，影响面较大，上线需要格外谨慎：

在上线前的开发阶段，在开发环境提前切换到 Cronet，如果有问题可以尽早暴露；
灰度阶段反复分流验证，结合稳定性平台和舆情信息反馈观察，确保 Cronet sdk 的稳定性；
技术上，为了防止有其他异常情况引起的网络不可用，对非网络抖动引起的网络请求异常自动降级到 Okhttp，达到一定次数后开始彻底降低回 Okhttp，并上报日志进行分析；对网络组件以最小粒度进行动态配置，保证根据任意的组件都可以按需更新/开闭以进行线上ab效果观测；对网络请求各阶段的进行全面端到端数据埋点。
上线后，拉长观测周期，分阶段放量。反复从各个维度比对网络性能数据，发现异常数据及时分析定位解决，确保数据是完全正向的。分析维度包括：
- 首包时长/请求时长
- 错误率
- 长尾数据分析
- 业务体感数据
这个阶段相对较为漫长，通常是从数据侧发现问题后，结合对应的业务场景去进一步定位问题，在针对不同具体错误类型的数据分析过程中，我们也发现了一些上层非正常使用带来的错误率问题，并一起促进优化降低了部分场景的错误率。

目前 android cronet 已经线上全量稳定运行了一年多时间，从统计数据来看，主站api请求时长有16%的优化，错误率有4%的优化，cdn请求不同域名也有不同程度的优化。

后续规划

弱网场景的特殊优化是业务开发中经常遇到的，云音乐基于 Cronet 的 nqe 模块做二次开发，对外提供弱网检测通知能力（正在进行中）；

Cronet 的一个核心功能便是支持 quic 协议，作为下一代的网络通信协议，quic 协议具有一系列的协议层面优化：

1、更少的建链 RTT

2、链接迁移

不同于 tcp 的四元组标识，quic 使用 cid 作为标识，cid 不变即可维持 quic 连接不中断

3、解决tcp队头阻塞（head of line blocking）问题

4、拥塞控制算法实现

将固化在操作系统实现的 tcp 拥塞控制等算法在应用层实现，无需升级操作系统即可实现对算法的升级

5、更好的安全性

2022年6月6日，IETF 正式发布了 http3 协议，云音乐在线上也小范围进行了 quic 协议的测试，在部分场景下quic 表现了更优秀的网络性能。当然在线上想充分利用 quic 的全部特性例如：连接恢复时的0RTT、链接迁移等特性，还需要对服务端前端机集群进行相应的改造。后续云音乐也会对这业界方面进展持续保持关注。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe(at)corp.netease.com！

云音乐如何「搭」出新首页

2023-10-16T17:46:47+08:00

本文作者：当轩、郑友想

描述：如何通过可视化搭建系统支撑云音乐新版首页这样的核心场景，并满足其对性能、动态化和精细化运营的诉求。

如今可视化搭建、低代码等通过拖拉拽生产页面的方案已经很常见，然而它们大多用于活动页搭建、中后台 CURD 场景等相对来说非核心的业务场景，主要原因是 C 端核心场景对于性能、灵活性等方面都有非常高的要求，大部分基于搭建的系统难以满足。

云音乐在过去半年到一年的建设中，建设了从搭建 UI 到投放数据的灵渠搭建能力，并在新首页改版中完全覆盖了新版首页发现流、音乐流两个流量最大的核心页面和 26 个全部模块，可以说新版首页完全就是「搭」出来的。

本文将介绍我们如何通过可视化搭建系统支撑云音乐新版首页这样的核心场景，并满足其对性能、动态化和精细化运营的诉求。从中也可以看到可视化搭建、低代码等解决方案理论上能够覆盖的场景比想象中更大。

业务背景

在云音乐新框架改版中，发现流和音乐流是两个核心的信息流页面。

首页作为最大的流量入口，不同的垂直业务都会在首页上提需新增模块，从而技术上面临几个核心问题：

无法动态化，依赖发版：我们尝试过在首页使用 ReactNative 卡片来实现动态化，然而这导致首页的性能劣化严重。所以首页新增模块仍然依赖发版，这导致业务的迭代周期很长，一次完整的价值验证常常需要经过多次「双端开发-发版-放量-数据验证」的过程。
策略不能有效复用：流量分发场景投放的卡片往往是伴随着很多规则和策略的，例如针对某个人群投放、在某些时段下投放等等。这些策略大部分从原子角度看是重复的，但是不同业务却总是需要重复开发。
视图层数据和服务端不解耦，服务端总是需要介入变更：由于负责视图层 UI 和数据接口的开发同学往往是前后端不同职能的，一旦 UI 发生改变，就很可能需要服务端一起介入变更，这导致沟通协调的成本很高。
不同业务的配置后台能力需要重复建设：流量分发场景分发的资源和内容来自于不同垂直业务，而这些业务各自都需要通过自己的配置后台提供各种运营配置能力，从而最终支撑内容的投放，而这些能力建设很多相互重复。

搭投一体的需求交付流程

在常规的需求交付链路中，不同角色各司其职完成不同部分的开发，然后联调、测试并且发版上线。

这样整个链路的沟通成本、重复开发成本、以及发版、放量周期带来的时间成本都非常高。

而在云音乐新版首页的交付中，我们在灵渠平台上通过结合搭建、投放、客户端动态化 DSL 引擎的能力建设，把整个需求交付链路重构为只需要一名开发（一般是大前端开发）就能独立完成的过程。

在需求交付后，灵渠平台也能直接通过开发者的配置提供面向运营的配置表单，提供通用的资源、内容、计划配置等通用能力。

动态化 & 性能

今天动态化能力已经是各大 App 厂商不可或缺的基础能力，相比于跨端技术能够把 Android、iOS 双份开发人力缩减到一份，动态化能力允许我们在不经过「发版-放量」的过程快速进行迭代调整，对业务迭代和价值验证来说无疑更加重要。

然而，动态化能力的增强几乎同时就意味着性能上的损耗，我们可以从当前主流的几种动态化方案的能力和其性能表现看出，并不存在一劳永逸能够满足所有场景诉求的动态化方案，我们需要针对我们的业务诉求做出合适的选择。

以首页为例，核心大流量场景往往需要给垂直业务场景分发流量，这种场景有几个特点：

性能要求很高：接近 Native 水平。
偏展示，若交互：此类场景往往会把流量分发到各个垂直业务，而不是在当前场景直接完成所有的消费。
快速调整：各类业务都需要在流量入口布点，同时迅速迭代来达到业务预期的数据效果
所以对于流量分发类场景来说，客户端 DSL 是最合适的客户端动态化方案。

所以对于流量分发类场景来说，客户端 DSL 是最合适的客户端动态化方案。

在具体的客户端 DSL 方案上，我们没有从头造轮子，而是基于优酷团队开源的 GaiaX 做了上层封装和定制开发。对接了云音乐内部的生态（如路由、RPC 等）。同时在此基础上封装了大量通用容器，如弹窗容器、RN 混排容器、图片分享容器等等。

可视化搭建

引入客户端 DSL 后，随之而来的问题是其带来的学习成本，GaiaX 的 DSL 本质上由三个文件组成。

这样带来的问题是，DSL 的代码本身可读性并不好，和开发者过去熟悉的技术栈都不一致，会带来非常高的开发成本。于此同时，我们也需要建设对应的配套工具（例如预览、调试、发布流程）来支持开发者开发。

GaiaX 显然也意识到了这个问题，提供了 GaiaX Studio 这个基于可视化搭建的 DSL 开发工具，但可惜的是这个工具并不开源，我们无法在此基础上开发我们需要的能力（例如对接云音乐的换肤、RPC 等等）。

于是，开发一套具备可视化搭建能力的 DSL 搭建系统，同时在这个系统上去建设开发者配套能力就成为我们的首选项。

最终的产品形态是我们建设了一套在线的可视化搭建系统，同时支持直接扫码预览、错误检查、内部系统（换肤、图片素材管理）对接、发布流程、数据 Mock 等等开发者配套，使得不同技术栈的开发者（主要是大前端同学）可以直接在线通过拖拉拽直接开发出可投放的 DSL 卡片。

数据源如何解耦

无侵入性进行数据编排，通常的做法有 SPI，Groovy脚本，第三方系统 (类似选品系统平台只提供对接)

SPI 不灵活 - 不能满足各式各样的述求，不能满足数据转换需求
Groovy脚本 - 对RPC调用不适用
第三方系统 - 需要重新建设

考虑到云音乐已经有一套完整的BFF能力, 具体可以参考之前发布的文章基于GraphQL的云音乐BFF建设实践。
我们决定使用其能力，在搭建端可以选择BFF生产的对应数据源，并且在用户访问时自动完成对应的数据组装。

同时在搭建端我们也提供了可视化的数据字段选择、mock 等能力，通过这种方式让 UI 视图的开发者自己也可以开发对应 UI 字段的数据源后端。而业务后端的开发者只需要提供底层 service 即可。

卡片如何投放出去

完成了卡片的开发后，下一个问题是卡片如何被投放出去。

流量分发场景需要通过精准的目标受众定位、选择合适的投放形式、渠道和时机、设定合适的投放内容和时间，来实现投放效果最优化和投放效益的最大化。通过有效的投放策略，内容投放平台可以帮助提高资源曝光率、点击率和转化率，从而实现内容投放效果的最大化。

灵渠作为投放平台，提供了多种投放策略，以及策略规则组合配置。基于灵渠平台的策略能力，我们可以把「某个位置上面向某个人在某个时间应该出什么样的 UI」也通过策略化的能力承载。

灵渠平台具有多种投放策略，如客户端版本、人群圈选、频控策略、AB实验等，并且支持通过bff开发业务自定义策略，做到了策略的复用性以及灵活性。

整页混排容器

上面所说的都是 DSL 卡片从搭建、投放到最后端上渲染出来的链路，但并非整个页面都是由 DSL 搭建的，页面框架本身还需要考虑下拉刷新动作、数据缓存管理、列表 cell 复用等等问题。

而这些需求不仅仅是首页才有，在大部分信息流场景都是存在的，所以我们在端上封装了整页混排容器，把信息流页面大部分通用能力都封装到一起。之所以要考虑混排，是因为有时候 DSL 不能完全满足某些业务模块的诉求，所以我们允许在部分模块上使用 Native 或者 React-Native 进行开发。

质量建设

在承载了首页这样的大流量核心场景后，模块的数量、复杂度、参与人数的增加，都给稳定性带来更多的挑战。虽然引擎和系统本身的稳定性很少出问题，但是开发者在使用平台时却经常产生很多意料之外的问题。

灵渠搭建平台在不同阶段提供了不同的质量保障：

开发阶段，提供了预览功能，能通过mock数据感知样式的变化。
发布阶段，发布时候会显示距上一次发布时，模板的变更情况，哪些人员进行了变更。并且发布具有环境概念，只有发布到对应环境，对应环境才会有数据，做到了环境隔离。
上线阶段，提供了严格的卡点功能，必须通过双端的真机扫码预览后才可以发布，对于扫码中有异常的情况，不予通过。
上线后，灵渠投放平台拥有数据的监控，以及流量波动情况有告警通知
出问题时，模板提供了模板回滚能力，能快速止血。并且提供发布记录对比，能快速对比搭建的UI模板差异。

在质量保证上灵渠平台还提供了配置资源位兜底，在下游发生一些异常等其他情况拿不到数据时候，能继续透出模板数据。配置如下图所示。另外还支持用户纬度的兜底数据配置，满足新首页推荐流中个性化模块兜底的场景，如最近播放。

总结与展望

本文介绍了云音乐如何通过可视化搭建系统支撑新版首页这样的核心场景，并满足其对性能、动态化和精细化运营的要求。文章还探讨了动态化能力的重要性和各种动态化方案的能力和性能表现，以及针对不同业务诉求做出合适选择的必要性。

展望未来，可视化搭建、低代码、客户端DSL等解决方案将会在更广泛的业务场景中得到应用，从而进一步提高开发效率和满足业务需求。

本文发布自网易云音乐技术团队，文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位，如果你准备换工作，又恰好喜欢云音乐，那就加入我们 grp.music-fe(at)corp.netease.com！