SegmentFault 好未来技术团队最新的文章

重磅丨科技教育公司“好未来”正式对外开源高性能PHP框架Fend

2020-08-14T18:59:08+08:00

好未来是一家以智慧教育和开放平台为主体，以素质教育和课外辅导为载体，在全球范围内服务公办教育，助力民办教育，探索未来教育新模式的科技教育公司。

截至目前，好未来集团已围绕教育场景需求，累计研发包括图像、语音、数据挖掘、自然语言处理等8大类型、100多项AI能力，打造10余项教育场景应用AI解决方案。

在技术不断提升的道路上，好未来技术线提出坚持“大中台、小前台”的技术战略，统一基础服务设施建设，推进公司技术组件落地，增强企业技术人才内生，不断提升企业的技术实力及技术影响力。

除此之外，好未来内部坚持开源共享，通过“开放、共享、合力开发”的模式，推动开源文化氛围的形成与技术组织变革，为中台建设提供了另外一种抓手。同时通过开源文化的建设，促进整个教育生态技术共享，提升教育科技实力，更好的为“科技与爱让教育更美好”的愿景奠定基础。

近期由“好未来”技术团队开源的高性能PHP框架Fend PHP正式上线！该框架单机QPS可达到4000个，好未来内部目前超过30个团队项目在使用该PHP框架！

前言

PHP是一款简单方便的语言，而行业开源框架为了后续灵活 而变得过于繁重

Fend框架是一款很有历史的框架、初代发布后一直在好未来坊间传播使用、衍生出大量分支版本

这是一款很有意思的框架、普通的框架内隐藏着大型互联网经验的精华、也同时存在大量历史痕迹

2019年7月我们对Fend进行整理、封装、推广、目前在好未来内部有大量的用户在使用、维护

2020年7月开源、以此共建交流

我们崇尚 脚踏实地、仰望星空 精神欢迎小伙伴一起参与开源共建

设计方向

Fend 框架是一款以企业快速实现业务为主要目标的框架，但与复杂的行业流行框架追求不同：

简单实用：追求快速上手，扩展功能一步到位、大量降低功能的复杂度、框架更注重简单实用实现
单层内核：追求一个函数能实现的功能绝不继承封装，不追求框架自身功能的继承可复用
内聚归类：高度集中归类功能，降低底层复杂度，减少底层组件关注度、更多时间在业务
持续积累：持续积累大型互联网线上运营经验，持续探索企业实用技巧，深度来自于积累而非AOP带来的灵活性
内核设计：高内聚简单内核，放开业务自封装空间，留下更多空间给业务
开源心态：开放公开，接受任何符合价值观源码奉献、但有严格代码审核

功能简介

Swoole/FPM 双引擎平滑切换(协程版本还在整理稍晚放出)
统一使用 Composer Autoload PSR4
请求Debug 模式，请求网址wxdebug=1可查看debug模式查看异常分析性能
协程模式下对变量域做了更好的封装，降低协程使用难度
支持压测使用灰度影子库
高速map映射路由 + FastRouter正则路由
符合大数据挖掘设计的Trace日志，方便ELK分析、ClickHouse、HBase、实时预警
throw new Exception方式处理业务异常、能够快速发现异常

性能压测

目前是在KVM虚拟机上压测、后续会找一台阿里云进行压测

FPM性能

服务器配置

CPU 4 核 Xeon 2.2
内存 12G
KVM + CentOS 7.6
FPM 开启进程数 500

QPS 5331 (分析：fpm空跑hello 1w、引入composer autoload 后 7000、开启日志trace 6000、框架内echo 5000)

Swoole 1.10.x 性能

服务器配置

CPU 4 核 Xeon 2.2
内存 12G
KVM + CentOS 7.6
FPM 开启进程数 500

QPS 24000、协程版本稍晚放出

发行版本介绍

Fend有两个版本

Tag版本为 1.2.x FPM/Swoole 1.10.x 平滑切换版本
Tag版本为 1.3.x FPM/Swoole 4.5.x Coroutine 协程平滑切换版本 此版本还在调整

以下为1.2.x版本安装

FPM Engine Start

master is 1.2.x version

composer create-project fend/fend-skeleton:~1.2.0 project_name
复制代码

Ref nginx.conf to configure Nginx and http://127.0.0.1/ on browser

Swoole Engine Start

composer create-project fend/fend-skeleton:~1.2.0 project_name

# swoole start ( /bin/fend depend on composer require symfony/console )
php /bin/fend Swoole -c app/Config/Swoole.php start
php /bin/start.php -c app/Config/Swoole.php start
复制代码

browser http://127.0.0.1:9572/

1.3.0协程版本安装

composer create-project fend/fend-skeleton:~1.3.0
复制代码

软件作者贡献列表

(其他贡献者、请详见文档鸣谢)

合作伙伴

好未来教育集团90%在线业务在使用本框架

xiaohouai.png

共建规则

欢迎挑战组件功能、允许同类功能同时发布竞争、以性能好 + 实用及实现简单 + 功能实用评判

联系我们

issue: github.com/tal-tech/fe…

加群请加微信：

也许你还想看

11.ieeexplore.ieee.org/abstract/do…

【脑电硬件】教育相关的商业可穿戴脑电设备概览

2020-08-07T16:36:34+08:00

脑电是一门古老的脑成像技术，但迄今为止也依然是最具生命力的主流脑成像技术之一。这主要得益于相比其他脑成像技术，脑电设备具有便携性好，使用成本低，无创，高时间分辨率，和丰富的频率信息等优势。对于在教育领域的实际应用，当前正处于蓬勃发展中的可穿戴式脑电设备，是最具潜力进入真实教育场景的脑成像技术门类，因为它在便携性，成本，使用的简易性方面拥有更显著的优势。

本文的主要目的是针对现有不同类型的商业可穿戴式脑电设备及其应用做一个简单分析和介绍。根据不同的脑电设备在认知神经科学和教育交叉领域的普及程度和潜在适用性，我们对比了以下6种可穿戴脑电设备。

MUSE-2
EMOTIV-EPOC X
Wearable Sensing-DSI 24
OpenBCI-Cyton
CGX-Quick 30
mBrainTrain-SMARTING mobi

区分脑电设备的基本要素通常包含以下四点：

1．电极数：电极即小的金属传感器，可以探测到大脑的信号，一般来说，电极数越多，检测到的脑电波效果越好，可以执行的脑电分析也越为广泛深入。

2．湿电极或干电极：湿电极需要在实验前在每个电极上涂上导电凝胶或盐水，而干电极则不需要，干电极具有更舒适的体验感。

3．有线或无线：本文中提到的所有设备都是无线设备，也可以称为‘移动的’设备，有线脑电设备主要用于前沿研究和医学领域。设备的移动性和便携性对实际应用非常重要。

4．佩戴的舒适/可接受程度：脑电设备佩戴的舒适性会直接影响被试者的实验状态，佩戴较舒适的脑电设备会带来更好的实验效果，才有机会走入实际应用。

除了以上基本因素，脑电设备的另一个指标是采样率，采样率即每秒可采集到的数据点，较高的采样率支持较高的时间分辨率。此外，电池可连续使用时间也是一个重要因素，该因素会限制实验可进行的时间，对实验的完整性具有重要意义。

表1对本文要介绍的6种脑电设备主要特点进行了汇总。

表1. 几种可穿戴式脑电设备主要技术指标

一、MUSE-2

MUSE-2是加拿大多伦多的一家科技公司InteraXon开发的一款可穿戴脑电设备，用户佩戴此设备，并使用在移动设备中安装的特定软件便可完成脑电波的检测活动。据InteraXon公司介绍，当用户戴上这款设备时，可以非常直观地看到自己的脑部活动变化情况，进而可以更加容易地对自身进行情绪训练。

MUSE-2专注于服务用户，主要针对冥想和睡眠分析。它能够与指定应用程序进行无线实时连接，从而进行神经反馈训练，可连续使用5小时，采样率为256Hz。MUSE-2的主要优势在于可用性（支持蓝牙连接，并且可与内部应用程序轻松交互）、舒适性（轻薄、干电极）以及具备可检测心跳、运动和呼吸的传感器（PPG、加速度计和陀螺仪）。MUSE-2的主要缺点是电极数比较少，只有4个电极，空间分辨率差，通过利用如此少的电极检测到的脑电波来确定大脑活动的位置很困难，对于较复杂的脑认知活动缺乏刻画的能力（相对于电极数目较多的脑电设备）。

MUSE-2的使用范围已经覆盖从健康到娱乐的各种场合，拥有近200篇与其相关的出版物。由于MUSE-2通常被称为是“冥想脑电设备”，下面介绍一个对尼泊尔僧侣进行研究的例子[1]。

来自维多利亚大学和英属哥伦比亚大学的研究人员前往位于珠峰基地的一座修道院，对僧侣在冥想和进行其他活动时的脑电波进行测量和研究。研究结果显示，僧侣的大脑在冥想时仍然非常活跃，与休息时相比，他们的大脑在冥想时会更容易放松、集中和同步。研究人员还发现，僧侣在冥想之后玩电子游戏，他们的脑神经元对视觉的感知会更加敏感。

图1. MUSE-2脑电设备示意图；僧侣头戴MUSE-2进行冥想活动

二、EMOTIV-EPOC X

EMOTIV-EPOC X（以下简称EPOC X）无线便携脑电系统是美国加州旧金山的神经科技公司开发的一个全新的人机界面控制系统，该设备利用一部能够测量脑电活动的装置，来实时探测和处理脑电波模式。EPOC X为EPOC+的提升版，最大的改进在于添加了旋转头带，减少补液时间。

与MUSE-2类似，EPOC X也是一种用户友好型头戴式脑电设备，不同的是EPOC X有14个电极，可连续使用时间为6小时并且采样率高达2048Hz。EPOC X的主要优势为它是一款用户友好型的轻量级头戴设备，佩戴很舒适，并支持无线蓝牙连接。主要缺点是用户在使用前需要在传感器上添加特定溶剂，属于湿电极，所以虽然结构上看似简易，但实际使用并不方便。此外，若需要从脑电信号中获取原始数据，用户需要付费订阅。这给科研性质的用户会带来很大的不便。

图2. EPOC X脑电设备示意图

由于EPOC X的消费者不是来自非科学界，就是来自超出心理学和医疗保健等传统脑电应用领域之外的研究领域，所以EPOC X的应用场景非常多样。

以下是一些例子：

通过脑机接口（BCI）控制的微型汽车[2]，见图3；

由人脑控制的老鼠“电子人”（例如在老鼠的大脑中植入电极）[3]

情绪共鸣。例如播放的音乐类型与脑电图检测到的情绪一致[4]；

研究人在城市中行走时对不同地点之间的距离的感知[5]。

图3. 使用EMOTIV-EPOC X通过BCI控制微型汽车

三、Wearable Sensing-DSI 24

DSI-24是美国Wearable Sensing公司研发的一款干电极头戴式脑电设备，电极里面加了弹簧，可以更好的贴合头皮，减少电极对头皮的硬性压力。设计非常便捷，可以在5分钟内记录用户的脑电图，适合在办公室或实验室环境中轻便移动。

DSI-24包含24个电极，采样率为300Hz，通过蓝牙进行无线连接，非常容易构建实验环境。并且在实验结束后，脑电信号的原始数据便可以立即下载，而且可以通过提供的软件进行持续监测。DSI-24的一个突出优点是它包含2个电池盒，也就是在实验过程中可以打开其中一个电池盒更换备用电池，该操作不会中断信号采集，由此便可认为DSI-24可以不限时长的使用。

图4. DSI-24脑电设备示意图；用户头戴DSI-24脑电设备

尽管DSI-24电极数较多，但佩戴依然有较好的舒适性，设备大小可调节，能够适应各种头部尺寸，实际的测试表明，对于大部分普通被试，连续佩戴一小时以上的可接受程度高。此外，该设备的一个最大的优点是电极属于干电极，使用和维护上相当简易。需要注意的是，对于处理通过DSI-24采集的脑电数据，使用者必须具备相关的脑电技术知识才能胜任。

在2017年，英属哥伦比亚大学的研究团队发表了一项研究，他们在教育背景中使用DSI-24，通过检测学生的脑电信号来评估学生在生物课上回答问题时的认知负荷[6]。

四、OpenBCI-Cyton

Cyton是OpenBCI公司设计的一款干电极头戴式脑电设备。OpenBCI是一家开发低成本开源EEG的公司，目标是帮助对脑科学和脑机接口感兴趣的业余爱好者，以低成本的方式获取脑电信号和数据并进行研究，OpenBCI的产品专注脑机接口来驱动机器和绘制大脑活动。

Cyton设备有16个电极，通过蓝牙进行无线连接，可连续运行24个小时，采样率为250Hz。OpenBCI产品的最大优势是DIY特性，用户可以灵活地改变电极的数量、连接其它类型的传感器或访问其它的开源工具。Cyton的局限性与DSI-24类似，用户需要具备一些编码和神经科学方面的专业知识才能够获得更好的使用效果。

近期，巴西的UTFPR大学在一项研究中使用了OpenBCI的Cyton系统来评估学生通过智能辅导系统（ITS）学习时的情绪，学生情绪的变化会反馈给ITS, ITS可以选择根据学生情绪的变化相应地调整教学内容，以期提高教学质量[7]。在2019年，埃及的一所大学使用OpenBCI脑电设备与VR结合帮助中风患者恢复运动能力，该项目将患者的大脑信号输入到游戏中，通过VR显示，游戏内容会根据患者的大脑信号相应地进行调整，以优化患者的康复运动[8]。天津大学的一个研究团队正在使用OpenBCI脑电设备将BCI连接到机器人可书写的手臂，当受试者看到汉字时，来自受试者大脑的信号就会指示机器人写出所看到的汉字[9]。

图5. 头戴式OpenBCI脑电设备；通过BCI控制机器人书写汉字

五、CGX-Quick 30

Quick-30是美国CGX公司生产的一款头戴式干电极脑电设备，与Quick-20r相比，Quick-30增加了电极数、增大了采样率并且延长了待机时间。Quick-30结合了大量的机械和结构改进，加快了安装速度，显著提高了耐用性和磨损时间。

Quick-30脑电设备包含30个电极，通过蓝牙进行无线连接，能够连续运行16个小时，采样率可达到1000Hz。与本文提到的其它设备相比，Quick-30的主要优势是电极数最多，并且具有较高的采样率，可以更好地识别受试者大脑的位置和信号产生的时间，即可以得到更高的空间和时间分辨率。Quick-30的短板是舒适度，它的重量是一些用户友好型设备的两倍以上，如MUSE-2和EPOC X。

CGX公司的产品应用范围广泛，在全球已有数百家研究机构使用他们的脑电设备。密苏里大学的研究人员使用CGX设备来评估受试者在玩电子游戏时的情绪状态，他们试图区分三种不同的情绪状态：交流、无聊和焦虑，该研究可以为游戏设计者提供反馈，提升游戏的体验感[10]。广州科技大学的研究人员使用CGX设备来评估车辆驾驶员的睡意，通过对受试者的脑电数据进行收集和分析，观察受试者的警觉性水平，评估他们是否感觉疲惫并伴有睡意，这项研究可能有助于降低交通事故的风险概率[11]。

图6. Quick-30脑电设备示意图；驾驶员头戴Quick-30脑电设备

六、mBrainTrain-SMARTING mobi

SMARTING mobi是mBrainTrain公司推出的一款小而轻的头戴式湿电极脑电设备，可以随时记录脑电图，与配套的移动应用程序结合使用可以完成高质量的数据记录，能够在实验室和日常生活中实时监测大脑活动。

SMARTING mobi脑电设备包含24个电极，通过蓝牙进行无线连接，可以连续运行5个小时，采样频率为500Hz。SMARTING mobi的主要优势是轻量级，重量不到60克，对于包含24个电极的脑电设备来说是非常轻便的。SMARTING mobi的缺点是用户在使用前需要在传感器上添加特定溶剂，属于湿电极。与上述设备不同的是SMARTING mobi是一个覆盖整个头皮和耳朵的帽子，并不是独立分散的可调节电极的设备。

图7. SMARTING mobi脑电设备示意图

比利时著名大学鲁汶大学使用SMARTING mobi研究受试者居家进行的自然活动，实验对象需要轻松完成各种日常活动，包括看书、看视频、玩数独游戏等，研究人员能够根据受试者的脑电信号检测出敬业度、警觉性和精神负荷指标，该实验的目的是收集在自然环境和实验室环境下的对比数据[12]。维也纳大学和东京大学进行了一项跨文化研究，通过佩戴SMARTING mobi设备观察母子之间的互动，研究结果显示，当奥地利母亲看到一个环境中的物体时，她们更关注物体，而日本母亲则更关注环境[13]。

图8. 头戴SMARTING mobi进行居家自然活动实验

小结：

在本篇文章中，我们结合认知神经科学和教育领域，简单介绍了六种不同类型的商业可穿戴移动脑电设备，包括MUSE-2，EMOTIV-EPOC X，Wearable Sensing-DSI 24，OpenBCI-Cyton，CGX-Quick 30和mBrainTrain-SMARTING mobi，并对这六种脑电设备在实际中的应用进行举例介绍。这些设备各具特点，优势和不足，好的脑电设备不仅能检测到高质量的脑电信号，并且具备较好的佩戴舒适性和实验体验感。不同的脑电设备适用场景不同，对于在教育领域的实际应用，可穿戴式脑电设备是最具潜力进入真实教育场景的脑成像技术门类，基于可穿戴脑电设备的教育研究发展，也非常值得我们共同期待。

参考文献

https://www.ctvnews.ca/health/neurologist-treks-to-everest-to-study-monks-in-meditation-1.3015389
https://www.emotiv.com/blog/developer-project-eeg-controlled-rover-a-brain-computer-interface/
https://www.emotiv.com/independent-studies/human-mind-control-of-rat-cyborgs-continuous-locomotion-with-wireless-brain-to-brain-interface
https://www.emotiv.com/independent-studies/music-emotion-capture-sonifying-emotions-in-eeg-data
https://www.emotiv.com/independent-studies/exploring-distance-perception-in-urban-environments-with-mobile-eeg
Mills, Caitlin & Fridman, Igor & Soussou, Walid & Waghray, Disha & Olney, Andrew & D'Mello, Sidney. (2017). Put your thinking cap on: detecting cognitive load using EEG during learning. 80-89. 10.1145/3027385.3027431.
https://link.springer.com/chapter/10.1007/978-3-030-49663-0_8
https://ieeexplore.ieee.org/abstract/document/9021752
https://ieeexplore.ieee.org/document/9071613
https://aisel.aisnet.org/cgi/viewcontent.cgi?article=1002&context=mwais2017

12.Zink, Rob & Vos, M. (2018). An afternoon of natural activities at home through the eyes of mobile EEG. 10.13140/RG.2.2.27862.40007.

13.osf.io/g7meu/downl…

招聘信息

好未来技术团队正在热招前端、算法、后台开发等各个方向高级开发工程师岗位，大家可微信搜索“好未来技术”或者扫描下方二维码，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

基于Nodejs打造Web架构中间层

2020-07-31T20:38:54+08:00

前言

Node.js自2009年诞生以来，发展速度相当惊人，目前各种开发框架层出不穷，国内外各大公司都在使用，如国内的阿里的淘宝、天猫、阿里云、蚂蚁金服，腾讯视频、携程、百度、网易、苏宁、京东、爱奇艺、去哪儿、有赞、贝壳找房等等好多企业都在使用，大部分企业把Node.js作为中间层去应用，今天和大家简单说说关于基于Nodejs打造Web架构中间层的一些知识。

一、中间层与中间件

1、什么是中间层

中间层（Middle Tier）也称作应用程序服务器层或应用服务层，是用户接口或 Web 客户端与数据库之间的逻辑层。典型情况下 Web 服务器位于该层，业务对象在此实例化。中间层是生成并操作接收信息的业务规则和函数的集合。它们通过业务规则（可以频繁更改）完成该任务，并由此被封装到在物理上与应用程序程序逻辑本身相独立的组件中。

1.1 Node作为中间层模式

以Node作为中间层，当客户端打开一个网站时，先请求到node服务器这一层，通过node服务器转发请求到后端的服务器，获取数据，然后返给node的模板引擎，根据视图模板渲染好模板字符串页面，再返回给客户端，直接展示页面，如图：

1.2 负载均衡器-Nginx

Nginx是一个高性能的WEB服务器和反向代理服务器，最常用的软件负载均衡器。

当访问量比较大时，频繁的请求，会给服务带来很大压力，通过负载均衡、分流，减轻服务器的压力；另一方面，网站部署在多台服务器，当某台服务器故障的时候，可以马上切换到其它服务器，还能保证网站能正常访问，这就是负载均衡的优势。

2、什么是中间件

2.1 中间件概念

中间件(MiddleWare)是一种独立的系统软件服务程序，分布式应用软件借助这种软件在不同的技术之间共享资源，中间件位于客户机服务器的操作系统之上，管理计算资源和网络通信。从这个意义上可以用一个等式来表示中间件：中间件=平台+通信，这也就限定了只有用于分布式系统中才能叫中间件，同时也把它与支撑软件和实用软件区分开来。

在NodeJS中，中间件主要是指封装所有Http请求细节处理的方法。一次Http请求通常包含很多工作，如记录日志、ip过滤、查询字符串、请求体解析、Cookie处理、权限验证、参数验证、异常处理等，但对于Web应用而言，并不希望接触到这么多细节性的处理，因此引入中间件来简化和隔离这些基础设施与业务逻辑之间的细节，让开发者能够关注在业务的开发上，以达到提升开发效率的目的。中间件可以理解为一个对用户请求进行过滤和预处理的东西，它一般不会直接对客户端进行相应，而是将处理之后的结果传递下去。简单来说就是实现某种功能的函数。

Express是一个自身功能极简，完全是路由和中间件构成一个web开发框架：从本质上来说，一个Express应用就是在调用各种中间件，中间件机制如图所示：

2.2 中间件机制核心实现

中间件是从Http请求发起到响应结束过程中的处理方法，通常需要对请求和响应进行处理，因此一个基本的中间件的形式如下：

`const middleware = (req, res, next) => {
// TODO
next()
}`

二、中间层的意义

Node.js是一个Javascript运行环境。Node.js 使用事件驱动，非阻塞I/O 模型而得以轻量和高效，非常适合在分布式设备上运行数据密集型的实时应用。Node.js是单进程、单线程运行机制，通过事件轮询（event loop）来实现并发操作，而且性能很好。

Node.js最大的改良架构就是"增加了中间层"，前后端分离，使用Node.js来做‘BBF(backend of frontend)’在传统后端加入了Node.js这一层，通过此有两点好处，前端接管了view层，后端渲染也开始全部由前端掌控，另一个就是接口层增加了一层。在前后端分离的天然选择下，Node.js中间层可以承担更多的责任。

1、Node.js中间层可做的工作

代理：在开发环境下，我们可以利用代理来，解决最常见的跨域问题；在线上环境下，我们可以利用代理，转发请求到多个服务端。
缓存：缓存其实是更靠近前端的需求，用户的动作触发数据的更新，Node.js中间层可以直接处理一部分缓存需求。
限流：Node.js中间层，可以针对接口或者路由做响应的限流。
日志：相比其他服务端语言，Node.js中间层的日志记录，能更方便快捷的定位问题（是在浏览器端还是服务端）。
监控：擅长高并发的请求处理，做监控也是合适的选项。
鉴权：有一个中间层去鉴权，也是一种单一职责的实现。
路由：前端更需要掌握页面路由的权限和逻辑。
服务端渲染：Node.js中间层的解决方案更灵活，比如SSR、模板直出、利用一些JS库做预渲染等等。

2、Node.js中间层带来的好处

通过PC Web自己的中间层，可以按照业务定制化接口，扩大前端展现的能力和范围；
中间层接口由使用接口的前端工程师开发，对展现和接口的功能更加熟悉，避免了以前的工作模式中接口方跟各方的需求对接、沟通、联调时间，这样使得项目的推进更加顺利，项目迭代会更快；
中间层使用NodeJS，开发语言是JavaScript，跟现在前端工程师的工作语言一样，减少了学习成本；
中间层接口的开发由前端工程师同时负责开发，既节省了人力成本，同时又提高了前端开发人员的技术能力，使得前端工程师向全栈工程师迈进。

3、Node.js中间层的优势

功能分离，减轻板块负担;
跨系统、跨终端均可重用页面数据校验、逻辑代码，无需因为新系统、终端的接入而重写校验；
只在中间件中做一次数据校验，避免了前端做数据校验的同时后端也要做校验的重复，在有效保证数据的有效性的同时降低了团队整体的工作量；
处理数据逻辑，解放了前端既要做页面渲染又要写复杂的逻辑，使得页面开发人员专注于页面渲染，不仅使得分工更为明确，项目协作效率更高，更重要的是快速响应页面使得页面加载更快，用户体验更好，避免了浏览器长时间显示空白页面的不友好体验，真正的前后端分离。

三、中间层的实现

前面写了很多理论方面的知识，接下来自己手动来简单实现Node.js基于Koa框架实现的中间层。

1、后端提供的接口

先了解一下后端提供的一个接口，根据前端页面输入不同账号信息，后端接口会返回不同的值，如图：

这段PHP代码是根据前端传给不同的用户名和密码状态返回不同的状态码。

2、搭建前端页面

前端页面用了ejs模板引擎采用服务端渲染方式来进行。前端页面主要有三个代码的文件，app.js，admin.js，admin.ejs。

2.1 项目代码结构

2.2 项目代码展示

1、是app.js代码

`const Koa = require('koa');
// 路由
const Router = require('koa-router');
// 模板引擎
const ejs = require('koa-ejs');
// 数据解析
const body = require('koa-bodyparser');
// 处理静态文件
const static = require("koa-static");
const path = require('path');
const app = new Koa();
ejs(app,{

root:path.resolve(__dirname,"template"), 
layout:false,
viewExt:"ejs",
cache:false,
debug:false

})
const router = new Router();
app.use(body());
router.get("/",ctx => {

ctx.body = '主页';

})
router.use("/admin",require("./router/admin"));
app.use(static('./static'));
app.use(router.routes());
app.listen(3000);`

2、登录页面文件，用ejs模板引擎来处理

`<!DOCTYPE html>
<html lang="en">
<head>

<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>我是管理页面</title>
<script src="/js/jquery.min.js"></script>

</head>
<body>

<p>用户：<input type="text"></p>
<p>密码：<input type="password"></p>
<button>提交</button>
<script>
   $(function(){
       $('button').click(function(){
           var username = $(':text').val();
           var password = $(':password').val();
           $.ajax({
               url:'/admin/login',
               method:'post',   
               data:{
                   username,
                   password
               },
               success(data){
                   console.log(data);
               }
           })
       })
   })
</script>

</body>
</html>`

3、代码逐步实现逻辑

1、使用上面的登录页代码，然后admin.js页面代码如下

`const Router = require('koa-router');
const querystring = require('querystring');
const router = new Router();
router.get('/',async ctx=>{

await ctx.render('admin/admin')

})
router.post("/login",async ctx => {

const { username,password } = ctx.request.body;
console.log(username,password);

})
module.exports = router.routes();`

此时登录页面输入用户名和密码点击提交时会输出结构如下代码：

``^CedzdeMacBook-Pro-5:0323 edz$ nodemon app.js
[nodemon] 2.0.2
[nodemon] to restart at any time, enter rs
[nodemon] watching dir(s): .
[nodemon] watching extensions: js,mjs,json
[nodemon] starting node app.js
admin 123456 //后端拿到了前端传给的数据``

此时传过的数据后端会拿他与数据库作比对，进行处理，而Node.js只充当中介作用，不做数据的处理。

2、我们接着看，把要的数据传个服务端，使用axios发送数据到服务端，其中里面用到了数据格式的转换：

`const Router = require('koa-router');
const querystring = require('querystring');
const router = new Router();
router.get('/',async ctx=>{

await ctx.render('admin/admin')

})
//此处为中间层，起到中介作用，会把数据发给后端接口
router.post("/login",async ctx => {

const { username,password } = ctx.request.body;
//console.log(username,password);
//要数据传给服务端，使用axios发送数据到服务端
const {data} = await axios({
    url:'http://localhost/login/check.php', 
    method:'post',
    data:{
        username,
        password
    },
    // username=admin&password=123456查询字符串
    //数据格式转换，前端是个JSON数据格式，后端拿到的是表单数据
    transformRequest:[
        data =>{
            return querystring.stringify(data)
        }
    ]
})

})
module.exports = router.routes();`

此时登录页面输入用户名和不同的密码和空密码时点击提交时会输出结构如下代码：

3、这时我们把后端传回的接口数据在进行重新包装一下，添加如下代码：

`// 重新包装

if(data.code !== 1){
    // return中断条件
    return ctx.body = {
        code:401,
        message:'未经授权'
    }
}
// 前端自己定义的提示语 ，后端专注逻辑开发，不用在和前端定义接口
ctx.body = {
   code:200,
   message:'校验成功'
}`

这时页面会返回经过前端包装的提示语，如图所示：

总的处理路由的admin.js代码文件如下：

`const Router = require('koa-router');
const axios = require('axios');
const querystring = require('querystring');
const router = new Router();
router.get('/',async ctx=>{

await ctx.render('admin/admin')

})
//此处为中间层，起到中介作用，会把数据发给后端接口
router.post("/login",async ctx => {

const { username,password } = ctx.request.body;
//console.log(username,password);
//要数据传给服务端，使用axios发送数据到服务端
const {data} = await axios({
    url:'http://localhost/login/check.php', //后端提供的一个接口文件
    method:'post',
    data:{
        username,
        password
    },
    // username=admin&password=123456查询字符串
    //数据格式转换，前端是个JSON数据格式，后端拿到的是表单数据
    transformRequest:[
        data =>{
            return querystring.stringify(data)
        }
    ]
})
// 重新包装
// console.log(data);
if(data.code !== 1){
    // return中断条件
    return ctx.body = {
        code:401,
        message:'未经授权'
    }
}
// 前端自己定义的提示语 ，后端专注逻辑开发，不用在和前端定义接口
ctx.body = {
   code:200,
   message:'校验成功'
}

})
module.exports = router.routes();`

服务端不要暴露太多给用户信息，不用提示用户名正确或者密码错误，防止被别人猜，前端根据后端提供的状态码重新定义输出提示内容，对用户来说特别的友好，不论后端给前端什么样的接口内容，前端都可以包装接口，所以后端只要返回给前端数据就可以了，接口的定义前端自己可以进行包装。

四、总结

中间层已经为越来越多的大公司所应用，进入中间层后，前端能做的事情越来越多，将触角伸向了服务器，除了前后端分离外，还能做redis缓存，负载均衡策略。另一方面，不止是Node.js能做中间层，PHP也可以，因为Node.js是用js写的，Node.js的生态很成熟，对于前端人员来说，比较容易上手。

Web端的开发团队是需求链中的最上游、数据链的下游，很多产品功能都受限于业务接口，中间层提供了一种可能，让我们Web前端开发工作有了自己的接口开发能力可以对接最原始数据，既减少了前端开发中的局限性，也让前端团队在开发过程中有了更多的想象力，能更好的根据业务需要快速开展项目。
招聘信息

好未来技术团队正在热招前端、算法、流媒体后台开发等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索关注“好未来技术”，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

知识图谱综述，构建，存储与应用

2020-07-24T17:30:38+08:00

本文介绍知识图谱，首先会讲一段知识图谱的综述作为开场，然后就知识图谱的构建，存储，还有应用进行具体说明。

知识图谱和我们的资源页比较类似，都是需要先构建，然后存储，之后应用。
知识图谱应用广泛，我会以推荐系统为例子，说明知识图谱在推荐系统中的应用。

知识图谱综述

我们首先对知识图谱做一个简短的综述。

计算机为什么需要知识？
比如数字110，对机器来说，110就是一个字符串，与其他数字没有太大的差别。
当然可以借助关联分析，分析出110跟警察，抢劫等相关。但是关联分析比较复杂，需要借助数据挖掘等相关技术。
如果采用知识库，只需要构建一条知识，即110是报警电话。

人工智能分为三个层次，分别是运算智能，感知智能和认知智能。
运算智能是让机器能存会算；感知智能是让机器能听会说、能看会认；认知智能是解决机器能理解会思考的问题。

认知智能需要知识图谱。

知识图谱是一个大规模语义网，包含实体和关系，比如章子怡的丈夫是汪峰；
也包含实体和属性，比如章子怡的出生日期是1979年2月9日。
还包含实体和概念，比如章子怡是一个女演员；
还包含概念之间的关系，比如女演员是演员的子类。演员是人物的子类。

百科图谱一般由标题，摘要，信息框，标签，图片等部分组成。
可抽取信息框的内容构建知识图谱，并进行可视化展示。
其中，对于题目理解来讲，函数的提出者，提出时间这些属性不是我们所关心的。
表达式，表示法，三要素是我们关心的属性。

知识图谱可以使能搜索与问答，比如搜索函数的三要素，可以直接得到结果：定义域，值域，对应法则。

知识图谱还可以使能Query补全，比如输入函数的，推荐的候选Queries为函数的定义，函数的三种表示方法等。

知识图谱强调世界是由实体而不是字符串组成的，比如题目中的函数，f(x), 定义域等在知识图谱中都是一个个实体，而不是字符串。

那么什么是知识图谱呢？
知识图谱是一个大规模语义网，由实体，概念等节点和属性，关系，类型等边构成。
是许多三元组的集合。每一个三元组是由主语（subject），谓语（predicate），宾语(object)构成。
比如中国，上海，姚明，叶莉等是实体。
比如地理位置，人物是概念。
比如姚明的身高226厘米，身高是属性。
比如姚明的配偶是叶莉，配偶是关系。

知识图谱三元组基本类型有四种，分别是实体，关系，实体，比如好未来，创始人，张邦鑫老师；
还有实体，属性，属性值，比如好未来，成立时间，2003年；
还是实体，is-a，概念，比如好未来,is-a，上市公司；
还有子概念，subclass-of，父概念，比如上市公式，subclass-of，公司；

不能把is-a和subclass-of进行混淆，就好像不能把集合的属于和包含进行混淆一样。

知识图谱分为模式层和数据层。
模式层是数据的模式，是对数据层的提炼。
数据层是具体的数据。

模式层是知识图谱的数据模型，是对数据层的约束。
我们以教学图谱为例，可以有staff, professor, course, laborary, student, PhD student等概念，以及professor 和course之间的联系，professor teach course。
还有professor 和PhD student之间的联系 Professor supervise PhD student。
这些概念以及概念之间的关系，构成了知识图谱的模式层。
然后在模式层下添加实体，比如Professor Xu和PhD student Wang，以及实体之间的关系，比如Xu supervise Wang.

知识图谱的构建

接下来，我们介绍知识图谱的构建。

知识图谱的构建，从数据来源来说，包括从结构化，半结构化和非结构化的海量数据中抽取知识，构建图谱。
按构建者分，可以分为众包构建和自动化构建。众包构建，就是利用许多人进行编辑，构建知识图谱，维基百科，百度百科都是众包构建的。
自动化构建，就是利用机器进行自动构建。
按构建方式分，可以分为自上而下的构建和自下而上的构建。

自上而下的构建先确定模式层，然后添加实体数据到知识库。
自下而上的构建先确定知识图谱的数据层，然后提取数据的模式。
行业知识图谱规模小，比如容易确定模式层，多采用自上而下的构建方式。
通用知识图谱规模大，数据模式随数据的增长而变化，多采用自下而上的构建方式。
知识图谱可以只有数据层，没有模式层。

知识图谱模式层构建，也叫本体(ontology)构建。需要先确定知识图谱的领域，比如大学领域。
然后列出领域内的术语，比如教职工，行政人员，技术支持人员，本科生，研究生等术语。
然后确定类和类之间的层级关系，比如教职工是在职教师和研究人员的父类。学生是本科生，研究生的父类。
然后定义术语外延的规则。比如概念的属性，概念之间的关系，属性或者关系的定义域（domain）和值域（range）等。

知识图谱的构建分为众包构建和自动化构建。由于众包构建涉及技术较少。我们这里主要介绍自动化构建。
这是知识图谱自动化构建的流程。
首先从数据库，百科网站，垂直网站等数据来源获取结构化，半结构化，和非结构化数据。
对非结构化数据和半结构化数据进行实体抽取，关系抽取，属性抽取，并与结构化数据进行整合，形成初步的三元组知识。
然后通过实体消歧得到标准知识表示。
对标准知识构建本体，形成数据模型。
对知识进行推理，发现新的知识。
对知识进行质量评估，从而进行质量控制。
对知识图谱添加新的实体，或者修改旧的实体，对知识图谱进行更新。
对构建好的知识图谱进行存储，方便下游应用。
对知识图谱进行表示学习，将知识图谱离散的符号转化为连续的数值。
对知识图谱进行应用，主要包括内容理解，搜索，推荐，问答等应用。

这里描述了从半结构化数据抽取三元组的例子，主要涉及网页爬取与解析。这里根据信息框（infobox）和标签（tags）来抽取三元组。

对于非结构化数据，先经过预处理，比如全角转半角等，然后进行分词，词性标注，语法解析，依存分析等NLP工具对文本进行解析，进一步进行实体识别，然后关系抽取，实体消歧，事件抽取等构成三元组知识。
比如文本：已知函数f(x)的定义域，抽取出函数，f(x), 定义域等实体，然后对实体对进行关系分类；比如函数和f(x)分类为表达式，比如函数和定义域分类为要素。
形成三元组知识：函数，表达式，f(x)，函数，要素，定义域。
由于函数可能是数学中的函数，也可能是计算机中的函数，还需要进行实体消歧。根据上下文判断函数为数学中的函数。

实体识别是识别出文本中的人名，地名，组织机构名，时间，日期，货币等类型的字符串。
比如左边这条新闻，识别出时间3月23日0时50分，识别出人名特朗普等。
对于学科图谱来讲，需要识别出相关术语。比如函数，数集等术语。

实体识别一般建模成序列标注任务。输入一个序列，经过词嵌入，和双向LSTM编码，然后用CRF进行解码。
其中函数预测的标签是B-Noun, E-Noun, B和E分别表示mention的开始和结束，Noun表示类型。
f(x)预测为表达式，其中I-Expr, I表示Inside, Expr表示表达式。

当BERT出现后，由于BERT效果好，常采用BERT来对句子进行编码。

当识别出了文本中的实体，还需要对文本中的实体，两两进行关系分类。
一般我们会收集并标注一个关系分类的训练集，来训练一个模型，然后用模型对测试数据进行预测。
比如我们训练好模型后，对测试数据，集合中的元素有多种特性，包括确定性，互异性，无序性进行预测。
我们需要预测元素与确定性之间的关系，预测结果为特性。也就是集合有一个特性是确定性。

由于BERT的兴起，常用BERT来做关系分类。

识别出文本中的mention后，比如识别出函数，定义域等mention,还需要对mention进行实体消歧（entity disambiguation）。也就是这个mention提及的是哪一个实体。
比如函数可以是数学术语，也可以是计算机中的函数，根据上下文，判断指代的是数学中的函数。

注意到实体链接就是先识别出来文本中的mention，然后将识别出来mention链接到知识库中实体，所以说实体链接=实体识别+实体消歧。

除了实体链接以外，还可以有公式链接。比如题目或者解析中某个公式使用了某个定理，可以将这个公式链接到它运用的定理上。

构建好了知识图谱后，我们需要对构建好的知识图谱进行规模和质量的评估。
规模一般用知识图谱中有多少个实体，有多少个关系来描述。
质量一般可以用准确率来衡量。由于知识图谱三元组数量多，我们一般抽取若干个三元组，比如500个，对每一个三元组进行真假判断，然后统计准确率。
右表展示了抽取8个三元组，计算准确率的过程。
一般来讲，众包构建的准确率较高，自动化构建的准确率相对较低。
领域知识图谱准确率较高，通用知识图谱准确率相对较低。

知识图谱存储与查询

接下来我们介绍知识图谱存储与查询。
知识图谱存储和查询可以分为两类，一类是基于图数据库的，一类是基于关系型数据库的。

我们先介绍基于图数据库的管理系统。
属性图(property graph)是图数据库中最常用的数据模型，由节点和边构成。
比如下面这幅图，有三个节点，每个节点表示一个对象。
第一个节点的标签是Employee，这个节点的属性用键值对存储，比如姓名为Amy peters, 出生日期为1984年3月1日，ID为1。
Company 和 Employee之间有边HAS_CEO，边上也可以有属性，比如Company has CEO 开始日期为2008年。

下面是一个图数据库查询1号节点认识的节点中，年龄大于30的节点参加过的项目。
其中Gremlin和Cypher是图数据库两种查询语言。
Gremlin是过程式（procedural）语言；用户需指明具体的导航步骤，也就是在图上怎么走；它是业界标准查询语言，除了Neo4j外，几乎所有图数据库均支持。
Cypher是Neo4j专用语言，它是声明式（declarative）语言；用户只需声明“查什么”, 无需关心“怎么查”；

当然我们也可以利用关系型数据库对知识图谱进行存储。我们可以将图数据用三元组表示，将每一个三元组作为表中的一行记录。
下面是查询生于1850年，死于1934年，创建过公司的人。
采用关系型数据库存储，多跳查询会产生自连接（self-join）操作。
比如A->B为一跳，A->B->C为两跳。

也可以采用水平表的方式进行存储，每一行存储一个主语对应的所有的谓语和宾语。
这种存储方式适合于谓词较少的知识图谱。
主语一般只在极少的列上有值，导致存储空间浪费。
并且这种存储方式很难存储多值属性或者一对多关系。
比如函数的三要素是定义域、值域和对应法则，用水平表存储这种多值属性，需要对值拼接后才能存储。

也可以按照实体的类型对知识图谱进行划分，这种方式适合于实体类别较少的情况。
同样地，存储多值属性或一对多关系需要对值进行拼接。

也可以根据谓词对知识图谱进行划分。对每一个谓词创建一张表。这种方式解决了数据存储稀疏性问题，也可以存储多值属性。
但是涉及多个谓词的查询会导致多表连接操作。

知识图谱的应用

知识图谱的应用有很多，我们主要介绍知识图谱在推荐系统中的应用。

如图是一个新闻推荐的例子，假设某个用户看过一条新闻，这个新闻的内容是：
Boris Johnson Has Warned Donald Trump To Stick To The Iran Nuclear Deal（鲍里斯·约翰逊警告唐纳德·特朗普坚持伊朗核协议）。
从这条新闻中提取出4个实体，然后对这些实体做一跳，两跳，三跳扩展，会发现这些实体都指向另外一条新闻：
North Korean EMP Attack Would Cause Mass U.S. Starvation, Says Congressional Report（国会报告称，朝鲜电磁脉冲攻击将导致美国大规模饥荒）。
这2条新闻的单词都不一样，利用知识图谱可以发现他们底层之间的关联。

KG能给推荐系统带来什么？
首先知识图谱可以提高推荐系统的精度（Precision），更准确地发现item之间的关联，比如Cast Away 和 Forrest Gump 都是Tom Hanks 主演的。

知识图谱还可以提高推荐系统的多样性（Diversity）。电影可以通过主演扩展，也可以通过电影类型扩展，还可以通过导演来扩展，找到相似的电影。

知识图谱还可以提高推荐系统的可解释性（Explainability），知识图谱中的路径可以用来解释为什么会推荐这部电影。比如某个用户喜欢Cast Away这部电影，系统推荐了The Terminal这部电影，因为他们有相同的主演。

已知一个用户的集合Users，一个物品的集合Items，用户和物品的交互矩阵YYY，yuv=1y_{uv}=1yuv=1表示用户点击过某个物品，0表示未点击。
每个物品vvv在KG中对应一个实体。物品是实体的一个子集。
目标是学习一个函数FFF，给定uuu,vvv，预测点击率y^uv\hat y_{uv}y^uv，Θ\ThetaΘ是模型的参数。

DKN方法是给出一段新闻，提取新闻中的实体，根据这些实体，构建一个知识图谱子图，对子图做embedding，得到每个实体的embedding。

另外，实体的邻居节点可以作为该实体的上下文信息。将这些邻居实体的embedding求平均，得到该实体的上下文表示。如上图公式中e¯\bar ee¯就是实体eie_iei的上下文embedding。

前面介绍了实体表示，实体上下文表示，另外结合词向量，形成三个通道，进行卷积和池化，得到这个句子的表示，我们管这个方法叫KCNN。

假设用户点击过3条新闻，来了一个候选新闻，需要预测用户对候选新闻的点击概率。
用KCNN对这4条新闻做embedding，得到4个特征向量。
用Attention Net计算用户看过的每一条新闻与候选新闻之间的相似性。
用相似性得分对观看记录求加权平均，得到用户表示（User embedding）。
将用户表示和候选新闻表示拼接，用多层感知机（MLP）预测的点击率。

刚才DKN模型仅融入了实体的一跳信息，RippleNet除了融入一跳信息外，还融入了实体的两跳，三跳信息。Ripple是水波的意思。

另外还有直接利用**图神经网络（GNN）**对知识图谱进行表示。
用图神经网络处理知识图谱需要先将知识图谱中的关系转化为数值。对于每一个用户，引入一个打分函数，用于对知识图谱中每一个关系进行打分。不同用户同一个关系打分不一样，分值高低跟用户的偏好相关。
然后利用图神经网络进行前向传播。其中AuA_uAu是某个用户uuu对应的邻接矩阵。
DuD_uDu是顶点的度矩阵，这是一个对角矩阵。
WlW_lWl是训练参数矩阵。
HlH_lHl,Hl+1H_{l+1}Hl+1是实体对应的embedding矩阵。
σσσ是一个非线性函数。

我们总结一下。

谢谢阅读！如有错误，请批评指正~

资源推荐

作者简介

岳祥为好未来自然语言处理高级工程师

招聘信息

好未来技术团队正在热招前端、算法、后台开发等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

Chrome Performance 页面性能分析指南

2020-07-17T14:36:07+08:00

1.背景

性能优化是前端开发一个非常重要的组成部分，如何更好地进行网络传输，如何优化浏览器渲染过程，来定位项目中存在的问题。Chrome DevTools给我们提供了2种常用方式 Audits和Performance，Audits可以对页面进行性能评分，同时，还会给我们提供一些优化建议。而Performance提供了非常多的运行时数据，能让我们看到更多细节数据。下面主要介绍一下如何使用DevTools中的Performance来进行性能分析

2.Performance介绍

首先在新的无痕窗口打开网页，打开Chrome DevTools 切换到 Performance 下可以看到以下画面

上图1、3区域按钮可以用来触发性能数据记录，黑色按钮可以记录交互阶段的性能数据，圆形箭头按钮用来记录加载阶段的性能数据。
上图2区域可以设置当前页面的网络加载速度与cpu运算速度。

下面我们点击黑色按钮来生成一份交互阶段的性能报告

第一部分：概览

这里最主要是整体的界面渲染的时候，每个时间段执行的事件顺序，通过上图我们就能知道我们每个时间段（精确到毫秒）都做了什么，当鼠标放上去的时候，我们还可以大图的形式去查看我们每个时间段界面的渲染情况，Performance 就会将几个关键指标，诸如页面帧速 (FPS)、CPU 资源消耗、网络请求流量、V8 内存使用量 (堆内存) 等，按照时间顺序做成图表的形式展现出来。

第二部分：性能面板

性能面板主要包括以下几部分
1.Network 这里我们可以直观的看到资源加载的顺序与时长
2.Interactions 用来记录用户交互操作，比如点击鼠标、输入文字、动画等
3.Timings 用来记录一些关键的时间节点在何时产生的数据信息，诸如 FP、FCP、LCP 等
4.Main 是Performance工具中比较重要的部分，记录了渲染进程中主线程的执行记录，点击main可以看到某个任务执行的具体情况
5.Compositor 合成线程的执行记录，用来记录html绘制阶段 (Paint)结束后的图层合成操作
6.Raster 光栅化线程池，用来让 GPU 执行光栅化的任务
7.GPU GPU进程主线程的执行过程记录，如可以直观看到何时启动GPU加速…
Memory 选项，在勾选后，就会显示该折线图，通过该图可以看出我们在不同的时间段的执行情况。我们可以看到页面中的内存使用的情况，比如 JS Heap(堆)，如果曲线一直在增长，则说明存在内存泄露，如果相当长的一段时间，内存曲线都是没有下降的，这里是有发生内存泄露的可能的。
通过对性能面板各个部分的分析与问题定位，可以更深刻的理解浏览器是如何工作的

第三部分：Summary（性能摘要）

它是一个用来统计在我们检测性能的时间范围内，都做了哪些事情：
Loading ：加载时间
Scripting ：js计算时间
Rendering ：渲染时间
Painting ：绘制时间
Other ：其他时间
Idle ：浏览器闲置时间

3.Performance实践

下面举例来说明一下性能面板的使用，在无痕窗口下点击自动重启页面，并记录整个页面加载的过程，然后来分析结果～

网络&&白屏

性能面板，有很多很多的参数，我们要看一些比较常见的。首先看白屏时间和网络加载情况，如下图

上图，我们可以看几点信息：
本次页面加载的白屏时间约为 150 ms
从网络资源加载情况来看，图片没有启用 http2，因此每次可以同时加载的图片数有限，未被加载的图片有等待过程
资源的加载时间也可以看到
另外，我们可以看一下资源加载有没有空白期，虽然上图没有，但是如果资源加载之间存在空白期，说明没有充分利用资源加载的空闲时间，可以调整一下。

火焰图

火焰图，主要在 Main 面板中，是我们分析具体函数耗时最常看的面板，我们来看一下，如图：

首先，面板中会有很多的 Task，如果是耗时长的 Task，其右上角会标红，这个时候，我们可以选中标红的 Task，然后放大，看其具体的耗时点。
放大后，这里可以看到都在做哪些操作，哪些函数耗时了多少,这里代码有压缩，看到的是压缩后的函数名。然后我们点击一下某个函数，在面板最下面，就会出现代码的信息，是哪个函数，耗时多少，在哪个文件上的第几行等。这样我们就很方便地定位到耗时函数了。
同时也可以查看 Main 指标分析代码里面是否存在强制同步布局等操作，分析出来这些原因之后，我们可以有针对性地去优化我们的程序

时间线&&内存情况

在 Timings 的区域，我们可以看到本次加载的一些关键时间，分别有：

FCP: First Contentful Paint
LCP: Largest Contentful Paint
FMP: First Meaningful Paint
DCL: DOMContentLoaded Event
L: Onload Event
我们可以选区(选择从白屏到有内容的区域，代表本次的页面加载过程)，可以对照着看一下上面的时间，截图如下：

另外，我们可以看到页面中的内存使用的情况，比如 JS Heap(堆)，如果曲线一直在增长，则说明存在内存泄露。如果Nodes和Listeners不断增加说明可能存在重复添加节点或者事件的情况。

最下方就是页面的一个整体耗时概况，如果 Scripting 时间过长，则说明 js执行的逻辑太多，可以考虑优化js，如果渲染时间过长，则考虑优化渲染过程，如果空闲时间过多，则可以考虑充分利用起来，比如把一些上报操作放到页面空闲时间再上报等。

4.最后

大家可以自己去尝试一下performance的使用，通过performance可以更直观的理解浏览器的渲染原理与工作流程，同时也能够将浏览器的系统架构、消息循环机制、渲染流水线等前端概念联系到一起，加深理解。

作者简介

李长江为好未来前端开发高级专家

招聘信息

好未来技术团队正在热招前端、算法、流媒体后台开发等各个方向高级开发工程师岗位，大家可扫描下方二维码或者微信搜索关注“好未来技术”，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

【脑电硬件】大脑探测之旅继续，脑成像技术概览（下）

2020-07-10T14:47:06+08:00

在上一篇文章里，我们介绍了脑电图(EEG)，脑磁图(MEG)，经颅磁刺激(TMS) 和功能性近红外光谱成像(NIRS) 的脑成像技术。这四种脑成像技术各自利用了与脑活动相关的电、磁和光信号来达到记录脑皮层活动的目的。这几种技术的一个共同的内在不足是对大脑功能记录的空间分辨率低，仅基本限于在头皮部分探测大脑皮层的活动，无法准确有效的探测脑皮层深部和皮层下脑组织的结构和功能活动。

在本篇里，我们将介绍三种核脑影像成像技术，它们体现着完全不同的脑成像物理原理和思路。

PET: positron emission tomography 正电子发射成像
fMRI: functional magnetic resonance imaging 功能性核磁共振成像
MRI: magnetic resonance imaging核磁共振成像

一．正电子发射成像(PET)

正电子发射成像（PET）是核医学领域比较先进的临床检查影像技术。它的原理是将人体代谢所必需的物质，如葡萄糖、蛋白质、核酸、脂肪酸等标记上短寿命的放射性核素制成显像剂（如氟代脱氧葡萄糖，简称FDG）注入人体后进行扫描成像。成像的物理机理利用了放射性同位素的正电子放射衰变特性。这个衰变过程会释放出一个正电子（即一个电子相对应的反粒子），正电子会与生物体中的一个电子遭遇产生电子对湮灭，并产生一个湮灭光子，这一信号可以被PET扫描器捕获。由于人体不同组织的代谢状态不同，这些被核素标记了的物质在人体各种组织中的分布、聚集状态也是不一样的。显影剂可以持续一段时间存在于整个大脑中，因而我们可以获取整个大脑的三维关于结构和功能活动的图像。PET就是通过对这些指标的定量刻画来反映生命代谢活动的情况，达到研究和诊断的目的。

图1. 正电子发射成像（PET）的物理成像机制

图2. 医疗机构中常见的正电子发射成像（PET）设备

PET是惟一可在活体上显示生物分子代谢的影像技术，被广泛用于多种疾病的诊断与鉴别诊断、病情判断、疗效评价、脏器功能研究和新药开发等方面。例如：利用恶性肿瘤组织的高代谢特点可对病变进行诊断和分析（如下图所示）。

图3. PET成像在肿瘤诊断上的应用，常与CT（computerized tomography）共同使用，利用PET可以观察到肿瘤组织的代谢情况，从而提高诊断和治疗的效果。

PET早期在探测负责认知活动的大脑激活区域方面得到了广泛应用，但这一方面的功能随着功能性核磁共振成像（fMRI）的出现逐渐被取代，但在医疗诊断上依然有无法替代的优势。

图4. 看某视觉场景（左）和听故事时（右）的PET大脑功能活动成像

PET成像技术的优点在于灵敏度高，特异性强，但与核磁共振技术相比，PET空间分辨率并不是很好，而且还需要注射轻微放射性的物质，所以患者不能持续进行PET扫描，原则上，出于患者安全的考虑，一年之内禁止两次及以上的PET扫描。

二．核磁共振成像(Magnetic Resonance Imaging，MRI)

核磁共振现象的发现、成像技术的发明和应用上走向成熟是上世纪最伟大的科学技术成就之一。从核磁共振现象的发现到MRI技术成熟这几十年期间，有关核磁共振的研究曾在物理学、化学、生理学或医学领域内获得过6次诺贝尔奖。

图5. MRI/fMRI 设备和使用场景

核磁共振成像利用了核磁共振（nuclear magnetic resonance imaging，简称NMRI）的原理成像，但一个外界不太熟知的背景故事是，出于一般大众对核的恐惧感，”nuclear”一词在对技术的英文称谓中被故意隐去，变成了现今我们熟悉的MRI或者fMRI 等。

核磁共振成像，顾名思义，包含了三个关键要素：核、磁、共振。

核，指的是氢原子核。人体各种组织含有大量的水和碳氢化合物，所以氢原子无处不在，含量最多，最适宜于成像需求。氢原子核微粒带一个正电荷，具有自旋的特性，旋转时会产生微小磁场，可视为一个个小磁针。氢原子核的自旋并不完全与磁场趋向一致，而是倾斜一个角度θ，称之为进动(precession)。微粒进动的频率取决于磁场强度，也与原子核类型有关。它们之间的关系满足拉莫尔关系：ω0=γB0，即进动角频率ω0是磁场强度B0与磁旋比γ的积。γ是每种核素的一个基本物理常数，也即进动的拉莫尔频率与磁场强度成比例。氢的主要同位素，质子，在人体中丰度大，而且它的磁矩便于检测，因此最适合从它得到核磁共振图像。

图6. 施加衡定强磁场前后氢原子核粒子的运动变化

磁，指的是加上衡定外强磁场(B0)后，大部分粒子的磁场方向与磁场方向相同, 少部分相反，即取向为“平行”和“反向平行”，他们分别对应于粒子的低能和高能两种状态。核磁共振成像利用了一般是借助超导形成的强磁场，如1.5T (tesla, 磁场强度单位)，3T，和7T，把生物体内氢原子核进动形成的一个个小磁针从原本无序的排列（整体无磁性）变成一种有序排列的状态（整体呈磁性）。MRI设备一般体积巨大，花费昂贵，最主要原因是需要产生一个高强的磁场。

共振，指的是在已有外在衡定强磁场的条件下，施加另外一个短时的射频磁场B1来使氢原子核微粒进动形成的集体磁化向量发生偏转或旋转，这只有在射频磁场B1的频率和氢原子核微粒进动的拉莫频率一致(共振)时才有可能发生，才能实现能量的传递。射频磁场B1的作用方向一般与主磁场B0垂直。所以这里的共振指的是和氢原子核微粒进动的拉莫频率共振。

图7. 核磁共振基本原理示意图

在射频磁场作用下，氢原子核微粒的集体磁化向量可以分为两个分支：垂直z分量，水平xy分量。射频磁场的作用时间通常是非常短暂的，射频磁场撤去后，在自由进动阶段，磁化向量经过一个称为“弛豫”的过程，恢复它的原始静止位置。弛豫过程的特性由时间常数T1和T2来描述纵向弛豫 (z) 和横向弛豫(xy) 的特征。人体大脑和身体不同组织或组织液具有不同的纵向和横向弛豫特性，核磁共振成像技术最为关键的物理原理就是利用了这一点的特性分别不同的脑组织结构和功能。另外，NMR信号强度与样品中氢核的密度有关，人体中各种组织间含水比例不同，即含氢核数的多少不同，他们之间就存在NMR信号强度的差异。利用这种差异作为特征量，可以把各种组织分开，这就是氢核密度的核磁共振图像。

在核磁共振成像的技术发展方面，美国科学家Paul Lauterbur于1973年发明了在静磁场中使用梯度场去获得磁共振信号的位置，从而可以得到物体的二维图像；英国科学家Peter Mansfield进一步发展了使用梯度场的方法，指出磁共振信号可以用数学方法精确描述，从而使磁共振成像技术成为可能，他发明的快速成像方法为医学磁共振成像临床诊断打下了基础。他俩因在磁共振成像技术方面的突破性成就，获得了2003年诺贝尔医学奖。

图8. 磁共振扫描中大脑T1加权成像和T2加权成像

核磁共振成像安全，不涉及X射线或使用电离辐射，不需要注射放射性物质，且成像后的软组织结构清晰，能够提供更多的解剖结构信息。但核磁共振成像噪音很大，一般扫描时间较长（单纯结构成像一般需要7分钟左右，高空间分辨率的成像耗时更长）。此外，MRI检测要求体内不能存在金属，有幽闭恐惧症的人也无法参加。

核磁共振成像具有丰富的成像序列和功能发展潜力，这方面至今仍然是非常活跃的研究和应用领域，例如可以通过巧妙的安排成像序列和射频磁场的作用方式来刻画大脑白质，神经纤维的聚集和链接特性，这一成像技术被称为磁共振弥散张量成像技术 (Diffusion Tensor Imaging，DTI）, 在科学研究和医疗诊断上有广泛的应用。

图9. 磁共振弥散张量成像形成的大脑纤维追踪

三．功能性核磁共振成像(fMRI)

最后，我们讨论一下从九十年代中期以来，在科研领域应用非常广泛深入的功能性核磁成像技术。在大脑整体成像的要求下，探测各个脑组织的功能性活动，且具有良好的空间分辨率和可接受的时间分辨率，功能性核磁成像技术在这些方面具有无可比拟的优势。功能性核磁共振成像吸收了MRI和PET的技术优势, 通过检测脑组织血流和含氧量变化引起的磁场变化，将原本的结构成像技术MRI发展到了功能成像。

大脑受到外来刺激初期或者处于自发活动的需求，局部脑活动开始增强，耗氧量增加，随之脱氧血红蛋白在刺激开始后快速地上升；之后，由于大脑区域功能被激活，引起局部脑血管扩张，血流量增加，导致大量含氧丰富的血液流入该局部区域，含氧血红蛋白所占比例升高，脱氧血红蛋白比例降低；结束刺激，含氧血红蛋白含量下降，脱氧血红蛋白上升，均趋于平衡状态。

氧合血红蛋白是抗磁性的，与组织的磁化率非常接近，它的浓度改变不影响磁场的均匀性，脱氧血红蛋白是顺磁性的，在血管周边及内部会产生局部梯度磁场，明显缩短横向弛豫时间(T2)，引起 T2 加权信号降低（顺磁性物质存在会引起所在环境磁场分布不均匀，导致核磁信号降低）。功能性核磁共振成像的信号依赖于代谢和认知活动相关的局部组织血管的血红蛋白氧含量的变化，所以叫血氧水平依赖脑功能磁共振成像（Blood oxygen-level dependent fMRI，BOLD-fMRI）

图10. 血氧动力学函数描述了在单一刺激下BOLD 信号的随时间变化

图11. 利用fMRI采集的脑活动信号来刻画听句子和看句子时的大脑活动强度的不同

功能性核磁共振成像（fMRI）的独特性在于，比起现有其他大脑功能成像技术，fMRI在识别“认知活动中的大脑”时，不仅时间分辨率更高，就连空间分辨率也可达到毫米水平。借助功能性核磁共振成像，对大脑的研究便可扩展至记忆、注意力、决定做出过程，意识，认知障碍等。在某些情况下，fMRI技术甚至能够识别研究对象所见到的图像或者阅读的词语。

fMRI是一种没有放射性、无创性的检测脑功能动态活动的手段，一次成像可以同时获取功能和解剖图像, 已经被广泛应用于脑的基础研究和临床治疗。利用fMRI，可以对脑功能激活区进行准确的定位。利用静息态功能性核磁共振成像 (Resting-State fMRI)还可以研究不同脑区之间的功能相关性 (functional connectivity)。脑部在静息状态下自发的低频活动的同步化现象广泛存在于听觉、视觉，工作记忆，和执行系统中。许多可重复的研究已经揭示了大脑存在多个即相对独立又相互连接的感知和高级功能执行系统。这些系统的自我状态和相互连接极大程度上和人体的健康和疾病状态相关。

图12. 利用静息态 fMRI的区域相关性刻画大脑的内在基本网络系统[Raichle 2011]

此外，fMRI与弥散张量成像 (DTI) 和我们之前介绍的脑磁图 (MEG)，经颅磁刺激 (TMS) 等技术相结合，可得到更多的脑功能活动信息。弥散张量成像可在三维空间内定量分析，无创跟踪脑白质纤维束，fMRI与弥散张量成像技术可以建立激活区域的功能连接网络图，有利于解释结构与功能之间的关系。脑磁图反映神经细胞在不同功能状态下产生的磁场变化，可以提供脑功能的即时信息和组织定位，fMRI与脑磁图技术相结合可以弥补其时间分辨率的不足，可解决脑区域性活动的时间问题；经颅磁刺激可以无创地在皮层产生可传导性电流，从而对刺激位点或有突触联系的皮层兴奋性产生抑制或易化，通过整合fMRI的结果，可以应用于脑损伤和其它疾病的功能神经外科手术。随着fMRI和图像后处理技术的不断改进和完善、高磁场强度MRI的发展，能够使fMRI试验的可重复性和空间定位的准确性大大提高，在脑神经科学、认知和心理等方面的临床和基础研究中的应用将更加深入与广泛。

参考文献

Ogawa, S., Lee, T.M., Nayak, A.S., and Glynn, P. (1990). Oxygenation-sensitive contrast in magnetic resonance image of rodent brain at high magnetic fields. Magn Reson Med 14, 68-78
Bandettini, P.A.; Jesmanowicz, A.; Wong, E.C.; Hyde, J.S. Processing strategies for time-course data sets in functional MRI of the human brain. Magnetic Resonance in Medicine. 1993, 30 (2): 161–173.
McRobbie DW, Moore EA, Graves MJ, Prince MR (2007). MRI from Picture to Proton. Cambridge University Press. p. 1. ISBN 978-1-139-45719-4.
Raichle, M. E., MacLeod, A. M., Snyder, A. Z., Powers, W. J., Gusnard, D. A., & Shulman, G. L. (2001). A default mode of brain function. Proc Natl Acad Sci U S A, 98(2), 676-682.
Raichle ME. (2011). The restless brain. Brain Connect, 1(1), 3-12. doi: 10.1089/brain.2011.0019
Bernard Baars，Nicole Gage. Cognition, Brain, and Consciousness - Introduction to Cognitive Neuroscience, 2nd Edition, Academic Press, February 2010
Gary H. Glover. Overview of Functional Magnetic Resonance Imaging, Neurosurg Clin N Am. 2011 Apr; 22(2): 133–139. doi: 10.1016/j.nec.2010.11.001
Abi Berger. How Does It Work? Positron emission tomography, BMJ. 2003 Jun 28; 326(7404): 1449. doi: 10.1136/bmj.326.7404.1449
https://zh.wikipedia.org/wiki...://en.wikipedia.org/wiki/Magnetic_resonance_imaging

招聘信息

好未来技术团队正在热招前端、算法、流媒体后台开发等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”，点击“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

7.https://en.wikipedia.org/wiki/Functional_near-infrared_spectroscopy

脑电硬件丨人类如何观测大脑？脑成像技术概览（上）

2020-07-03T12:46:29+08:00

前言

人类的大脑只有大概1400克左右的重量，但却构成了这个世界上最为复杂、精密的机器。大脑在结构上是一个由神经突触联结而成的神经元网络，包含了百亿级的神经元和百万亿级的神经突触连接。大脑在功能上极具多样性，我们所有的智能活动，如注意、学习、记忆、沟通，情感和决策等，都依赖于大脑神经细胞有组织的活动和功能。时至今日，人类对大脑的核心功能，如意识的产生，情绪和情感，记忆和创造能力等依然知之不多。意识的生物学基础更是位列《科学》十大人类未解答的科学问题。鉴于脑科学研究在科学、经济、社会和军事领域的重大价值和意义，美国、欧盟和日本都先后出台了“脑计划”，旨在探索人类大脑工作机制、绘制出人脑活动图谱，了解人脑的运行机理，从而取得脑与认知科技的战略制高点，为医疗，认知科学，人工智能，以及新兴产业的发展提供关键基础和支撑。

图1. 神经元和神经元的链接

大脑的认知规律和教育与学习的联系是脑科学实验室重点关注的研究方向。脑科学的发展为我们认识理解学习机制和过程提供了重要科学手段。学习和认知发展最终体现在大脑神经活动层面上变化，本质上就是对脑的再塑造。对脑发育的研究，对学习过程中脑机制的研究，对发育障碍机制和干预的研究，这些科学成果都能够为改进和完善教育方法、人才培养机制提供证据和指导。

主流的脑成像技术

要想研究大脑的发育和活动规律，就不得不提到用于观察大脑的仪器和脑成像技术，例如我们经常听到的脑电，CT、核磁等。一些在医疗和科研上应用比较广泛和成熟的脑成像技术包含了以下几种：

EEG:脑电图
MEG:脑磁图
TMS: Transcranial Magnetic Stimulation 经颅磁刺激
ECoG: Electrocorticography 皮层脑电图
LFP: Local Field Potential 局部场电位阵列
fNIRS: Functional Near-infrared spectroscopy 功能性近红外分光光谱成像
PET: Positron Emission Tomography 正电子发射成像
MRI: magnetic resonance imaging核磁共振成像
fMRI: functional magnetic resonance imaging 功能性核磁共振成像

这些主流的脑成像技术可以按它们在时间、空间分辨率上的特性来区分。时空分辨率往往和某一种脑成像技术的功能特性直接相关。而在测量性质上这些脑成像技术又可以分为侵入式测量，非侵入式测量，经颅磁刺激，和需要示踪剂注射等。

图2. 常见脑成像技术在时间和空间分辨率和测量性质上的特性

脑成像技术概览（上）

在本系列文章里，我们将对主流的脑成像技术做一简要的介绍。在本篇文章里，我们首先来关注脑电图(EEG)，脑磁图(MEG)，经颅磁刺激(TMS)，和功能性近红外光谱成像(NIRS) 技术。

一、脑电图（EEG）

1929年德国神经精神病学家Hans Berge首次记录到大脑神经元的动作电位在人体头部表皮产生的电信号。此后，他的研究成果不断得到电生理及神经生理学家的证实，使得EEG学得以发展，沿用至今。

图3. Dr. Hans Berge和他的脑电记录设备以及最初发表的脑电信号

脑电信号源自于由神经元放电产生的uv级别的电流，其传导到头皮要经过软脑膜、蛛网膜下腔、蛛网膜、硬脑膜、颅骨，头皮，所以非常容易受到干扰。通过精密的电子仪器，我们可以在头皮上将神经元集群产生的生物电位加以放大记录而获得脑电信号。大脑神经元的电活动具有自发性、节律性和综合性的特点。脑电主要是通过波幅、潜伏期和电位变动或电流的空间分布等指标来提供大脑工作过程的信息，在医疗和科研上有广泛的应用，比如对睡眠、昏迷、麻醉中意识变化的监测，理解不同认知任务时大脑的活动规律，情感计算等。

图4. 脑电信号的产生及人类头部皮层结构示意图

需要强调的是，脑电技术虽然是一门古老的脑成像技术，但依然是当今最具生命力的主流脑成像技术之一。这主要得益于相比其他脑成像技术，脑电设备的便携性好，使用成本低，无创，高时间分辨率，和丰富的频率信息等显著优势。

图5. 心理学研究中涉及脑电信号应用的研究占比

图6. 脑电在脑机接口相关研究中的应用占比

二、脑磁图(MEG)

在物理学上，我们知道变化的电场产生磁场，两者可以相互转换。大脑的活动直接体现的是神经元动作电位的变化，这是一种电信号。脑电设备采集的就是神经元电活动在人头部表皮形成的动态电场变化。同样，变化的电场在人的颅脑周围产生着磁场，称为脑磁场。这种磁场强度很微弱，需要建立一个严密的电磁场屏蔽室，将受检者的头部置于特别敏感的超冷电磁测定器中，通过特殊的仪器可测出颅脑的极微弱的脑磁波，这样形成的多通道信号阵列便称作脑磁图。

尽管脑电信号和脑磁信号同源于大脑皮层神经元的电活动，两者之间还是有差别的。脑磁信号主要源于神经元细胞内电流产生的磁场，而脑电信号来自锥体细胞产生的兴奋性突触后电位。从信号产生的空间特性上讲，脑磁图检测的是脑沟内锥体细胞产生的磁场，而脑电图检测的是脑回内锥体细胞电活动。

脑磁信号最显著的一个优点是在传导过程中介质的影响小，不受颅骨的影响，抗干扰性强，信号没有扭曲，空间分辨率高。通过与MRI影像融合，利用脑磁信号可对信号源进行精确定位。脑电信号则受介质的影响大，空间分辨率低，定位能力较差。

脑磁信号探测的缺点在于信号强度随与发生源距离的增加而迅速衰减，所以脑磁图很难探测大脑深部的磁信号，而脑电图则有探测大脑深部的电活动的能力。此外，脑磁图设备昂贵，故而对环境要求苛刻，需要建立专业的实验室和脑磁设备操作团队来从事这方面的学术研究。相比之下，脑电图的获得相当廉价，对环境要求相对宽松，在科研和商业市场中得到了广泛的实际应用。

图7.脑磁图设备和脑磁信号分析

三．经颅磁刺激(TMS)

经颅磁刺激（TMS）是一种利用脉冲磁场，作用于大脑中枢神经系统，改变大脑皮层神经细胞的膜电位，使之产生感应电流，影响脑内代谢和神经电活动，从而引起的一系列生理、生化反应的磁刺激技术。经颅磁刺激具有无痛、无创的物理特性，提供了探索脑功能及高级脑认知活动规律的一种高级手段，与PET、fMRI、MEG并称为“二十一世纪四大脑科学技术“。

图8. 经颅磁刺激(TMS)原理示意图(左)和实际实验图(右)

经颅磁刺激（TMS）也可以是一种无痛、无创的绿色治疗方法，可以通过不同频率的磁刺激来达到治疗目的。例如高频（>1Hz）主要是兴奋的作用，低频（≤1Hz）则是抑制的作用。 TMS不使用电极，不用直接接触人体，相对电刺激是一项无创且简便的技术。通过神经网络之间的联系和互相作用，重复TMS 刺激产生的效应可以对多个脑部位功能产生影响，从而达到治疗效果。对于不同病人的大脑功能状况，需用不同的强度、频率、刺激部位、线圈方向调整来取得最佳的治疗效果。经颅磁刺激（TMS）正在临床精神病、神经疾病及康复领域获得越来越多的应用和认可。经颅磁刺激（TMS）不仅是一种刺激技术，还是一项大脑神经调控技术，给临床治疗和科研创造了广阔的空间，在未来还会有更多的新用途被开发出来。

图9展示的就是一种利用经颅磁刺激(TMS)+高密度脑电阵列研究在睡眠和清醒状态下头脑皮层对信息处理不同的科学实验设计。可以看到，在premotor cortex 施加TMS刺激（图中圆圈处）引发的头皮电流强度的峰值（图中+所示）在时间和空间维度上在两种状态的分布是明显不一致的。在清醒状态下，大脑皮层对外部刺激所带来的信息会表达为涉及多个不同脑区的激活和互动，这可以被理解为对信息的代表和综合 (information and integration)。而在深度睡眠状态，同样刺激引发的反应只是集中在刺激施加脑区，且随时间呈单调衰减趋势。这证明在睡眠和清醒这两种意识状态下，大脑活动对信息的表达和综合/集成特性是不同的，这样的实验结果提示我们可以利用信息论的数学工具来对不同意识状态下的脑活动的特性加以表征和刻画。

图9. 使用经颅磁刺激(TMS)+高密度脑电阵列探测睡眠时人脑的活动规律和特点

四．功能性近红外分光光谱成像 (fNIRS)

大脑的工作依赖于血液的新陈代谢为神经元活动提供所需的氧。氧的消耗又刺激大脑局部血管的舒张，导致局部脑血流和脑血容的增加，表现为大脑血氧水平的迅速提高，这就是神经与血管匹配的机制 (Neurovascular Coupling) 。在这个机制的作用下，驱动某一种认知活动的大脑神经活动区域的血氧含量水平将大大超过大脑活动所需的氧。氧是通过血液中的血红蛋白进行传输，因此，在认知活动过程中，大脑活动区域会出现血液中氧合血红蛋白浓度的上升，脱氧血红蛋白浓度的下降。功能性近红外分光光谱成像（fNIRS）和功能磁共振成像技术 (fMRI) 等脑成像技术，都是利用认知活动中脑局部的血红蛋白浓度的变化导致的光学或磁性变化来获得与大脑功能相关的脑活动信号。

图10. 功能性近红外分光光谱成像原理和物理实现

功能性近红外光谱技术利用了血液的主要成分对6000-900NM近红外光良好的散射性,从而获得大脑活动时氧合血红蛋白和脱氧血红蛋白的变化情况。成像装置一般由光源，光源探测器、数据采集器等组成。光源通过发光二极管或者是与被试头型匹配起来的光纤束向特定大脑区域发射近红外光，光以香蕉型的路径进行散射，离光束 2-7cm 的光源探测器可以收集到被组织散射回来的光。当光源和探测器的距离设置在4cm时，fNIRS 信号对皮层表面 2-3mm的血氧血红蛋白散射的光最为敏感。

图11. 功能性近红外分光光谱成像实际实验室实现

功能性近红外光谱脑成像技术主要应用在自然情境下高级认知、发展、心理学、异常心理学等多个领域的研究。 fNIRS的研究可以与fMRI等其他成像技术进行结合，开展婴幼儿和特殊人群的认知神经科学研究以及自然情境下大脑认知的神经机制研究。近红外光谱脑成像技术的一个显著优点是无噪音、无创性和对实验过程中被试动作不会过份敏感，所以抗干扰性强，对自然场景中的应用有相当大的潜力。但近红外光谱脑成像技术也存在空间分辨率不高和校正算法有待进一步完善等方面的不足。另外，比起正在兴起的可穿戴式脑电设备，近红外光谱成像的硬件设备的便携性和可实用性仍有明显差距。

小结：

在本篇文章里，我们简单回顾了脑电图(EEG)，脑磁图(MEG)，经颅磁刺激(TMS),和功能性近红外光谱成像(NIRS) 的脑成像技术。这些脑成像技术各具特点，优势和不足。在脑科学研究中经常可以见到脑成像技术组合式的应用。对于在教育领域的实际应用，当前正在发展中的可穿戴式脑电设备是最具潜力进入真实教育场景的脑成像技术门类，因为它在便携性，成本，无创，时间分辨率和频谱信息方面具有巨大的优势。在接下来的一篇里，我们将进入核脑影像成像技术的世界（例如PET，MRI等），去领略那里丰富的物理世界，技术特点，和发明者们令人赞叹的奇思妙想。

参考文献

1.Ball, Philip. "Brain Imaging Explained." Online at http://www.nature.com/nsu/010712/010712-13.html

2.雷旭，尧德中,同步脑电-功能磁共振(EEG-fMRI)原理与技术, 科学出版社，2014-03

3.经颅磁刺激技术，心里学科知识2012-010-8Hudspeth, A. J., Jessell, T. M., Kandel, E. R., Schwartz, J. H., & Siegelbaum, S. A. (Eds.). (2013). Principles of neural science. McGraw-Hill, Health Professions Division.

4.Philip Ball. Brain Imaging Explained.

5.Bernard Baars，Nicole Gage. Cognition, Brain, and Consciousness - Introduction to Cognitive Neuroscience, 2nd Edition, Academic Press, February 2010

6.Massimini M, Ferrarelli F, Sarasso S, Tononi G, others (2012). Cortical mechanisms of loss of consciousness: insight from TMS/EEG studies. Arch Ital Biol, 150 (2-3), pp. 44–55.

8.https://baike.baidu.com/item/脑磁图技术9.https://en.wikipedia.org/wiki/Magnetic_resonance_imaging

10.https://en.wikipedia.org/wiki...

招聘信息

也许你还想看

虚拟现实与增强现实的基础原理及应用

2020-06-19T16:03:04+08:00

什么是虚拟现实？

虚拟现实(VR)是利用计算机技术创造一个模拟的生态环境。与传统的用户界面不同，VR将用户放置在场景中体验。用户不是在自己面前观看屏幕，而是沉浸在其中，能够与3D世界进行交互。通过尽可能多的模拟感官，如视觉、听觉、触觉、甚至嗅觉，看世界的眼睛。虚拟现实体验的现阶段限制是内容的可用性。

虚拟现实和增强现实有什么区别？

虚拟现实增强现实是同一枚硬币的两面。你可以把增强现实想象成现实世界中一只脚的虚拟现实：增强现实模拟真实环境中的人造物体；虚拟现实创造了一个居住的人工环境。

在增强现实中，计算机使用传感器和算法来确定摄像机的位置和方向。然后，AR技术将3D图形从摄像机的角度呈现出来，将计算机生成的图像叠加在用户对真实世界的视图上，达到增强的效果。

在虚拟现实中，用户的眼睛位置不是在物理环境中定位，而是在模拟环境中定位。如果用户的头部转动，图形就会相应地做出反应，然后通过3d引擎生成对应的效果环境。虚拟现实技术不是合成虚拟物体和真实场景（合成虚拟物体和真实场景在用户无感知的情况下被称为混合现实MR），而是为用户创造一个令人信服的、交互式（感知手套等等）的世界。

虚拟现实技术

虚拟现实中最容易识别的组件是头挂式显示器(HMD).人类是视觉生物，而显示技术往往是沉浸式虚拟现实系统与传统用户界面之间最大的区别。例如，洞穴自动虚拟环境在房间大小的屏幕上主动显示虚拟内容.虽然对大学和大型实验室的人来说很有趣，但消费者和工业上的可穿戴设备的不方便性和价格现阶段还在优化。

带着多种新兴硬件在软件选择方面，可穿戴设备的未来正在发展，但仍是未知的。HTC、Oculus Quest和PlayStation， VR等概念正在引领潮流，但谷歌、苹果、三星(Samsung)、联想(Lenovo)，华为等厂商可能会以更高层次的沉浸感和可用性令业界大吃一惊。无论谁走在前面，只要买到头盔大小的设备，就可以在起居室、办公室或工厂的地板上工作，这使得HMD在虚拟现实技术方面占据了中心地位，今年如果华为vr glass的意见开始引领虚拟世界的进程。

研究方法

如何获得图像中物体的深度？

主要问题是能否可以在立体图像中找到相对应的点。那么，什么是立体图像呢？当一个图像被称为一组或一对立体声图像，只要它是通过在不同位置安装的多个摄像机同时为同一对象或目标提取的的图像。对应的点是什么？它们是物体在3D空间中不同位置的某个点的相对投影。对图像中两个对应点的位置差称为视差。这种差异与空间中相应点的位置、相机的方位和物理特性有关。如果摄像机的参数已知，则可以根据图像计算物体的深度。首先，我们解释了空间中的点是如何投影到图像平面上的。假定任意点的坐标值在相对于ccd中心的空间中，它被想象成投影后在图像中的点。它相对于图像中心的坐标值是，而图像相对于ccd坐标值的中心点是，在哪里从CCD的中心点到传感场的距离。立体视觉图像机制空间的概念视图是立体视觉系统空间的概念视图。本研究以立体视觉系统为主轴。用两个镜头来确定图像的深度。这部分是单目视觉无法实现的特点。那么通过使用两眼聚焦函数计算相应的角度以获得目标物体的图像深度，立体视觉是增强所必需的：

1. 眼睛识别分析

眼睛识别一般包括预处理、特征提取、样本学习、识别等。实现眼球识别技术的方法有以下几种。

(1)投影法：在投影法中，根据投影图像在其中一定方向上进行的分布特征，而对眼睛位置进行检测。投影法是一种统计方法，它利用眼部的灰度信息，分别通过水平投影和垂直投影来检测瞳孔的纵横坐标。所以，可以才能对人眼进行准确的定位。

(2)强积金和方差投影函数(VPF)-Hough变换方法：Hough变换是图像的基础算法之一，是将图像从空域变换到参数域。图像中的曲线以大多数边界点所满足的某种参数形式而表示。这个瞳孔被用作标准圆。通过圆的标准方程，通过Hough变换可以精确地定位眼睛瞳孔的位置：。由于表观几何解析性，Hough变换大大提高。

(3)AdaBoost分类方法：AdaBoost算法是机器人学习领域中一种高效的迭代运算算法。它针对同一个训练集训练不同的弱分类器，然后将这些弱分类器集合起来组成一个强分类器。该算法具有分类精度高、人眼识别速度快等优点。然而，这类算法的有效性取决于分类器的选择。在快速人眼检测方面有着非常重要的应用。

(4)样本匹配方法：根据瞳孔形状使用圆形样本，在图像窗口从左到右、从上到下动态搜索瞳孔的位置。样本匹配从较大的图像中搜索小图像。通过对样本和匹配区域的相似度计算，以最相似的位置作为匹配点来识别目标位置。样本匹配算法属于机器人学习领域的范畴，是一种有效的眼睛识别算法。

神经网络应用训练图

2.边缘检Sobel

obel算子是差分运算和低通运算相结合的结果。它除了具有降噪的优点外，还具有边缘检测的效果。由于导数可以降低噪声强度，所以Sobel算子对噪声的滤波尤为有利。Sobel算子掩码的导数用下列公式表示：

所述方法的输入是对应于1280×1024 RGB彩色图像的深度图像，即立体视觉可以提供的信息。肤色将从产生的最大肤色，色斑进一步检测。从保守估计出发，计算眼睛空间扩展的方法包括一个圆形掩模展开，其半径为。鉴于先前对估计的3D位置的跟踪，肤色的3D点在预定的深度范围内(25毫米)。估计是保留的，而其他深度设置为零：借用下网上图片这个大概就是看到的效果。

全局优化：更新方程，重新评估每个像素的速度和位置：

对该目标函数进行了优化，并假设一帧进行眼定位。因此，这种方法和跟踪人的眼睛所必需的序列优化的获得了每个点的特征值。

空间连续性取决于期望观测运动图像的采样频率。

虚拟现实与音频的重要性

令人信服的虚拟现实应用程序需要的不仅仅是图形。听觉和视觉都是一个人的空间感的核心。事实上，人类对音频信号的反应比对视觉暗示的反应更快。为了创造真正的沉浸式虚拟现实体验，准确的环境声音和空间特征是必不可少的。这些都为虚拟世界提供了一种强大的存在感。要体验双耳音频细节，进入虚拟现实体验，戴上一些耳机和修补这个音频信很久以前。

虽然视听信息最容易在虚拟现实中复制，但积极的研究和开发工作仍在其他感官中进行。像全方位跑步机这样的触觉输入让用户感觉自己实际上是在模拟中行走，而不是坐在椅子上或沙发上。

触觉技术（VRTRIX的数据手套），也被称为动觉或触摸反馈技术，已经从简单的旋转重量“隆隆”马达发展到未来超声技术。

现在可以听到和感受到真实到生活的感觉，以及视觉虚拟现实体验.

大学教育中沉浸式虚拟现实的应用

沉浸式虚拟现实提供了一种符合多感官学习风格的现代学习渠道，有时比传统的学习方法更有效也更。然而，有些分析文献指出，没有足够的证据支持将学习方式评估纳入普通教育实践。

在中学后教育系统中采用沉浸式虚拟现实的最有说服力的论据可能是已将这种模拟纳入其课程的现有学科，例如在国外的，外科教育中的全室模拟机器人辅助(da vinci手术)血管内程序。不幸的是，这些模拟血管内程序造成的医疗伤害，由于错误的模拟训练，导致因个别产品责任案件而引起的数百起诉讼。用户手术技能从模拟(da Vinci手术)应用程序转移到现实世界环境的证据数量有时被发现是不够的。

在负担能力方面，将身临其境的虚拟现实纳入专上教育系统，最初受到所用设备成本的限制，但消费者耳机的商业化却大大降低了成本。移动电话技术已经达到了一个水平，沉浸式虚拟现实可以很容易地适应hmd格式，只需使用低成本的google cardboard或Samsung Gear VR耳机即可。。根据2015年美国教育研究中心(ECAR)发布的一项调查，92%的美国大学生拥有能够访问企业级系统和虚拟现实软件应用的手机。

课程如何将身临其境的虚拟现实融入教育课程。它的重点涉及跨学科的考虑，因为沉浸式虚拟现实的适用性广泛的各种学科。核心假设是学生通过体验学习和亲身体验来优化学习和实际技能学习，从而在适用的情况下简要总结身临其境的VR的积极效果。重点是教育及其相关目标，即技能培训，目的是进一步了解沉浸式虚拟现实在高级思维条件下培训用户的潜在能力。

VR整个系统结构的原理图

将三维立体虚拟图像技术与空间规划和场景设计相结合，可以模拟各种天气条件和四季、气候条件和水景、雾效应等的变化。或者，它可以通过模拟计划中的实际情况来改进现有的场景。并对其实用性进行了研究和评价。不仅可以方便地获得各种不同的视觉效果，而且可以有效地降低实验的误码率。并且大大提高了程序的可靠性和现实性。有了这样的技术，教学中很多危险实验、高经费实验、等也可以结合起来来模拟和评估不同的情况设计。

end

作者简介

杨海旭为好未来高级AR/VR工程师

招聘信息

好未来技术团队正在热招前端、算法、后端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

揭秘丨大数据时代，数据背后那些事儿你知道多少？

2020-06-12T18:19:33+08:00

一、前言

随着大数据时代的到来，越来越多的行业开始注重数据，并且使用数据为业务赋能，数据质量是数据仓库和数据挖掘的基础，也是数据驱动业务的前提，同时数据质量是数据治理建设的重要一环，与元数据管理，数据标准化及数据服务管理等共同构建了数据治理的体系框架，建设一个完整的质量监控平台，需要从监控、标注、流程制度等方面提升信息管理能力，优先解决所面临的数据质量和数据服务问题。

二、数据质量评估标准

1、完整性
完整性是指数据的记录和信息是否完整，是否存在缺失的情况。
数据的缺失主要包括库表变更时没有及时同步所造层：记录中某个字段信息的缺失，造成统计结果不准确，所以说完整性是数据质量最基础的保障。

2、准确性
准确性是指数据中记录的信息和数据是否准确，是否存在异常或者错误的信息。
直观来讲就是看数据是否上准确的。一般准确性的监控多集中在对业务结果数据的监控，比如每日的活跃、收入等数据是否正常。

3、一致性
一致性是指同一指标在不同地方的结果是否一致，是否存在较波动。
数据不一致的情况，多出现在数据系统达到一定的复杂度后，同一指标会在多处进行计算，由于计算口径或者开发人员的不同，容易造成同一指标出现的不同的结果。

4、及时性
在确保数据的完整性、准确性和一致性后，接下来就要保障数据能够及时产出，这样才能体现数据的价值。
及时性很容易理解，主要就是数据计算出来的速度是否够快，这点在数据质量监控中可以体现在监控结果数据数据是否在指定时间点前计算完成。

三、数据监控包括哪些

数据监控主要包括：性能监控、日常监控、数据对账，其中性能监控主要指：数据的读写，资源队列使用、节点消耗等运维层面的监控，本次主要讨论日常监控、数据对账，

可以从以下几点思考

：

监控数据资产质量状态（同步表数据是否一致），为优化数据平台和数仓性能、合理配置数据存储资源提供决策支持；
实现推动数据质量监控预警（提前告知），不仅包括离线，目前在建设的实时也需要提前布局，做到监控预知；
规范问题故障跟踪、Review、后续改进的优化方案，需有计划执行；
由技术检测到业务监督，形成闭环工作流机制，提高整体数据质量，全面提升服务业务水平；

四、技术方案

对于培优目前的3600多张表，1.5w 个任务，一些业务持续不断变化，我们需要关注哪些点，保障上层业务的稳定性：

从业务入手，从中提炼中间层，所使用到哪些表，进行归纳总结，其主要目的：把核心表抽象抽象出来，重点对这些表数据进行监控，核心的业务，比如：选址、渠道、校区等指标所使用到的中间表，尽量做到电话报警，及时反馈，及时处理。
从底层数据展开，因为这一层数据是底层，是重中之重，上层所有的业务，画像，洞察等业务数据都依赖，稍微一个字段变更，都可能会引发故障，所以这一层需监控表、字段的变更。
任务的监控, airflow每天晚上从凌晨开始调度，抽取数据，大批量的数据都开始同步，所以对于核心表进行拆分：做增量同步，减少全量同步的压力。
最后伙伴每周的值周，值周生需重点关注：
1.1. 知音楼群中报警
1.2. 赋能群里面反馈问题
1.3. 增加核心表报警数据波动变化

五、困难点

告警信息太多了，太容易被忽略怎么办？
思路：提高告警的准确率，避免无用告警：
a: 加入反馈机制，如果告警是正常的，就打上正常的tag，后续告警规则根据反馈进行优化；
b: 在报警时，对核心业务报警加上特殊字体标示；
对于指标准确性的思考，通常数据的链路比较长，最终的指标计算完，中间需要经过好几步，怎么保证每个环节都是正确的，且最终结果是正确的？
思路：可以对每个环节加监控，从数据量来对比查看（方案1）
a: 每一层代码有 Code Review，保证代码逻辑正常

数据质量监控是一个不断迭代优化的过程，目前我们也是在探索阶段，希望和大家交流和学习，一起做好对数据监控，持续为业务赋能。

end

作者简介

习沛为好未来数据仓库专家

招聘信息

好未来技术团队正在热招前端、算法、后端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”公众号，点击“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

140M到67M，学而思网校如何在一周内构建一套可持续的瘦身系统

2020-06-05T16:37:06+08:00

APP为什么要减包？

APP体积越大推广转化成本越高，因为平台功能众多，学而思网校的APP体积是在144m左右，疫情期间由于公益直播涌入大量用户，转换率上的硬伤更加暴露出来。同时移动部设定了自我突破的若干指标，转换率是关键指标，背负紧急军令我们开始了减包任务，一定要做到70m。

为什么不用插件化？

19年团队曾经尝试过插件化技术，经过两个项目试水碰到一系列问题，最终放弃使用插件化，原因如下：

插件技术原理是通过Hook或者Reflect技术修改系统libs和framework代码，Android系统版本设备 ROM众多，Hook Reflect很难100%兼容。
学而思网校平台有20+的二级工程，一个工程变更重新打包时，插件资源id的重新分配，整体工程变更导致20多插件变动需要重新维护，维护人力成本有点大。
插件技术使用时存在数据传递问题自定义UI显示问题，权限重复申请等问题。
插件化的核心是ClassLoader，按照谷歌的文档，最快Android 12将会被限制, 未来有不确定性。

减包计划实施难度？

涉及到20+的二级工程资源类型众多调用代码分布广泛，要求在底层框架统一实现核心技术。
需要兼容Android4.4到最新的版本系统，同时核心技术兼容后续系统迭代。设备上需要兼容各个手机品牌的高中低，兼容任务繁重。
产品迭代迅速，为了避免后续开发导致APP慢慢滋长，需要设计统一的技术框架保持持久轻量。
总体开发时间一周，测试一周，各个业务线还在并行开发，为了保障时间节点，技术框架需要做到最小的业务代码代动。

减包前APP体积汇总。

通过数据统计发现，20多个工程的res图片资源 assets的lottie动效资源 libs下的so文件合计约有70m。其他零散的100kb文件有6m左右。20多个二级功能，其资源一次性打进APP里是不合理的，毕竟用户常用的就那么几个。为什么不把资源分离出来托管到云端，使用时再拉取呢？想法很简单，但是面临一系列的问题，我们有6000多张图片，托管CDN的话，业务代码都要修改访问链接不现实。一个想法在内心产生，可以做一个离线附件的技术框架嘛。

附件框架的方案

附件框架：开发时资源打进APP不影响业务方开发调试预览；发版时指定的资源统一分离出来托管到云端，进入对应功能前确保资源包下载完了，运行阶段不受影响。文字虽短，框架层需要支持一下特性：

资源分离需要做到脚本自动化，并且只分离指定目录的资源文件，分离出来的zip应该是多个，并且和20多个工程形成一一对应关系。
资源下载需要做到按需下载，进入哪个功能下载哪个资源，避免一次性全部下载导致的loading时间太长。为了减少loading出现，需要根据业务权重做后台预加载机制。
框架层面在保证按需下载的前提下，实现业务层面的统一拦截下载，以避免大量的业务代码修改和调试，做到业务方无感知框架。
以前资源在APP内，附件框架的资源在下载后，框架代码需要做到全方面的资源访问替换技术，以避免大量的业务代码变动，做到业务层面无感知。
考虑到存量用户基数大，各个业务版本迭代资源变动小，为了进一步避免或减少loading出现的概率时间，附件框架可以做增量更新技术。保证存量用户更新资源时，资源包体积减少95%。
20多个离线zip增量迭代10个版本，会产生上百个资源文件，对应的人力维护成本也大。需要配套的自动化附件包发布脚本，一是减轻负重，二是避免人为性失误。
框架需要考虑失败重试机制需要做到多云备份预防网络事故需要做到内置外置卡双存储避免极端情况。需要完整的日志链条以持续优化。

资源分离技术说明

首先规定了附件目录attach, gradle脚本会给每个二级工程生成该目录。业务方只需要把lottie so以及其他大文件移动到附件目录，不需要修改代码。
Jekins打release包时，分离脚本启用了，gradle脚本会自动遍历二级工程：每个工程res下的图片文件会打到zip，源文件会用xml文件占位替换，每个工程的attach文件会打包到zip中。
最终Jekins产生了20+的zip文件，打包完成后命令行运行脚本，自动化发布资源文件到云端。

资源发布自动化技术

批量编译点九图确保APP使用时无失真拉伸
批量使用熊猫 WEBP技术对图片文件优化以减少资源体积
自动对比历史版本归档记录产生对应的增量更新文件
同时发布多个资源包到案例云和腾讯云双云避免网络事故

使用python脚本自动化发布做到人力不及的流程，避免了类似于插件化维护的管理成本。

抽象统一的下载框架

底层框架统一拦截跳转，确定需要进入的二级模块，检查下载对应资源文件，下载后继续跳转。统一实现了20+业务的核心代码，避免业务改动。
下载环节做到网络错误感知，阿里云腾讯云自动切换，4次失败重试避免网络事故。文件存储时优先内置卡，次要外置卡存储，避免极端的文件读写问题。
框架层面统一文件管理，版本迭代管理，避免修改业务代码。同时增量更新确保用户最小的下载量。

资源访问的无缝替换

附件资源分离做到自动化发布做到自动化下载做到了抽象统一。再做到无缝替换技术，基本上业务代码变更就很微小。所谓无缝替换，就是从关键接口层面统一APP内置资源下载资源的访问。核心技术一处实现，业务代码无需变更。下面列举res无缝替换 lottie无缝替换 Glide无缝替换。

如你所见，无缝替换技术是重写关键接口而非Hook的方式，这让网校APP做到100%兼容；从内核层面进行流替换技术，一处变更全场景生效，避免了大量的业务改动。

祛除Unity 3D内核的历程。

在APP多个业务中，互动环节要显示3D粒子效果的机器人，阿丘之类的动画。因为制作3D粒子效果的成本比较大，团队起初定的技术方案是采用Unity 3D渲染模型。发现Unity 3D本身是很出色的特别是对于游戏，但是对于我们网校APP这个大平台而言，却不是那么合身，原因如下：U3D的library bin文件占据着15M的APP体积；U3D是不开源的碰到一个手机崩溃无从解决；载入释放U3D内核内存需要5秒产品体验差；使用U3D时内存多开销170m。这种场景让想起几年前在使用Cocos渲染时，为了减少40m的内核库，居然花费了一周时间精简编译Cocos的艰辛历程。这种场景代表某种尴尬：为了特效引入了一个太重的技术方式，这种技术无法做到轻量化，不大适合平台化的APP。

偶然在使用一个录屏软件时，产生点灵感，3D特效复杂如果设计动画帧成本太大所以设计部不接受，如果我们做个截屏小工具，运行这些特效连续截屏，截取指定区域，生成动画帧，网校APP直接使用程序截屏的动画帧，就可以祛除U3D Cocos这种重量级内核了吧，毕竟用户看的是屏幕，产品要的是实现了而不是怎么实现。抱着试一试的心态，开始编写这个工具，中途也遇到了些问题。

时间平滑问题：动画效果很重要一点就是帧之间的时间平滑度，起初的程序控制设定在30ms一帧采集，但是发现实际的采集结果有的是30ms，有得是200ms，时间平滑度出入太大效果不理想。通过时间数据采集，发现采集后编码PNG时间，文件IO时间变动，中间又有系统内存回收导致的。再次修改采集方法，采用双线程模型加高缓存策略，保证了时间平滑度在30ms左右。
祛除背景问题：截屏窗体采用纯白背景0XFFFFFFFF，设想对截屏图片使用程序去除白色部分，然而发现有些色素是有Alpha通道的。理论上讲白色可以和任意Alpha通道色值混合成目标色值。这就意味着还原Alpha通道色值有些不现实，再次陷入困境。。。查阅了颜色混合公式 Dst = (Src * Alpha + (256 – Src.Alpha * Alpha / 255) * Dst ) / 255, 联想到对于同一帧如果分别采用白色背景和红色背景，利用混合模式对比不就能还原出色素的Alpha和RGB值嘛。于是再次修改采集程序，一个动作分别用红色背景和白色背景采集，生成两套动作。编写相似度算法分别找出每一帧的红色图和白色图，反向色素混合，果然能还原Alpha通道和RGB值~
祛除噪点问题：在祛除背景还原Alpha通道后，自以为没问题了，后来发现少量图片有零星噪点，深入分析代码发现，每一帧的白色帧和红色帧不是100%的吻合，图片边缘合起来对比还是有那么一两个像素的误差。开始各种尝试解决这种误差，祛除噪点，最终找到合适的算法，类似于卷积思想：以白色为基础帧，红色为对比帧，还原白色（X Y）的色素时，通过红色（X Y）周围9个点卷积还原，质量无损失，噪点完美祛除~

解决三面三个问题，Unity 3D截取转动画实现了，每个动作帧生成时间在4分钟左右。后续编写独立的动画组件把内存控制在15m以内，成功在两个项目中实际应用。本次瘦身方案采用这个策略，祛除掉了Unity 3D内核减掉15m体积，功能依然满足，成功达成目标！本次减包的主要方案就是资源分离下发，祛除Unity 3D，顺便删除少量冗余资源，媒体库合并等方式。

提醒：可以理解做了个工具，可以截取指定区域的画面，通过算法生成了设计级别的动效，这种方式可以应用在多个场景，比如cocos等其他特效技术替换。

我们遇到过哪些困难？

踩坑一：怎么分离drawable/image附件

安卓最常见的图片是drawable/image，系统调用的方式就那么几种，实现起来会相对轻松些。先从drawable分离着手，开发Android的小伙伴都知道，gradle在编译时会把drawable/images存放在build目录下。起初想添加一个脚本，编译时把这些drawable/images图片替换成占位小文件。经过两天的重复试验，虽然脚本替换成了小占位文件，但是APP编译失不通过了，没办法只能去查阅Gradle编译流程，发现一旦Gradle完成编译前准备，随意更改build是不行的，其中编译环节过多不再赘述。编译中替换不行，那就换成编译前替换试试看。修复脚本，以工程为单位，识别sourceSet.res，把sourceSet.res copy出一份新的目录，命名为dir。替换dir中所有的drawable/images为占位文件，编译前动态重置sourceSet.res = dir成功了。经过两天多的探索，初步找到图片分离占位的脚本方式，开头还算可以~

踩坑二：怎么无缝替换drawable/image

这个技术是最关键的环节，只有做到无缝才能确保不需要变更各业务代码，从底层确保质量。按照起初设想，进入某个功能前下发本模块的zip文件并解压，显示drawable时无缝替换掉，实际显示占位文件描述的真实图片。为实现无缝替换技术，浏览Android Framework的系统源码，发现可以使用Drawable Tag扩展，扩展ReplaceDrawable新类，在xml文件定义 <com.parentsmettins.drawable.ReplaceDrawable file=“project/imagePath”/>，系统内核会反射package包下的ReplaceDrawable实例，可以在实例化载入真实图片显示，运行起来还不错，不用修改业务代码，就能无缝替换显示。忍不住爽了下，赶紧在云平台选择不同的设备和系统测试兼容性，几台手机崩溃了。失落之余发现，这些手机普遍在6.0以下系统，开始漫长的下载Android各种版本的FrameWork源码做对比, 最后确认：Drawable Tag扩展特性在6.0以前的系统版本是不支持的！想到判定属于6.0以下的系统，Hook Resouces类Cache的get方法扩展支持Drawable Tag，又开始漫长的Resouces Hook测试验证工作，终于算支持6.0以下的系统了，随后在两个独立模块中测试无缝替换显示技术，妥妥的。然而应用到第三个工程测试，APP奔溃了。。。追踪下去发现有个混合drawable载入ReplceDrawable Tag时报错，那个业务的混合drawable使用到了无法Hook的API，这样的API还有几处。困难的工作总是这么意外，暂停编码，再次浏览系统代码。结论如下：不能使用Hook方式兼容，因为总会有不能Hook的地方，实现必须遵守Android标准这样才能稳妥。回顾了Framework对于BitmapDrawable NinePathDrawable的所有API，找到标准兼容方式。就是修改占位文件内容如下，同时重写Resources类的流读取方法，实现方式是获取资源id的类型，如果是xml文件，判断是否有file属性，有就认为是占位文件，返回file指定的已下载文件流。这种全新的方式既遵守Android标准，也不需要Hook，完美兼容各种drawable调用场景。因为我们的资源描述是标准的Android API，各种版本都支持，替换是从最底层的流层面完成的，各种API追踪都适用。完成这个最核心的无缝替换显示技术，隐约感觉到方案是可行的！

踩坑三：怎么无缝显示lotties/image

APP第二大资源是丰富的lottie动效，动效执行环节可能要修饰渲染素材，这样的动效场景遍布各个模块并且数量巨大，不同伙伴的调用还有不少差异。打包时分离到zip附件中轻松实现，但是无缝替换有些困难。起初设计方式是提供一套兼容API给各个业务方，各个业务方修改自身代码适配。刚开始实施，各个业务方反馈修改代码太多，完成兼容API替换会耗费大量时间，出现BUG的可能性也随之提高，调用兼容API方式实施困难，调整技术方案做到类似drawable/image的无缝实现非常必要。又开始耗费时间阅读lottie源码，发现内核代码会根据images路径和data.json信息从assets中寻找素材文件，猜想可以在lottie内核层面重写资源寻址实现，优先从下载目录中寻址，最终技术验证通过。因为不需要修改对应功能代码，原本计划多人一周的lottie方案，在一天内完成了。这个细节也提醒了我们，熟悉源码思想的重要性，技术层面深入一点多想一点，整体工作量小很多。

踩坑四：为什么附件library执行崩溃

随着drawable lotties分离无缝接入成功，基本完成了编译链发布链脚本，也可以把so等library库采用统一的流程来做呀。随后添加library的分离流程，载入so时采用Compat的方式从本地存储卡载入，本以为是个简单的事情，发现几乎所有的手机执行so程序崩溃。。。

又开始追踪各个系统System.load(path)的源码实现，发现在高版本的系统中，Android的权限更加严格，特别是执行权限。起初library下载到/Android/data目录下，这个目录是没有执行权限的，修改为/data/data目录下，该目录有执行权限，解决了这个问题。

踩坑五：怎么构造抽象统一的下载

目前学而思很多业务中有不少下载代码，下载校验，文件管理等，如果离线资源，20多个业务都要添加下载代码，这对于精简代码非常不利，还需要测试成本确保质量。起初发现几乎所有的模块跳转都在架构组设计的Dispatcher类中实现，便设计在个业务的Dispatcher入口处拦截并下载对应功能资源。忙碌了20多个小时修改了这么多业务的Dispatcher类并检查，跑码测试，突然发现有个模块的没有资源拦截和下载，导致整个功能素材显示出问题。CR整个代码，发现跳转除了Dispatcher 还有少量的Arouter Scheme 以及原生的Start方式，最初的想法不全面还修改了业务代码，只能回退梳理代码流。发现不管Arouter Dispatcher Scheme最终都调用了Activity的startActivity方法，查阅Android系统的Activity源代码确定可以用参数Intent的ComponetName来判断要跳转的模块，临时拦截跳转下载本模块资源。因为各个模块的package都是prefix + businessName方式，这为我们抽象实现20多个业务资源下载提供了可能。编码完毕后，测试起来还不错。然而在全功能测试流程中，又碰到了loading不显示，或者进入直播时直接失败，追踪下去原来是绑定下载服务失败，主要是跨进程问题还有系统差异问题，再次对比不同版本的Service差异，修正下载服务代码支持跨进程问题。自以为方案没啥问题，又遇到从学习中心进入模块时，没有走到拦截流程，原因是拦截代码写在Base类中，绝大部分的业务都继承了Base类，少量的业务没有继承Base类，为了避免人为疏漏就编写代码检查脚本，编译时检查全工程的业务Activity如果不是继承基类，就报错停止编译提醒业务方修改继承。有了这个脚本检查，确保了无遗漏才敢进入下一个技术环节。

踩坑六：非离线的首页素材显示问题

在我们的方案设计中特殊模块工程不分离资源，比如首页，发现，个人中心，其他独立模块是分离附件离线的。应用方案后发现首页等模块少量的素材显示有问题，只能再次开启埋坑之旅。发现出现显示的问题的素材，其名称和其他分离工程的素材重名，gradle打包时选择了占位文件，而首页的原始图片不会编译到APP中。如果与首页资源重名的工程资源还没下发，框架代码找不到下载文件，会显示纯黑或者纯蓝。因为不知道这种重名资源有多少个，又开始编写脚本统一检查，发现156处重名，共计312个素材！耗费大半天一个个修改名称避免重名，好在这些drawable类修改后，code也能快速识别出来修改资源符。

踩坑七：浏览器WebView怎么崩溃了

在测试中意外发现，应用技术方案后，在WebView中长按，程序崩溃。让人陷入懵逼状态，APP只是无缝替换显示离线资源，WebView只是加载URL链接也不会使用本地资源，怎么会崩溃？事情做到这个地步只能去排查，又开始艰辛的阅读webkit源代码。原来长按WebView时，webkit要弹出选择菜单，菜单的素材是在系统中，在载入WebView组件时，系统Resouces实例会把webkit的素材路径加入进来。起初我们为了做到无缝替换重写并替换Resources实例，重写后没有载入webkit素材路径导致资源找不到崩溃, 而APP又没法获取不同版本不同手机的webkit素材路径一时陷入混沌。经过多次尝试验证，我们发现不能简单重写Resources，应该采用装饰者模式重写，这样访问APP资源时返回已下载文件流，访问其他资源如webkit素材，采用System原有的Resources实例实现，这样解决了问题。

踩坑八：Glide为什么显示不了本地素材

熟悉Glide的伙伴们都知道，Glide是图片加载显示框架，可以包括url图片，文件图片，APP本地素材等。按照开始的设想，Glide会调用Resources实例载入本地素材显示，我们的Resources实例重写过可以确保替换显示占位drawable/image，测试中发现一旦使用Glide载入本地素材，就显示一片空白，为避免修改众多的业务代码导致测试周期拉长，又开始埋头阅读Glidde源代码。熟悉内核代码后发现，Glide载入本地图片不是使用Resources实例，而是Uri定位符，Glide之所以这么写是为了统一代码框架便于扩展。认真阅读Glide扩展规则，重写了Local Uri方法，优先从已下载文件中寻址素材，返回 File Uri解决了问题。

踩坑九：自动化打包脚本的编写历程

如果觉得资源发布管理还算问题嘛，不就是上传下配置下嘛，请看看起初的经历。绝大部分工作完成后，着手准备20多个zip文件，计算低版本增量更新包，，获取各个zip文件的md5，最后把这么多信息写进配置文件里，上传到云端。就这么简单的人力工作，耗费了大量的时间精力，做完了心里还忐忑不安，如果手动发布配置出错，线上一定出事故，还需要考虑不清楚技术细节的小伙伴也能快速发布依赖附件包。这种场景类似于当初尝试插件化碰到的问题，非技术问题：版本迭代管理成本。

考虑打Release包时通过Jekins托管，打包完毕后Jekins上已经输出20多个业务的zip文件，为什么不写个Python脚本，命令行运行，自动发布附件包到云端？有了想法开始各种倒腾，首先配置Jekins Web环境确保HTTP可以访问，Python脚本大约流程如下，按照配置清单从Jekins上下载20多个工程的zip附件，对比历史版本zip附件产生低版本增量包，计算各包md5校验值，批量自动化上传到OSS，汇总各个文件链接校验信息增量信息产生config文件在发布到云端。经过3天反复的编码，测试确保脚本OK了，开始使用完整的流程。一切看似正常，突然发现若干素材显示变形失真了。再次埋头去定位问题，发现失真的图片是 ninePatch图片，熟悉安卓的小伙伴知道ninePatch是特殊的png图片，在studio中按照规则编辑边缘就能使用最小尺寸的图片显示大尺寸确不失真。想这种特殊图片一定在正常编译中有特殊处理，再次开始研究gradle编译流程，发现对于ninePatch素材，gradle会调用aapt程序计算chunk信息保存在图片的metadata中，那python是否可以调用aapt工具对附件的ninePatch素材进行编译呢，又耗费精力在Python脚本中加入aapt编译再次尝试，问题解决了。自我感觉是没问题了，然而几天后运行Python脚本时发现，整个运行了2个多小时才发布完毕。。。又开始逐步调试，发现随着迭代版本增多，计算6500多张图片增量包IO操作太多，最终优化算法减少IO次数解决问题。

方案能成功的经验总结

1.基于Android 标准接口重写，避免Hook技术获得很好的兼容性，特别是后续系统兼容上。

2.发版阶段不需要各个业务方独立打附件包，而插件化的方式需要独自打附件包

3.在资源下载更新上我们做到了存量用户增量更新，而插件化的方式无法做到

4.除了技术本身我们做到了打包发布优化增量等环节的自动化实现，节约迭代成本

5.我们在图片资源替换显示上做到了无缝替换，最大程度的降低了业务代码修改量

6.方案实施完毕后，后续的新增项目和需求不再导致APP持续增长，长期稳定。

7.我们在构造下发框架做到抽象统一针对Bug修改时也在底层完成兼容，降低成本

8.释放了开发资源，大规模的自测确保质量。

虽然我们砍掉了一大半的体积，但是持续减包，持续减少资源体积，优化产品体验还需要坚持下去。后期进入深水区，可以推荐如下研究方向：

短期拆分直播工程，把原本50m的直播资源分散开来，进入不同的直播课时loading的时间会更少。
中期项目组需要筹划混淆实施方案，尽量统一素材，动效统一，在UI设计上最大化统一。同时考虑脚本化分析代码，祛除无用代码，统一相似代码。
长期考虑dex优化，目前考虑到APP的稳定性，没有对dex启动混淆。
补充优化，可以考虑引用运动适量还原技术替换现有的帧动画 gif动画，大约能减少60%的动效体积。
补充优化，研究轻量超分重建，难度大收益大
end

作者简介

袁威为好未来高级Android工程师III

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”，点击本公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

DStack--基于flutter的混合开发框架

2020-05-22T20:55:34+08:00

混合开发这项技术由来已久，目前市面上主流的有Hybird，ReactNative，Weex，Flutter等。其中，Flutter以他独有的实现方式，优秀的性能，成为近两年最火的混合开发方案，我们学而思网校1v1客户端团队也是比较早的开始了Flutter技术的研究，在学而思网校1v1家长端和学而思网校1v1教师端两个App进行了大规模的实践尝试，由此也沉淀出了一套自己的混合方案DStack。

为什么要有混合方案？

学而思网校1v1家长端是个纯Flutter工程，虽然用Flutter开发App能大幅度的提高人效，但是纯Flutter工程还是有些页面需要用native来实现比较合适，比如说webView，视频页面等；
学而思网校1v1教师端是个有一定规模的原生App，只是部分模块接入了Flutter来实现。

上述两种情况都存在native页面和flutter页面进行交互的行为，当两种页面进行交互，比如，混合页面之间随意跳转、页面间数据传递、手势滑动、内存资源控制、路由管理，这些都是需要解决的问题，基于此，我们参考了官方的解决方案，和阿里闲鱼团队的flutter_boost框架等，针对我们的业务和工程的具体情况进行了DStack的方案选型和具体实现。

一、DStack定义

DStack是什么？

学而思网校1V1客户端团队自研的，基于节点进行管理的，使用简单，易于集成，性能优秀的混合开发框架。
目前框架已经在学而思网校家长端和教师端App上线，内存性能明显提升，稳定性表现良好。DStack也给Flutter社区提供了混合栈管理的新思路，改变了固有的移动研发模式。

二、DStack的实现和特点

什么是混合栈？

当进行混合开发时，native页面和flutter页面依次打开时形成的栈结构，存在多种页面类型，以下图为例

蓝色方块NA代表native页面，橘色方块F代表flutter页面
DStack对标flutter_boost

我们可以看到，页面栈结构存在native页面和flutter页面交替的情况，关于如何处理这种不同页面间打开关闭的场景，目前flutter社区开源的此类框架只有flutter_boost，flutter_boost是阿里闲鱼团队自研的Flutter混合开发栈管理框架，该项目在github有3.9k的star。

那看到这儿可能会有疑问，既然社区有成熟的解决方案，我们为什么不用？主要有以下几点原因，一是flutter_boost的实现原理不适用于我们的纯Flutter工程，二是为了我们团队后续的mac，ipad，pc端进行混合开发做准备，三是我们对性能有很高要求，flutter_boost的实现方式决定了它没有利用flutter技术的特性，性能方面不够好。综上所述，我们需要自研适用性更强的混合开发框架DStack。

怎么做？

1.基于“节点”进行混合栈管理

在DStack框架实现中，我们把每个native页面和flutter页面抽象成了“节点”数据结构，每个页面对应一个节点，节点有页面的若干信息，通过节点这种数据结构，我们就在实现底层屏蔽掉了页面的具体类型差异。

基于节点有什么好处？

抽象了具体的页面实现，便于管理；
提供了更强大的扩展性。

NA代表native页面，F代表flutter页面，H代表Hybird页面。

因为我们已经把不同类型的页面抽象成了“节点”，所以后续如果除了flutter页面和native页面，我们甚至还可以接入ReactNative页面或者Hybird页面。

2.确定节点与页面行为的关系

图片中的pop表示返回上一个页面，popTo表示返回指定页面，popToRoot表示返回根页面，popSkip表示返回指定的模块，如图就是把“登录”模块的所有页面都返回。

每个页面返回和打开，都对应一次的节点记录，用户的行为触发节点管理，节点管理驱动页面跳转(即栈管理)，考虑到Android和 iOS实现的差异性，节点管理放在了native侧处理。

3.设计使用简单的api

4.设计便于集成的框架接入方式

我们已经把DStack做成了flutter侧的pub库，只需要在flutter工程直接引用依赖即可。

5.利用引擎复用，框架内存优秀

在flutter的1.12版本之后，我们运用了flutter官方提供的flutter engin复用机制，做到了不同的flutter控制器共享同一个flutter engin，内存性能优秀。

三、目前取得的成果

1.业务上

2.性能上

性能上我们主要对比了flutter_boost框架，我们可以看到不管是iOS侧还是android侧，flutter_boost每打开一个新页面内存都会涨，而我们的除非新打开flutter控制器会有内存消耗，其他情况内存数据很稳定。

这是android侧页面打开速度对比，我们可以看到除非是新打开了flutter控制器时，flutter_boost和DStack的页面打开速度差不多相同，其他情况下DStack的页面打开速度明显优于flutter_boost。

3.功能上

这是DStack和官方方案与FlutterBoost在功能上的一些对比，Y代表有，N代表没有。

四、后续计划

1.持续输出文章

这是DStack投稿的第一篇文章，只是简单介绍了一下框架，后续我们会把详细的实现和采坑指南等持续的投稿，把我们的技术共享给整个集团。

2.内部开源

我们有计划把DStack在集团内部开源，也希望得到其他事业部老师们的意见和建议。

3.外部开源

我们有计划把DStack进行外部开源，回馈整个Flutter技术社区。

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索关注“好未来技术“，点击“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

GPU计算的基本概念

浅析深度知识追踪如何助力智能教育

"考试"背后的科学：教育测量中的理论与模型（IRT篇）

2020-05-15T14:18:19+08:00

前言

我们一说到教育，就不可避免地会谈到中考、高考，这些高风险考试（high-stakes tests）。虽然大家对“教育测量”这个概念可能不那么熟悉，但关心教育行业的伙伴对以下问题可能会比较有共鸣。比如：我们如何决定一张试卷是不是适合当年、当地的考生？我们如何为不同学科的试题赋值，应该使用等级、原始分数还是转换分数？新高考的计分逻辑和原始分数有什么不同？选科高考后，大家选择的科目都不一样，分数可比性怎么解决？这些问题背后的逻辑都与教育测量学密不可分。

其实，教育测量的理论和技术，不仅仅会应用在大型高风险考试，还可以应用在老师们日常教学的闭环中。比如，在面对一个新生的时候，我们如何知道学生初始的知识掌握水平？在教学期间，我们如何知道学生对一个知识点有没有掌握、掌握到什么程度？在一段学习之后，我们如何知道学生相比较刚来报班的时候有没有水平的进步或变化？学科能力水平这样的抽象概念，我们很难一眼看到，不像我们的身高、体重那么直观。所以我们就要依赖测量工具来对这些抽象、潜在的心理维度进行外化和量化，获得关键的学情信息，让我们直观地透过学生的作答信息和作答结果来回答这些问题，牵引着老师们在日常教学过程中的每一步动作。

1. 教育测量是什么？

那么，教育测量（Educational Measurement）到底是干什么的呢？实际上，教育测量要做的事儿就是对各种与教育相关的事物进行量化，给这些事物指派数字，最终来实现不同的教育决策（例如：选拔、评价、因材施教等）。以评价为例，我们可以通过各种不同形式的“考试”把学生的学习表现量化，用数字或者等级来代表，进而评价学生的学习效果。我们也可以通过对老师平时的教学行为进行量化，用数字或者等级来代表，来评价老师的教学效果。中国著名心理学家张厚粲老师说，“一个人的经验再丰富，也难免带有一定的局限性。再好的售货员不用尺或秤，而仅凭经验卖布卖糖时也会出错”。教育测量学就是希望可以用科学方法保证试卷的质量，确保可以精准地测量与教育相关的事务，保证根据分数做出的决策是合理的、公平的。

在教育测量学中，衡量测评工具最重要的两个指标是信度（reliability）和效度（validity）。其中，信度是指这个测量工具要可靠、稳定地测查我们关注的维度，比如：学生的学科能力。效度是指这个测量工具确实是在测试我们所关注的维度，而不是其他不相关的维度。比如：数学考试就是测试学生的数学能力，而不是学生的英语能力。这两个概念，会在我们后续的文章中为大家详细介绍。

在这篇文章中，我们将具体介绍在教育测量领域中被广泛使用和研究的一种现代测量理论，名为项目反应理论（Item Response Theory，IRT）以及这个理论下的常用技术和模型，让我们从一个科学、技术的眼光看看考试背后的故事。

2.项目反应理论(IRT)概述

在介绍测验理论之前，我们先从大家的做题和考试经验来入手体会一下不同理论的差异。传统考试里大家做一份题，做完以后老师反馈试卷总分，如果我们忽略每个题目的分值，其实每个人的考分可以表达为作答正确的百分比。比如，一份试卷20题，对了15题，那么最后试卷得分就是75%。那么，75%的正确率代表什么呢？首先，我们日常在出试卷的时候，一定不是只关心学生在这张试卷上表现怎么样，而是我们想通过这张试卷的20题，去推断他能力到底怎么样。这张试卷的20题是对学生知识掌握情况的抽样，如果再给这位学员40题，他是否可以做对75%的试题，也就是30题？如果是80题，他是否能够做对60题（依然是75%正确率）？这里隐含的假设是，我们老师抽选的20个题是无穷无尽的题海中的一个有代表性的样本。

但是，当老师们组出的20个题并不是对于一个年级有代表性的样本时，或者试卷间考察的知识点本身就不同时，则没有办法认为一个考生在试卷A的正确率是75%，他在试卷B上的正确率也是75%。这样只通过总体试卷正确率去评价学生的方法是有一个测量理论支持的，叫做经典测验模型（Classical Test Theory，CTT）。

要了解项目反应理论（Item Response Theory, IRT），我们首先需要认识一下CTT——因为正是CTT的局限性，才有了IRT产生的契机。CTT是在随机抽样理论基础上建立的一套心理与教育测量理论体系，其核心假定是：在测验水平上，观察得分（observed score；也就是我们通常的考试得分）等于真分数（true score；真实能力应该体现的分数）加上随机误差分数（error score；其他不相干因素导致的误差）。由于我们假设误差是正态分布上的随机变量（均值为0的），因此，如果同一个测验或平行测验可以反复测量同一个人足够多次，观察分数的均值就会接近考生的真分数，随机误差的均值为0。那这样的理论主要有以下几个局限性：

在CTT下，用许多彼此平行的测验或同一个测验反复测量同一个人的同一种心理特质的做法在实际操作中往往是很难实现的，因此对个体真分数的精确估计也就主要停留在理论的层面上。
CTT的信度估计精度并不高。在CTT中，测验信度被定义为真分数方差与原始分数方差之比。虽然我们可以获取原始分数，但真分数方差在实际中却无从获取，哪怕是使用平行测验估计信度，完美的平行测验也是不存在的，因此实际估计的信度也不可避免地存在误差。
CTT各种参数（如：信度、效度、难度、区分度）的估计对样本的依赖性很大。例如：对于同一题目，若考生样本的群体水平较低，我们就会得到较高的难度估计值；反之，则得到较低的难度估计值。为了避免样本偏颇造成参数估计误差过大，CTT特别强调抽样时要注意保证样本对总体的代表性。
CTT中，测验对考生的评价指标主要为测验总分，而测验总分是考生在各个项目上的观察分数的总和。在用总分评价考生时，不同考生之间水平的比较只能在他们考了同一份测验的情形下进行，但是如果不同的考生参加的测验不同，那么这些总分之间就是不可比的，也就限制了我们对测验分数的应用。
在CTT下试卷的难度量表和考生的能力量表之间的关系是不一致的。在CTT中，题目难度的参照系是考生群体。例如：难度0.8表示该试题有80%的考生得分，但难度会随着受试群体的变化而变化。考生能力参数的参照系是试题集合。例如：百分制试卷中某考生卷面得分是80分，表明该考生在此特定试卷上得分率为80%，但是该考生是否能答对某个难度为0.8的题目呢？一个能力水平参数已知的考生完成一份所有项目参数均已知的测验，其在各个项目上的反应情况又如何呢？由于在CTT中，项目难度参数和考生能力参数定义在不相关的两个度量系统上，所以两者之间无法进行比较，也就无法进行预测，对测验编制活动的指导价值是有限的。

既然CTT存在那么多局限性，是否有更科学、更实用的测量理论来弥补这些不足呢？我们接下来要介绍的项目反应理论（IRT）就是为解决这些局限应运而生的。

2.1 IRT的基本框架

IRT全称为Item Response Theory, 译为项目反应理论。其中所谓“项目”（item）其实就是指的我们试卷中的题目，“项目反应”（item response）就是考生在具体题目上的作答。简而言之，IRT就是建立在学生能力和作答正确率的关系上的。我们知道，影响考生在项目上作答结果的主要因素有两个方面：第一个方面是考生本身的能力水平；第二个方面是试题项目的测量学属性，如项目难度、区分度、猜测性。在日常教学活动中，我们都有这样的经验：对于一道编制质量很好的题目，全卷总分较低的考生在该题目上的正确作答概率较小，而全卷总分较高的考生在该题目上的正确作答概率相应较高。这种伴随着总分的由低到高，题目正确作答概率由小到大变化的过程基本上是一种连续性变化的曲线。在经典测量理论中（CTT），卷面总分可以被视作学生能力的代表，但是学生卷面总分是随测验的许多特性而变的。例如，随着试卷难度的改变，同一考生的卷面总分也会随之改变。那么能否用一种稳定反映考生水平的潜在特质（latent traits）变量来代替卷面总分呢？

假设这种潜在特质（即考生的能力）是存在且可被测量的，我们用θ来表示，那么随着考生的能力水平的变化，考生答对某题目的概率P(θ)也相应变化。这种描述考生能力水平与项目作答结果之间关系的数学模型被称为项目特征函数（item characteristic function, ICF），以图像表示则称为项目特征曲线（item characteristic curve, ICC）。下图1为一典型的ICC：横轴表示考生的能力水平，纵轴表示答对某题目的概率。每一个题目会有自己的ICC。

图1. 项目特征曲线（ICC）

考生潜在特质θ在特征函数ICF中是一个自变量，从理论上说θ的定义域是无穷的，从负无穷到正无穷都可取。P(θ)的值随着θ的增大而增大，但以P(θ) = 1为它的上渐近线。参数θ与卷面总分有一定的联系，正常情况下两者呈正相关。但是，θ是考生水平更为本质、精确的描写。习惯上θ采用标准Z分数的表达形式，其上下限一般设定为[-3,3]。

ICC的走势除了受到考生潜在特质的影响外，还受到三个反映测验试题特征的未知题目参数alphaα、betaβ、c的影响，这三个参数决定了S形曲线的走向 (图2)。alphaα参数被称为题目的区分度，它刻画了测验题目对考生水平区分能力的高低。在题目的ICC中，alphaα值是曲线拐点处切线斜率的函数值。曲线在拐点处越陡峭，值则越大，同时意味着能力θ在拐点处稍有变化，则在该题目上正确作答的概率差别较大，因此也就说明该试题起到了精细区分考生的作用。

图2. 不同参数在项目特征曲线上的含义

参数c被称为猜测参数，是指实际测验中考生纯凭猜测而作答成功的概率。直线P(θ) = c是ICC的下渐近线。若题目的猜测参数为c，则意味着θ为负无穷的考生在该题上正确作答的概率也为c。

betaβ参数被称为题目难度。难度为betaβ的题目，若排除c的影响，潜在特质θ恰好等于betaβ的考生，TA在该题目上正确作答的概率为0.5。随着题目betaβ值的升高，ICC在横轴方向上向右平移，这时只有潜在特质更高的考生才可能在新题目上获得相同的正确作答概率。因此，betaβ值确定了，ICC在横轴上的位置也就确定了。与CTT中的难度参数不同，这里的位置参数是定义在考生能力量尺下的，而不是单纯考虑题目的作答情况。

2.2 IRT理论下的不同模型

项目反应理论（IRT）中题目参数和潜在特质水平参数共同影响测验的结果和精度。题目参数越多，对题目性质刻画越精细，但相对来说，模型也就越复杂，应用越困难。那么什么样的函数形式可以整合考生潜在特质和题目特征呢？研究者根据大量、可观测到的作答反应曲线，拟合提出了IRT的两个基础模型——正态肩型模型（the normal ogive model）和逻辑回归模型（logistic model）。

由于正态概率分布曲线是一S形曲线，因此研究者（Lord, 1952）首先想到了用它来拟合ICC，而正态肩型模型也从理论上奠定了IRT初始模型的基本形式。但是由于其模型中采用了积分函数的形式，在实际参数估计和使用中不方便，因此在1957年，Birnbaum将其改换成了logistic形式（如下公式）。

其中， θ为考生能力，alphaα为题目区分度参数，betaβ为题目难度参数，c为猜测参数，D为常量。P为能力为θ的考生正确作答某题目的概率。当D取值为1.702时，此函数的概率密度与正态肩型曲线的差异小于0.01。由于计算方便，目前多用此函数形式来描述ICC曲线。以上方程被称为三参数模型，当c=0时，该方程简化为双参数模型；当c=0且alphaα值一致时，该方程只有项目难度参数betaβ，因此被简化为单参数模型。有一种特殊并被广泛应用的单参数项目特征曲线被称为Rasch模型，由丹麦学者Rasch （1960）独立提出，对于不同的题目，其alphaα值恒定为1。

2.3 IRT模型参数估计

当我们精心设计了一张试卷，并大费周章地得到学员的作答数据后，应该怎样利用这些数据估计学员的能力呢？针对具体的模型，IRT参数估计的过程就是要通过实测数据（即考生的作答数据），有时可能还需要借助一些人们积累的经验信息，获取测验中每个项目参数的估计值，以及参加测验的考生能力水平参数估计值。然而，在参数估计中，我们只有考生的得分矩阵和一些先验信息，考生的能力参数和项目参数均未知，我们要如何估计这些参数呢？一种经典的估计方法需要用到一种名为联合极大似然估计（Joint Maximum Likelihood Estimation, JMLE）的方法对考生能力水平参数和项目参数进行联合估计。

所谓联合估计，具体来说就是首先以考生能力初始估计值作为已知条件，利用极大似然估计的方法估计项目参数；然后以该估计的项目参数为已知条件，重新校正初始考生能力参数；将能力估计值标准化，并且将项目参数做相应变换，即将两类参数放到同一量尺下；然后又以校正后的能力参数进一步校准项目参数，如此循环递推新值，直至两类参数达到某个预先设定的标准为止。

尽管JMLE的方法可以同时估计考生参数和项目参数，但这种方法在实际运用中也存在很大的问题。例如：为了更精确地估计项目参数，一个常用的方法是增加项目样本量，但是增加样本量的同时也会导致考生参数估计量的增加，因此就会有更多没有额外项目信息的考生参数需要估计。同时，把考生参数和项目参数绑定在一起也不是一种有效的计算方法，因为只要一个项目的模型拟合没有做好，就需要重新进行整个项目参数和考生参数的估计。因此，在实际操作中，研究者普遍采用一种更有效的项目参数估计方法——边际极大似然估计（Marginal Maximum Likelihood Estimation, MMLE）。MMLE的方法是把考生看成是来自于某个已知分布总体的代表性随机群体，可以通过基于对该已知分布进行积分的方式来估计项目参数。

已有考生作答数据信息，且项目参数确定的情形下，一种常用的能力参数估计方法为贝叶斯后验期望估计的方法（Expected a Posterior Estimation, EAPE）。EAPE的方法与极大似然估计的过程不一样，可以通过直接计算就得到期望估计值，因此计算过程更简单，速度更快，也符合传统的贝叶斯思想，使它成为能力参数估计的一个上佳选择。

2.4 IRT的优势

在以上内容中，我们介绍了IRT的理论框架、相关模型以及参数估计的内容，可以看出IRT和CTT有很大的不同，那么IRT是怎么克服CTT的局限的呢？它的优势又体现在哪里？

2.4.1 项目参数与考生能力参数具有不变性的特征

我们在本节的开头提到CTT参数的估计对参测样本的依赖性很大，但是在IRT中测验的题目参数具有跨群体不变性，即题目参数估计独立于参测样本。具体来说，只要测试同一特质的测验项目的参数具有足够宽的覆盖，也就是测验中既有难的题目，又有中等难的题目，也有容易的题目，那么不管题目分布形态如何，考生能力参数的估计就不依赖具体的题目。同时，只要在同一维度上考生的能力水平分布足够宽，也就是在考生样本中，既要有部分能答对该题目的考生，也要有些无法答对的考生。那么，不管考生分布形态如何，项目参数的估计也不会依赖于具体的考生样本群体及其分布形态。

2.4.2 项目参数与考生能力参数具有统一的量表

根据IRT模型估计出来的考生能力参数与项目难度参数具有统一的量表，即考生参数与项目参数可以被标定在同一个参照尺度上。例如，能力估计值为0.5的考生答对难度值为0.4的题目的概率大于答错的概率，而答对难度估计值为0.6的题目的概率则小于答错的概率。同时，在实际应用中，用于测试能力水平为0.5的考生的最佳题目的难度也应该在0.5左右。距离0.5太远的题目，对该考生来说或者太容易或者太难，并不能有效测量出考生的水平。

2.4.3 可以针对不同考生精确估计每个项目和测验的测量误差

IRT相比于CTT引进了题目信息函数的概念，并用信息量来替代信度的概念。信度与测量标准误差之间存在反比关系，一个试题提供的信息函数越大，测试的误差就越小。信息函数不仅与参测题目性质有关，还与参测群体的水平有关，即对不同能力的考生施测相同试题，其测验误差并不相同。同时，测验题目信息函数具有可加性，一个测验包含多个题目，它们的信息函数的累加值可以被称为测验信息函数。有了不同题目对不同考生单独计算信息量值的方法，我们就可以对每个考生的特质水平估计误差进行主动控制，从而更加有利于指导测验的编制。

3. 结论

综上，我们为大家简单介绍了教育测量的含义，并深入描述了教育测量中广泛应用的现代测验理论IRT（项目反应理论），包括其背后的逻辑和涵盖的不同模型。相较于老师们主观组合、实施的考试和经典测验理论，应用IRT理论和技术可以更加精准地测量学生的学科水平。其实，关于IRT的相关技术还有很多，能帮助我们实现各种不同的测评目的，指引我们的测评设计。而在应用场景方面，IRT除了应用在大型测评中的具体测验设计和计分中以外（如：我国大学英语四六级考试），IRT的技术理论还可以用于题库建设和自适应测评的开发，感兴趣的伙伴可以持续关注硅谷研发部发表的文章，我们会在之后的专题文章中和大家分享不同的测验理论和技术的应用。欢迎大家持续关注！

参考文献

Birnbaum, A. (1957). Efficient design and use of tests of a mental ability for various decision-making problems. (Series Report no. 58-16, Project no. 7755-23, USAF School of Aviation Medicine, Randolph Air Force Base, Texas.)
De Ayala, R. J. (2008). The theory and practice of item response theory. Guilford Publications.
Lord, F. (1952). A theory of test scores. Psychometric monographs.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.
戴海崎, 张锋. (2018). 心理与教育测量. 暨南大学出版社.
罗照盛. (2012). 项目反应理论基础. 北京师范大学出版社.
张厚粲. (2017). 教育测量学: 高考科学化的技术保障. 中国考试, (8), 4.

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索“好未来技术”，点击公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

浅析深度知识追踪如何助力智能教育

WebRTC源码分析——视频流水线建立（上）

2020-05-08T11:49:30+08:00

1. 引言

常见的音视频会话中，一端将本地的音视频数据传输给对端将至少经历3个步骤：采集->编码->传输，将数据从采集模块到发送模块的流动称为音视频数据的流水线。接下来几篇文章中将以视频数据为本来讨WebRTC是如何建立此视频流水线的：数据如何采集，如何从采集模块一步步流向网络发送模块，最终传输出去的。

2. 采集

视频采集模块是数据流水线的起始点，负责从视频源采集原始视频帧，推送给流水线的下一站：可以是本地渲染模块进行本地回显，也可以是编码模块进行数据编码压缩。

视频源可以是摄像头，也可以是桌面、窗口抓屏(远程桌面，基于视频流的电子白板等应用)，甚至可以是磁盘上的视频文件，图片文件。WebRTC中提供了基于摄像头的视频采集框架，是本文要讨论的重点。当然WebRTC也提供了桌面，窗口抓屏框架，这套框架对外所提供的接口与基于摄像头的采集接口有所不同。整个视频流水线建立是以摄像头采集接口为基础的，从而导致这么个问题：当需要将抓屏数据当做视频源往外推送时，需要使用适配器模式来实现一套基于摄像头的视频采集接口。在基于视频流的互动白板中曾如此实现过，但不是本文讨论重点，因此，将放在别的文章中进行阐述。

视频采集模块是平台相关的模块，MacOS/IOS一般使用AVFoundation框架或者QuikTime框架，Linux平台一般使用V4L2库，Android上一般使用Camera1或者Camera2框架，Windows平台则使用DS（DirectShow）或者是MF（MediaFoundation）。由于WebRTC是个非常活跃的工程，代码架构一直在不停的变动之中，比如2019年4月份的代码还有VideoCaptureMF的代码，并且还注释着Vista及以上的版本建议使用MediaFoundation采集框架，而2019年11月份的代码MediaFoundation相关的代码已经被移除。再比如MacOs/IOS，Android的相关代码已经被移动到sdk/objc和sdk/android目录下。本文以modules/video_capture下的代码来做阐述，平台无关的代码在该直接目录下，平台相关的实现在modules/video_capture/windows，modules/video_capture/linux目录下，如图所示：

2.1 视频采集相关UML

DeviceInfo接口提供了设备枚举相关功能，其平台相关子类实例以组合的形式提供给VideoCapture。

枚举设备个数，获取某个设备名称。
枚举某个设备所支持的所有能力（VideoCaptureCapability: 分辨率，最大帧率，颜色空间，是否逐行扫描)
获取某个设备的所有能力中与外部设置的能力最匹配的那个能力。

VideoCaptureModule视频采集模块的虚基类，它定义一系列视频采集的通用接口函数：

Start/StopCapture用来开始/结束视频采集（平台相关）；
CaptureStarted用来判断当前capture运行状态（平台相关）；
Register/DeCaptureDataCallback用来注册/注销数据回调模块（平台无关）；
Set/GetApplyRotation用来设置视频旋转角度（平台无关）。

VideoCaptureImpl类是VideoCaptureModule的实现子类。做了3个事：

声明静态Ctreate方法，用于创建平台相关的VideoCaptureImpl子类，在Windows平台上为VideoCaptureDS，在Linux平台上实现的子类是VideoCaptureV4L2。该方法一处声明，多处实现，在相应平台编译时，只会加载对应平台的实现代码；
平台相关的接口，留待平台相关的子类中实现，主要是开始/结束视频采集；
实现平台无关的接口：注册视频数据回调，应用视频旋转相关函数。其中注册数据回调将一个实现了VideoSinkInterface<VideoFrame>接口的对象赋予VideoCaptureImpl::_dataCallBack成员。当采集模块得到一帧视频数据，就可以通过该对象的OnFrame()方法推送出来。

2.2 采集模块的内部数据流

1. 以VideoCaptureDS为例，平台相关的采集模块采集到一帧视频后，平台相关的函数ProcessCapturedFrame()方法进行处理。ProcessCapturedFrame()将视频帧直接传递给VideoCaptureImpl::IncomingFrame()方法

2. VideoCaptureImpl::IncomingFrame()方法将对视频帧按需求进行旋转，并利用libyuv库转换成I420类型，再给视频帧加上ntp时间戳。经过上述处理后，IncomingFrame()将视频帧进一步传递给VideoCaptureImpl::DeliverCapturedFrame()

3. VideoCaptureImpl::DeliverCapturedFrame()将调用VideoSinkInterface::OnFrame()，将视频帧传递给回调对象_dataCallBack，即数据的下一站，从而将视频帧推送出采集模块。

3 流水线建立

视频采集模块作为底层模块，需要和上层模块协作才能把采集到的视频数据发送到上层的显示和编码模块，为数据流水线提供源源不断的视频数据。从控制流来讲，视频采集模块在初始化阶段由上层模块进行创建并开启视频采集，在结束的时候由上层模块停止视频采集并销毁模块。从数据流来讲，采集到的视频数据通过回调接口传递到上层模块，进行数据流水线上的下一步处理。

3.1 VideoCapture->VideoTrack的流水线

不论视频流最终目的地是流向本地渲染模块还是要流向编码器，首先都要经过VideoTrack这个对象。从控制流上来讲：一个VideoTrack对象的创建过程就是VideoCapture->VideoTrack流水线建立过程：

从数据流来讲：而视频数据流动方向正好和创建的方向相反：

3.2 VideoTrack到本地渲染

从之前的描述，我们很清楚的知道视频帧是如何流动到VideoTrack的（虽然实质上并没有流动到VideoTrack类），我们也知道该如何从VideoTrack中获取视频数据：1）实现VideoSinkInterface接口，2）通过VideoTrack的AddOrUpdateSink()注册进去即可。事实上，本地渲染就是如此做的：要么直接使用WebRTC提供的平台相关的渲染类，这些类都实现了VideoSinkInterface接口；要么可以自己实现Renderer类，并实现VideoSinkInterface接口，在OnFrame方法中获取视频帧，并进行渲染操作。render通过VideoTrack的AddOrUpdateSink()注册进去时，会一直被投递到VideoBroadcaster被其持有，从VideoBroadcaster处直接得到视频帧。

WebRTC中提供的渲染类相关的UML类图：

3.3 VideoTrack到编码器

要说清楚VideoTrack中的视频帧如何到达编码器的，首要问题是搞清楚在WebRTC中哪个类代表了编码器，这才好研究视频数据的流向。

在WebRTC中VideoStreamEncoder类表征着一个视频编码器，接收原始视频帧作为输入，产生编码后的比特流作为输出。该类位于src/video/video_stream_encoder.h中，如下截图为该类的说明：

搞清楚了目的地后，接下来就是分析视频流如何从VideoTrack一步步流向VideoStreamEncoder，这条流水线又是如何建立起来的。

从数据流来讲，数据从VideoTrack->VideoStreamEncoder过程中大概经历了这么几个对象：

这几个对象的UML类图及其关系如下所示：按照之前的分析，我们知道要正真获得视频帧，该类需要实现VideoSinkInterface接口，在OnFrame()在该方法中得到上一站传来的视频帧。通过下面类图，我们可以看到实质上只有VideoStreamEncoder是一个VideoSink对象。而VideoTrack通过以对象成员的方式一直被传递到VideoStreamEncoder。由于VideoTrack实现了VideoSourceInterface，VideoStreamEncoder又可以反向设置到VideoTrack中，根据之前的结论，VideoStreamEncoder最终会存储在VideoBroadcaster中，由VideoBroadcaster将视频帧直接传递给VideoStreamEncoder。

从控制流来讲，如果不深入研究细节，仅从WebRTC的外层API来看，通过PeerConnection->AddTrack()；PeerConnection->CreateOffer()；PeerConnection->SetLocalDescription()这三步就建立起了这条流水线。后续简要分析这3个方法内部对建立上述视频流水线做出的贡献。

1. AddTrack()

在创建出VideoTrack后，通过PeerConnection->AddTrack()接口会为每个要发送的视频Track创建一个VideoRtpSender对象，视频Track成为VideoRtpSender的成员，实现逻辑上视频流向VideoTrack->VideoRtpSender流动。另外，如果SDP使用kUnifiedPlan方式，还会为每个track创建一个独立的

RtpTranceiver对象，组合包含该track的VideoRtpSender，并添加到PC的成员RtpTranceiver数组中。

VideoRtpSender对象有两个重要的成员是与本文的讨论相关的track_和media_channel_。分别就是VideoTrack和WebRtcVideoChannel对象，是视频流的上一站和下一站。执行AddTrack()并不会将二者关联起来，只会将VideoTrack添加到VideoRtpSender中。但最终VideoRtpSender->SetSsrc()方法被调用时完成二者绑定。

VideoRtpSender->SetSsrc()被调用的时机？
如果SDP使用kUnifiedPlan方式，VideoRtpSender被创建时，media_channel_并没有跟随一起被创建，那么何时何地media_channel_会被创建。

2. CreateOffer()

PeerConnection->CreateOffer()方法的详细过程是非常复杂的，它收集本地的音视频能力和网络层传输能力形成SDP描述结构。虽然该方法没有直接参与视频流水线构建，但是其为下一步PeerConnection->SetLocalDescription()操作提供了必要信息，使得其能完成视频流水线的构建。

下面简要分析PeerConnection->CreateOffer()的过程中与视频相关的部分，大致的调用过程如下：

图中特殊标记有两个函数：

PeerConnection::GetOptionsForUnifiedPlanOffer()会遍历PC中所有的RtpTransceiver，为每个RtpTransceiver创建一个媒体描述信息对象MediaDescriptionOptions，在最终的生成的SDP对象中，一个MediaDescriptionOptions就是一个m-line。根据由于之前的分析，一个Track对应一个RtpTransceiver，实质上在SDP中一个track就会对应到一个m-line。上述遍历形成所有媒体描述信息MediaDescriptionOptions会存入到MediaSessionOptions对象中，该对象在后续过程中一路传递，最终在MediaSessionDescriptionFactory::CreateOffer()方法中被用来完成SDP创建。

另外MediaSessionDescriptionFactory::CreateOffer()创建SDP过程中，会为每个媒体对象，即每个track：audio、video、data创建对应的MediaContent。上图右边展示了为视频track创建VideoContent过程，标黄的静态方法CreateStreamParamsForNewSenderWithSsrcs()会为每个RtpSender生成唯一的ssrc值。ssrc是个关键信息，正如之前分析，但需要说明的一点是此处并不会调用RtpSender->SetSsrc()方法，ssrc当前只存在于SDP信息中，等待SetLocalDescription()的解析。

3. SetLocalDescription()

在CreateOffer()成功的回调中，一方面，我们会通过信令将Offer SDP发送给对端；另一方面调用SetLocalDescription()进行本地设置操作。

SetLocalDescription()的大致步骤如下：

如上图， SetLocalDescription()过程是相当复杂的，我们抓住视频流水线上关键节点的创建以及关联过程来进行重点描述。重点函数在上图中都标黄显示。

流水线上对象的创建：

1） PeerConnection::UpdateTransceiverChannel()方法中检查PC中的每个RtpTranceiver是存在MediaChannel，不存在的会调用WebRtcVideoEngine::CreateMediaChannel()创建WebRtcVideoChannel对象，并赋值给RtpTranceiver的RtpSender和RtpReceiver，这儿解决了VideoRtpSender的media_channel_成员为空的问题；

2） PeerConnection::UpdateSessionState()方法中，将SDP中的信息应用到上一步创建的视频媒体通道对象WebRtcVideoChannel上，调用WebRtcVideoChannel::AddSendStream()方法为通道创建WebRtcVideoSendStream，如果有多个视频Track，会有多个WebRtcVideoSendStream分别与之对应。WebRtcVideoSendStream对象存入WebRtcVideoChannel的std::map<uint32_t, WebRtcVideoSendStream*> send_streams_成员，以ssrc为key。创建WebRtcVideoSendStream，其构造函数中会进一步创建VideoSendStream，VideoSendStream的构造中会进一步创建

VideoStreamEncoder对象。到此，所有有关的对象都已经创建完成。

流水线的建立：

之前就分析过VideoRtpSender->SetSsrc()方法非常重要，该方法在PeerConnection::ApplyLocalDescription()中最后被调用。会触发Track被传递，从VideoRtpSender传递到WebRtcVideoChannel，再传递到WebRtcVideoSendStream，成为WebRtcVideoSendStream的成员source_。从而实现了逻辑上VideoRtpSender->WebRtcVideoChannel->WebRtcVideoSendStream流水线的建立；

WebRtcVideoSendStream::SetVideoSend()方法紧接着又触发调用VideoSendStream的SetSource()方法，以WebRtcVideoSendStream为视频源参数（看之前的类图，WebRtcVideoSendStream实现了VideoSourceInterface接口）一路传递给VideoStreamEncoder的成员VideoSourceProxy。在这个VideoSourceProxy::SetSource方法中，反向调用WebRtcVideoSendStream::AddOrUpdateSink()方法将VideoStreamEncoder作为VideoSink（看之前的类图，VideoStreamEncoder实现了VideoSinkInterface接口）添加到了WebRtcVideoSendStream。注意，在WebRtcVideoSendStream::AddOrUpdateSink()中会调用source_->AddOrUpdateSink()进一步将VideoStreamEncoder添加到了VideoTrack（如之前的描述VideoTrack已经被传递到WebRtcVideoSendStream成为WebRtcVideoSendStream的成员source_）。在逻辑上实现了视频流从WebRtcVideoSendStream->VideoSendStream->VideoStreamEncoder这段流水线。

至此，以发送端角度来看，从采集到编码器的整个流水线都已建立完毕。

4 总结

1. 从WebRTC提供的API角度看，从CreateVideoTrack()，AddTrack()，CreateOffer()，SetLocalDescription()这四步就建立起了发端从采集到编码器的视频流水线。当然具体细节比较复杂。

2. 虽然涉及的类很多，实质上一个视频帧从采集模块开始，流向编码器模块并没有经过太多的对象。接收数据的对象都实现了VideoSinkInterface接口，视频帧就在这几个对象的OnFrame方法中源源不断流动。WebRTC中数据总是从Source向Sink流动。

end

作者简介

黎意为好未来高级C/C++工程Ⅲ

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可扫描下方二维码或微信搜索关注“好未来技术”公众号，点击“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

浅析深度知识追踪如何助力智能教育

浅析深度知识追踪如何助力智能教育

2020-05-05T21:35:29+08:00

什么是知识追踪？

知识追踪的主要任务是根据学生的历史学习轨迹来自动评价学生随着时间推移的知识点掌握程度变化。在了解学生的知识点掌握水平后，便可以为学生提供符合自身学情的个性化辅导。在教育行业中，利用科学方法有针对性地对学生的知识点掌握程度进行追踪还是十分有必要的。依据学生的海量历史学习数据可以完成对学生的学习过程建模，使模型能够自动追踪学生每个阶段的学习状态，从而达成自适应学习的目的。有学者认为，学生所掌握的知识点集合与其外在的做题表现间是有十分密切关联的，所以我们可以尝试通过学生的做题表现来建模学生的知识点掌握状态[1]。

一般来说，知识追踪任务可以表达成以下的数学形式：给定学生A在特定学习任务上的历史学习序列 $X_t=(x_1,x_2,...x_t)$，来预测学生A的在$x_{t+1}$上的表现。通常$x_t$可以表示为一个有序对$(q_t , a_t)$，该有序对中$q_t$表示学生在$t$时刻回答的问题$q_t$，而$a_t$则代表了学生在$q_t$上的回答情况，一般而言$a_t$取值为0 （回答错误）或者1（回答正确）。其实，如果站在概率的角度上来看知识追踪，本质上是利用学生历史作答表现来预测学生在下一个时间点正确回答问题$q_{t+1}$的概率，即$P(a_{t+1}=1|q_{t+1},X_t)$，可以被解释为在给定学生历史学习表现序列$X_t$ 和在$t+1$时刻会做的题目$q_{t+1}$的情况下，学生做对题目$q_{t+1}$的概率大小。

什么是深度知识追踪？

在初步了解什么是知识追踪的概念后，我们接下来要介绍我们的主角——DKT（深度知识追踪）[2]。目前世界上有许多智能教育公司在使用知识追踪的相关模型，如BKT（贝叶斯知识追踪）和DKT（深度知识追踪），深度知识追踪简单直观来说就是利用深度学习方法来做知识追踪。从DKT论文中的实验结果发现，DKT在不需要过多专家经验和大量特征工程的情况下，精度优于传统方法。下面我们就来介绍下深度知识追踪算法DKT究竟是如何工作的。

为了让各个背景的伙伴都可以对DKT有一个好的了解，我们首先要简单说一下什么是DKT中使用的循环神经网络（RNN）[3]。传统的循环神经网络接受$x_1,...x_T$作为输入，然后输入映射到$y_1,...y_T$。这个可以通过隐变量$h_1,...h_T$达成，每个时刻下的隐变量都可以被看成过去所有信息的某种编码，用于和当下的输入一起与预测未来输出的结果。我们可以用以下公式来进行表达：

$$ \begin{aligned} h_t&=tanh(W_{xh}x_t+W_{hh}h_{t-1}+b_h) \\ y_t&=\sigma(W_{hy}h_t+b_y) \end{aligned} $$

在上面的公式中， $tanh()$与$\sigma()$是激活函数，模型的主要参数包含输入权重$W_{xh}$、循环权重$W_{hh}$、初始隐变量$h_0$、输出权重$W_{hy}$以及隐变量与输出的截距$b_h$与$b_y$。循环神经网络也可以简化成下图：

当然，由于纯RNN容易受梯度消失等因素影响，在实际操作中一般使用长短期记忆网络即LSTM对RNN进行一个替代，这里我们就不针对LSTM展开来讲了，对LSTM细节有兴趣的伙伴可以通过这个链接来了解下，这里我们可以把LSTM当做RNN的一个加强版来看待。

接下来我们需要的是利用这个循环神经网络来帮我们建立知识追踪的模型。我们要考虑的第一点是如何把学生的历史学习轨迹数据表示成循环网络可以接受的形式。这里面谈一个比较直接的表示方法，即 One-Hot Encoding（独热编码）。按上面介绍知识追踪时提到的，我们可以把$x_t$表示成$x_t=\{q_t,a_t\}$。假设我们要追踪 $M$ 个不同的知识点，我们可以令 $x_t$ 是一个长度为 $2M$ 的向量（向量的前 $M$ 位描述学生做的题是哪一个知识点，后 $M$ 位描述学生是否做对该知识点），其中量的可能取值可能是0或者1（如果学生做对第 $k$ 个知识点，则第 $k$ 位是1,第 $M+k$ 也是1，其余是0；若学生做错第 $k$ 个知识点，则仅有第 $k$ 位为1，其余是0），则数学上 $x_t$可以表示成 $x_t=\{0,1\}^{2M}$，这样 $x_t$就可以作为循环神经网络的输入了。而输出 $y_t$ 就是一个长度为 $M$ 的连续向量了，其中第 $k$ 位代表如果学生在$t+1$时刻做对第$k$个知识点的概率，所以我们从$y_t$就可以判断当前学生在各个知识点上的掌握水平了。

至于训练的损失函数，我们就可以考虑使用经典的二值交叉熵。使用独热向量 $\delta(q_{t+1})$ 来表示在 $t+1$ 时刻哪一个知识点会被回答，同时令 $l$ 代表二值交叉熵函数。那么对一个学生而言损失函数便是:

通俗来讲，比如我们在 $t+1$ 时刻做了第 $k$ 个知识点的题，我们就去找输出结果 $y_t$ 中对知识点 $k$ 的预测值，然后把这个预测值与真正学生在第 $t+1$ 时刻知识点 $k$ 的作答结果 $a_{t+1}$进行对比，预测值越是接近这个真实的 $a_{t+1}$ 则对应的损失值越小，反之则越大。我们的训练目标是使得最终的损失 $L$ 最小，可以通过梯度下降的方式降低损失 $L$，从而达到对网络参数进行优化的目的，为了防止过拟合，也可以在训练中采取一些 dropout 等常用方式。

我们现在来看一下DKT训练好后的效果图（该图是针对一个学生而言）：

上图左边每个彩色圆圈我们可以看成不同的知识点，从图中可以获取我们要测试$M=6$ 个不同的知识点的信息，横着的彩色圆圈代表学生在不同时刻真实做的题是什么样知识点的题以及回答情况，其中若圆圈是空心代表学生答错该题，而实心代表学生答对该题，矩形底下的数字代表该生回答到了第几题（即作答时间点,上图中学生历史共回答了50题）。而矩形中的第 $t$ 列的6个方格颜色深浅代表每个作答时间点模型对学生6个知识点掌握的预测（越绿则代表掌握程度越高），即模型中的输出 $y_t$。我们可以根据 $y_t$ 去预测 $t+1$时刻学生的作答表现，同时，$y_t$也可以用来当做第t时刻学生知识点掌握熟练程度的描述。

深度知识追踪有什么应用场景？

训练知识追踪的目标是利用学生的历史学习数据去预测学生在未来的表现情况。如果深度知识追踪可以真的能达到理想的效果，我们便可以利用学生日常练习数据去判断一个学生现在的能力是怎么样的，那我们组织统一考试的必要性与频率就可以大大地降低了。

自适应学习提升学习效率

深度知识追踪最大的一个潜在应用是帮助学生优化知识点的学习效率，根据学生实时的知识点掌握水平来帮助学生选择最好的学习的顺序。比如 $t$ 时刻学生在知识点$A$的掌握程度最差，即$y_t$在知识点$A$对应的维度上的数值最低,则我们可以尝试提高为学生讲解$A$知识点的优先级，这样可以帮助学生有针对性补他目前知识上最大的短板。

发现不同知识点间的联系

DKT模型也可以用来发现不同知识点间的联系。对于知识点 $i$ 和知识点 $j$ 而言我们可以用 $J_{ij}$ 来代表两个知识点间的关联强度，

$$ J_{ij}=\frac{y(j|i)}{\sum_{k}y(j|k)} $$

其中 $y(j|i)$ 代表的意思是如果学生在此刻做对了知识点 $i$，他下一个时间点做对知识点 $j$ 的概率，上面的式子通俗地可以理解成知识点 $i$ 和知识点 $j$ 的关系其实就是做完知识点 $i$ 后做对知识点 $j$ 的概率在所有做完知识点 $k$ 然后再做对知识点 $j$ 的概率的占比。因为如果知识点 $i$ 和知识点 $j$ 的关系越紧密，则做完知识点 $i$ 后做对知识点 $j$ 的概率相比于做完其他知识点后再做对知识点 $j$ 的概率来的相对较高，所以对应的 $J_{ij}$ 也会较高。这样我们就可以通过 $J$ 的值来对两个知识点间的关系进行判断了。

总结与展望

相比贝叶斯知识追踪（BKT）深度知识追踪（DKT）有不少优势：

模型可以反映出长时间的知识掌握程度，相比传统贝BKT假设知识一旦掌握了就不再会被遗忘，深度知识追踪引入循环神经网络模型可以很好地模拟知识长时间不做会被遗忘的行为，更加符合人们的认知。
能够对复杂的知识点间的联系进行建模，从而发现不同知识点间的内在联系。
不同于BKT用0/1来表示学生知识点掌握状态，DKT输出的 $y_t$ 是连续值，DKT可以反映出学生连续的知识水平变化。

当然深度知识追踪模型也是存在着缺点的 [4]：

模型存在无法重构的可能性，比如学生在此刻做对 $i$ 知识点，但是某些情况下，模型认为下一刻对 $i$ 知识点的掌握水平反而下降。
在时间序列上，学生存在对知识点掌握程度不连续的情况，部分学生的波动可能过大。

上述两个缺点可以通过修改损失函数进行解决，已有相关的论文对深度知识追踪模型进行改良，提出了对应的解决方案，并获得精度上进一步提升，同时对上面缺点中提到的问题有了很好的提升与修复。

整体来说，深度知识追踪模型（DKT）可以作为一种人工智能手段自动发现知识点间相互关系同时可以智能设计学生学习路径达到提高学习效率的目的。DKT也是目前相应领域中相对前沿的模型，各种相关的DKT+也如雨后春笋般不断出现，大家可以对领域中新的研究多加关注，遇到相关问题也欢迎大家随时一起沟通讨论，让我们一起借模型和数据的力量为业务智能化打出更大的价值！

参考文献

[1]. LIU Heng-yu, ZHANG Tian-cheng, WU Pei-wen, et al. A review of knowledge tracking[J]. Journal of East China Normal University (Natural Science), 2019, (5): 1-15. DOI: 10.3969/j.issn.1000-5641.2019.05.001.
[2].Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep Knowledge Tracing. In Advances in Neural Information Processing Systems (pp. 505-513).
[3]. Z. Cui, R. Ke, and Y. Wang, “Deep Stacked Bidirectional and Unidirectional LSTM Recurrent Neural Network for Network-wide Traffic Speed Prediction,” in 6th International Workshop on Urban Computing (UrbComp 2017), 2016.
[4]. Chun-Kit Yeung and Dit-Yan Yeung. Addressing two problems in deep knowledge tracing via predictionconsistent regularization. In Proceedings of the 5th ACM Conference on Learning @ Scale, pages 5:1–5:10. ACM, 2018.

文中部分图片来源于网络，若侵权删

END

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可扫描下方二维码或直接搜索关注“好未来技术”公众号，点击“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看

轻量型TV端遥控器交互类库最佳实践

2020-04-24T17:09:08+08:00

一、介绍

各位小伙伴，大家好，今天给大家分享的是一个TV端遥控器的交互类库的实现。

好未来从去年的4月底到7月中旬从零到一的开发了我们的第一款智能硬件 - 未来宝盒。未来宝盒类似小米盒子，卡通造型，可以很方便的卡在电视机的屏幕上方，用高清线和电视机连接，内置了好未来的优质课程资源，是由luncher + APP组成的，App里必然的会有一些web页面，交互方式和大家平时开发的H5或者web页面不同，未来宝盒使用遥控器与H5页面进行交互(对，你没听错)。遥控器核心交互按键有上下左右四个方向键，OK键和返回键。在早期的时候，TV端内只有两个简单的页面使用到了遥控器，订单页和直播课程列表。但是里面的跳转元素都是 A标签实现的，并且只有简单的上下滚动且遥控器的交互逻辑和业务耦合在一起，无法复用。然而随着运营伙伴有了新的想法要在TV端上去验证的时候, web或h5是一个很好的方案，但是目前市面上也没有成熟的解决方案，所以需要自己撸一个。

二、关于适配

在开始讲交互类库的实现之前，先讲一下TV端内页面的适配，因为在实现类库的过程中，需要计算各个元素之间的位置关系。TV端的页面和大家经常写的H5页面也没有特别大的区别，TV端App是由安卓端开发，承载页面的容器依然是webview，内核是Chromium(目前我们盒子里的版本是65), 跟我们开发安卓内的H5应用是一样的，只不过尺寸更大了(1920 x 1080)。屏幕适配依然使用移动端的利器-rem； rem的简单实现。

function initRem(opt) {
    let oWidth = document.documentElement.clientWidth,
        _designW = opt && opt.hasOwnProperty('designWidth') ? opt.designWidth : 1920,
        _scale = opt && opt.hasOwnProperty('nScale') ? opt.nScale : 100;
    document.documentElement.style.fontSize = oWidth / _designW * _scale + "px";
}
initRem();

调用initRem()时，opt是个对象，可以传可不传。如果不传默认设计稿宽度1920，缩放比例100(写样式的时候便于计算)

opt = {
    designWidth: 1920, // 设计稿宽度
    nScale: 100    // px2rem的缩放比例
}

比如在1920宽的设计稿上获取的某元素的宽度是100px, 在写样式的时候， width:1rem；就可以了。防止页面跳动，把这个方法外链出去，放到 head 标签中即可。

三、核心技术点

确定主体内容需要向上滚动或者向下滚动的临界点的确定
使用CSS3处理位置偏移让滚动更平滑
水平和竖直方向上筛选最近元素的逻辑
getBoundingClientRect().left 获取元素距浏览器左侧的准确距离
获取当前滚动内容滚动的距离(以下两种方法根据场景选用)
- dom.style.transform
- getComputedStyle(dom).transform
抹平由于布局差异导致的计算偏差
所有TV端的页面都有一个刷新按钮，所以会涉及到原生组件和H5组件间移交焦点控制权的问题。
使用电脑的方向键、回车和ESC键模拟遥控器的按键以实现TV端调试。

四、遥控器对象实现

遥控器对象采用经典的构造函数 + 原型的混成方式实现。构造函数内的方法每个实例独享，原型内的方法各实例共享以节省内存。

1. 遥控器对象概览

2. 遥控器对象的Constructor

在写HTML结构的时候，给需要获取焦点的元素增加 autofocus的属性，或者用过js动态生成HTML结构的时候加上autofocus，通过 querySelectorAll("*[autofocus]")来选择我们需要的元素集合。

如上图所示，遥控器对象的构造函数由如下一些核心属性构成

this.focusArea = opt.allFocusParent || document; // 当前界面下所有需要获取的焦点的父级DOM
this.focusGroup = []; // 所有需要获取焦点的DOM合集
this.focusData = []; // 所有需要获取焦点的DOM的x,y,中心点及index

this.curDom = null; // 当前DOM对象
this.index = 0; // 当前高亮的index
this.leftRes = null; // 当前元素左侧的按钮集合
this.topRes = null; // 当前元素上方的按钮集合
this.rightRes = null; // 当前元素右侧的按钮集合
this.bottomRes = null; // 当前元素下方的按钮集合

this.key = "kindex"; // 自定义属性 用于快速定位DOM
this.canuse = true; // 标记当前实例是否可用
this.highlightClass = opt.highlightClass; //高亮的样式
this.modifyDis = opt.modifyDis || 0; // 用于修正偏移(主要是固定定位的头部)
this.onconfirm = opt.onconfirm; // 确认的回调
this.onback = opt.onback; // 返回的回调

this.scrollContainer = opt.scrollContainer || document.documentElement || document.documentElement.body; // 滚动DOM对象容器
this.scrollObj = opt.scrollObj || document.getElementsByTagName("body")[0]; // 需要滚动的DOM对象
this.scrollBar = opt.scrollBar; // 自定义滚动条对象 
this.scrollBarCtl = null;   // 滚动条控制滑块
this.barMove = 0; // 滚动条滑块动的距离
this.lastPos = 0; //记录内容部分上次的位置
this.stopPropagation = opt.stopPropagation || false; // 按上方向键且上方没有焦点元素的时候 是否允许调用TV端的方法

this.init();    // 初始化

3. 遥控器对象的Prototye

遥控器对象的原型分为如下几个部分

I 事件监听

通过监听document的keycode，给遥控的四个方向键、enter键和back键绑定相关的事件回调

// 绑定事件
bindEvent(){
    let _this = this;
    document.addEventListener('keydown', function(e) {

        if (!_this.canuse) {
            return false;
        }

        let keycode = e.keyCode;
        // 37，38，39，40，13，27 90 为电脑键盘上的keycode
        // 21，19，22，20，23，4 为 遥控器上的keycode
        if (keycode == 37 || keycode == 21) {
            // left
            _this.leftFn(e);
        } else if (keycode == 38 || keycode == 19) {
            // up
            _this.upFn(e);
        } else if (keycode == 39 || keycode == 22) {
            // right
            _this.rightFn(e);
        } else if (keycode == 40 || keycode == 20) {
            // down
            _this.downFn(e);
        } else if (keycode == 13 || keycode == 23) {
            // enter
            _this.enterFn(e);
        } else if (keycode == 27 ||  keycode == 90 ||  keycode == 4 ) { // 90是 字母 z; 4是遥控器的返回键
            // 27 为 ESC,  但是ESC首先要执行系统的事件，再执行html的事件。可能导致 按一下esc 执行返回上一页不起作用。
            _this.backFn(e);
        }

    }, true);
}
// 左键回调
leftFn(e) {
    this.index = this.getNextIndex('left');
    this.highlight();
}
// 上键回调
upFn(e) {
    this.index = this.getNextIndex('up');
    if (!this.topRes.length && this.stopPropagation == false) {
        console.log('H5当前按钮上方已经没有可供获取的焦点，即将把焦点的控制权移交给TV端。');

        try {
            // 调用TV端上的方法
            qkJsCallAndroid.onTopFocusNone();
            console.log('H5的焦点控制权成功移交给TV端。');
            this.dropFocus();
        } catch (e) {
            console.log(e);
        }
        return false;
    }
    this.highlight();
}
// 右键回调
rightFn(e) {
    this.index = this.getNextIndex('right');
    this.highlight();
}
// 下键回调
downFn(e) {
    this.index = this.getNextIndex('down');
    this.highlight();
}
// OK 回调
enterFn(e) {
    if (this.onconfirm && typeof this.onconfirm == 'function') {
        // 执行 回调并传入当前DOM对象
        this.onconfirm(this.focusGroup[this.index]);
    }
}
// 回退回调
backFn(e) {
    if (this.onback && typeof this.onback == 'function') {
        this.onback(this.focusGroup[this.index]);
    }
}

II 核心函数

init() 顾名思义初始化函数，初始化的内容分为如下几个部分：

init(){
    // 初始页面到顶端
    window.scrollTo(0, 0);

    // 开启GPU执行动画
    this.scrollObj.style.transition = "all .3s ease";
    this.setTranslateY(this.scrollObj, 0);

    if (this.scrollBar) {
        // 初始化自定义滚动条
        let containerH = this.scrollContainer.clientHeight * 1, //滚动对象容易的高度
            scrollObjH = this.scrollObj.clientHeight * 1,   // 动的DOM对象的高度
            scrollBarH = this.scrollBar.clientHeight * 1;   // 滚动条的高度
        
        this.scrollBarCtl = this.scrollBar.firstElementChild;    // 滚动条指示块对象

        if(scrollObjH < containerH){
            this.scrollBar.style.display = 'none'
        }else{
            this.scrollBar.style.display = 'block';
            this.scrollBarCtl.style.height = parseInt((scrollBarH * containerH) / this.scrollObj.clientHeight) + 'px';
            this.scrollBarCtl.style.transition = 'all .3s ease';
            this.scrollBarCtl.style.top = 0;
        }
    }

    this.refresh();  // 遍历对应DOM结构内具有 autofocus 的元素
    this.highlight(); // 默认第一个选中
    this.bindEvent(); // 绑定遥控器事件
}

contentScroll() 内容主体滚动逻辑，主要是模拟页面的上下滚动。让主体内容向上滚动或者向下滚动的临界点的图示如下：

代码逻辑如下：

// 内容滚动逻辑
contentScroll(){
    let tempST = window.getComputedStyle(this.scrollObj).transform.toString();

    if (tempST == 'none' || tempST == '0') {
        tempST = 0;
    } else {
        tempST = tempST.substring(7);
        tempST = tempST.substring(0, tempST.length - 1).split(',')[5];
    }

    // 高亮后做判断 获得焦点的元素是否在可视区内
    let scrollObjST = Math.abs(tempST), // 滚动对象上移的距离
        containerH = this.scrollContainer.clientHeight, //滚动对象容易的高度
        curObjH = this.curDom.offsetHeight, // 当前获得焦点对象的高度
        curObjOffsetTop = this.curDom.offsetTop, // 
        ScrollY = 0; // y方向上需要滚动的距离

    if ((curObjOffsetTop + curObjH) > (containerH + scrollObjST)) {
        // console.log('在浏览器下方不可见');
        ScrollY = curObjOffsetTop + curObjH * 1.4 - containerH;
        if (Math.abs(ScrollY) > (this.scrollObj.clientHeight - this.scrollContainer.clientHeight)) {
            ScrollY = this.scrollObj.clientHeight - this.scrollContainer.clientHeight;
        }
        // 优化一下离顶部的距离，
        ScrollY = parseInt(ScrollY) + curObjH * 0.2;
        // 滚动条移动的距离barMove的计算方法  ScrollY / (scrollObjH - containerH) = barMove / (this.scrollBar.clientHeight - scrollBarCtl.clientHeight)
        
        // 自定义滚动条逻辑
        if (this.scrollBar) {
            this.barScroll('up',ScrollY)
        }
        this.setTranslateY(this.scrollObj, -ScrollY);
        this.lastPos = Math.abs(ScrollY);
    }

    if (scrollObjST > 0 && (scrollObjST + this.modifyDis) > curObjOffsetTop) {
        // console.log('在浏览器上方不可见');
        ScrollY = curObjOffsetTop - curObjH * 0.6 - this.modifyDis;
        if (ScrollY < 0) {
            ScrollY = 0;
        }

        // 自定义滚动条逻辑 
        if (this.scrollBar) {
            this.barScroll('down',ScrollY)
        }

        this.setTranslateY(this.scrollObj, -ScrollY);
        this.lastPos = Math.abs(ScrollY);
    }
}

barScroll(): 滚动条逻辑。在init()中通过实际内容与可视区的高度比值动态计算出滚动条滑块的实际高度，在内容滚动的处理逻辑中，如果需要显示滚动条则执行滚动条逻辑。

// 滚动条逻辑
barScroll(scrollDirection, ScrollY) {
    let containerH = parseInt(this.scrollContainer.clientHeight);
    
    if(scrollDirection == 'up'){
        // scrollDirection 内容即将向上滚动
        this.barMove = 0; // 修复一下滚动条滑块的位置
        this.barMove += parseInt(ScrollY * (this.scrollBar.clientHeight - this.scrollBarCtl.clientHeight) / (this.scrollObj.clientHeight - containerH));
        if (this.barMove > (this.scrollBar.clientHeight - this.scrollBarCtl.clientHeight)) {
            this.barMove = this.scrollBar.clientHeight - this.scrollBarCtl.clientHeight
        }
        this.setTranslateY(this.scrollBarCtl, this.barMove);
    }else if(scrollDirection == 'down'){
        // scrollDirection 内容即将向下滚动
        this.barMove -= parseInt(Math.abs(ScrollY - this.lastPos) * (this.scrollBar.clientHeight - this.scrollBarCtl.clientHeight) / (this.scrollObj.clientHeight - containerH));
        if (this.barMove <= 5) {
            this.barMove = 0
        }
        this.setTranslateY(this.scrollBarCtl, this.barMove);
    }
}

getNextIndex() 获取下一个元素的index。水平和竖直的获取逻辑稍不同。竖直方向从上向下要让每一行的按钮依次获得焦点，所以筛选逻辑是找到与当前获得焦点的元素竖直方向上最近的元素并且中心点间距最小的。水平方向上先筛选与当前获得焦点的元素在同一水平线上且中心点间距最小的。

// 获取下一个元素的index 水平和竖直的获取逻辑不同
getNextIndex(direction) {
    let theNearest = null,
        allResult = [], // 获取对应方向上所有的按钮
        curParam = this.focusData[this.index]; // 当前元素对应的参数

    if (direction == 'left') {
        // 分别筛选出 当前高亮元素 左侧水平方向上的所有需要高亮的元素存储于 allResult
        this.focusData.forEach(item => {
            if (item.cx < curParam.x && item.cy > curParam.y && item.cy < (curParam.y + curParam.h)) {
                allResult.push(item);
            }
        });
        if (allResult.length > 0) {
            this.leftRes = allResult;
            theNearest = this.leftRes[this.getMinIndex(this.leftRes)];
        } 
    } else if (direction == 'up') {
        // 筛选出 当前高亮元素 下方所有需要高亮的元素存储于 allResult
        this.focusData.forEach(item => {
            if (item.cy < curParam.cy) {
                allResult.push(item);
            }
        });
        
        theNearest = this.getNearDataVertical(allResult, 'cy', 'max', 'up');
    } else if (direction == 'down') {
        // 筛选出 当前高亮元素 下方所有需要高亮的元素存储于 allResult
        this.focusData.forEach(item => {
            if (item.cy > curParam.cy) {
                allResult.push(item);
            }
        });
        theNearest = this.getNearDataVertical(allResult, 'cy', 'min');
    } else if (direction == 'right') {
        // 筛选出 当前高亮元素 右侧水平方向上的所有需要高亮的元素存储于 allResult
        this.focusData.forEach(item => {
            if (item.cx > (curParam.x*1 + curParam.w*1) && item.cy > curParam.y && item.cy < (curParam.y + curParam.h)) {
                allResult.push(item);
            }
        });
        if (allResult.length > 0) {
            this.rightRes = allResult;
            theNearest = this.rightRes[this.getMinIndex(this.rightRes)];
        } 
    }

    // theNearest是 focusData中的一个元素
    if (theNearest) {
        return theNearest.index;
    } else {
        return this.index;
    }
}

// 获取竖直方向上最近的元素数据
getNearDataVertical(arr, state, direction){
    let tempArr = [],  // 临时数组
        resArr = [],    // 结果
        tempVal = 0;    // 中间值

    arr.forEach(item => {
        tempArr.push(item.cy);
    })
    tempArr = this.unique(tempArr);

    tempVal = Math[state].apply(null, tempArr);

    arr.forEach(item => {
        if(item.cy == tempVal){
            resArr.push(item);
        }
    });
    if(direction && direction == 'up'){
        this.topRes = resArr;
    }
    return resArr[this.getMinIndex(resArr)];
}

// 返回 与 curobj 距离最近的index 
getMinIndex(arr) {
    let arrDis = [],
        curPoint = this.focusData[this.index];
    arr.forEach(item => {
        arrDis.push(this.getDis(item, curPoint));
    })
    let minval = Math.min.apply(null, arrDis);
    return arrDis.indexOf(minval);
}

III 高阶方法

refresh() 主要是用来解决布局dom刷新后丢失掉获取焦点的Bug，函数内要处理的是给所有具有 audofocus 属性的元素绑定事件，并收集一些数据为接下来的筛选按钮做准备。

// 刷新
refresh() {
    let _this = this,
       objs = _this.focusArea.querySelectorAll('*[autofocus]');

   this.focusGroup = []; // 所有需要获取焦点的DOM合集
   this.focusData = []; // 所有需要获取焦点的DOM的x,y,中心点及index
   this.curDom = null; // 当前DOM对象

   if (!objs.length) {
       console.warn('没有获取到焦点元素集合');
       return false;
   }

   objs.forEach((item, i) => {
       item.setAttribute(this.key, i);
       this.focusGroup.push(item);
       this.focusData.push({
           txt: item.innerHTML.replace(/<.*?>/g,"").replace(/[\r\n]/g,"").replace(/[ ]/g,"").trim(),
           w: parseInt(item.offsetWidth),
           h: parseInt(item.offsetHeight),
           x: parseInt(item.getBoundingClientRect().left),
           y: this.formatInt(parseInt(item.getBoundingClientRect().top)),
           cx: this.formatInt(parseInt(item.getBoundingClientRect().left) + parseInt(item.offsetWidth / 2)),
           cy: this.formatInt(parseInt(item.getBoundingClientRect().top) + parseInt(item.offsetHeight / 2)),
           index: i
       });
   });
}

highlight() 定位到当前元素并给与高亮样式

// 高亮
highlight(){
    this.focusGroup.forEach(item => {
        item.classList.remove(this.highlightClass);
    });
    this.curDom = this.focusGroup[this.index];

    if(this.curDom){
        this.curDom.classList.add(this.highlightClass);
        this.contentScroll();
    }
}

disable() / enable() 主要是为了解决弹层出现的时候禁用和启动主体内容的滚动。canuse为false的时候，暂停对遥控器实例的事件监听。详见上面的 事件监听 的逻辑

// 禁用
disable() {
    this.canuse = false;
}
// 启用
enable() {
    this.canuse = true;
}

dropFocus() / getFocus() 失去焦点，获得焦点

// 失去焦点
dropFocus() {
    this.focusGroup.forEach(item => {
        item.classList.remove(this.highlightClass);
    });
}
// 获取焦点 todo 
getFocus() {
    this.highlight();
}

go(index) 定位到期望元素

go(index){
    if (index == isNaN) {
        console.log(index + '不是数字呢');
        return false;
    }
    this.index = index;
    this.highlight();
}

IV 工具方法

// 返回两点间的最短距离
getDis(p1, p2) {
    let dx = Math.abs(p1.cx - p2.cx),
        dy = Math.abs(p1.cy - p2.cy);         
    return parseInt(Math.sqrt(Math.pow(dx, 2) + Math.pow(dy, 2)));
}
// 数组去重
unique(arr) {
    for (let i = 0; i < arr.length; i++) {
        for (let j = i + 1; j < arr.length; j++) {
            if (arr[i] == arr[j]) {         //第一个等同于第二个，splice方法删除第二个
                arr.splice(j, 1);
                j--;
            }
        }
    }
    return arr;
}
// 设置 translateY
setTranslateY(obj, val){
    obj.style.transform = "translate3d(0," + val + "px,0)";
    obj.style.webkitTransform = "translate3d(0," + val + "px,0)";
}

// 格式化数据为10的整倍数 以抹平布局上的轻微差异
formatInt(num, prec = 1){
    const len = String(num).length;
    if (len <= prec) { return num }; 
    
    const mult = Math.pow(10, prec);
    return Math.floor(num / mult) * mult;
}

五、遥控器对象的调用

let mainKB = new RController({
    highlightClass: 'highlight',   // 高亮样式
    allFocusParent: oWrap,    // 所有需要获取焦点的父级DOM对象
    scrollObj: oIndex, // 滚动DOM对象
    scrollContainer: '', // 滚动DOM对象容器
    modifyDis: oHeader.height()// 用于修正偏移(主要是固定定位的头部)
});

mainKB.onfirm = function(curObj){
    // 按enter键的回调 返回的curObj为原生DOM对象, 集合第三方框架或者类库实现 跳转/ajax 等业务逻辑。
}
mainKB.onback = function(){
    // 按返回键的回调
}

六、学习与反思

第一次做遥控器的逻辑的时候，都比较简单，然而这次的逻辑比较复杂，而且未来的尝试预计也会越来越复杂，所以当类似逻辑出现超过两次就要考虑把功能抽象出来做成基础库，既方便了自己，沉淀了技术，更可以方便大家，提升开发效率。
TV端的调试时，没有盒子和遥控器，完全依赖浏览器，办法总比问题多。
尽管交互类库不会过多的限制UI，但是UI最好也要有一定的规范，这样能规避一些莫名的问题。

end

招聘信息

好未来技术团队正在热招测试、后台、运维、客户端等各个方向高级开发工程师岗位，大家可点击“好未来技术”公众号“技术招聘”栏目了解详情，欢迎感兴趣的伙伴加入我们！

也许你还想看