2018年11月9日
By 1月时特约编辑
专题文章

视频工程峰会:Netflix将讨论VMAF的未来

如果你对VMAF(视频多评估融合)质量指标感兴趣, 你一定要去看看在流媒体西部名为“VMAF:旅程继续”，由Netflix高级软件工程师李志主持. 李最近与人合写了一篇同名论文，发表在 Netflix技术博客. 在回顾了开发VMAF的原因之后, 它在行业中是如何被采用的, 以及最近的一些改进, 本文讨论了使用VMAF的一些最佳实践. 特别地，最后一部分对于使用这种质量度量的人来说是有价值的.

如博客文章所述, VMAF将人类视觉建模与机器学习相结合，是与几位大学教授合作开发的. 2016年6月，Netflix开源了这项技术，并将其发布在 Github.

自2016年以来, VMAF已集成到多个视频质量测量工具中, 包括莫斯科国立大学和伊莱卡德的产品, 以及FFmpeg, 尽管它只在Mac和Linux发行版上测试过, 没有窗户. Netflix使用VMAF来评估编解码器, 在整个生产流程中进行编码决策, 以及A/B实验.

自从启动VMAF, Netflix优化了运行速度，并引入了跳帧功能，可以在N帧的每一帧上计算度量. 正如文章所述, “这是第一次可以实时计算VMAF, 即使是4K, 尽管有一点准确性的损失.Netflix还通过改进基本指标和机器学习模型提高了VMAF的准确性, 通过扩大训练集.

第一个VMAF版本的一个不足之处在于，它采用了一种“一刀切”的方法，即假设所有观众都在类似客厅的环境中观看1080p的屏幕. 从那以后，Netflix发布了一款手机型号，最近又发布了一款4K型号. 这些模型可以使组织做出明智的决策，从而在不显著影响感知质量和QoE的情况下节省带宽. 例如, 手机观众对720p和1080p视频的区别感觉不太明显, 所以在某些情况下, 将分配给移动电话的自适应组限制为720p可能是有意义的.

Ozer VMAF莫斯科州立大学
上图是来自莫斯科国立大学视频质量测量工具的结果图，显示了相同720p视频的默认(绿色)和手机(红色)VMAF分数. 在客厅观看1080p时，默认得分为88分.6可能被认为太低了，这表明1080p文件可以提高QoE. 然而，平均得分为99分.720p文件在手机型号上的分辨率为28，这表明1080p版本的文件可能不会提高手机上的感知质量. 在这个例子中, 从移动电话检索的清单文件中删除1080p文件可能是有意义的.

有了这个背景, 让我们讨论一下Netflix文章中讨论的最重要的最佳实践.

VMAF最佳实践

第一个, 本文讨论了如何解释VMAF分数, 或者更具体地说，如何将它们映射到真实观众的预测主观评分. 来解释, 虽然我们知道70分比60分表明质量更高(越高越好), 一个真正的观众会如何评价一个70分的视频呢? 文章解释道:

观众对视频质量的评价是“糟糕”,”“可怜的,”“公平,”“好,和“优秀”,粗略地说, “糟糕”被映射到VMAF等级20，“优秀”被映射到100. 因此, 在1080p和3H条件下，VMAF得分为70分可以解释为普通观众在“好”和“一般”之间的投票. [编者注:3H指定与屏幕的距离是屏幕高度的3倍。.]

在大多数情况下, 压缩主义者在进行编码决策时更关心真实观众对视频的评价，而不是单一的客观数字. 出于这个原因, 将VMAF分数与预测的主观评分联系起来的能力增加了很多实用价值.

接下来，Netflix解决了如何测量低于全分辨率视频的技术问题. 来解释, 像大多数指标一样, 只有当源和编码视频共享相同的分辨率时，才能计算VMAF. So, 如果你正在计算从1080p源编码的480p视频的分数, 你应该把480p的视频调回1080p吗, 或者将1080p源转换为480p? The quick answer is the former; you should scale the encoded video to 1080p and measure against the original source. 大多数从业者使用FFmpeg进行此操作.

当然, FFmpeg支持多种升级技术, 包括双线性, 双三次的, 兰索斯, 和其他人. 在这里, 如果不知道实际显示设备使用的算法，本文建议使用双三次上采样. 我一直在使用和推荐兰索斯，因为根据一份白皮书在这里这是NVIDIA gpu所使用的技术，该公司占据了最大的市场份额. 也就是说, 不同升级技术之间的得分差异是最小的, 只要你始终如一, 这可能与你使用哪种技术无关.

A/B实验的指标

和大多数质量指标一样, VMAF每帧生成一个分数, 我见过的大多数工具都会将单个帧的分数平均为一个总分. 尽管Netflix指出，还有其他的平均技术可用, 文章指出，“简单算术平均数(AM)是最好的平均方法, 因为它与主观得分的相关性最高.“这是对MSU工具使用的技术的一个很好的验证，我认为大多数其他工具也是如此.

也就是说, 本文还认识到，使用单个分数来表示长文件的质量涉及一定的风险, 其中缺失的质量下降可能会降低QoE，但不会显著降低总体得分. 为了解决这个问题, 文章建议对骨料质量进行评价, 开始播放质量, 和可变性, 或者“整个会话的平均VMAF”, 前N秒的平均VMAF, 以及VMAF值相对于先前值下降到某一阈值以下的次数.”

在我自己的实践中，我发现跟踪质量下降是绝对必要的. 举个例子, 下面的结果图显示了使用2次VBR(红色)和1次CBR(绿色)编码的文件的VMAF分数. 总体得分没有太大差异，因为VBR文件得分为96分.24和CBR 94.5、两者都很好地进入了优秀的范围.

然而, CBR文件有多个区域，远低于2-pass VBR文件, 这表明体验质量远低于综合得分. 请注意，结果图也使显示帧(原始)变得简单, 文件1, 文件2)在图上的任意位置, 这简化了主观验证，即较低的分数与明显较低的质量相关.

Ozer VMAF结果图

超越结果图, MSU工具允许您保存“坏帧”,或提取N个较低质量的帧及其分数和帧数, 另一种跟踪文件持续时间内质量可变性的方法. 当从命令行操作程序时，可以保存坏帧, 这是有用的，因为结果图只能通过GUI获得.

底线是单个VMAF分数, 或者从任何质量度量中获得的单个分数, 提供文件将交付的QoE的不完整图像. 您必须探索文件中质量较低的区域, 包括主观上验证框架的视觉质量是否像分数所显示的那样差. You also have to check that the quality deficit is visible during real time playback; otherwise, 可能是不相关的. 举个例子, 上图结果图的最右边是单个帧的质量下降, 这是大多数观众无法察觉的.

旅程还在继续

在本文的最后一节, Netflix列出了他们希望在未来改进VMAF的领域. 虽然有些是直接的(增加了更好地测量时间感知效应的模型)，但有些提出了关于如何使用VMAF的关键问题, 而幸运的是, Netflix同意回答.

例如, 文章说, “VMAF并没有完全捕捉到许多编解码器中发现的感知优化选项的好处, 尽管与PSNR相比，它正朝着正确的方向发展.这就提出了一个问题:对于使用VMAF测量的文件，是否应该启用或禁用这些优化.

这篇博文指出:“VMAF并没有完全捕捉到许多编解码器中存在的感知优化选项的好处.这是否意味着在使用VMAF进行编码分析时应该关闭它们(调整PSNR或SSIM), 这有关系吗??

Netflix的回应, “因为VMAF部分地抓住了感知优化的好处, 如果在一天结束的时候你会打开这些设置进行编码, 我们仍然建议打开它们.”

文章还指出，“VMAF模型对几秒钟的视频效果最好. 它没有捕获长期影响，如近因和首要，以及再缓冲事件.”

我们要求Netflix澄清, 他们回应道, “我们做出这一声明的主要原因是，VMAF在主观测试中使用了几秒钟的短片段进行训练. 我们相信整个视频文件的平均VMAF仍然很好地捕获了感知视频质量的一阶效果. 然而，也存在二阶效应，例如近因效应.e. 主题倾向于在视频部分更重到最后)和首要(i.e. 主题往往在视频的开始部分更重要), 像VMAF这样的短期模型无法捕捉到的, 但这些都不那么重要.”

从这里要去哪里

整体, 在我的写作和咨询实践中, 我发现VMAF是评估视频质量的一个非常有用的指标, 特别是用于测量编码阶梯上不同分辨率梯级的质量, 我发现PSNR不足的地方. Netflix选择开源VMAF，这样我们其他人就可以使用它，这是件好事, 并继续投资于VMAF的发展.

以下是李智周三将在流媒体西部举行的会议的描述, 11月14日上午10:30.m. - 11:15 a.m.:

VMAF (Video Multi-Assessment Fusion)是一种将人类视觉建模与机器学习相结合的质量度量. 它显示了与人类感知的高度相关性，并给出了跨内容一致的分数. VMAF于2016年在Github上发布，并从那时起进行了大量更新. 这次演讲的重点是最新的VMAF改进和丰富, 比如速度优化, 准确的模型来预测手机和4K电视的观看情况, 并加入一个置信区间来量化质量预测的置信水平. 此外，我们还讨论了VMAF用例，并展望了VMAF在不久的将来的路线图.