视频工程峰会:Netflix将讨论VMAF的未来
如果你对VMAF(视频多评估融合)质量指标感兴趣, 你一定要去看看在 流媒体西部 名为“VMAF:旅程继续”,由Netflix高级软件工程师李志主持. 李最近与人合写了一篇同名论文,发表在 Netflix技术博客. 在回顾了开发VMAF的原因之后, 它在行业中是如何被采用的, 以及最近的一些改进, 本文讨论了使用VMAF的一些最佳实践. 特别地,最后一部分对于使用这种质量度量的人来说是有价值的.
如博客文章所述, VMAF将人类视觉建模与机器学习相结合,是与几位大学教授合作开发的. 2016年6月,Netflix开源了这项技术,并将其发布在 Github.
自2016年以来, VMAF已集成到多个视频质量测量工具中, 包括莫斯科国立大学和伊莱卡德的产品, 以及FFmpeg, 尽管它只在Mac和Linux发行版上测试过, 没有窗户. Netflix使用VMAF来评估编解码器, 在整个生产流程中进行编码决策, 以及A/B实验.
自从启动VMAF, Netflix优化了运行速度,并引入了跳帧功能,可以在N帧的每一帧上计算度量. 正如文章所述, “这是第一次可以实时计算VMAF, 即使是4K, 尽管有一点准确性的损失.Netflix还通过改进基本指标和机器学习模型提高了VMAF的准确性, 通过扩大训练集.
第一个VMAF版本的一个不足之处在于,它采用了一种“一刀切”的方法,即假设所有观众都在类似客厅的环境中观看1080p的屏幕. 从那以后,Netflix发布了一款手机型号,最近又发布了一款4K型号. 这些模型可以使组织做出明智的决策,从而在不显著影响感知质量和QoE的情况下节省带宽. 例如, 手机观众对720p和1080p视频的区别感觉不太明显, 所以在某些情况下, 将分配给移动电话的自适应组限制为720p可能是有意义的.
![Ozer VMAF莫斯科州立大学](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/119218-Figure-1.jpg-ORG.jpg)
上图是来自莫斯科国立大学视频质量测量工具的结果图,显示了相同720p视频的默认(绿色)和手机(红色)VMAF分数. 在客厅观看1080p时,默认得分为88分.6可能被认为太低了,这表明1080p文件可以提高QoE. 然而,平均得分为99分.720p文件在手机型号上的分辨率为28,这表明1080p版本的文件可能不会提高手机上的感知质量. 在这个例子中, 从移动电话检索的清单文件中删除1080p文件可能是有意义的.
有了这个背景, 让我们讨论一下Netflix文章中讨论的最重要的最佳实践.
VMAF最佳实践
第一个, 本文讨论了如何解释VMAF分数, 或者更具体地说,如何将它们映射到真实观众的预测主观评分. 来解释, 虽然我们知道70分比60分表明质量更高(越高越好), 一个真正的观众会如何评价一个70分的视频呢? 文章解释道:
观众对视频质量的评价是“糟糕”,”“可怜的,”“公平,”“好,和“优秀”,粗略地说, “糟糕”被映射到VMAF等级20,“优秀”被映射到100. 因此, 在1080p和3H条件下,VMAF得分为70分可以解释为普通观众在“好”和“一般”之间的投票. [编者注:3H指定与屏幕的距离是屏幕高度的3倍。.]
在大多数情况下, 压缩主义者在进行编码决策时更关心真实观众对视频的评价,而不是单一的客观数字. 出于这个原因, 将VMAF分数与预测的主观评分联系起来的能力增加了很多实用价值.
接下来,Netflix解决了如何测量低于全分辨率视频的技术问题. 来解释, 像大多数指标一样, 只有当源和编码视频共享相同的分辨率时,才能计算VMAF. So, 如果你正在计算从1080p源编码的480p视频的分数, 你应该把480p的视频调回1080p吗, 或者将1080p源转换为480p? The quick answer is the former; you should scale the encoded video to 1080p and measure against the original source. 大多数从业者使用FFmpeg进行此操作.
当然, FFmpeg支持多种升级技术, 包括双线性, 双三次的, 兰索斯, 和其他人. 在这里, 如果不知道实际显示设备使用的算法,本文建议使用双三次上采样. 我一直在使用和推荐兰索斯,因为根据一份白皮书 在这里这是NVIDIA gpu所使用的技术,该公司占据了最大的市场份额. 也就是说, 不同升级技术之间的得分差异是最小的, 只要你始终如一, 这可能与你使用哪种技术无关.
A/B实验的指标
和大多数质量指标一样, VMAF每帧生成一个分数, 我见过的大多数工具都会将单个帧的分数平均为一个总分. 尽管Netflix指出,还有其他的平均技术可用, 文章指出,“简单算术平均数(AM)是最好的平均方法, 因为它与主观得分的相关性最高.“这是对MSU工具使用的技术的一个很好的验证,我认为大多数其他工具也是如此.
也就是说, 本文还认识到,使用单个分数来表示长文件的质量涉及一定的风险, 其中缺失的质量下降可能会降低QoE,但不会显著降低总体得分. 为了解决这个问题, 文章建议对骨料质量进行评价, 开始播放质量, 和可变性, 或者“整个会话的平均VMAF”, 前N秒的平均VMAF, 以及VMAF值相对于先前值下降到某一阈值以下的次数.”
在我自己的实践中,我发现跟踪质量下降是绝对必要的. 举个例子, 下面的结果图显示了使用2次VBR(红色)和1次CBR(绿色)编码的文件的VMAF分数. 总体得分没有太大差异,因为VBR文件得分为96分.24和CBR 94.5、两者都很好地进入了优秀的范围.
然而, CBR文件有多个区域,远低于2-pass VBR文件, 这表明体验质量远低于综合得分. 请注意,结果图也使显示帧(原始)变得简单, 文件1, 文件2)在图上的任意位置, 这简化了主观验证,即较低的分数与明显较低的质量相关.
![Ozer VMAF结果图](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/119219-Figure-2.jpg-ORG.jpg)
超越结果图, MSU工具允许您保存“坏帧”,或提取N个较低质量的帧及其分数和帧数, 另一种跟踪文件持续时间内质量可变性的方法. 当从命令行操作程序时,可以保存坏帧, 这是有用的,因为结果图只能通过GUI获得.
底线是单个VMAF分数, 或者从任何质量度量中获得的单个分数, 提供文件将交付的QoE的不完整图像. 您必须探索文件中质量较低的区域, 包括主观上验证框架的视觉质量是否像分数所显示的那样差. You also have to check that the quality deficit is visible during real time playback; otherwise, 可能是不相关的. 举个例子, 上图结果图的最右边是单个帧的质量下降, 这是大多数观众无法察觉的.
旅程还在继续
在本文的最后一节, Netflix列出了他们希望在未来改进VMAF的领域. 虽然有些是直接的(增加了更好地测量时间感知效应的模型),但有些提出了关于如何使用VMAF的关键问题, 而幸运的是, Netflix同意回答.
例如, 文章说, “VMAF并没有完全捕捉到许多编解码器中发现的感知优化选项的好处, 尽管与PSNR相比,它正朝着正确的方向发展.这就提出了一个问题:对于使用VMAF测量的文件,是否应该启用或禁用这些优化.
这篇博文指出:“VMAF并没有完全捕捉到许多编解码器中存在的感知优化选项的好处.这是否意味着在使用VMAF进行编码分析时应该关闭它们(调整PSNR或SSIM), 这有关系吗??
Netflix的回应, “因为VMAF部分地抓住了感知优化的好处, 如果在一天结束的时候你会打开这些设置进行编码, 我们仍然建议打开它们.”
文章还指出,“VMAF模型对几秒钟的视频效果最好. 它没有捕获长期影响,如近因和首要,以及再缓冲事件.”
我们要求Netflix澄清, 他们回应道, “我们做出这一声明的主要原因是,VMAF在主观测试中使用了几秒钟的短片段进行训练. 我们相信整个视频文件的平均VMAF仍然很好地捕获了感知视频质量的一阶效果. 然而,也存在二阶效应,例如近因效应.e. 主题倾向于在视频部分更重到最后)和首要(i.e. 主题往往在视频的开始部分更重要), 像VMAF这样的短期模型无法捕捉到的, 但这些都不那么重要.”
从这里要去哪里
整体, 在我的写作和咨询实践中, 我发现VMAF是评估视频质量的一个非常有用的指标, 特别是用于测量编码阶梯上不同分辨率梯级的质量, 我发现PSNR不足的地方. Netflix选择开源VMAF,这样我们其他人就可以使用它,这是件好事, 并继续投资于VMAF的发展.
以下是李智周三将在流媒体西部举行的会议的描述, 11月14日上午10:30.m. - 11:15 a.m.:
VMAF (Video Multi-Assessment Fusion)是一种将人类视觉建模与机器学习相结合的质量度量. 它显示了与人类感知的高度相关性,并给出了跨内容一致的分数. VMAF于2016年在Github上发布,并从那时起进行了大量更新. 这次演讲的重点是最新的VMAF改进和丰富, 比如速度优化, 准确的模型来预测手机和4K电视的观看情况, 并加入一个置信区间来量化质量预测的置信水平. 此外,我们还讨论了VMAF用例,并展望了VMAF在不久的将来的路线图.
相关文章
在本系列的第2部分中, Netflix高级软件工程师李志解释了Netflix如何在2018年流媒体西部的这个剪辑中使用VMAF进行编码决策.
2019年2月18日
在本系列的第1部分中, Netflix高级软件工程师李志解释了Netflix如何在2018年流媒体西部视频中使用VMAF进行编解码器比较.
2月15日
Sling TV将在2018年流媒体西部大会上发表开幕致辞, 解释它如何利用个性化和消费者选择来推动盈利.
11月6日2018
随着新的主要竞争对手在2019年进入顶级视频领域, 服务将依赖于捆绑产品, 独特的功能, 和原创内容区别开来.
10月31日2018
在线直播体育视频正在爆炸式增长, 体育流媒体峰会将是联盟的最佳场所, 团队, 和制片人分享知识,建立联系.
8月14日2018
硬核视频工程师在流媒体西部有了一个新家, 与Netflix, Akamai, 以及Vimeo在视频质量方面的领先演讲, 压缩, 编码, 和更多的.
2018年8月6日
提及的公司及供应商