来源:广播与电视技术
翻译:梁启蓉
审稿:杨 宇
日本广播协会NHK为部分节目提供音频描述服务,这样视障人士也能收听电视节目。音频描述可以提供很多额外的信息,例如描述人的动作或面部表情等,因为视障人士仅通过主音频通道(播音员的声音)很难理解到额外的信息。NHK的STRL(科学技术研究实验室)正在研究一种新的音频描述自动生成技术,它能自动生成体育直播节目的音频描述,并传送到智能手机和其他智能设备上,让视障用户能够享受到正常用户在节目中得到的相同信息(图1)。
图1 音频描述服务示意图
一、新的音频描述服务
在现有的广播框架内为直播添加音频描述时,必须牢记以下两点:
1.必须立即决定提供哪些补充信息,并用简短的话语恰当地表达出来。
2.必须判断这些话语的占用时长,防止音频描述不会与节目主音频通道的声音重叠。
然而,在实际情况中执行上述操作是困难的。STRL将注意力转向可以以个性化方式使用的智能手机上,并研究了一种新的基于智能手机的音频描述服务技术,从而解决了这个问题。此外,对于如何在体育节目中添加音频描述的问题,STRL针对电视音频中缺少的信息进行了调研。通过这些研究STRL了解到,在棒球直播比赛中还需要提供如投手和击球手的姓名、投球开始的时间、投球的类型和路径、击球的方向以及当前得分等补充信息,这些额外信息可以提供这场比赛大约80%的信息。
二、音频描述创建和交付系统的开发
基于上述对新服务技术的研究结果,STRL开发了一套用于棒球直播比赛的音频描述创建和交付系统(图2)。在这里,音频描述的创建者只需在观看比赛画面的同时,根据比赛开展的阶段,按下输入工具上相应的按钮即可,系统将自动生成描述文本。
然后系统对生成的文本进行自动语音合成并立即传送到智能手机。此外,数字地面广播中的1.6秒延迟可用于对播放音频描述和广播视频进行同步。具体来说,用户可以在接收音频描述的智能手机应用程序中选择扬声器、说话速度等,以便更方便地收听音频描述和电视音频。系统还对视障人士进行了测试,以评估该应用程序的用户友好性。
STRL还对一场直播的棒球比赛进行了音频描述创建和交付实验。再通过对受试者进行问卷调查,来分析这场实验的效果。实验结果显示,受试者对该系统的满意度和使用意愿打分都很高,这就证明了该系统的可用性。
在视障人群中,存在着从完全失明到视力低下的各种视觉能力类型,因此STRL将继续研发实用、先进的音频描述服务技术,研究根据用户视觉能力不同而量身定制的音频描述技术。
图2 音频描述创建和交付系统
好文共赏请转发 有话要说请留言