机器人会写稿了何时学会编视频

2017-08-24 09:35　来源：科技日报　

2017-08-24 09:35:38来源：科技日报作者：责任编辑：赵清建

　　几位来自人工智能行业的专家分享完毕后，主持人把问题抛给苏州市广播电视总台总工程师郭昌雄：“他们把人工智能描述得这么好，您对‘人工智能+媒体’有什么期待？”

　　“现在已经有机器人写稿了，但是还没有机器人可以真正的编视频。”在近日开幕的2017媒体融合发展论坛上，作为广播电视界的媒体代表，郭昌雄说出了对人工智能的“另一种”需求。

　　的确，人工智能可以写体育赛事、写股市消息，甚至播报九寨沟的地震，但是在新闻领域，它需要做的可不止这些。

　　已经有媒体开始探索将人工智能应用于视频处理。“现在媒体素材面临的问题是，如何对视频画面进行自动描述，为以后的检索使用提供便利。比如在海量视频数据中自动把关于花草树木的视频找出来。”郭昌雄说，这必须考虑人工智能。

　　苏州市广播电视总台能够实现的是，将长达17万小时的视频资源，用人工智能进行自动编目。也就是按照国家视频编目标准，对视频中的关键帧进行识别和定义。除此之外，这家媒体还实现了利用人工智能对视频资源进行高速检索，甚至可以将新闻类视频按照内容自动剪切成一段段的短视频。

　　“我们最近研发了一个视频索引技术，把人工智能对图像、语音、自然语言的处理，全部融合到对视频的处理过程当中。”微软（中国）有限公司资深架构师罗彤介绍了人工智能界的努力。其效果是，可以自动识别视频中的特定人物，并将其作为索引加以标注。同时还可以将视频中的对话识别成文字，再通过关键字识别对视频内容进行定义。

　　对于郭昌雄的期待，商汤科技高级研究总监张伟回应，他们公司正在探索视频摘要技术，也就是把长视频中的精彩镜头剪辑出来，供观众快速浏览视频。“这样的技术进展很快，半年之内就可以落地。”张伟说。

　　罗彤告诉科技日报记者，人工智能对视频进行处理，本质上都是对图像进行处理，因为视频本身是由若干帧图像组成的。目前能够做到的识别视频中的人物，一般依靠人脸识别技术，以及对人物体态的追踪来实现。一些媒体尝试的对视频关键帧的定义，靠的则是人工智能对视频场景转换规律或画面主要内容的判断。对视频进行摘要的原理与此也有类似之处。

　　“这些视频处理是非常局部的。”罗彤介绍，理论上可以通过训练深度学习网络模型，用特定方法来对特定类型的素材进行整体上的剪辑。但是这种剪辑方式并不具备“普适性”，换一种素材或剪辑方式，就需要重新训练网络模型，这正是目前人工智能技术存在的不足。

　　另外，正如人工智能处理语言文字时会遭遇语义理解的难题，人工智能在处理视频时遇到的困难是：如何理解视频画面所传达的内涵，甚至根据画面的上下文把握视频的“画外之音”。

　　“这个确实非常难。”罗彤承认，通过视频素材来讲故事并表达一定的思想和主题，与艺术创作类似，是人类高智力的表现。“让人工智能做到像导演和视频剪辑师一样，恐怕还很遥远。”（记者刘园园）