整理 | 夕颜
来源 | CSDN(ID:CSDNnews)
昨天,一条“100 年前北京晚清的影像”喜提热搜,博主用 AI 技术修复了一段 10 多分钟的古董视频,使得 100 多年前老旧的黑白影像变得更加清晰,甚至有了颜色。
AI 还原100 年前晚清影像
这段时长 10 多分钟视频使用了 AI 修复技术,评论中有人表示,隔着屏幕与画面中的人物对视,恍然间有种时空交错的感觉,很神奇。对着这段视频仔细观察的笔者,其实也产生了这种恍惚的感觉。
除了被修复的珍贵影视资料本身,笔者更加关心的是修复影像背后使用的神奇 AI 修复技术。
在微博 Up 主的文案标明,修复影像的技术管线参考自开发人员,同时是一名 YouTuber 的 Denis Shiryae 上传的影像修复教程。
循着这个线索,笔者发现原来这位大神早就在 YouTube 上发布过一些关于 AI 修复影像的视频。比如这段用神经网络对 1906 年大地震前的旧金山影像进行修复的视频,解说中说到,他只做了一套神经网络工作流来做视频的修复与像素倍增,其中用到了 DAIN 进行帧内插,ESRGAN 在自定义数据集上进行帧升级,然后用 DeOdify 来做视频着色,这些算法都是公开的,感兴趣的话都可以搜索软件,然后搞事情。
另外,Denis 修复的一部 1896 年的黑白短片 The Arrival of a Train at Station 项目也非常有趣,同样也是使用公开的 AI 技术将其转换成了 4k 高清视频,并且可以以每秒 60 帧进行播放。结果虽然不完美,但同样让人惊艳。
可以看到,修复的结果并不十分完美。整个画面和动态中都存在一些特征性的“平滑”和奇怪的伪像,这都是在大量插帧时会出现的典型现象。但是对于大多数人(在大多数设备上)来说,这种效果还是像魔术一样神奇,修复后的画面中,人们的衣服和火车的细节清晰可见,画面流畅同步,可视距离变长。
有意思的是,这部电影上映时,因为人们从未见过一辆火车径直冲着观众冲过来的动态镜头,很多观众一度受惊被吓得跑出电影院,这部短片也被称为“电影的奠基神话”,流传为一段佳话。
Google 的 DAIN
和 Topaz Labs的 Gigapixel AI
言归正传,为了实现高清修复,Shiryaev 使用了两种神经网络:Google 的 DAIN(深度感知视频帧插值,Depth-Aware Video Frame Interpolation)和 Topaz Labs的 Gigapixel AI。其中,Gigapixel AI 用于将微弱分辨率的视频一直扩展到 4K,而 DAIN 用于创建和插入之前不存在的帧,从而将视频的 FPS 增加到 60。
首先来看 Gigapixel AI,随着图片放大,它可以对图片进行细节填充。具体的实现方法,是通过分析按比例缩小的大量图像,了解丢失的信息。经过训练,当图片放大时,Gigapixel AI 可以自动弥补图像损失的细节,让画质效果更佳。
这项技术也被打包放进了 Topaz Gigapixel AI 软件中,使用软件就可以对图像“无损”放大,亲测效果还不错。
第二个算法是由 Google 工程师团队和一些研究员开发的插帧算法 DAIN 添加的。
DAIN 也像 Gigapixel AI 一样可以填充细节,但却是插入整个图片而不是单个像素,从而将帧速率提高到每秒 60 帧。
当然,AI 使用现有的大量视频作为训练材料,通过评估前后帧以及镜头中的不同深度水平,以找出缺失的信息。
上图为 DAIN 的架构图,工作原理大致为给定两个时刻的输入帧,先估计光流和深度图,然后使用建议的深度感知流投影层生成中间流。
然后,模型基于光流和局部插值内核对输入帧、深度图和上下文特征进行扭曲,合成输出帧。
这种模型紧凑、高效且完全可微分。定量和定性的结果表明,DAIN 在各种数据集上均优于最新的帧插值方法。
DAIN 已经在 GitHub 上开源,感兴趣的同学可以详细研究一下:
https://github.com/baowenbo/DAIN
有一点需要说明,我们在此修复中看到的所有额外细节可能实际上并不是镜头中的真实内容,而是算法在经过大量类似照片和视频库中训练给出的最接近真相的预测。
原版短片是由 Lumière brothers 拍摄的,摄像机使用了 35mm 胶卷(这种胶卷还可以作为投影仪使用)。
另外还应该指出的是,和线上那些低分辨率的盗版电影相比,Shiryaev 使用的原始视频质量相对较高,这可能要归功于先前的修复技术。
不幸的是,源视频并没有提供任何有关制作方式的详细信息,但似乎已经用某种方法进行了数字化增强。
无论原版影片是否经过处理,修复后的新版本的分辨率和流畅度都有了明显的提高,这就够了,因为这为我们用 AI 引擎构建虚拟现实提供了很多灵感。
尽管人们对 Deepfake 的照片和视频忧虑重重,这门可以虚构从未存在场景的技术经常因为负面新闻出现在头条,但是类似的修复图像技术可以还原历史,带给人们的价值,显示出神经网络的积极作用。
总之,任何好用的技术本质上都是一把双刃剑,不能因噎废食,为了更好地使用这把利器,更多地需要从法律法规等途径进行约束,创造更好的环境,是不是这个理儿?
推荐阅读
你点的每个“在看”,我都认真当成了AI