モノクロ動画をリアルタイムでカラーに変換する新AI

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、New AI Converts Black And White Videos To Color In Real-Timeを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

833 views

読了時間 : 約2分6秒

●新しいディープラーニングアルゴリズムにより、エディターはシーン内の1フレームをカラーリングすることで、動画全体を素早くカラーリングすることができます。

●高精度かつ効率的で、従来の方法に比べて最大50倍のスピードで処理することができます。

動画はフレーム間の冗長なデータで構成されており、モノクロのフレームを一つ一つ手作業でカラーリングするのは膨大な時間を要します。このような冗長性は、ビデオのエンコードや圧縮では広く検討されていますが、クリップのカラー化などの高度なビデオ処理ではあまり検討されていません。

連続するフレーム間の局所的な関係を処理してデータを伝播するアルゴリズム（バイラテラルCNNモデル、類似性誘導フィルタリング、オプティカルフローベースワーピングなど）は数多く存在します。

これらは、フレームやピクセル間の類似性をモデル化するために、見かけの動きやあらかじめ設計されたピクセルレベルの特徴を使用します。

しかし、これらのアルゴリズムにはいくつかの限界があり、例えば、フレーム間のハイレベルな関係を表現できず、画像の構造を正確に反映することができません。

これらの制約を克服するため、NVIDIAの開発者は、ディープラーニング手法に基づく新しいアルゴリズムを開発し、編集者がシーン内の1フレームをカラーリングすることで、クリップ全体を迅速にカラーリングすることを可能にしました。

どのような仕組みになっているのか？

連続するフレーム間の高度な類似性をあきらかにするために、開発者は、あるフレームの特徴（色など）を別のフレームに伝達するための伝搬成分からなる時間伝搬ネットワークを開発しました。これを行うために、Convolutional Neural Network（CNN）で駆動する線形変換行列を使用します。CNNは、カラー化されたフレームからどのような色を移すべきかを決め、残りのモノクロフレームを塗りつぶします。

この技術は他のものとどう違うのか？編集者が画像の一部に注釈を入れるというインタラクティブな手法で、より良いカラーリングを実現し、完成度を高めました。

時間領域における学習伝播のために、開発者は以下の2つのルールを適用しています。

1.フレーム間の伝搬は反転可能でなければならない

2.ターゲットとなる要素はプロセス全体を通して保存されなければならない

提案された技術は、画像ベースのセグメンテーション手法を必要とせず、既存の最先端手法に匹敵する結果を得ることが出来ました。

このネットワークの学習には、NVIDIA Titan XP GPUが使用されました。ハイダイナミックレンジ、カラー、マスクプロパゲーションのために、いくつかのデータセットから数百のクリップでトレーニングされました。ネットワークは、約600,000フレームを持つ7,260のビデオシーケンスでパックされたACTデータセット上で構成されています。