1枚の静止画が3Dアニメに！深層学習の進化

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、New AI Can Transform Still Images Into 3D Animationsを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

1,461 views

読了時間 : 約2分8秒

・畳み込みニューラルネットワークを用いた新しい深層学習手法により、1枚の静止画からキャラクターを3Dアニメーション化させることができます。

・画像の中のキャラクターを3Dで歩き出させたり、座らせたり、走らせたり、ジャンプさせたりすることができます。

・アニメーション全体をモニターやVR/AR機器でインタラクティブに見ることができます。

近年、動画から作られる一般的なアニメーションは、いくつもの独創的な効果をもたらしています。また、動画や連続写真ではなく、1枚の画像からアニメーションを作ることでも、魅力的な効果が得られています。

SMPL（Skinned Multi-Person Linear）モデルと深層学習フレームワークが、1枚の画像から3Dのポーズや形状を推定するのに、非常に有用であることがわかっています。これまで、単一画像から作る人物アニメーション技術のほとんどは、主に2Dまたは擬似3Dアニメーションに焦点を当てていました。

最近、ワシントン大学とフェイスブックの研究チームが、静止画や画像を3Dアニメーションに変換できる新しい技術を開発しました。「Photo Wake-Up」と名付けられたこの深層学習手法は、畳み込みニューラルネットワーク（CNN）を用いて、1枚の静止画からキャラクターを3Dアニメーション化します。

前景のキャラクターに命を吹き込む

静止画を特定の順序で動かして動画を作成するシネマグラフと異なり、新システムでは、1枚の画像を入力するだけでフル3Dを作り出すことができます。画像の中のキャラクターを3Dで歩き出させたり、座らせたり、走らせたり、ジャンプさせたりすることができ、アニメーション全体をモニターやVR/ARデバイスでインタラクティブに見ることができます。

さて、この新しい手法がどのように機能するのか、気になりますよね。この手法は下記の5つのステップから成ります。

1.モーファブルなボディモデルを画像にフィットさせる

2.ボディラベルマップの推定

3.モーファブルモデルを参考に、段階的にメッシュを作成

4.メッシュをリギングし、メッシュスキンウェイトを推定する

5.最後に、テクスチャを再構築し、白紙の背景画像に貼り付ける

このCNNは、事前に学習されたモデルSMPLに依存しており、NVIDIA TITAN GPUで動作します。また、ポスターやアートからスポーツ写真まで、幅広い正面画像に対応しています。ユーザーは、写真に写っている人物を編集したり、再構成された身体を3Dで見たり、ARデバイスで探索したりすることもできます。例えば、作品を壁に置いて、アニメーションを再生しながらその周りを歩くことができます。

研究チームはこのアルゴリズムを、漫画のキャラクターやグラフィティ、スティーブン・カリー（NBA選手）、ピカソの絵画などの画像で実証しました。これまでに、インターネットからダウンロードした70枚以上の画像でニューラルネットワークのテストを行っています。