AI活用術！新しいCGI用技術で、あらゆる画像の背景を簡単に置き換え可能に

734 views

読了時間 : 約2分12秒

・マサチューセッツ工科大学の研究チームが、写真編集プロセスの多くの部分を自動化する新しい機械学習ベースのモデルを開発。
・特定の種類のカメラのシミュレーション、背景の置き換え、色の調整などに利用できる。

ほとんどの専門的な編集者は、Photoshopを使って、クリエイティブな補正で写真を見栄えよく仕上げます。それでも、写真をリアルに見せるのは、口で言うほど簡単なことではありません。背景と前景の間の微妙なトランジション【移行】を美的にとらえる必要があり、これは、動物の毛のような複雑な素材では非常に難しい作業となるからです。

こういった写真では、各ピクセルが1つの要素だけに属しているわけではありません。どのピクセルが前景（または特定の被写体）の一部で、どのピクセルが背景に相当するかを把握するのは、難しい場合があります。

昨今、映画製作者はCGI【Webサーバーが、ブラウザからの命令で外部プログラムを使って処理を行うための仕組みのひとつ】に力を注いでいるため、編集者は「コンポジット」（背景と前景の画像を合成し、シーンがリアルに見えるようにする手法）に習熟していなければなりません。これには、例えば『パイレーツ・オブ・カリビアン』のデイヴィ・ジョーンズという架空のキャラクターのように、俳優を別の惑星に配置したり、新しい顔を与えたりすることも含まれます。

各フレームの細部まで正確に仕上げるのは、専門家にとっても時間のかかる面倒な作業です。そこでマサチューセッツ工科大学の研究者たちは、写真編集プロセスの多くの部分を自動化する機械学習ベースのモデルを新たに開発しました。

このシステムの主な目的は、画像編集プロセスをより簡単かつ高速にすることで、専門家が写真をピクセル単位やフレーム単位で微調整するのに何時間も費やす必要がなくなるようにすることです。これにより、ワンクリックで写真を合成し、リアルなファンタジー・シーンを構築できるようになるはずです。

どのように機能するのか？

このモデルは写真を取り込み、「ソフト・トランジション」のグループによって区切られた複数のレイヤーに分割します。研究チームはこれを「セマンティック・ソフト・セグメンテーション」と呼んでいます。画像の色とテクスチャーを調べ、ニューラルネットワークを介して得られたデータ（物体認識）と統合します。

これらのソフト・セグメントはシステムによって自動的に測定されるため、画像の特定レイヤーに修正を加える必要はありません。つまり、色の設定や背景の入れ替えなど、手作業による編集作業が非常に簡単になります。

アルゴリズムの実装には、MATLAB【データの解析やアルゴリズムの開発、モデルの作成に使用されるプログラミングおよび数値計算プラットフォーム】の固有値分解と直接ソルバーを使用しました。このステップは、サイズ640×480の画像に対して3分近くかかりました。ゆったりとしたスパース化【ニューラルネットワークの重みを疎行列とする最適化】のステップでは、MATLABの前提条件付き共役勾配最適化を利用します。各反復は50～80回で収束し、30分かかります。さらに、実行時間はピクセル数に比例して増加します。

今後の課題は？

現在のところ、セマンティック・ソフト・セグメンテーションは静止画像のみの編集が可能です。研究チームはさらに、次のバージョンでは動画も扱えるようになり、様々な映画制作への応用が可能になると考えています。

現在のモデルは、SnapchatやInstagramのようなソーシャル・プラットフォームで、特に特定のタイプのカメラをシミュレートしたり、背景を置き換えたりして、よりリアルなフィルターを作るために使うことができます。将来的には、画像の計算時間を数分から数秒に短縮し、影、照明、カラーマッチングなどのパラメータを処理するモデルの能力を向上させる予定です。