AIがレシピの文章から完成品の画像を生成！？

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、AI Generates Images Of Finished A Meal From A Simple Text-Based Recipeを
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

686 views

読了時間 : 約1分58秒

・深層学習を搭載した新しいシステムでは、テキストベースの長い説明文から自動的に画像を生成することができます。

・研究者たちは、レシピを入力として受け取りゼロから写真を構築するネットワークを実現しました。

短い視覚的記述から画像を生成することは、困難ですがやりがいのある取り組みであり、コンピュータビジョンの分野には多くのアプリケーションがあります。最近の研究により、Generative Adversarial Networks (GAN)が、低解像度で変動の少ない画像から高品質でリアルな画像を効果的に合成できると証明されています。

イスラエルのテルアビブ大学の研究チームが最近発表した論文は、この分野の研究を加速させるものでした。彼らは、深層学習を用いて、テキストベースの説明文から自動的に画像を作成できる深層学モデルを構築しました。

レシピの簡単な文章から、完成した料理の画像を生成するシステムを実現したのです。このシステムでは、最高水準のStacked GANと、料理のレシピや料理の画像に対するクロスモーダルな埋め込み学習を組み合わせて使用しています。

CGAN（条件付きGAN）

基本的に、GANは互いに競合するように学習した2つのモデル（生成器と識別器）で構成されています。生成器は元のデータ分布に似た画像を合成するように設計されています。識別器の役割は元の画像と合成画像を区別することです。

この研究では、生成器と識別器の両方に特定の条件を考慮させる「CGAN」を用いています。また、セマンティック正則化と非セマンティック正則化という2種類の埋め込み技術が提案されています。これらの手法は下記の3つのステップから成ります。

1.材料と調理方法の初期埋め込み

2.レシピ全体を結合したニューラル埋め込み

3.高レベルな分類目標を用いた意味的正則化損失の統合

このCGANは、52,000件のテキストベースのレシピと、それに対応する写真で学習されています。学習には NVIDIA TITAN X GPU と CUDA Deep Neural Network ライブラリが使用されています。学習後、システムは視覚情報を含まない長い説明文から、レシピがどのような見た目となるかを予想し、その画像を構築しました。