驚くべきAIの進化！簡単な言葉でその通りの画像を生成

TEXT BY SHANTI ESCALANTE-DE MATTEI

4月6日、サンフランシスコの人工知能研究所、OpenAI（オープンAI）が同社の画像生成AI「DALL-E（ダリ）」の大幅バージョンアップを発表した。

人工知能「DALL-E 2」が生成した画像　OpenAI

MITテクノロジーレビュー誌が報じるところによると、「DALL-E 2（ダリ・ツー）」と呼ばれるこの新しいAIは、これまでと同じくテキストによる指示に従って画像を生成する。ただし、前バージョンから大きく進化を遂げており、指示に対してより忠実に画像を生成するだけでなく、好みのスタイルに表現を調整することができるという。

クリエイティブな分野にいれば、AIに仕事を奪われることはないだろうと高を括っていた人も、もはや安泰とは言えない時代が訪れたようだ。

前バージョンのDALL-E 1は、どちらかというと、パーティを盛り上げるネタを提供してくれる娯楽用ツールのような感じだった。「アボカド＋アームチェア」といった簡単な単語をいくつか入力すると、その無茶な組み合わせでせっせと画像を生成してくれる。サイケデリックなビジュアルで、画像生成AIにありがちな不具合はあるものの、その出来ばえは人を唸らせるものがあった。

DALL-E 2は、それよりも具体的で正確だ。OpenAIがテストのために用意した2つのテキスト、「マッド・サイエンティストのテディベアたちが、キラキラ光る化学物質を混ぜ合わせている。スチームパンク風」、そして「帽子をかぶったネズミの家族が暖炉でくつろぐ姿を35mmフィルムでマクロ撮影」に対しては、そのまま絵本に使えそうな完璧な画像が生成された。また、フェルメールやゴーギャンの画風で、というリクエストにもかなりの完成度で応えている。

OpenAIの共同設立者でチーフサイエンティストのイリヤ・スツケバーは、MITテクノロジーレビュー誌の取材で次のように語っている。

「このニューラルネットワークは、超越した美しさをサービスとして提供します。時々、あっと驚くようなものを生成してくれるんですよ」

ただし、前述の例はDALL-E 2がその能力を最大限に発揮した時のものだ。一方、馬に乗る宇宙飛行士をアンディ・ウォーホル風に描けという指示に対して生成された画像は、今ひとつ物足りない。同じ指示でも、ウォーホル風ではなく、スーパーリアルなスタイルの方がずっといい出来だが、そちらもよく見ると弱点が目に付く。初心者の画家の多くがそうであるように、DALL-E 2も手や足の表現が苦手なようだ。

DALL-E 2は、既存の写真を編集することもできる。たとえば、アームチェアに座っている犬を猫に置き換えるなどだ。このツールは、フォトショップがそうだったように、画像制作に大きなインパクトを与える可能性を秘めている。だが、DALL-Eシリーズはより大きな研究プロジェクトのために開発されており、その目的はAGI（Artificial General Intelligence：汎用人工知能）という、人間と同レベルの思考回路や感性を備えた人工知能の開発だ。

MITテクノロジーレビュー誌の記事で、研究者のプラフラ・ダリワルはこう語っている。

「我々が目指すのは、汎用的な人工知能を作り出すこと。視覚と言語を結びつけるDALL-E 2のようなモデルの構築は、機械が人間と同じように世界を認識できるようにするためで、最終的にAGIの実現という大きなゴールに近づくために欠かせないステップなんです」

まだ試験段階にあるDALL-E 2は、誰もが使えるソフトウェアとしては公開されていない。OpenAIの開発チームは、暴力的な画像やディープフェイクの生成防止など、さまざまな懸念事項に対処しようとしている。準備が整い次第、DALL-E 2を一般向けにリリースする予定だという。（翻訳：野澤朋代）

※本記事は、米国版ARTnewsに2022年4月14日に掲載されました。元記事はこちら。