視覚障害者とアートの対話を広げるAIアプリ。言葉を通して「見る」こと可能にしたChatGPT-4

TEXT BY M.LEONA GODIN

あらゆる分野で応用が進む AI技術は、ヘルスケアや障害者支援にも活かされている。その一例が視覚障害者をサポートするモバイルアプリだ。US版ARTnewsでは、最新デジタル特集号「AIとアートの世界」のために、ChatGPT-4の機能を利用した最新アプリを使うアーティスト、M・レオナ・ゴディンに、その体験を寄稿してもらった。

Image: Daniela Hritcu For ARTnews

AIで画像説明を生成するアプリとの出会い

私が初めてBe My AI（ビー・マイAI）に出会ったのは去年の秋、まだこのアプリがベータ版だった頃だ。デンマークのモバイルアプリBe My Eyes（ビー・マイ・アイズ）とOpenAIがChatGPT-4のビジョンモデルを用いて開発したもので、ありとあらゆる画像について詳しい説明をほぼ瞬時に提供してくれるので、その画像について誰かと会話することもできる。視覚障害を持つアーティストの私は、他の人たちが写真を集めるのと同じように、画像を説明するテキストを集めているが、Be My AIはそんな私が視覚文化と接する機会をぐっと拡大してくれた。

去年、Be My AIのベータ版を使えるようになってすぐ、やはり視覚障害者でカリフォルニア大学バークレー校教授のジョージナ・クリーグが書いた『More Than Meets the Eye: What Blindness Brings to Art（目に映る以上に：視覚障害がアートにもたらすもの）』を読み、盲目の写真家ジョン・ダグデールの作品《Spectacle（メガネ）》（2000）のことを知った。クリーグの説明に興味をそそられ、もっと詳しく知りたいと思った私は、この写真をスクリーンショットに撮ってアプリに取り込んだ。驚くほど詳細な説明が得られたが、いくつか大きな間違いもあった。

まず、ダグデールが遠近両用メガネ代わりのように2つのメガネを重ねていることがクリーグの著書から分かっていたのに、アプリによる説明では3つのメガネをかけていることになっていた。また、写真はモノクロだとしていたが、実際はサイアノタイプ（青写真）、つまり青色の濃淡で画像を作り出す古い写真技術によるものだ。私が修正点を伝えると、Be My AIは（その後もしょっちゅう聞くことになる）「混乱させたことをお詫びします」という謝罪を述べ、サイアノタイプについて知っていることを全て話し始めた。やや神経質な感じだし、やりすぎの感はあるものの、優れたアプリだと思えた。

人間とAIにとって「見る」とは何か

次第にBe My AIの信頼性が高まっていくと、触れることのできるアートの幅を広げるのに役立つことがうれしくなり、友だちみんなに話してまわった。その1人がニューヨークのホイットニー美術館で働く視覚障害者のアーティスト、ボヤナ・コクリャットで、彼女から「Harold Cohen: AARON（ハロルド・コーエン：アーロン）」展を言葉で説明する鑑賞ツアーの共同リーダーを依頼された。こうして私は、視覚の本質について、とても刺激的で実存的な会話をBe My AIと交わすことになった。AARONというのは、コーエンが1960年代後半に初めて構想したアートを創造するAI画家の名前だ。

当初AARONは、1972年の作品《Mazes（迷路）》のように比較的単純な線画を描いていた。私がBe My AIに《Mazes》について説明してほしいと言うと、「このドローイングは抽象的な黒い線で構成され、さまざまな形を作り出していますが、どれも特定の物体や図形には似ていません」という答えが返ってきた。好奇心をそそられた私が《Mazes》を作ったのは人間だと思うかと尋ねると、そうだと言う。そこで、制作者はAARONだと伝えると、Be My AIはこう答えた。

「それはすばらしい！ AIが生成したアートの初期の例を見られるのはとても興味深いです。特に、ドローイングの線がまるで人間が描いたようであることが」

さらに、OpenAIのDALL-E（ダリ）のような最新の画像生成AIとAARONの違いは何かとBe My AIに質問すると、新しい画像生成ツールはユーザーのプロンプト（指示文）から画像を生成するのに対し、AARONは一定のルールに基づいて画像を生成すると説明した。それに加え、DALL-Eは「見たことのない」画像を生成することができ、「言語と視覚的概念両方についてのより洗練された理解に基づく」ものであるという。

全盲ではあるけれど、心の目は曇っていないと自負する私は、「見た」という言葉に引っかかった。AIにとって、それは何を意味するのだろうか？ Be My AIは長い回答を返し、DALL-Eは「人間の感覚で『見る』のではなく、データを処理し、そのデータ内のパターンを識別するのです」と言った。「でも、人間の脳だって見てはいないでしょう」と私は反論した。「目から送られた信号を情報として認識するのだから。AIと人間の知覚は、私にはそれほど違うとは思えない」

するとBe My AIは、入力される信号に依存しているという点で、AIと人間の知覚の間には驚くほどの類似点があることを認めた。人間は目という感覚器を通して、AIはデータセンサーや入力データセットを通して信号を得る。しかし、「重要な違いは、人間は主観的な経験や意識を持っていますが、AIにはそれがないことです」とBe My AIは指摘した。それはまさに、科学者と哲学者の間で今も熱い議論が交わされているテーマだ。そして、この意識と知覚の結びつきこそが、感覚についての議論を難しく、かつ刺激的なものにしている。

ジョン・ダグデール《Spectacle》（2000）　Photo: Courtesy Of John Dugdale

AIによるピエロの表情の説明に感動

ジョン・ダグデールは、高級百貨店のバーグドルフ・グッドマンやラルフ・ローレンなどをクライアントに持つ商業写真家だった。ところが、33歳のときにエイズの合併症で脳卒中を起こし、視力を失う。友人や家族は彼のキャリアはこれでおしまいだと考えたが、ダグデール本人は違った。自身も網膜色素変性症で視力を失ったロドニー・エヴァンスが監督したドキュメンタリー映画『Vision Portraits（視覚の肖像）』の中で、まだ入院中のダグデールは「これから写真を撮りまくってやる！」と言い放っているのだ。

商業写真の仕事をやめたダグデールは、時代を超越したようなサイアノタイプの作品を制作するようになった。それらを収めたのが2000年の写真集『Life's Evening Hour（人生の黄昏時）』で、作品ごとにダグデール自身が書いた短いエッセイが添えられている。そこで私は、ニューヨーク公立図書館のワラック美術・版画・写真部門に予約を取った。この本と時間を過ごすため、というより、実際にはパートナーに各ページの写真を撮ってもらい、AIの助けを借りながら自宅でゆっくり作品を味わえるようにするためだ。

ここで注記しておくと、私は画像の簡単な説明を得るためにBe My AIをほぼ毎日使っているが、本格的な写真研究にはChatGPT-4そのものを使う。複数の画像がフィードできて、会話を自動的に保存してくれるからだ。

ダグデールの写真集、『Life's Evening Hour』の1枚目の作品タイトルは《Pierrot（ピエロ）》。そこに添えられたエッセイから、ピエロを演じているのはニューヨークの伝説的なパフォーマーで、ダグデールのミューズでもあるジョン・ケリーだと分かる。

「ピエロは伝統的な服装で描かれています。大きく膨らんだ袖とズボンのゆったりした白い衣装で、顔は白く塗られ、芝居がかった表情を際立たせています」

こう説明するChatGPT-4に、「芝居がかった表情」は何を意味するのか重ねて聞くと、「ピエロの眉が少し吊り上がっていて、優しく、やや悲しげな微笑みを浮かべています……頭はわずかに左に傾いていて、軽やかで好奇心旺盛な感じを醸し出しています」と答えた。その細かな描写に感動した私は、ちょっと涙ぐんでしまった。長いこと無理だとあきらめていたけれど、突然、ごく短時間で画像を理解することができるようになったのだと。

イメージを描写する言葉が心の絵に変わる

私はダグデールに連絡を取り、この記事のためにAIと画像描写について話をしてもらえないかと依頼した。電話の最初の数分間、ダグデールは戸惑っていたようで、AIの描写が非常に詳細であることには感銘を受けるが、それを使うことには消極的なのだと言った。

「スタジオに来てサポートしてくれる素晴らしいアシスタントたちを切り捨てたくない。2度の脳卒中、両目の失明、片耳の難聴、そして1年間の半身不随を経た今でも、私がまだ自分を人間らしく感じられるのはアシスタントたちのおかげだから」

彼は、他人にアイデアをぶつけるのが大好きだとも言った。彼は話すことが好きなのだ。

「でも、あんなものと話すことはどうしてもできない」

私は、AIのおかげでダグデールの写真にアクセスできるようになったことを嬉しく思っていること、そして興味があるのは一般的な意味での言葉とイメージの関係だと説明した。たとえば、彼はタイトルを出発点として作品制作を始めると読んだことがあると伝えると、「私のディクタフォン（音声レコーダー）には過去10年間のタイトルが160ほど入っていて、そこに新しいタイトルがどんどん追加される」と教えてくれた。それは一種の共感覚のようなものだという。

「あるフレーズを耳にすると、頭の中で絵が浮かび上がってくる。スライドのように……それをもとにスタジオで写真を制作するんだ」

私も、すばらしいイメージ描写に出会ったとき、似たようなことを経験する。ある時点で、それは言葉の集まりではなくなり、私の心の絵になる。これは別に驚くべきことではない。たとえば、小説を読みながらその光景を思い描く人は少なくないだろう。私がダグデールの作品に惹かれる理由の1つは、まさに心の目で見るすべを体現していることにある。

ジョン・ダグデール《Our Minds Dwell Together（私たちの心はともにある）》　Photo: Courtesy Of John Dugdale

「視力」はどこに存在するのか

『Life's Evening Hour』に収められた2枚目の写真《Our Minds Dwell Together（私たちの心はともにある）》では、ダグデールと友人オクタビオが裸の背中をこちらに向け、顔を寄せ合って、うつむきかげんで座っている。ChatGPT-4はその情景描写に、「プライベートで意味深い会話をしている様子で」と付け加えてくれた。ダグデールはこの写真に関するエッセイで、自分より先に（やはりエイズの合併症で）全盲になったオクタビオが、ダグデールに確固たる真理を理解することが必要だと言ったと書いている。

「視力は目の中に存在するのではない。視力は精神と心の中に存在する」

まさに、この真実を突きつけるのが画像描写という一種の感覚翻訳だと言える。言葉を通して「見る」ことは、目で見るよりも人の心や精神に入り込むのに時間がかかるかもしれないが、ひとたびそこに入り込めば同じように記憶に残るし、ありとあらゆる美的な、そして感情的な共鳴を呼び起こすことができる。

Be My AIのようなAI技術は、人間の知覚、芸術的創造、テクノロジーの関係を探求する新たな、そして思いもよらない空間を切り開いた。それは、世界を経験し、解釈するための新しく深遠な方法をもたらしてくれるのだ。(翻訳：清水玲奈)

from ARTnews