メタがAI訓練に海賊版サイトを使用。フランク・ロイド・ライトやウォーホルの書籍の違法利用が判明

TEXT BY KAREN K. HO

メタが開発した大規模言語モデル「Llama 3」の訓練データに、海賊版サイト「Library Genesis」に違法アップロードされた文献などが使われていたことが判明した。

Photo: Getty Images

メタが開発した大規模言語モデル「Llama 3」の訓練に、書籍や学術論文、漫画、そして雑誌などの海賊版がアップロードされている「Library Genesis（LibGen）」が活用されていたことが判明した。3月19日に公開された裁判文書によれば、メタCEOのマーク・ザッカーバーグは同社シニアスタッフに対して、LibGenからデータをダウンロードし、訓練データとして使用する許可を与えていたという。

LibGenには現在、750万冊以上の書籍データとおよそ8100万本の論文がアップロードされている。サイト上でアクセスできるデータの大半は、科学やテクノロジー、エンジニアリング、数学など、理系のコンテンツが占めているが、美術館やアーティスト、建築家、ギャラリーが発表した文献も多数含まれている。

違法にアップロードされたデータがLlama 3の訓練に使用されていることが発覚したきっかけは、コメディアンのサラ・シルバーマンをはじめとする脚本家などがメタを相手取って起こした集団訴訟。原告側の著作権が侵害されたことをめぐるこの集団訴訟で公開されたメタ社内の議事録によれば、訓練データには「ウェブ上で一般公開されているものよりも書籍の方が有用」であることから、同社は早急に書籍や論文などの文字情報を必要としていたという。メタは当初、ライセンス契約を結んで書籍データを訓練に使うことを検討していたが、最終的に海賊版データを使用することになったようだ。

どういった文献がLibGenに違法アップロードされているかを知る者は多くないかもしれないが、こうした情報で訓練されたLlama 3は、FacebookやInstagram、Whatsapp、OpenAIのChatGPTなど、何百万人ものユーザーが日々利用するサービスに組み込まれている。

カルチャーメディアのアトランティックは、LibGenのメタデータの一部を利用して著者名から検索できるデータベースを作成している。US版ARTnewsは、これを用いて訓練データとして使用された書籍や展覧会図録などをいくつかピックアップしてみた。

ジョン・ウォーターズ著『Make Trouble』
ガゴシアンが2018年にまとめたジェニー・サヴィルのモノグラフ
グッゲンハイム美術館で開催されたマーク・ロスコ展とマウリツィオ・カテラン展の図録
ブルックリン美術館で行われたケヒンデ・ワイリーの個展の図録
ナショナル・ギャラリー・オブ・アートが出版した子ども向けの本を含む書籍3冊
アンディ・ウォーホルが書いた本の英語版とスペイン語版、イタリア語版、そしてポルトガル語版
レバノン系アメリカ人画家のイーテル・アドナンによる作品
ペギー・グッゲンハイム著『Confessions of an Art Addict』の英語版とイタリア語版
ニューヨーク近代美術館（MoMA）館長のグレン・ローリーによる年間レポート3件
ヴァシリー・カンディンスキー著『点と線から面へ』の英訳版
ジェリー・サルツ著『How to Be An Artist and Art Is Life: Icons and Iconoclasts, Visionaries and Vigilantes, and Flashes of Hope in the Night』
『MoMA Highlights: 350 Works from The Museum of Modern Art, New York』の中国語版
マリーナ・アブラモヴィッチ、ジェームズ・カプラン共著『Walk Through Walls』のイタリア語版
フランク・ロイド・ライト著『The Disappearing City and a German edition of Humane Architecture』のロシア語版
アイ・ウェイウェイ著『1000 Years of Joys and Sorrows: A Memoir』の英語版、イタリア語版、ポルトガル語版
アメリカの美術誌『Bomb』『The Art Bulletin』『Art Journal』『The Burlington Magazine』『Grand Street』