メタがAI訓練に海賊版サイトを使用。フランク・ロイド・ライトやウォーホルの書籍の違法利用が判明

メタが開発した大規模言語モデル「Llama 3」の訓練データに、海賊版サイト「Library Genesis」に違法アップロードされた文献などが使われていたことが判明した。

メタが開発したAI、Llama 3の訓練データに違法アップロードされた書籍などが使われたことが判明した。Photo: Getty Images
Photo: Getty Images

メタが開発した大規模言語モデル「Llama 3」の訓練に、書籍や学術論文、漫画、そして雑誌などの海賊版がアップロードされている「Library Genesis(LibGen)」が活用されていたことが判明した。3月19日に公開された裁判文書によれば、メタCEOのマーク・ザッカーバーグは同社シニアスタッフに対して、LibGenからデータをダウンロードし、訓練データとして使用する許可を与えていたという。

LibGenには現在、750万冊以上の書籍データとおよそ8100万本の論文がアップロードされている。サイト上でアクセスできるデータの大半は、科学やテクノロジー、エンジニアリング、数学など、理系のコンテンツが占めているが、美術館やアーティスト、建築家、ギャラリーが発表した文献も多数含まれている。

違法にアップロードされたデータがLlama 3の訓練に使用されていることが発覚したきっかけは、コメディアンのサラ・シルバーマンをはじめとする脚本家などがメタを相手取って起こした集団訴訟。原告側の著作権が侵害されたことをめぐるこの集団訴訟で公開されたメタ社内の議事録によれば、訓練データには「ウェブ上で一般公開されているものよりも書籍の方が有用」であることから、同社は早急に書籍や論文などの文字情報を必要としていたという。メタは当初、ライセンス契約を結んで書籍データを訓練に使うことを検討していたが、最終的に海賊版データを使用することになったようだ。

どういった文献がLibGenに違法アップロードされているかを知る者は多くないかもしれないが、こうした情報で訓練されたLlama 3は、FacebookやInstagram、Whatsapp、OpenAIのChatGPTなど、何百万人ものユーザーが日々利用するサービスに組み込まれている。

カルチャーメディアのアトランティックは、LibGenのメタデータの一部を利用して著者名から検索できるデータベースを作成している。US版ARTnewsは、これを用いて訓練データとして使用された書籍や展覧会図録などをいくつかピックアップしてみた。

これ以外にも、オノ・ヨーコロバート・メイプルソープエド・ルシェデイヴィッド・ホックニー、ルートヴィヒ・ミース・ファン・デル・ローエが手がけた文献もアップロードされていた。(翻訳:編集部)

from ARTnews

あわせて読みたい