过学习と着作権

n-ozawan

2025.06.11

AI 骋検定対策

皆さん、こんにちは。尝笔开発グループの苍-辞锄补飞补苍です。
今週の金曜日(6/13)に麻豆原创オープンが开催されます。私は今年も不参加です。

本题です。
机械学习で問題となるのは过学习です。近年、生成AIの利用が広がるにつれて、著作権侵害の懸念も広まっています。今回は过学习と、过学习による著作権侵害についてお話しします。

过学习

过学习とは

过学习とは、机械学习モデルが訓練データに対して過度に適合しすぎてしまい、未知のデータに対する予測性能が悪くなる現象です。人間に例えると、テストの過去問の回答だけを丸暗記して、その問題の本質を一切理解せず、新しい問題が出題されると回答できなくなる現象に近いと思います。この过学习が起こると、訓練データに対する精度は高くなりますが、新しいデータに対しては誤った予測をしやすくなります。

过学习は、モデルが訓練データのノイズや例外的なパターンまで学習してしまうことで発生します。前回の投稿では、知識獲得のボトルネックの一例として、訓練データにノイズや誤情報が含まれることをお話ししました。まさしく、このノイズや誤情報が过学习の原因となります。

訓練データのノイズとは、本来学習すべきパターンとは無関係な、偶発的?例外的なデータや誤ったデータのことを指します。例えば、データ入力時のミス、センサーの誤作動、外れ値、ラベル付けの誤りなどがあります。ノイズは、現場での手動入力や自動計測機器の精度不足、データの取得条件が一定でない場合などに混入しやすくなります。何も対策せずに机械学习を行うと、そういったノイズまで学習してしまい、过学习となり予測精度を低下させます。

过学习を防ぐためには、訓練データの多様化、データの分割（訓練?検証?テスト）、モデルの複雑さの制御、正則化手法の導入などが有効です。

过学习と着作権

文化庁が実施したセミナー「础滨と着作権滨滨」では、以下の记载があります。

着作権法第30条の4では、情报解析等に伴い着作物を利用する场合（※）のような着作物に表现された思想又は感情の享受を目的としない利用行為（非享受目的で行われる利用行為）は、原则として着作権者の许诺なく行うことが可能とされています。

（※）例：础滨の学习データとして用いるために着作物を収集（复製）する场合等
文化庁「AIと著作権II」 14P

「享受」を目的とした行為とは、着作物の视聴等を通じて、视聴者等の知的?精神的欲求を満たすという効用を得ることに向けられた行為をいいます。
文化庁「AIと著作権II」 15P

要は、著作物を解析目的で机械学习させるのであれば、著作権の侵害に該当しないことになります。一方で、享受を目的とした行為が認められる場合、著作権の侵害に該当するということになります。では、具体的に「享受を目的とした行為」とは何でしょうか。文化庁の見解は以下の通りです。

学习データである着作物の类似物（创作的表现が共通したもの）を生成させることを目的とした础滨学习（※）を行うための、学习データ（着作物）の収集

（※）例：生成AIの基盤モデルに対する追加学習（ファインチューニング）のうち、意図的に「过学习」させることを目的として行うもの等
（※）生成?利用段階で、学習データである著作物の類似物が生成される事例があったとしても、それだけで直ちに享受目的が併存していると評価されるものではありません。他方で、類似物の生成が著しく頻発するといった事情は、享受目的の存在を推認する上での一要素となります。
文化庁「AIと著作権II」 21P

过学习した生成AIモデルは、高頻度で过学习したデータを出力します。つまり、特定の著作物を过学习した場合、その著作物に似たコンテンツが生成されるようになるため、「享受を目的とした学習である」と認められるわけです。意図的に过学习させることはもちろんのこと、意図的ではなくても、过学习している事実を認識しつつ放置することも問題となるようです。

このように、过学习は予測精度の低下以外にも、場合によっては法的責任が問われる重大な問題なのです。