精密医療電脳書

分子標的薬　コンパニオン診断　肺がん　ウイルス　人類観察

Stable Diffusionで遊ぶ〜日本の寺院を襲う龍

雑記

自動画像生成AIについて興味深い記事がMITテクノロジーレビューに掲載されていた。

www.technologyreview.jp

この記事の本題は、自動画像生成AIで模倣される作家の著作権の問題だが、面白いのはStable Diffusionで指定される画家には歴史上の画家は少なく、グレッグ・ルトコフスキGreg Rutkowskiが圧倒的に多かったという。ルトコフスキは、ポーランド出身のデジタル・アーティストで、古典的な絵画様式を用いてファンタジーの世界を描く。これまでに、多くのゲームにイラストを制作してきた。

ステーブル・ディフュージョンに入力された指示文と出力結果を1000万件以上追跡しているWebサイトレクシカLexicaによると、ルトコフスキの名前は指示文の中で約9万3000回使用されたのに対し、ミケランジェロ、パブロ・ピカソ、レオナルド・ダ・ビンチなど世界で最も高名な芸術家たちは、それぞれ使用回数が約2000回以下だった。ルトコフスキの作品がデジタル・アートで、彼が画像アップロードの際代替テキストを添付しており、それが自動画像生成AIの学習に役立っていることも理由の一つだろう。しかし、それよりも時代の好みが、歴史上の画家よりも現代のアーティストに向いていることは間違いがない。

この前歴史上の画家の名を使って「宇宙船」をStable Diffusionで描いた（Stable Diffusionで遊ぶ〜歴史上の画家が描く宇宙船 - 精密医療電脳書）。ここではルトコフスキと比較することを考慮に入れ、「日本の寺院を襲う龍 dragon attacking Japanse temple」をStable Diffusionで出力した。ルトコフスキのイラストの中には「ダンジョンズ＆ドラゴンズ」のためにかいたものもある。

雪舟

まず東洋風の題材なので、雪舟のものから始める。

画はまずまずの出来だが、色彩画になってしまった。水墨画ink painting指定で再度出力すると

左の方は特に雪舟の水墨画風にみえる。まずまずだが、この２つには寺が描かれていない。

ルトコフスキ

流石に学習データが多いためか、的確な出力が得られた。

なかなか良い。続いて歴史上のヨーロッパの画家。

ベラスケス

う〜む。どこがベラスケスなのか。

レンブラント

右はレンブラントを思わせる暗い色調だが、左はデューラーの版画のようになってしまった。また寺がどこにあるのかよくわからないか、あるいは描かれていない。

ダ・ビンチ

ダ・ビンチの出力も首を傾げてしまう。今使っている Stable Diffusionのサイトは４つの画像を出力するが、これまでそのうちの２つを選んで掲載してきた。ダ・ビンチについては４つすべてを掲載する。

色彩画（右上、左下）は誰がかいたものかよくわからなく、ダ・ビンチの特徴はよみとれない。白黒のものは左上がデューラーの版画風だが、右下は北斎風の単彩だ。バラバラの出力になってしまっている。

ダリ

これもダリのものとは判別しにくい出力になった。オブジェクトを描く曲線がダリ風といえなくはないが、前の宇宙船と比較するとダリの画風は大きく薄れている。また右の画はまたもやデューラーの版画を思わせる。

ここまでのStable Diffusionの出力をみているとデューラーの版画の影響が強く出ているように思えた。そこでデューラーについてどうなるか試すことにした。まず、本物。

ヂューラー（本人作）

Albrecht Durer, St Michael fighting the Dragon（左、ウィキアートより）; Heaven and hell dragon（右、ウィキペディアより）。

デューラーは左のようなドラゴンを題材にした版画を多数残している。単色のものが多いが多色のもの（右）もある。

デューラー（Stable Diffusion）

的確な出力で、本人作よりも迫力がある。レンブラント、ダ・ビンチ、ダリの版画風画像と類似しており、stable diffusionの学習データの中で、西洋古典画家のドラゴンについてはデューラーのものの比重が大きいことがわかる。

フェルメール

以外によかったのがフェルメールだ。左の出力も面白いが、右のものはフェルメールの得意とする室内画ではなく、寺院の外観を描いている。日本画風であり、フェルメールと日本画の共通性を感じさせる出力だ。