4月も始まりましたね。
新年度も開始です。
まあ、社会人になってからウン何年となると、その辺りの感覚も薄れますが…
今回はAIがらみのちょっと驚きのものが「また」出てきたので、
それについて取り急ぎ書こうと思いました。
Zero-1-to-3
下記の記事を見つけました。
たった1枚の画像から別視点の画像を生成するAIモデル「Zero-1-to-3」をトヨタ・リサーチ・インスティテュートなどの研究チームが開発
デモサイト
Zero-1-to-3
Zero-shot One Image to 3D Object
と書かれているように、1つのイメージを三次元オブジェクトのようにして
「異なる視点から見た場合の2次元画像を作成する」というもののようです。
(何となくの理解)
一応デモサイトも用意されていて、
そこで簡単な動作実験などを行うことも出来ました。
動かしてみた感想は…
「えぇ…もうこんなの出来るのかよ、やべえなあ」でした。
デモを動かしてみた
まず、Twitterで試したことをアップしたのですが、
もうこの時点で大分驚愕でしたね。
左上の画像がベースとして使用した画像です。
この画像は写真ではなく、AIで作成したイラストです。
1枚目では少し左側から見た場合のイラストが、
2枚目真横から見た場合のイラストが右下に表示されていることが分かります。
AIの生成が噛んでいるため、「なんか細部は違くない…?」というのはありますが
これってすごくないですか?
画像内の三次元情報取得という点では、MiDASというものがあり、
画像生成AIのControlNetでもdepthの名で使われているのですが、
これは、その奥行き情報のみを取得するところから
更に一歩先に進もうとしている感じがあります。
単眼深度推定モデル MiDaS の解説と SageMaker へのデプロイ
多分、形状推定(モノの形状を学習しているという記載はあったので)や
MiDASのような深度推定してから視点を変更した時の映像を決定し、
そこから、画像生成AIみたいなもので欠落した部分を補完してるのかな~
等と適当なことを述べましたが、実際の所、細かい部分はまだわかってません。
それと、デモサイトで何回か試した感じだと、
やはりイラスト系よりも、写真系の方がしっかり出るなという印象。
これは形状を推定するときに、2次元の所謂「マンガ的ウソ」があると
推定しにくくなるからではないかと。
あと、顔みたいな部分はあんまりうまく出せないですね。
題材を変えてもう一回動かしてみた
これを10度ごと出力していく。
下記は40度ずつ出したもの。部分的に手元とか少し怪しいのがありますね。
これをGIFにして出力してみる。
そこは画像生成AI側のブレなのかな、と感じますね。
しかし、ポイントポイントの部分では想像通りの後ろ姿などができており、
「実在しない石像の、実在しない背面を俺は見ているのか…」
となりますね。
やはりスゴいなー。
感想みたいなもの
2次元イラストから視点変更とか、大分恐ろしいことになってきましたが、
逆にこれはこれですごく面白い使い方が出来るのではないか、とも感じます。
試してみたいのは三次元再構成ですね。
何枚か生成して回転させてみると、やはり画像生成AIのサガか、
画像のブレは見えていて、現時点で三次元再構成は難しいかもですが、
出来たら、すごい事です。とても面白い。
画像生成AIの活用方法としても2次元のみから3次元も含むことになり
活用ステージはとても広がるのではないでしょうか?
上手く使うことが出来れば、ゲームのアセット作成とかが
非常に捗ることになるんじゃないかな~と個人的には考えています。
2次元イラスト1枚描くだけ(AIに描いてもらうだけ)で
そこから3Dモデルまで生成出来てしまう…
1年前は「そんなんぜってぇ無理でしょ(笑)」って感じでしたが、
いまやもう「それは無理なんでしょ?(震え)」になってきました。
一体どこまで進化するのだろうか?
そして、その技術を「活用」できるようにしたい。
0 件のコメント:
コメントを投稿