2022-12-03
『おっさん美少女を描いて!』を;実現したい!
Written by: @ekusiadadus
どうも、おっさんです。 うちの GitHub Copilot の口が悪すぎると話題に!
さて、今日は Whisper + Stable Diffusion で永遠の謎『おっさん美少女』を AI に描いて頂こうと思います。 髪の毛は永遠の 0 です。
紆余曲折
IntelliJ の PyCharm の YouTube ライブで Jina Cloud が取り上げられていました。 『NewYork にいる Spiderman を描いて!』をしていました。
https://www.youtube.com/watch?v=duWUy5LOEwc
人権がないんです。 家の GPU。
1-2 か月くらい前にかなり Whisper+Stable Diffusion が流行っていたのでやってみたいなという気持ちがありましたが。 Jina Cloud で無料で試せそうだったのでやってみようとして失敗しました…
- そもそも Jina Cloud のコードが動かない
https://github.com/jina-ai/example-speech-to-image
YouTube のコードは、GitHub 上に公開されいるのですが手順を踏んでも動きません。(2021/12/20)
- ローカルで動かすと GPU が足りない
そもそも GPU が足りないので、ローカルで動かすことはできませんでした。
しかし、学習サイズ “medium” や “small” くらいに落とすと動きました。
- ui.py が動かない
ここまでくるとボロボロです。 基本的にコードはすべて動きません。
録音したファイルがなぜかグローバルに入っていることになっている…?
ここら辺は、ffmpeg
周りのライブラリ問題みたい…
sudo apt install ffmpeg
で解決しましが、ui.py
が動かない…
grpc
周りの接続が、Jina 側に飛ばせない…
https://github.com/jina-ai/dalle-flow/issues/23
まだまだプラットフォーム が未熟で開発中のようで、基本的にコードはすべて動きません。 GPU 強者や、Jina Cloud 詳しい方で成功した人がいれば教えてください。
(代替品)おっさん美少女 1
https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion
ここら辺はデフォルトのモデルです。 Whisper の制度はかなり高いです。(漢字は描いての方を想定していましたが) 正直、日<->英の翻訳から違います。
おっさん美少女を書いて
<-> Drawing a middle-aged man and a beautiful girl
という感じです。
無理やり英語を直しても、ダメそうです。 モデルを変えないといけません。
(代替品)おっさん美少女 2 (waifu diffusion)
(代替品)おっさん美少女 3 (stable diffusion v1.5)
(代替品)おっさん美少女 3 (stable diffusion v2.1)
https://huggingface.co/spaces/stabilityai/stable-diffusion
見ると幸せになれるところ
@npaka123 さんが書かれている本です。 この本は理論的なことをかなり基礎から説明しているガチ勢向けの本だと思っています。 おすすめです。
最近の Stable Diffusion モデルを Colab やサンプルコード付きで解説してあります。 理論面も軽く触れています。 個人的に、クリエイターが AI とどのように折り合いをつけるかに章がさかれていて凄く面白かったです。
そもそも、機械学習全然詳しくないのでここら辺をちらちら見ながらやっています。
まとめ
年末年始で自分のモデルを作っていこうという気持ち
雑談
最近飼っているうちの AI 達です。
- GitHub Copilot (年: $100)
- ChatGPT (月: $6)
- Stable Diffusion (月: $10)
https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion
高い… 5 年後には自分の仕事なくなって欲しいですね。 Whisper + ChatGPT とか組み合わせ無限大!という感じですね。
年末で 10 連飲み会が発生しているので美少女に救われたい。 おっさんは帰れ!