1
Meta AIが「テキストからビデオを生成できる」デモ、論文を公開。
#stablediffusion のようなText-to-ImageのDiffusion Modelから、時空間方向に拡張。64x64画像を16フレ生成後、疑似3Dの畳み込み、Attentionを使いフレーム補間、超解像。764x764のビデオに仕上げる。
2
Stable Diffusionまるわかり! Colabノートブック
Grokking SDというノートブックが #stablediffusion の画像生成メカニズム理解にとても良く、日本語訳しました。シルバーウィーク? のお供に!
仕組みまでコードを実行しつつ理解したい、表現の幅を広げたい人へおすすめです。
(リンクはリプライ欄へ)
3
様々な画像生成AIの試し方 (LINE bot、WebアプリからColab、自前環境構築まで) について、「それぞれの違い」「無償/ 有償枠」「制約」「利用モデルの違い」等、見取り図にまとめました。
何から試そう、次はこれを試そうといったガイドとなれば。(1/2)
#stablediffusion #midjourney #技術書典
4
動画エンコーディングが分かるとても良い解説記事。
YouTubeなどで何気なくお世話になる動画圧縮。
非圧縮なら140GBもの映像(720p, 1時間)が、なぜ360MB程(たった0.02%!)になるのか?
丁寧に、順を追った日本語の説明で理解できる。H.265(HEVC)とH.264の差も取り上げている。
github.com/leandromoreira…
5
スタンフォード大の"CS 448B Visualization (2020 Winter)"
がすごい。
データ可視化の体系的講義。どう図表に変換するかの理論、探索的データ分析、ネットワーク分析等の実践と盛り沢山。
スライドに加え、Observable(JavaScript), Colab(Python)どちらでも例を試せる。
magrawala.github.io/cs448b-wi20/
6
MusicMap musicmap.info がすごい。1870年から今までのポピュラー音楽の系譜まとめサイト。
音楽ジャンル相互の関わり、各ジャンル・サブジャンルの説明だけでなく、具体例のトラック、試聴YouTubeリンクまである。いくらでも時間が溶ける。
フォークやクラシック版があれば知りたいな。
7
音楽(mp3)を最大5トラック(ボーカル/ピアノ/ドラム/ベース/その他)に分離できるSpleeter。conda/pipいずれかで入れ、すぐに使える。
github.com/deezer/spleeter
想像以上にしっかり分離され驚きます。すぐ試せるColabノートブックを作りました。
colab.research.google.com/gist/tomo-make…
8
「図解速習DEEP LEARNING」(amzn.to/2J0QNGF )という名前ですが、強化学習のチュートリアル(CartPole, LunaLander, ブロック崩し, DonkeyCar(自動運転))を取り上げました。towardsdatascience.com/learning-to-dr… の「5分で自動運転」を、みなさんのMac/Win手元環境で再現できます。Stable Baselinesベース。