Meta AIが「テキストからビデオを生成できる」デモ、論文を公開。 #stablediffusion のようなText-to-ImageのDiffusion Modelから、時空間方向に拡張。64x64画像を16フレ生成後、疑似3Dの畳み込み、Attentionを使いフレーム補間、超解像。764x764のビデオに仕上げる。
Stable Diffusionまるわかり! Colabノートブック Grokking SDというノートブックが #stablediffusion の画像生成メカニズム理解にとても良く、日本語訳しました。シルバーウィーク? のお供に! 仕組みまでコードを実行しつつ理解したい、表現の幅を広げたい人へおすすめです。 (リンクはリプライ欄へ)
様々な画像生成AIの試し方 (LINE bot、WebアプリからColab、自前環境構築まで) について、「それぞれの違い」「無償/ 有償枠」「制約」「利用モデルの違い」等、見取り図にまとめました。 何から試そう、次はこれを試そうといったガイドとなれば。(1/2) #stablediffusion #midjourney #技術書典
動画エンコーディングが分かるとても良い解説記事。 YouTubeなどで何気なくお世話になる動画圧縮。 非圧縮なら140GBもの映像(720p, 1時間)が、なぜ360MB程(たった0.02%!)になるのか? 丁寧に、順を追った日本語の説明で理解できる。H.265(HEVC)とH.264の差も取り上げている。 github.com/leandromoreira…
スタンフォード大の"CS 448B Visualization (2020 Winter)" がすごい。 データ可視化の体系的講義。どう図表に変換するかの理論、探索的データ分析、ネットワーク分析等の実践と盛り沢山。 スライドに加え、Observable(JavaScript), Colab(Python)どちらでも例を試せる。 magrawala.github.io/cs448b-wi20/
MusicMap musicmap.info がすごい。1870年から今までのポピュラー音楽の系譜まとめサイト。 音楽ジャンル相互の関わり、各ジャンル・サブジャンルの説明だけでなく、具体例のトラック、試聴YouTubeリンクまである。いくらでも時間が溶ける。 フォークやクラシック版があれば知りたいな。
音楽(mp3)を最大5トラック(ボーカル/ピアノ/ドラム/ベース/その他)に分離できるSpleeter。conda/pipいずれかで入れ、すぐに使える。 github.com/deezer/spleeter 想像以上にしっかり分離され驚きます。すぐ試せるColabノートブックを作りました。 colab.research.google.com/gist/tomo-make…
「図解速習DEEP LEARNING」(amzn.to/2J0QNGF )という名前ですが、強化学習のチュートリアル(CartPole, LunaLander, ブロック崩し, DonkeyCar(自動運転))を取り上げました。towardsdatascience.com/learning-to-dr… の「5分で自動運転」を、みなさんのMac/Win手元環境で再現できます。Stable Baselinesベース。