須山敦志 Suyama Atsushi(@sammy_suyama)さんの人気ツイート(リツイート順)

あえて何も言いません 令和の「データサイエンティスト」に必要な能力 toyokeizai.net/articles/-/639…
機械学習や深層学習が「ズル」して学習データセットで良い成績を出すという話は結構根深いです。例えば画像中の猫・犬を分類するタスクで、DNNで誤って犬と判定された猫は芝生の上にいたり。学習データ中では屋外の芝生にいるのは犬の方が圧倒的に多かったということなんでしょう。
良くある「年収は正規分布に従わないので平均だけ見てもしょうがない」という話は驚くほど今の機械学習応用の問題点を指していると思います.平均値みたいな過度に要約された値を堅固なファクトであるかのように扱い,背後にある構造を無視してしまえば,ほとんど無意味な結論に向かって行きます.
機械学習は大量に計算資源を投入して誤った発見を量産しまくっていますね。残念ながらp値ハッキングと全く同じ構造。 BBC News - AAAS: Machine learning 'causing science crisis' bbc.com/news/science-e…
AIに大量データを食わせればガシャガシャポンで人間が気付かない「真実」を出してくれるみたいに勘違いされがちですが,今人気のAI技術はむしろ因果関係を無視して相関だけ抽出するようなものばかりなので,人間以上に結果が差別的になりがちです.
「ルールベース」って偽物AIの代名詞みたいに言われてますが、本来理想とすべきは明確なルールや法則を抜き出すことなんであり、それができないから機械学習やら確率やら使って何とかその場をしのいでいる、という見方もできます。
昔先生から指導を受けてたとき「進捗を確認したいから定期MTGをしたい」ではなく「自分の言ったことが間違っている可能性があるから定期的に話したい」と言われたのが好きで、自分でも真似して使っている
近日MLPシリーズで刊行予定の「ベイズ深層学習」の目次を貼ります. 1章,はじめに 2章,ニューラルネットワークの基礎 3章,ベイズ推論の基礎 4章,近似推論手法 5章,深層学習モデルのためのベイズ推論 6章,深層生成モデルとベイズ推論 7章,深層学習とガウス過程
↓機械学習、思考停止ツールになっている気配があるのが恐ろしい。「人が考えなくても、大量データと処理能力が圧倒的に高い計算アルゴリズムが全部うまくやってくれる」っていう主張も聞きますが、実際うまくやってくれているかどうかすらまともに判断できていないケースがほとんどです。
たぶんベイズ全然わかっていないのにここまで熱く語れるってなんかそういう才能ってすごいですね twitter.com/genroncafe/sta…
「機械学習が簡単にできるようになった」というよりか,「簡単にできる部分だけを指して機械学習と呼ぶようになった」の方が感覚的に近いです.
高校で物理や化学などは実験の授業があるのに、数学に実験の授業があまりないのはなぜだろう。まずプログラミングの導入を行なって、ちょっとグラフを描いてみたり数列の挙動を調べてみたりする。組み合わせを数え上げたり確率を計算してみても良さそう。
内容のほんの一部ですが、「ベイズ深層学習」で取り扱うモデルたちの関係性です。線形回帰からスタートして深層ガウス過程(教師なし)までスッキリ繋がります。
同じことは実は人間でも起こっています。人種差別なんかがそう。対象となる人自体の本質を見ずに、表面的な特性だけで判断をする。こうすることによって人類は予測の「省力化」を行っています。表面的な相関や過去の事例だけで物事を判断すると未来(=学習に使っていないデータ)で大間違いを起こす。
確率分布を使って解析する理由は、「現実世界には偶然のものがあるから」ではなく「まだ情報が足らずに決定的に扱えないから」の方が近いですね。
「深層学習」を「再帰的一般化線形モデル」って呼んでしまったらブームが終わりそうな気がしている
前にもちょっと触れましたが、今AIや機械学習を学ぶ理由って皮肉なことに「活用すること」と同じくらい「騙されないこと」が重要になってきており、「騙されないためのAI学」みたいな本を書きたいと思っています。思っているだけです。
Juliaを使うとガウス過程回帰が実質10行程度で実験できる。
個人的な感触としてディープラーニングは、一部の特定の応用領域を除き、ビジネス面では完全に終わっています。 twitter.com/yutakashino/st…
そもそも統計手法や機械学習で何かを「立証する」「保証する」っていうのはできなくて、深く考え始めると何もできない感覚がしてきます。個人的には「限られたデータ・情報・時間・費用・計算リソースを活用して精いっぱい妥当な意思決定を行うための方法」くらいに考えています。
データサイエンスにおいて「価値のある取り組み」を選定するのは困難を伴います。ここで「何が価値か?」を考え出すと泥沼にハマりがちなので、逆に明らかに価値のない例をいくつか挙げるほうがチェックリストとして機能しやすいと思っています。↓
新著出ます。様々な確率的プログラミング言語を紹介しつつ、階層ベイズ、潜在変数モデル、ガウス過程、ベイズ深層学習あたりのPython実装を解説します。 Pythonではじめるベイズ機械学習入門 (KS情報科学専門書) amazon.co.jp/dp/406527978X/
「必要なルールを全部システムに記述できればいい」が前回のAIブームの失敗で,「必要なデータを全部システムに食わせればいい」が今回のAIブームの失敗になるかもしれないですね.
「扱っている現象が複雑な非線形でモデル化が困難なため、機械学習のXXX法を使って自動で関係性を抽出して予測します」みたいなモチベをよく見ますが、やめておいた方が良いと思います。多くの場合、困難を避けているだけで解決していません。ラボ環境だけで良い数値を叩き出して、本番で失敗します。
記事書きました.Pythonでベイズ統計始めたい人向けの入門記事です. Pythonで作って学ぶ統計モデリング|AIdrops bigdata-navi.com/aidrops/2726/