以下の記事がバズってますが、重大な間違いがありますので、訂正します。 - くずし字認識の開発にGoogleは関わっていません。今回Googleイベントで発表しただけです。 - 「翻訳」ではなく「翻刻」です。 - くずし字データセットは、国文学研究資料館が作成したものです。 twitter.com/pc_watch/statu…
このツイートで言及されている記事ですが、あまり適切でない記述があるため、データセット公開者としては広まって欲しくない記事でした。本アカウントでもこれまで言及を避けてきたのですが、これでバズってしまいました。なかなか難しい。。 twitter.com/sasakitoshinao…
【サービス公開】 日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。 IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。 mp.ex.nii.ac.jp/kuronet/
【「顔コレデータセット」公開】 日本の絵巻物や絵本に登場する様々な顔貌を切り出したデータセットを公開しました。 性別や身分などのラベルは専門家が付与済み。 画像分類や画像生成など、様々な目的にお使いください! ダウンロード: github.com/rois-codh/kaok… codh.rois.ac.jp/face/dataset/
【リリース情報】みを(miwo) - AIくずし字認識アプリを公開しました。 アプリの利用は無料です。Google PlayまたはApp Storeからインストールし、スマートフォンやタブレットなどでご利用下さい。 codh.rois.ac.jp/miwo/
【公開】華北交通アーカイブ正式版:よみがえる膨大な白黒写真 戦前の国策鉄道会社が遺した奇跡的な写真アーカイブ 1939年~1945年に中国北部で撮影された写真群35,000枚以上を、オープンデータとして全面公開します。京都大学に保管されていた貴重な写真がついに公開です! codh.rois.ac.jp/north-china-ra…
京都大学が80年前の中国の写真3万点超を展示 中国ネットユーザーから反響=中国メディア 「これらの膨大な写真を展示したのは、より多くの人に中国の歴史と日中関係に関心を持ってほしかったからだ」石川教授のこの言葉を、環球時報は冒頭と文中の2か所で引用している。 news.livedoor.com/article/detail…
【3/31 リリース】 「篆書字体データセット」を公開しました。 印文解読に有用と思われる和漢の字書・字彙類から切り出した、篆書体7,681文字種の文字画像データ106,447文字を、機械学習に利用しやすいオープンデータとして提供します。 作成:国文学研究資料館 公開:CODH codh.rois.ac.jp/tensho/
なぜAIによる「人間の代替」ができないか。機械学習の精度は決して100%にならないので、AIによるくずし字認識の結果が正しいかどうかを判定する人間が必要になるからです。逆に言えば、精度が完璧でなくてもよい全文検索などへの利用は有望であり、これが実現できるだけでも十分に革命的と言えます。
【プレスリリース】 世界初のAIくずし字認識アプリ「みを(miwo)」が2022年度グッドデザイン賞を受賞~くずし字教育や古文書による地域史料調査などにも貢献~ codh.rois.ac.jp/news/#20221026 「みを」のAIくずし字認識を新しいシステムRURI(瑠璃)に切り替え、くずし字認識の精度も向上しました。
本アカウントでは、くずし字データセット(KMNISTデータセット)のよい利用例を探して、どんどん(リ)ツイートしています。データセットの趣旨をきちんと理解した利用者が増えつつあるのは嬉しいことです。ぜひそうした記事を参考に、ご活用ください。 KMNISTデータセット:codh.rois.ac.jp/kmnist/
「くずし字認識ビューア」を公開しました。IIIFで公開されている任意の画像に対して、ディープラーニングを用いた「くずし字一文字認識」をお試しできます。tensorflow.jsを活用し、ブラウザ上でくずし字認識を実行しています。 codh.rois.ac.jp/news/
例えば日本に残る古典籍・古文書・古記録等を対象とした全文検索は、そもそも「人間がやるには大量すぎて無理」なタスクなので、「人間の代替」ではなくAIが可能性を広げます。一方、源氏物語などはすでに多くの人が研究してきた書物で、一文字単位の精度が問われるので、文字認識の有用性は限定的。
KMNIST Dataset, MNIST-compatible Japanese old character datasets, is released! Joint work with @tkasasagi, @mikb0b, @KitamotoAsanobu, Alex Lamb, Kazuaki Yamamoto, @hardmaru. arXiv paper: arxiv.org/abs/1812.01718 GitHub: github.com/rois-codh/kmni… Dataset: codh.rois.ac.jp/kmnist/
前掲の記事も、内容はともかく、くずし字への関心を高めたことには感謝しています。今後、AI(機械学習)がくずし字の世界に新たな可能性を開くことは確実です。ただし研究の目標は、AIによる「人間の代替」ではなく「人間の支援」です。この目標を共有できる研究者が増えて欲しいなと思っています。
本日公開の「江戸料理レシピデータセット」 codh.rois.ac.jp/edo-cooking/ 「クックパッド 江戸ご飯」のキッチンでも公開しています。 cookpad.com/recipe/list/14… ぜひ実際に江戸料理を作ってみて、自分のアレンジを「つくれぽ」にも投稿してください。
ARC浮世絵顔データセットを公開しました。機械学習を用いて浮世絵から顔領域を自動抽出し作成した、顔に関するデータセットです。Google Brainの @alanyttian さんが主に開発。立命館ARC @RitsARC や、NII情報学研究データリポジトリ@NIIIDR にもご協力いただきました。 codh.rois.ac.jp/ukiyo-e/face-d…
歴史地名マップを公開しました。 codh.rois.ac.jp/historical-gis… 人間・文化研究機構などが公開する「歴史地名データ」にバイナリベクトルタイル技術を適用し、多数の歴史地名を同時に表示しつつズームイン/アウトする機能を実現しました。現在の地名数は298,914件です。
世界初のAIくずし字認識アプリ「みを(miwo)」が2022年度グッドデザイン賞を受賞しました。 AIによるくずし字認識技術の進展を反映し、誰もがその技術の恩恵を受けられるように直感的に利用できるアプリとして公開したことが、高く評価されました。 g-mark.org/award/describe… #miwoapp
IIIF Curation Viewerを用いた日本古典籍キュレーションを公開しました。 codh.rois.ac.jp/pmjt/curation/ 画像は「顔貌比較」の例ですが、テーマごとに資料横断的に画像を切り取って一覧する機能は、美術史研究など様々な研究に役立つことが期待できます。
11月11日に公開した「KuroNetくずし字認識サービス」ですが、おかげさまで大変好評のようです。 ただ、これを研究開発した背景や全体像の中での役割については、まだ説明不足の面もありますので、参考文献のリストをご用意しました。 以下もお読みいただければ幸いです。 codh.rois.ac.jp/kuronet/#refer…
【リリース】KuroNetくずし字認識サービスの機能向上 1. IIIF Curation Viewerで領域指定 2. KuroNetでくずし字認識 3. (新)読み順の自動推定結果をKuroNet Text Editorで表示 4. (新)1クリックでテキスト化(コピペ可能!) 元画像から翻字テキストまで、ついに連結! codh.rois.ac.jp/news/#20200325
日本科学未来館で本日オープンする新しい常設展示「計算機と自然、計算機の自然」に、Kuzushiji-MNISTを提供しました。 codh.rois.ac.jp/kmnist/ 大量のくずし字画像で訓練した機械学習モデルが生成する新しい画像を、モニターに次々と表示する作品が展示されています。 miraikan.jst.go.jp/info/190920102…
IIIF検索エンジンのプロトタイプとなるIIIF Curation Finderを公開しました。これを活用した「顔貌コレクション」では、IIIFの画像から切り抜いた顔貌を検索できます。例えば「牛若丸」で検索すると、さまざまな絵巻物に描かれた「牛若丸」の顔貌が一覧できます。 codh.rois.ac.jp/face/
「武鑑全集」の見て楽しむ大名家デザイン集「紋・道具」では、江戸時代(寛政)264大名家それぞれの個性的なデザインを一覧できます。まだ一部ですが、色情報も追加して、色でも検索できるようにしました。添付の画像は「定紋」「行列道具」「纏」「帆幕」です。 codh.rois.ac.jp/bukan/book/200…