FC2ブログ

誰もがやさしく微笑みあえる、その日まで

東日本大震災で被災された方々、心を痛めた方々に送ります。

瀬戸内国際芸術祭2019(その2)


 今回は「瀬戸内国際芸術祭2019(その2)」です。
 
 瀬戸内国際芸術祭は、「美しい自然と人間が交錯し交響してきた瀬戸内の島々に活力を取り戻し、瀬戸内海が地球上のすべての地域の 『希望の海』 となること」を目指し、3年に一回開催されています。
 詳細は、下記のリンクをご覧ください。
 http://setouchi-artfest.jp/about/





 私は、今年の夏に、瀬戸内国際芸術祭に行きました。
 今回は、屋島付近の印象に残ったアート作品について書きます。


 作品名「横顔」
 作者は、猪熊玄一郎さん。
 四国村ギャラリーの展示作品。
 猪熊さんの友人であるイサム・ノグチさんの横顔のレリーフ。
 なんともいえない優しげな表情。



 作品名「妻と赤い服」
 作者は、猪熊玄一郎さん。
 四国村ギャラリーの展示作品。
 ゆったりとした雰囲気の作品で、奥さんに対する愛情が伝わってくる。



 屋島山頂に向かう途中に見た風景。
 源平合戦の古戦場。
 敵味方が見守る中、那須与一が扇の的を射落としたシーンを思い浮かべる。



 作品名「S.F(Smoke and Fog)」
 作者は、金氏徹平さん。
 屋島の山頂付近に作品が点在する。



 屋島山頂には自転車で行きましたが、なめていました。
 全身汗だくになって何とかたどり着きましたが、途中で何度か心が折れかかりました。
 そのおかげもあって、屋島山頂付近から見た瀬戸内海の風景は最高でした!



 以上、「瀬戸内国際芸術祭2019(その2)」でした。


スポンサーサイト



テーマ:アート・デザイン - ジャンル:学問・文化・芸術

瀬戸内国際芸術祭2019(その1)


 今回は「瀬戸内国際芸術祭2019(その1)」です。
 
 瀬戸内国際芸術祭は、「美しい自然と人間が交錯し交響してきた瀬戸内の島々に活力を取り戻し、瀬戸内海が地球上のすべての地域の 『希望の海』 となること」を目指し、3年に一回開催されています。
 詳細は、下記のリンクをご覧ください。
 http://setouchi-artfest.jp/about/



 私は、今年の夏に、瀬戸内国際芸術祭に行きました。
 今回は、高松港付近の印象に残ったアート作品について書きます。


 作品名「国境を越えて・海」
 作者は、林舜龍(リン・シュンロン)さん。
 長い漂流の果てに流れ着いた船のイメージとのこと。
 作品の中は船倉を思わせる作り。



 作品名「Liminal Air -core-」
 作者は、大巻伸嗣さん。
 作品の配色が、フェリーとか海とか空とか周りの色となじんでいる。



 作品名「待つ人/内海さん」
 作者は、本間純さん。
 高速バスの待合所にひっそりと溶け込む。



 作品名「LEFTOVERS」
 作者は、KOSUGE1-16さん。
 北浜の小さな香川ギャラリーの作品。
 家と家の間にひっそりとたたずむ。



 作品名「Watercolors」
 作者は、ニコラ・フロックさん。
 同じく北浜の小さな香川ギャラリーの作品。
 展示スペース全体が浅い海の底のような柔らかい光に包まれている。



 3年前にも瀬戸内国際芸術祭を見に来ましたが、新しい作品が多く、新鮮な気持ちで楽しめました。



 以上、「瀬戸内国際芸術祭2019(その1)」でした。


テーマ:アート・デザイン - ジャンル:学問・文化・芸術

2019年9月8日のNHK放送: 目撃!にっぽん「初めて語る“あの日”~大槌町職員と遺族の震災8年半~」について



 今回は、2019年9月8日にNHK総合テレビで放送された、『目撃!にっぽん「初めて語る“あの日”~大槌町職員と遺族の震災8年半~」』についてです。

 朝6時頃目が覚めて、テレビをつけて、ニュースを見て、軽食をもぐもぐ食べていて、ニュースを見終わって、ボーっとテレビを眺めていたら、話したことがある人がテレビに映りました。
 その方は大槌町職員でした。
 東日本大震災当日に起きたことについて、心の中に抱えているモヤモヤを、とつとつと言葉にされていました。
 私がその方とお話ししたのは3年以上前になりますが、震災当日にどのような経験をされたか知りませんでした。
 被災された地域の方々の中には、今でも自分一人だけで抱え込んで誰にも話せないことがあることを思い知らされました。
 その地域に住む人しか理解できない、外から来た人間には分からないことが多くあることも感じました。
 震災の記憶が一生消えない方も多くいらっしゃることも放送されました。

 番組を見終わって、これまでに被災地で見聞きしたことを忘れず、被災地で結んだ絆を大事に守り続けていくことを心に刻みました。

 番組については、以下のリンク先をご参照ください。
 https://www2.nhk.or.jp/hensei/program/p.cgi?area=001&date=2019-09-08&ch=21&eid=20916&f=4359


テーマ:災害ボランティア - ジャンル:福祉・ボランティア

くずし字認識(その7) ~Kuzushiji-Kanjiについて~


 今回は、「くずし字認識(その7) ~Kuzushiji-Kanjiについて~」です。

 くずし字とは、「古典籍や古文書などで使われている文字のうち、楷書の点画を省略した手書き文字と、手書き文字をもとにした版本の文字」のことです。
 詳細は、こちらをご覧ください。
  https://www.nijl.ac.jp/pages/event/seminar/images/H26-kotenseki03.pdf

 くずし字認識とは、コンピュータを使って画像からくずし字を認識する技術です。
 OCR(Optical character recognition)技術が使われます。
 詳細は、こちらをご覧ください。
  https://ja.wikipedia.org/wiki/%E5%85%89%E5%AD%A6%E6%96%87%E5%AD%97%E8%AA%8D%E8%AD%98

 古典籍や古文書で使われる、くずし字の認識では、既存のOCRと同様な解析プロセスを用いることが想定されます。
 既存のOCRは以下のプロセスに従って解析されます。
  1:画像作成(書類をスキャナーでスキャン、カメラで撮影など)
  2:画像の前処理(コントラストや濃度調整、ノイズ除去、二値化など)
  3:レイアウト認識(文字領域や図形領域などの配置を認識)
  4:文字画像切り出し(文字領域から一つひとつの文字画像を切り出す)
  5:文字認識(文字画像から文字を推定)
  6:言語処理(文字認識結果の正しさを評価)
  7:文字データ化(解析結果を統合して文字データを出力)
 詳細は、こちらの記事をご参照ください。
  https://codezine.jp/article/detail/6607

 

 今回は、Kuzushiji-Kanjiについて書きます。

 Kuzushiji-Kanjiは、人文学オープンデータ共同利用センターが作成したデータセットです。
 特徴は以下のとおりです。
  グレイスケール画像
  漢字のくずし字3832種類のクラス分類
  漢字ごとに画像の数が異なる
  提供データはpng形式の画像のみ
  クリエイティブコモンズライセンス:『KMNISTデータセット』(CODH作成) 『日本古典籍くずし字データセット』(国文研ほか所蔵)を翻案 doi:10.20676/00000341 
 詳細は、こちらをご参照ください。
  http://codh.rois.ac.jp/kmnist/
 Kuzushiji-Kanjiは、こちらのGitHubのリンク先からダウンロードできます。
  https://github.com/rois-codh/kmnist
 Kuzushiji-Kanjiについては、"Deep Learning for Classical Japanese Literature"というタイトルで、人文学オープンデータ共同利用センターなどの研究者が論文を発表しています。
  https://arxiv.org/pdf/1812.01718.pdf



 Kuzushiji-Kanjiの画像の例を示します。
 以下に、「徒」、「然」、「草」の順番で例示します。
 楷書に近いと読めるけど、草書に近づくと一気に読めなくなります。
 漢字のくずし字の難しさが分かります。
 「徒」の一部の画像は、行人偏「彳」ではなく、さんずい「氵」に見えます。
 「然」の一部の画像は、楷書の原形が全く残っていないです!
 「草」の画像は、比較的わかりやすく崩されていますが、それでも一部の画像は読めませんでした。
 

 

 


 Kuzushiji-Kanjiは、データの提供がpng形式の画像なので、機械学習で使えるnumpy形式に変換しました。
 なお、画像の大きさが64×64pixelであり、MNISTの28×28pixelと異なっています。

 機械学習用のスクリプトには、TensorFlowのCNNのチュートリアルを流用しました。
 修正点は、png形式の画像からnumpy形式に変換するコードを追加した点、CNNのConvolutional Layerを3層に変更した点、クラス数を3832に変更した点です。
 詳細は、こちらをご参照ください。
  https://www.tensorflow.org/tutorials/estimators/cnn

 
 このCNNモデルを使って学習した結果、正答率は「0.813」でした。 
 前述の人文学オープンデータ共同利用センターの論文では、Kuzushiji-Kanjiのくずし字認識の正答率が示されていませんでしたので比較はできませんが、そこそこ高い正答率が得られました。
 以下は解答例です。
 
 ind =7266    ind =6839   ind =5983   ind =4564   ind =401
 ans =3705其  ans =1750理  ans =3048居  ans =3103夜   ans =533迄
 pred=3705其  pred=1750理  pred=3048居  pred=3103夜  pred=1163色

 ind =4022     ind =8639    ind =9767    ind =6479     ind =633
 ans =3536労  ans =2176気   ans =3051屋   ans =1163色  ans =3773云
 pred=3536労  pred=1869点   pred= 659貧   pred=1163色  pred=3773云

 表示の意味は以下のとおりです。
  ind:問題番号(index)
  ans:正解(answer)のラベル
  pred:予測(prediction)のラベル
  prob:モデルが予測した確率(probability)
  ラベル番号と漢字の対応関係「3705其」は、『3705番目のラベルは「其」』の意味です。

 この例では、ind=401、iind =8639、ind =9767の問題が誤答でした。
 それぞれ問題について、モデルが予測したtop10の確率を確認すると、以下のとおりでした。
  ※誤答例の表示の意味
   ans=533迄 8.40e-11 はそれぞれ「ラベル番号、漢字、指数表示の確率」の順に表示
   pred=モデルが予測したtop10の確率(「ラベル番号、漢字、指数表示の確率」×10セット)

・誤答例1:
ind = 401
ans =533迄 8.40e-11
pred=1163色 1.00e+00, 2818意 9.28e-09, 563造 5.06e-10, 2783息 4.40e-10, 3704兵 2.66e-10,
533迄 8.40e-11, 578達 7.25e-12, 643豆 4.34e-12, 2169毛 1.54e-12, 3760乞 1.42e-13,
正解の「迄」は上位6番目の予測確率。ただし、上位1番目の「色」が圧倒的に高い予測確率。人間が見ても、まあ、間違ってもしょうがないかな、という画像。

・誤答例2:
ind = 8639
ans=2176気 4.73e-01
pred=1869点 5.25e-01, 2176気 4.73e-01, 2177氣 2.12e-03, 3366受 2.04e-05, 988被 2.92e-06,
3489出 7.25e-07, 2763急 6.22e-07, 655貞 4.28e-07, 1015葉 1.74e-07, 3076島 1.53e-07,
正解の「気」は上位2番目の予測確率。上位1番目の「点」との差はわずか。人間が見たらなんとか予測できるレベルなので、できれば正答して欲しい画像。 

・誤答例3:
ind = 9767
ans= 3051屋 1.09e-09
pred=659貧 1.00e+00, 1122蚕 2.29e-07, 3039就 1.23e-07, 3423咎 1.11e-07, 3486処 7.19e-08,
1859盆 4.45e-08, 2547敷 2.16e-08, 3356參 1.91e-08, 3124奥 1.49e-08, 2754忽 1.01e-08,
正解の「屋」は上位10番目以下の予測確率。画数が増えて複雑な漢字になると正答することが難しそう。 


Kuzushiji-Kanjiを学習した所感は以下のとおりです。
 楷書に近い画像でも誤答が多いので、もっと学習データ数を増やす必要がありそう。
 学習結果を次に生かせるように、もっといい分析方法がありそう。あと、もっと綺麗にまとめられそう。
 やはり、漢字一文字だけだと、学習データを増やしても漢字の認識誤りは90%くらいが精一杯な感じ。
 漢字一文字の画像認識後に、文脈を考慮した文字のもっともらしさの推定が必要かも。

ひとまず、今回でくずし字認識に関する報告は終了します。
また、何か新しく面白い結果が出たら報告します。

テーマ:プログラミング - ジャンル:コンピュータ