FC2ブログ

誰もがやさしく微笑みあえる、その日まで

東日本大震災で被災された方々、心を痛めた方々に送ります。

Python(パイソン) ~その31:自然言語処理ライブラリNLTK~


 今回は、「Python(パイソン) ~その31:自然言語処理ライブラリNLTK~」です。

 Python (パイソン) はプログラミング言語です。
 オランダ人のグイド・ヴァンロッサムさんが開発しました。
 名前の由来は、イギリスのテレビ局 BBC が製作したコメディ番組『空飛ぶモンティ・パイソン』です。
 Pythonには次のような特徴があります。
  ・とても読みやすい文法
  ・直感的なオブジェクト指向
  ・広範囲に及ぶ標準ライブラリ
 詳細は、以下のリンクをご参照ください。
  http://www.python.jp/about/
  https://ja.wikipedia.org/wiki/Python

 ※注1
「オブジェクト」は、「データと処理の集まり」です。
「オブジェクト指向」は、「オブジェクト同士の相互作用としてシステムの振る舞いをとらえる考え方」です。
 以下のリンクをご参照ください。
  http://tdak.hateblo.jp/entry/20140406/1396773476

 ※注2
 「ライブラリ」は、一種の「道具箱」です。
 様々なライブラリがPythonで記述されており、テキスト処理、画像処理、音声処理、WEBから情報収集、機械学習など様々な機能を持ったライブラリ(道具箱)を利用することができます。
 →SB Creativeから出版された『Python「超」入門』p158を参照しました。
  本にご興味がある方は下記のリンクをご覧ください。
  http://www.sbcr.jp/products/4797384406.html



 私は人工知能を理解するために、Pythonを学びます。
 Pythonには、人工知能に関連したライブラリが豊富にあります。
 以下の順番で学ぶ予定です。
  ①Pythonの文法を理解し、プログラムを書けるようになること
  ②Pythonの各種ライブラリを理解し、使いこなすこと
  ③人工知能に関連したライブラリを理解し、使いこなすこと
  ④現実の問題を人工知能を使って解くこと



 今回は、NLTKについて紹介します。
 NLTKは、"Natural Language ToolKit"の略です。
 NLTKは、英語や日本語などの言語データを扱うPythonプログラムを構築するための、Pythonのライブラリです。
 分類、トークン化、ステミング、タグ付け、解析、意味論的推論などの一連のテキスト処理を実行できたり、WordNetのような50以上のコーパスを使えたりします。
 
 詳細は、下記の本やリンクをご参照下さい。
 ・『入門 自然言語処理』 O'Reilly Japan, 2010
 ・http://www.nltk.org/
 ・http://www.nltk.org/book/


 順次、NLTKでできることを紹介します。

・コーパスについて
 コーパスとは、「言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの」のことです。
 今回は、各ジャンルごとに文章がまとめられている「ブラウンコーパス」を使用します。

・各ジャンルごとの助動詞の出現頻度の解析
 比較するジャンルは、 ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor']
 比較する助動詞は、['can', 'could', 'may', 'might', 'must', 'will']
 下の表のとおり、文章のジャンルによって使われる助動詞が異なることが分かります。
  →ジャンル'news'だと、助動詞'will'が多い。
  →ジャンル'romance'だと、助動詞'could'が多い。

 




 以上、「Python(パイソン) ~その31:自然言語処理ライブラリNLTK~」でした。




スポンサーサイト



テーマ:プログラミング - ジャンル:コンピュータ

Python(パイソン) ~その30:自然言語処理ライブラリNLTK~


 今回は、「Python(パイソン) ~その30:自然言語処理ライブラリNLTK~」です。

 Python (パイソン) はプログラミング言語です。
 オランダ人のグイド・ヴァンロッサムさんが開発しました。
 名前の由来は、イギリスのテレビ局 BBC が製作したコメディ番組『空飛ぶモンティ・パイソン』です。
 Pythonには次のような特徴があります。
  ・とても読みやすい文法
  ・直感的なオブジェクト指向
  ・広範囲に及ぶ標準ライブラリ
 詳細は、以下のリンクをご参照ください。
  http://www.python.jp/about/
  https://ja.wikipedia.org/wiki/Python

 ※注1
「オブジェクト」は、「データと処理の集まり」です。
「オブジェクト指向」は、「オブジェクト同士の相互作用としてシステムの振る舞いをとらえる考え方」です。
 以下のリンクをご参照ください。
  http://tdak.hateblo.jp/entry/20140406/1396773476

 ※注2
 「ライブラリ」は、一種の「道具箱」です。
 様々なライブラリがPythonで記述されており、テキスト処理、画像処理、音声処理、WEBから情報収集、機械学習など様々な機能を持ったライブラリ(道具箱)を利用することができます。
 →SB Creativeから出版された『Python「超」入門』p158を参照しました。
  本にご興味がある方は下記のリンクをご覧ください。
  http://www.sbcr.jp/products/4797384406.html



 私は人工知能を理解するために、Pythonを学びます。
 Pythonには、人工知能に関連したライブラリが豊富にあります。
 以下の順番で学ぶ予定です。
  ①Pythonの文法を理解し、プログラムを書けるようになること
  ②Pythonの各種ライブラリを理解し、使いこなすこと
  ③人工知能に関連したライブラリを理解し、使いこなすこと
  ④現実の問題を人工知能を使って解くこと



 今回は、NLTKについて紹介します。
 NLTKは、"Natural Language ToolKit"の略です。
 NLTKは、英語や日本語などの言語データを扱うPythonプログラムを構築するための、Pythonのライブラリです。
 分類、トークン化、ステミング、タグ付け、解析、意味論的推論などの一連のテキスト処理を実行できたり、WordNetのような50以上のコーパスを使えたりします。 
 詳細は、下記の本やリンクをご参照下さい。
 ・『入門 自然言語処理』 O'Reilly Japan, 2010
 ・http://www.nltk.org/
 ・http://www.nltk.org/book/



 順次、NLTKでできることを紹介します。

・コーパスについて
 コーパスとは、「言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの」のことです。
 →https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9
 NLTKでは、様々な種類のコーパスを読み込み可能です。
 「アメリカの大統領の就任演説を年代順に並べたコーパス」も読み込み可能です。

・文章中の単語の発生位置分布
 下記の言葉がどの年代で使われているかを表示
  → "independent" : 初期~中期
  → "war", "future": 初期~後期(現代)
  → "work" : 初期~後期(現代に近づくほど増加)
  → "education", "race", "women" : 中期~後期(現代)

・文章中の単語の発生頻度の積算分布
 文章中に現れる頻度が高いベスト20を積算して表示



 このように、NLTKを用いれば、文章中の単語について様々な分析を行うことができます。英語の場合、文章中において、元々単語が分かれて表記されているので、単語分割が容易です。それに対して、日本語の場合、単語がくっついて表記されているので、単語に分割(形態素解析)する必要があります。日本語の解析については、別の機会に紹介します。




 以上、「Python(パイソン) ~その30:自然言語処理ライブラリNLTK~」でした。




テーマ:プログラミング - ジャンル:コンピュータ

Reborn-Art Festival in 石巻(その13)


 今回は、「Reborn-Art Festival in 石巻(その13)」です。

 Reborn-Art Festivalとは、「アート」「音楽」「食」を楽しむことのできる新しいお祭りです。「Reborn-Art」とは、東北の再生を指すだけでなく、参加する人それぞれの「Reborn」を願うお祭りです。
 会期:2017年7月22日(土)~9月10日(日)
 会場:宮城県石巻市(牡鹿半島、市内中心部)
 詳細は、下記のリンクをご覧ください。
 http://www.reborn-art-fes.jp/about/



 私は、今年の8/5と8/6に、Reborn-Art Festivalを見に行きました。
 今回は、「JR女川駅」について書きます。
 芸術祭を見終わった後、JR女川駅に立ち寄りました。



 JR女川駅から海を見た風景。
 駅から海に向かって商店街が並ぶ。



 駅舎は坂茂さんが設計。 
 東日本大震災時には、海上輸送用のコンテナを使った3階建仮設住宅を設計された。
  http://www.shigerubanarchitects.com/works/2011_onagawa-container-temporary-housing/index.html
 JR女川駅は、天井を覆う、緩やかなカーブを描く木材が印象的。



 「復興に向かって羽ばたいてほしいという思いを込めて、鳥が翼を広げた姿をイメージして屋根をデザインした」とのこと。
  http://www.shigerubanarchitects.com/works/2015_onagawa/news_onagawa.html



 JR女川駅は、海抜11mの高さにある。
 明治三陸津波と同レベルの津波(L1)なら被災しないが、東日本大震災と同レベル(L2)だと被災する。
 居住地は、L2津波でも被災しない高台に移転する。
 土地のかさ上げや、商業施設の設置、海のそばの跡地利用は非常に複雑。
 このような図を見るたびに、津波を考慮しなければならない三陸地方の街づくりの難しさを感じる。




 以上、「Reborn-Art Festival in 石巻(その13)」でした。





テーマ:art・芸術・美術 - ジャンル:学問・文化・芸術

Reborn-Art Festival in 石巻(その12)


 今回は、「Reborn-Art Festival in 石巻(その12)」です。

 Reborn-Art Festivalとは、「アート」「音楽」「食」を楽しむことのできる新しいお祭りです。「Reborn-Art」とは、東北の再生を指すだけでなく、参加する人それぞれの「Reborn」を願うお祭りです。
 会期:2017年7月22日(土)~9月10日(日)
 会場:宮城県石巻市(牡鹿半島、市内中心部)
 詳細は、下記のリンクをご覧ください。
 http://www.reborn-art-fes.jp/about/



 私は、今年の8/5と8/6に、Reborn-Art Festivalを見に行きました。
 今回は、「牡蠣の養殖」について書きます。
 牡鹿半島は、牡蠣の養殖が盛んです。



 芸術祭を見に行った時のこと。
 ホタテの貝殻が大量に積まれていたのを発見。
 隣には牡蠣の養殖筏用の浮き。
 気になったので、一枚パシャリ。



 調べてみると、「カキの幼生が浮遊し始める夏の初めにホタテの貝殻を海中に吊るすと幼生が貝殻に付着する」とのこと。  
  https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%AD_(%E8%B2%9D)
 ホタテの貝殻は、牡蠣養殖用の資材らしい。
 海を見ると、湾内いっぱいにカキの養殖筏が浮かぶ。



 芸術祭を見終わった後、南三陸町歌津の漁師さんにお邪魔した時のこと。
 ホタテの貝殻を海に投入する作業を手伝った。
 牡蠣は海が荒れる時期に放卵するらしい。
 ちょうど、台風五号が東北に来る直前。
 時期を見計らって、投入する時期を決めた、とのこと。
 ホタテの貝殻を海に投入したあと、沖合の小島に祭られている神様に向かって祈る。
 私も見習って、祈る。
 どうか牡蠣の幼生がホタテの貝殻に付きますように。
 
 そのあと、漁師さんのご自宅でバーベキューをご馳走になった。
 食材を焼いて、食べながら、あれこれ伺った。
 復興工事のために海のそばで作業ができなくなったこと、漁港や防潮堤工事によって海の環境が大きく変わってしまったこと、海産物の取引のこと、自分の子供たちのこと、趣味の音楽のこと、これからも続く街づくりのこと。
 どちらかというと、暗い話、結論の出ない話が多い。
 でも、ここで生きる、と決めた気持ちは揺らいでいなかった。
 自宅近くで切って乾燥させた木をくべ、火を見つめながら、とつとつと話す姿が目に焼き付いた。 





 以上、「Reborn-Art Festival in 石巻(その12)」でした。





テーマ:art・芸術・美術 - ジャンル:学問・文化・芸術

Reborn-Art Festival in 石巻(その11)


 今回は、「Reborn-Art Festival in 石巻(その11)」です。

 Reborn-Art Festivalとは、「アート」「音楽」「食」を楽しむことのできる新しいお祭りです。「Reborn-Art」とは、東北の再生を指すだけでなく、参加する人それぞれの「Reborn」を願うお祭りです。
 会期:2017年7月22日(土)~9月10日(日)
 会場:宮城県石巻市(牡鹿半島、市内中心部)
 詳細は、下記のリンクをご覧ください。
 http://www.reborn-art-fes.jp/about/



 私は、今年の8/5と8/6に、Reborn-Art Festivalを見に行きました。
 今回は、「鮎川」について書きます。
 鮎川は、牡鹿半島の先端付近に位置する、旧牡鹿町の中心地です。
 かつては、捕鯨基地として栄えていました。
 鮎川港からは、金華山など、牡鹿半島付近の島に向かう船が出ています。




 牡鹿半島では、多くの場所で防潮堤工事が進められていた。
 鮎川港も工事の真っ最中。
 防潮堤の後背地がどうなるか、気になるところ。



 近くの島に向かう船の発着所。
 二頭の鯨がお出迎え。
 写真が掲示されていたので見てみると・・・、 



 東日本大震災の記録。
 鮎川港で約9mの津波が観測された、とのこと。
 写真を見ると、このお出迎えゲートのかなり高い位置まで水没している。



 かつて、南氷洋で捕鯨船として使われた第十六利丸。
  http://www5e.biglobe.ne.jp/~kosinoku/hogeisen.htm
 フェリーの案内所で話を伺ったところ、「年々、鯨の水揚量は減っている。8/6の「鯨まつり」のために、少しだけ水揚げがあった」とのこと。 


 

 少子高齢化、石巻市への市町村合併、東日本大震災、世界的な反捕鯨など、世の中の流れや多くの出来事によって大きく街の形を変えた鮎川。
 次に来るときには、どのような姿になっているか。
 楽しみでもあり、心配でもあり。
 地方の過疎地に対して抱く共通した思い。



 以上、「Reborn-Art Festival in 石巻(その11)」でした。





テーマ:art・芸術・美術 - ジャンル:学問・文化・芸術

次のページ