日 録

まえの記事 つぎの記事
 パリ第5大学などのチームが作成している、Corpatext というコーパスがある。
 http://www.lexique.org/public/lisezmoi.corpatext.htm
 2700件の原典から、テクストジャンルの均衡に留意して集積された3700万語からなるコーパスを自由にダウンロードして使用できる。いったんダウンロードして手元においておけば、検索に都合のよいように自分で加工できるし、ネット接続環境のないところでも、思いついたときに検索して、フランス語のだいたいの傾向を知ることができるので、たいへん便利だ。
 わたしは6月、名古屋大学に出張したとき、F先生の発表で知ったのだが、UTF-7 を使っているなど、やや特殊なファイルだったので、その後、N先生に、ISO-8859-1 に変換してもらったうえ、.rtf ファイルに変換してもらって、ワードパッドで検索をしていた。
 しかし、あるときいくつかまちがいを見つけたので、自分で修正をして上書き保存したら、どういうわけかとちゅうまでしか保存されず、ファイルそのものが尻切れとんぼのようになってしまった。アホなことに、N先生からいただいた .rtf ファイルも初期状態のままでは保存していなかった。
 またあの .txt ファイルとの挌闘か、と思って、「txtファイル 文字コード」で検索するなどして自己解決を摸索したところ、テクストエディターを使うとよいということがわかった。
 とりあえずフリーウエアを試用してみようと思い、EmEditor Free をダウンロードして、それをつかって Corpatext をひらいてみた。すると、.txt ファイルとしてひらくだけでも、文字化けなどの問題もなく、大きなファイル(.txt ファイルなのに221MB)を扱おうとしているにもかかわらず、動作も軽快だ。



 正規表現による検索もできるので、不連続形態素の例も、もらさず拾うことができる。.rtf ファイルのときよりも、かえって便利になった。
 もちろん、コンコーダンス作成など、専門的な検索には Textana などを使えばよいのだろうが、わたしの原始的な研究にとっては、当面、Em Editor Free でじゅうぶんかもしれない。
 EmEditor Free
 http://jp.emeditor.com/modules/download2/rewrite/tc_5.html

 これまで Word 以外ではあまり実現したためしのないフランス語などの特殊文字の直接入力もできる。しかもニホン語と混在で。
 しばらく EmEditor Free をつかってみて、もしもっと機能をほしいと思うようになったら、シェアウエアに移行しようと思う。
 
 [後日追記] EmEditor をつくっているエムソフトは本社がつくば市だった。びっくり。
 http://jp.emurasoft.com/profile/emsoft.htm
 しかも社長が筑波大学出身。
 http://jp.emurasoft.com/profile/yutakaemura.htm