2011年1月27日木曜日

Macでサイト全部ダウンロード

必要に迫られて、あるサイトを一括してダウンロードしました。

そのときに検索して調べたところ
SiteSucker
が便利そうでした。
フリーです(Donation)。

パスをローカルに書き換えてくれるのでナイスです。

[Mac] 論文コーパス作成 CasualConc

(※一部、自分の理解不足があったため追記あり)
論文を書いてます。

ものの本に「concordance software(コンコーダンサー)」を用いて自身のコーパスを作れと書いてあった。
コーパスというのは専門分野における自分で作る文章データベースみたいなもの(かな)。

ということでMac用を検索してみたら次のがヒット。
CasualConc
http://sites.google.com/site/casualconcj/
2011年1月現在、beta版があって日本語化されているようなのでそちらをダウンロード。
2013年11月現在、β 1.9.7 があり、OSX Mavericks で問題なく動作しています。

作者のコメントに「(研究に使用してもらってもかまいませんが、検索結果に責任を持てない、ということです。自分では使ってますが。)」旨書いてました。
とりあえず研究初動のコーパス作成が目的なので使ってみます。
ここでの「研究に使用」というのは言語学の方々の研究で頻度分析をする、などの話でした。私が使うような専門分野の論文コーパスとしての使用はごくごく簡単な使用方法なのでこれには当たらないです。

〜試用後追記〜
とても素晴らしいアプリケーションです。
ダウンロードした論文PDFからテキストを抽出(Adobe Acrobat Proを使用しました。なお製作者のサイトにPDFや様々なファイル形式からのテキスト抽出ソフト CasualTextractor もあります。本当に素晴らしい。)しなくてはならず、コピペ後に余分な改行の削除など割りと労力が要った(実は後で気づいたのですが CasualConc 側で改行を文末としないという設定ができたので不要でした)のですが、それができてしまえば論文執筆に必須のセルフコーパスができました。
おかげで執筆途中の文面がかなり改善されました。
制作者の方に感謝です!

ひとつ注意点をあげるとすれば、名詞の複数形、動詞の過去形など、それも一緒にピックアップできればなお良いですね。
例えば、animals は animal で検索しても表示されません。(設定次第では可能?)
どのような動詞の活用形が正しいか調べたくてもひとつひとつ入力してみるしかないですね。
コンコーダンサーとしてこのような仕様が適切かどうかは別として、機能的に含まれれば…最高です。

<2014年11月12日追記> animalsをanimalで検索できるようでした。私の調査不足です、作成者の方ごめんなさい。
この機能のことをLemmaと言うらしいです。
https://sites.google.com/site/casualconcj/tsukaikata/lemma
ただし、2014年11月12日現在、Yosemiteで動作する Version 1.9.8 では上記説明のような「Lemmaファイルを選択する」画面が出てこないですね…また私が何か見落としているのかもしれませんが。