● ニュースを一括ダウンロードしてテキストに変換
1.ニュースを一括ダウンロード
  1.1 Irvine の準備
  1.2 MAINICHI Daily News のアーカイブからニュースファイルをダウンロードする
2.ダウンロードしたファイルから必要な部分だけを切り出す
  2.1 マクロの作成
  2.2 ドラッグ&ドロップ用ショートカットの作成
3.まとめ

1.ニュースを一括ダウンロード

 ニュースを一括でダウンロードするには、ダウンロード支援ソフトと呼ばれる、ダウンロード専門のソフトを使用します。ニュースを単にテキスト形式で保存するだけなら、ブラウザで一つ一つテキスト形式で保存したり、メモ帳などのテキストエディタにカット&ペーストしても可能ですが、例えば1日に10アーディクルを保存するとなるとけっこうな労力になります。せっかくコンピュータを使っているんですから、コンピュータらしいやり方に挑戦してみましょう。

ダウンロードマスター養成講座へジャンプ! このページには、インターネット初心者の方を対象にファイルのダウンロード方法、役立つテクニックやソフトウェアが紹介されています。「ダウンロード支援ソフトって何?」って方は必見です。

 ここでは、1例として、当サイトお薦めのニュースサイト MAINICHI Daily News から、ダウンロード支援ソフトIrvine を利用してダウンロードを行います。

● Irvine の準備
Irvine 1.1.1 (フリーソフト)
Homepage http://hp.vector.co.jp/authors/VA024591/
Irvine クリックで拡大! 1.ダウンロード(1.0.9)
  ダウンロード(1.1.1)← 1.0.9に上書きインストール用

2.インストール
  特定のフォルダに解凍

3.使用方法(後述)

対応OS Windows 95/98/Me/2000/XP
  1. まず Irvine を適当なフォルダに解凍して使用できる状態にしておきましょう。
  2. 初期設定では、Irvine でダウンロードしたファイルは、「マイドキュメント」フォルダの「Downloaded Files」フォルダ内に格納されます。変更したい場合は、メニューから、[ファイル]-[フォルダ]-[フォルダ設定] を選択し、表示された [フォルダ設定] ダイアログで[ファイル] タブを選択します。ここで保存フォルダを変更できます(図参照)。
  3. インターネット・エクスプローラ(IE)の右クリックメニューから、Irvine が利用できるように、以下の設定をしておきましょう。メニューから [ツール]-[オプション設定] を選択し、表示された [オプション設定] ダイアログから[IEメニュー]を選択、[□ Irvineへ登録]にチェックマークを入れて設定を終了しておきます(図参照)。そして、IEを一度終了して再起動します。これで右クリック・メニューに [Irvineへ登録] というメニューが選択できるようになります。
● MAINICHI Daily News のアーカイブからニュースファイルをダウンロードする
 MAINICHI Daily News では、昨日以前のニュースは、
URL=http://mdn.mainichi.co.jp/news/archive/ 以下に収められています。ブラウザで開くと、カレンダーが表示されていますね。ここで、特定の日付をクリックすると、左側に当日のヘッドライン・リストを配置した形で、その日の1番目のニュース記事が表示されます。つまり、このページには、カレンダーで指定した日付の全アーティクルへのリンクが含まれています。
ここで、右クリックから [Irvineへ登録] を選択します。

Irvine のリンク・ウィンドウ クリックで拡大! すると、別ウィンドウに、このページに関連したすべてのファイルがリストアップされて表示されます。しかし、この内、実際に記事が書かれている目的とするファイルは、 MAINICHI Daily News の場合には、西暦年月日8桁で始まり、ピリオド以下「html」の拡張子の付いたファイルだけです。別のニュースサイトを利用したい場合には、ファイル名の付け方が異なりますので、どのファイルを選択するべきかは適宜変更が必要になります。

 ウィンドウ内でエクスプローラのお作法にしたがって、必要なファイルを反転させます。クリックすれば選択できます。一連のファイルを選択したければ、先頭ファイルでクリックして、最後のファイルで Shift+クリックします。とびとびに選択したければ、Ctrl+クリックします。全て選択し終わったら、メニューから [実行]-[ダウンロード登録] を選択します。これで、Irvine 本体に、ダウンロードするべきファイルへのリンクが登録され、実際にダウンロードが開始されます。ダウンロードしたファイル群 クリックで拡大!

 ダウンロードが終了すれば、Irvine は終了して、保存フォルダを開いて見ましょう。指定したファイルがダウンロードされているか確認してください。




2.ダウンロードしたファイルから必要な部分だけを切り出す

 ダウンロードしたファイルは、html ファイルで、目的のニュース・テキスト以外にもいろいろな情報が含まれています。そこで、目的のニュース・テキストだけにファイルを編集する必要があります。この目的のために、ここではテキストエディタ K2Editor のマクロを使用します。

● マクロの作成
 まず、ダウンロードしたファイルを テキストエディタで開いて見ましょう。
テキストエディタのアイコンにドラッグ&ドロップするか、ファイルを右クリック・メニューから [プログラムから開く] を選択し、テキストエディタを選択します。

(1) ファイルの先頭から、"newsText" という文字列のある行の直前行までは不要です。
(2) "back to top" という文字列のある行から、ファイルの最後までが不要です。
(3) html ファイル特有の "<"と">"で囲まれたタグと呼ばれる部分は不要です。
(4) "<p> "というタグがおかれている部分は、改行に置き換える。
(5) 以上の編集を行った後、拡張子を txt に変更して同じフォルダに保存してエディタを終了する。

これらを考慮して、必要な部分だけを切り出すために作ったのが、以下のマクロです。
MDN_edit.mac
// ニュースのHTMLをテキスト本文に
MoveFileStart
Find("newsTitle","1","0","0","0","1","0","0")
Find(">","1","0","0","0","1","0","0")
CursorRight
CursorLeft
MoveFileStart ,SHIFT
Delete
Find("back to top)","1","0","0","0","1","0","0")
MoveLineStart
MoveFileEnd ,SHIFT
Delete
MoveFileStart
Replace("<p>","\n","1","0","1","0","4","0","1")
Replace("<[^>]+>","","1","0","1","0","4","0","1")
Replace("\n[\n]+","\n\n","1","0","1","0","4","0","1")
SaveAs(%OpenFileNameWithoutExt%.txt,0,0)
close
 このマクロは、 MAINICHI Daily News 専用ですが、他のニュースサイトの html ファイルを処理したい場合には、"newsText" と ""back to top" の部分だけの変更すれば、多くの場合は流用できると思います。
このマクロは、K2Editor のプログラムが格納されているフォルダの「Macro」フォルダに "MDN_edit.mac" という名前で保存しておきましょう。
● ドラッグ&ドロップ用ショートカットの作成
 マクロは完成しても、ダウンロードしたファイルをひとつひとつテキストエディタで開いて、マクロを実行していたのでは、これまたすごい労力になってしまいます。今度は、作成したマクロを自動実行してくれるショートカットを作ります。

 K2Editor の起動アイコンを右クリック・メニューから、[ショートカットの作成] を選択し、K2Editor のショートカットを作成して、デスクトップにでも置いておきます。できたショートカットの名前を、「MDN編集」と変更しておきましょう。このショートカットを右クリック・メニューから [プロパティ] を選択します。
ショートカットのリンク先の設定 クリックで拡大!
 表示された[プロパティ]のダイアログから、[ショートカット] タブを選択し、[リンク先] を以下のように編集して [OK] ボタンをクリックします。

◆リンク先 = "C:\Program Files\K2E\K2Editor.exe" /mMDN_edit.mac

 これは、「このアイコンをクリックすると自動的にマクロ MDN_edit.mac を呼び出して実行する」ための設定です。

 このアイコンに、MAINICHI Daily News からダウンロードした html ファイルをドラッグ&ドロップしてみましょう。同じフォルダに、拡張子が txt の同名のファイルが作られるはずです。複数のファイルを一度にドラッグ&ドロップしても構いません。

 これで、ダウンロードした複数の html ファイルを選択しておいて、この「MDN編集」アイコンにドラッグ&ドロップすれば、一回の操作ですべての html ファイルを余分な部分を編集して削除したテキストファイルができあがります。

3.まとめ 〜 ニュースを一括ダウンロードしてテキストに変換

では、以上の手順をもう一度まとめてみましょう。
  1. インターネット・エクプローラで目的のニュース群のリンクを含むページを表示します。
  2. ページ内で右クリック・メニューから [Irvineへ登録] を選択します。
  3. 表示されたウィンドウ内のリンク情報から必要なファイルだけを選択します。
  4. メニューから [実行]-[ダウンロード登録] を選択します。
  5. 保存フォルダを開いて、ダウンロードしたファイル群を選択して「MDN編集」アイコンにドラッグ&ドロップします。
どうですか? Irvine と K2Editor のマクロのおかげで、ずいぶんと簡単に目的のニュース・テキストが手に入るようになりました。

トップページへ戻る