HtoX32を使ってHTML文からテキスト文を抽出
その昔、プログラミングをやっていた頃、サクラエディタや、秀丸のgrepを使って横断検索をしていました。最近ゲーム関連で、横断検索を行おうと思い、歴代HTMLのファイルをダウンロードして、1つのフォルダに放り込みました。リンクが時々間違っていて、ちょっと苦労しました。
で、HTMLファイルに対して、直接サクラエディタで、grep(横断検索)しましたが、まともにgrepできませんでした。ヒットした行だけでなく、全文検索結果に載ってしまう。
そこで、表題のHTML文からテキスト文を抽出します。HTMLで表示している文章をドラッグ&ドロップでコピーして、テキスト文に入れることはできますが、64個のファイルをいちいちやっていたのでは、日が暮れてしまいます。そのでHtoX32の登場です。
下記のサイトから、ダウンロードします。
ダウンロードしたファイルを起動して、プログラムをインストールします。
プログラムを立ち上げます。
このBOXが表示されるので、ここに変換したいHTML文をドラッグ&ドロップします。
初期設定では、同じフォルダにTEXT文が生成されます。生成されたTEXT文を別フォルダに入れます。
ちゃんと複数文章を横断検索して、結果が表示されました。
検索結果の文をクリックすると、TEXT本文が表示されます。
トーテムが消える現象は、スレ(その15)2017/11/13より数回報告されています。
ダメゲームは、ほんと困りますね。
このHtoX32は、[無断転載禁止]の文字が含まれると、下記のエラー表示になって、処理を途中でストップしてしまいます。HTMLの名前の変更は、ファイルとフォルダの両方を同じに変える必要があるため、今回は、古く数も少ないので変換しませんでした。
Doxillionというソフトも試したのですが、全然動作しなくて、早々にあきらめました。
もう一歩改善したいのは、最終表示をTEXT文ではなく、HTML文で行いたいです。
ではでは