HtoX32を使ってHTML文からテキスト文を抽出

f:id:ZB_Thinking:20210809202153j:plain

その昔、プログラミングをやっていた頃、サクラエディタや、秀丸のgrepを使って横断検索をしていました。最近ゲーム関連で、横断検索を行おうと思い、歴代HTMLのファイルをダウンロードして、１つのフォルダに放り込みました。リンクが時々間違っていて、ちょっと苦労しました。

f:id:ZB_Thinking:20210809202608j:plain

で、HTMLファイルに対して、直接サクラエディタで、grep（横断検索）しましたが、まともにgrepできませんでした。ヒットした行だけでなく、全文検索結果に載ってしまう。

そこで、表題のHTML文からテキスト文を抽出します。HTMLで表示している文章をドラッグ＆ドロップでコピーして、テキスト文に入れることはできますが、６４個のファイルをいちいちやっていたのでは、日が暮れてしまいます。そのでHtoX32の登場です。

下記のサイトから、ダウンロードします。

ダウンロードしたファイルを起動して、プログラムをインストールします。

プログラムを立ち上げます。

f:id:ZB_Thinking:20210809203938j:plain

このBOXが表示されるので、ここに変換したいHTML文をドラッグ＆ドロップします。

初期設定では、同じフォルダにTEXT文が生成されます。生成されたTEXT文を別フォルダに入れます。

再度サクラエディタで、grep（横断検索）します。

f:id:ZB_Thinking:20210809204449j:plain

ちゃんと複数文章を横断検索して、結果が表示されました。

検索結果の文をクリックすると、TEXT本文が表示されます。

f:id:ZB_Thinking:20210809204723j:plain

トーテムが消える現象は、スレ（その１５）2017/11/13より数回報告されています。

ダメゲームは、ほんと困りますね。

f:id:ZB_Thinking:20210809205801j:plain

Doxillionというソフトも試したのですが、全然動作しなくて、早々にあきらめました。

もう一歩改善したいのは、最終表示をTEXT文ではなく、HTML文で行いたいです。

ではでは

f:id:ZB_Thinking:20210809205329j:plain

ぜろべーすの日記