ぜろべーすの日記

ガジェットやユーチューバー、DIY、カメラを記録する

HtoX32を使ってHTML文からテキスト文を抽出

f:id:ZB_Thinking:20210809202153j:plain

HtoX32を使ってHTML文からテキスト文を抽出

その昔、プログラミングをやっていた頃、サクラエディタや、秀丸grepを使って横断検索をしていました。最近ゲーム関連で、横断検索を行おうと思い、歴代HTMLのファイルをダウンロードして、1つのフォルダに放り込みました。リンクが時々間違っていて、ちょっと苦労しました。

 

f:id:ZB_Thinking:20210809202608j:plain

 

で、HTMLファイルに対して、直接サクラエディタで、grep(横断検索)しましたが、まともにgrepできませんでした。ヒットした行だけでなく、全文検索結果に載ってしまう。

 

そこで、表題のHTML文からテキスト文を抽出します。HTMLで表示している文章をドラッグ&ドロップでコピーして、テキスト文に入れることはできますが、64個のファイルをいちいちやっていたのでは、日が暮れてしまいます。そのでHtoX32の登場です。

 

下記のサイトから、ダウンロードします。

HtoX32の詳細情報 : Vector ソフトを探す!

 

ダウンロードしたファイルを起動して、プログラムをインストールします。

プログラムを立ち上げます。

f:id:ZB_Thinking:20210809203938j:plain

このBOXが表示されるので、ここに変換したいHTML文をドラッグ&ドロップします。

初期設定では、同じフォルダにTEXT文が生成されます。生成されたTEXT文を別フォルダに入れます。

再度サクラエディタで、grep(横断検索)します。

f:id:ZB_Thinking:20210809204449j:plain

ちゃんと複数文章を横断検索して、結果が表示されました。

検索結果の文をクリックすると、TEXT本文が表示されます。

f:id:ZB_Thinking:20210809204723j:plain

トーテムが消える現象は、スレ(その15)2017/11/13より数回報告されています。

ダメゲームは、ほんと困りますね。

 

このHtoX32は、[無断転載禁止]の文字が含まれると、下記のエラー表示になって、処理を途中でストップしてしまいます。HTMLの名前の変更は、ファイルとフォルダの両方を同じに変える必要があるため、今回は、古く数も少ないので変換しませんでした。

f:id:ZB_Thinking:20210809205801j:plain

 

Doxillionというソフトも試したのですが、全然動作しなくて、早々にあきらめました。

  

もう一歩改善したいのは、最終表示をTEXT文ではなく、HTML文で行いたいです。

ではでは

 

f:id:ZB_Thinking:20210809205329j:plain

 

プライバシーポリシー