覚書

覚書です

hoge.htmlからhtmlへのリンクファイル一覧を取り出すコード

$htm = cat hoge.html -Raw -Encoding UTF8
$regex = "<\s*a\s*[^>]*?href\s*=\s*[`"']*([^`"'>]+)[^>]*?>"
$pat = $htm | select-string -pattern $regex -AllMatches
$pat.matches | %{$_.groups[1].value} | select-string "htm" 

てかここに載ってる。 [PowerShell] Web ページ上のリンク URL を抜き出す - Shigeya Tanabe's blog - Site Home - TechNet Blogs

リンク切れしてないか、みたいなことが気になる場合はこれにTest-Pathをパイプでつなげばよさげか。