aswww log

エンジニアの技術録。アプリとかウェブとか

2013-08-19から1日間の記事一覧

phpでhtmlをparseする方法まとめ

スクレイピングバッチにかかせないのがhtmlのparse。いくつか方法をためしたのでまとめて見る。1)PDOMDocumentとかを駆使して連想配列化する方法 取得するHTMLによれば、おそらく最も手間がかからない方法。 手順は以下のとおり。・file_get_contents()でH…

PHP正規表現でエスケープがうまくいかなったらバックスラッシュを使おう

とあるサイトのスクレイピングバッチを作成している最中、正規表現で思わぬとこでハマったのでメモ。○事象 文字列"$(initLive);"を空文字に置換(つまり削除)したかった。以下のとおり実装。 preg_replace("#[\$]\(initLive\);#", '', $contents)))));デリ…