Category Archives: htmlSQL

htmlSQLを使ってタイトルタグ内の文字列を取得する:PHP

指定したURLのHTMLソースから目的のタグ内の文字列をSQL文で取り出すことができるライブラリを見つけました。 今までは正規表現を使って文字列を取得していましたが、このライブラリならタグはもちろん、idやclassまで検索対象にできるスグレモノで、SQLの文法と配列が理解できれば、いろいろなことに使えそうです。 このように「HTML内を部分的に取り出し、表示する」ことを「Webスクレイピング」というそうです。 使用準備 ライブラリをダウンロードして任意のディレクトにアップロード。 利用するファイルに「snoopy.class.php」と「htmlsql.class.php」をインクルード。 使用例 <?php include_once($_SERVER['DOCUMENT_ROOT']."/lib/snoopy.class.php"); include_once($_SERVER['DOCUMENT_ROOT']."/lib/htmlsql.class.php"); function getTitle($url){ $wsql = new htmlsql(); // connect to a URL if (!$wsql->connect(‘url’, $url )){ print ‘Error while connecting: ‘ . $wsql->error; exit; } // execute a query: if (!$wsql->query(‘SELECT … Continue reading

Posted in htmlSQL, PHP, WEB | Tagged | Leave a comment