PHP Simple HTML DOM Parserでタイトルタグ内の文字列を取得する:PHP

  • 投稿
  • 編集

ライブラリをインクルードしてたった数行で、WEBスクレイピング(HTML内を部分的に取り出し、表示する)ができる恐ろしいPHPライブラリを見つけました。

ライブラリは上記よりダウンロードできます。

<?php

    include_once($_SERVER['DOCUMENT_ROOT']."/lib/simplehtmldom/simple_html_dom.php");
    
    $html = file_get_html('http://hoshiya.biz');  
       
    foreach($html->find('title') as $row)
    $row = $row->plaintext;
    $row = mb_convert_encoding($row, mb_internal_encoding(), "auto" );  
    echo $row;

?>

たったこれだけで取得できます。

find()で取り出したい条件や要素を記入するだけです。

恐ろしく簡単で便利なのはタグはもちろん、idやclassも指定できるし、そのタグ自体を抽出することもできます。

検索結果の一覧や、リンク集なども楽に抽出ができそうな感じです。

その他の使い方などは「PHP Simple HTML DOM Parserマニュアルページ」を参照してみてください。

参考サイト

関連記事