Webスクレイピング実践ガイド

このガイドでは、PR TIMES の AI 関連ニュースページを例に、Agentify の公式ツール「Webスクレイピング」の使い方と設定ロジックを説明します。

リンクを抽出

一覧ページから対象記事の URL を正規表現で抽出します。

本文を取得

抽出した各記事ページからタイトル、本文、公開日を取得します。

ナレッジ化

取得結果を Agent で整形し、ナレッジベースへ保存します。

Webスクレイピングの基本ロジック

Webスクレイピングツールは、ツール画面から公式ツールとして作成・利用できます。典型的な利用シーンは、複数のタイトルやリンクを含む一覧ページから対象ページを抽出し、それぞれの詳細ページにある必要な情報を取得するケースです。

一覧ページの URL を入力
  -> 正規表現で対象リンクを抽出
  -> 抽出したリンク先を順番に取得
  -> 必要な項目をフィールドとして保存
  -> Agent で整形してナレッジベースに保存

1. 新しいスクレイピングタスクを作成する

Agentify にログインし、左側メニューから「ツール」>「公式ツール」>「Webスクレイピング」を開きます。画面右上の「新規タスクの確認」から、新しいスクレイピングタスクを作成します。

2. スクレイピング設定

2.1 取得対象ページを設定する

まず、情報源となる Web ページの URL を決めます。この URL は、複数の記事タイトルやリンクを含む一覧ページである必要があります。本ガイドでは、PR TIMES の AI キーワードページを例にします。

https://prtimes.jp/topics/keywords/AI

この URL を「取得 URL」に入力し、タスク名には後から識別しやすい名前を設定します。例として prtimes-news のような名前を付けます。入力後、「次へ」をクリックしてフィールド設定へ進みます。

2.2 記事リンクを抽出する

最初のフィールドでは、一覧ページから取得対象の記事リンクを抽出します。対象 URL には多くのリンクが含まれるため、記事ページの URL パターンを確認し、正規表現で必要なリンクだけを絞り込みます。

フィールド key

article_links を設定します。正規表現で抽出した記事リンク一覧を表す key です。

フィールド説明

Webページ など、抽出内容が分かる説明を設定します。

フィールドタイプ

リンクを抽出するため、フィールドタイプは Webページ を選択します。

抽出ルール

getHtml、links、regex、all を組み合わせて対象 URL を抽出します。

記事 URL は /main/html/rd/p/xxxxx.xxxxx.html の形式を含むため、以下のルールを設定します。

getHtml
links
regex=>https://prtimes\.jp/main/html/rd/p/\d+\.\d+\.html
all

getHtml の後に regex で記事リンクを抽出できない場合でも、ブラウザ上で対象リンクが表示されていることがあります。その場合は JS レンダリングを有効にしてから links を抽出してください。

2.3 記事ページ内のフィールドを取得する

article_links のフィールドタイプを Webページ にすると、リンク先ページに対して追加フィールドを設定できます。「Webページ」の横にある「取得」をクリックし、記事詳細ページから必要な情報を取得します。

ここでは、記事ページから以下の3項目を取得します。

記事タイトル
記事本文
公開日

「記事タイトル」を例にすると、article_links の下にフィールドを追加し、key を title、フィールド説明を タイトル、フィールドタイプを string にします。抽出ルールは XPath を使って設定します。

XPath や regex の書き方は、クローラーマニュアルを参照してください。ページ構造の確認には AI を併用することもできます。

記事タイトルの抽出ルール

項目	設定値
フィールド key	`title`
フィールド説明	`ニュースタイトル`
フィールドタイプ	`string`

getHtml
xpath=>//h1[@id='press-release-title']/text()
get

記事本文の抽出ルール

項目	設定値
フィールド key	`press_release_body`
フィールド説明	`ニュース本文`
フィールドタイプ	`string`

getHtml
xpath=>//div[@id='press-release-body']/allText()
get

公開日の抽出ルール

項目	設定値
フィールド key	`published_at`
フィールド説明	`公開日`
フィールドタイプ	`string`

getHtml
xpath=>//time/text()
get

すべてのフィールド設定が完了したら、「エクスポート設定」で連携する Agent を選択します。この Agent が取得内容を加工し、ナレッジベースへ保存します。

3. タスクを開始する

スクレイピングタスク一覧へ戻り、タスクを開始する前に定期取得の間隔を設定します。間隔は「分」「時間」「日」の単位で指定できます。設定後、「開始」をクリックするとタスクが実行されます。実行後は、「取得リンク数」で対象ページが取得できているかを確認します。あわせて、連携先のナレッジベースに期待した形式で保存されているかも確認してください。

4. 連携 Agent の設計

スクレイピングでは、各記事ページから取得した title、press_release_body、published_at が key 名に対応する変数として Agent に渡されます。また、正規表現で抽出したリンク URL も変数として利用できます。本ガイドでは、記事ごとに1つのナレッジベーススライスとして保存する構成を想定します。

スライス本文

記事本文 press_release_body を保存します。

スライスタイトル

記事タイトル、URL、公開日を組み合わせて保存します。

この加工は、Agent のプランニング内で「定型回答」モジュールなどを使って整形し、その結果をナレッジベース保存モジュールへ渡す構成にできます。

インポート用テンプレート

Agent プランニング画面でインポートできます。インポート後は「ナレッジベースに保存」モジュールの保存先を、自分のアカウントのナレッジベースへ変更してください。

5. 結果を確認する

最後に、ナレッジベース内で取得した記事情報が想定通りに保存されているかを確認します。以下は保存結果の例です。

リンクを抽出

本文を取得

ナレッジ化

​Webスクレイピングの基本ロジック

​1. 新しいスクレイピングタスクを作成する

​2. スクレイピング設定

​2.1 取得対象ページを設定する

​2.2 記事リンクを抽出する

フィールド key

フィールド説明

フィールドタイプ

抽出ルール

​2.3 記事ページ内のフィールドを取得する

​3. タスクを開始する

​4. 連携 Agent の設計

スライス本文

スライスタイトル

インポート用テンプレート

​5. 結果を確認する

Webスクレイピングの基本ロジック

1. 新しいスクレイピングタスクを作成する

2. スクレイピング設定

2.1 取得対象ページを設定する

2.2 記事リンクを抽出する

2.3 記事ページ内のフィールドを取得する

3. タスクを開始する

4. 連携 Agent の設計

5. 結果を確認する