Skip to main content

Documentation Index

Fetch the complete documentation index at: https://docs.agentify.jp/llms.txt

Use this file to discover all available pages before exploring further.

このガイドでは、PR TIMES の AI 関連ニュースページを例に、Agentify の公式ツール「Webスクレイピング」の使い方と設定ロジックを説明します。

リンクを抽出

一覧ページから対象記事の URL を正規表現で抽出します。

本文を取得

抽出した各記事ページからタイトル、本文、公開日を取得します。

ナレッジ化

取得結果を Agent で整形し、ナレッジベースへ保存します。

Webスクレイピングの基本ロジック

Webスクレイピングツールは、ツール画面から公式ツールとして作成・利用できます。典型的な利用シーンは、複数のタイトルやリンクを含む一覧ページから対象ページを抽出し、それぞれの詳細ページにある必要な情報を取得するケースです。
一覧ページの URL を入力
  -> 正規表現で対象リンクを抽出
  -> 抽出したリンク先を順番に取得
  -> 必要な項目をフィールドとして保存
  -> Agent で整形してナレッジベースに保存
公式ツールの Webスクレイピングを選択する画面

1. 新しいスクレイピングタスクを作成する

Agentify にログインし、左側メニューから「ツール」>「公式ツール」>「Webスクレイピング」を開きます。画面右上の「新規タスクの確認」から、新しいスクレイピングタスクを作成します。
Webスクレイピングタスクを新規作成する画面

2. スクレイピング設定

2.1 取得対象ページを設定する

まず、情報源となる Web ページの URL を決めます。この URL は、複数の記事タイトルやリンクを含む一覧ページである必要があります。 本ガイドでは、PR TIMES の AI キーワードページを例にします。
https://prtimes.jp/topics/keywords/AI
この URL を「取得 URL」に入力し、タスク名には後から識別しやすい名前を設定します。例として prtimes-news のような名前を付けます。入力後、「次へ」をクリックしてフィールド設定へ進みます。
PR TIMES の AI 関連ニュースページを取得 URL に設定する画面

2.2 記事リンクを抽出する

最初のフィールドでは、一覧ページから取得対象の記事リンクを抽出します。対象 URL には多くのリンクが含まれるため、記事ページの URL パターンを確認し、正規表現で必要なリンクだけを絞り込みます。

フィールド key

article_links を設定します。正規表現で抽出した記事リンク一覧を表す key です。

フィールド説明

Webページ など、抽出内容が分かる説明を設定します。

フィールドタイプ

リンクを抽出するため、フィールドタイプは Webページ を選択します。

抽出ルール

getHtmllinksregexall を組み合わせて対象 URL を抽出します。
スクレイピングフィールドを追加する画面
記事 URL は /main/html/rd/p/xxxxx.xxxxx.html の形式を含むため、以下のルールを設定します。
getHtml
links
regex=>https://prtimes\.jp/main/html/rd/p/\d+\.\d+\.html
all
PR TIMES 記事リンクの URL パターンを確認する画面
記事リンク抽出ルールを設定する画面
getHtml の後に regex で記事リンクを抽出できない場合でも、ブラウザ上で対象リンクが表示されていることがあります。その場合は JS レンダリングを有効にしてから links を抽出してください。
JS レンダリングを有効にする設定画面
JS レンダリング後にリンク抽出を確認する画面

2.3 記事ページ内のフィールドを取得する

article_links のフィールドタイプを Webページ にすると、リンク先ページに対して追加フィールドを設定できます。「Webページ」の横にある「取得」をクリックし、記事詳細ページから必要な情報を取得します。
Webページフィールドの取得ボタンをクリックする画面
ここでは、記事ページから以下の3項目を取得します。
  • 記事タイトル
  • 記事本文
  • 公開日
「記事タイトル」を例にすると、article_links の下にフィールドを追加し、key を title、フィールド説明を タイトル、フィールドタイプを string にします。抽出ルールは XPath を使って設定します。
XPath や regex の書き方は、クローラーマニュアル を参照してください。ページ構造の確認には AI を併用することもできます。
記事詳細ページのフィールドを追加する画面
タイトル取得フィールドの具体設定画面
項目設定値
フィールド keytitle
フィールド説明ニュースタイトル
フィールドタイプstring
getHtml
xpath=>//h1[@id='press-release-title']/text()
get
項目設定値
フィールド keypress_release_body
フィールド説明ニュース本文
フィールドタイプstring
getHtml
xpath=>//div[@id='press-release-body']/allText()
get
項目設定値
フィールド keypublished_at
フィールド説明公開日
フィールドタイプstring
getHtml
xpath=>//time/text()
get
すべてのフィールド設定が完了したら、「エクスポート設定」で連携する Agent を選択します。この Agent が取得内容を加工し、ナレッジベースへ保存します。
スクレイピング結果を処理する Agent を選択する画面

3. タスクを開始する

スクレイピングタスク一覧へ戻り、タスクを開始する前に定期取得の間隔を設定します。間隔は「分」「時間」「日」の単位で指定できます。設定後、「開始」をクリックするとタスクが実行されます。 実行後は、「取得リンク数」で対象ページが取得できているかを確認します。あわせて、連携先のナレッジベースに期待した形式で保存されているかも確認してください。
スクレイピングタスクの定期取得間隔を設定する画面
スクレイピングタスクの実行結果を確認する画面

4. 連携 Agent の設計

スクレイピングでは、各記事ページから取得した titlepress_release_bodypublished_at が key 名に対応する変数として Agent に渡されます。また、正規表現で抽出したリンク URL も変数として利用できます。 本ガイドでは、記事ごとに1つのナレッジベーススライスとして保存する構成を想定します。

スライス本文

記事本文 press_release_body を保存します。

スライスタイトル

記事タイトル、URL、公開日を組み合わせて保存します。
この加工は、Agent のプランニング内で「定型回答」モジュールなどを使って整形し、その結果をナレッジベース保存モジュールへ渡す構成にできます。
スクレイピング結果をナレッジベース保存用に整形する Agent 構成

インポート用テンプレート

Agent プランニング画面でインポートできます。インポート後は「ナレッジベースに保存」モジュールの保存先を、自分のアカウントのナレッジベースへ変更してください。

5. 結果を確認する

最後に、ナレッジベース内で取得した記事情報が想定通りに保存されているかを確認します。以下は保存結果の例です。
PR TIMES ニュースをナレッジベースに保存した結果