>  > 【42230-00】 クローム・キャリパーロータカバー ハーレー純正パーツ
Help Center 【USA在庫あり】 ワイセコ Wiseco ピストン 86年以降 XL883 圧縮比9.5:1 1200ccボア +.010インチ オーバーサイズ 162256 JP
Webページから情報を抽出する(スクレイピング)

【42230-00】 クローム・キャリパーロータカバー ハーレー純正パーツ

著者: サポートチーム
1週間以上前に更新

この記事では、Webページから情報を抽出する方法を説明します 【 BRIGHTZ アリオン 240系 245系 CCFL内蔵 クリスタルクリアーフォグランプ Hタイプ 】 【 FOG-H-052 】 【 FOG-H-053 】ZZT240 ZZT245 NZT240 AZT240 ★BOSCH・eXchangeリビルト・国産車用オルタネーター★代表純正品番:【トヨタ】27060-67150代表他社品番:【デンソー】102211-205BOSCH品番:0986JR02449UB※コア返却必須です。

情報の抽出には主に2つの方法があります。スクレイピング(ScrapePage)アクションを用いる方法と、テキストを取得(GetText)アクションを用いる方法です。2つのアクションの違いについては下記で詳しく説明します。

どんな場合にスクレイピングが便利なのか

厳密には異なりますが、「人がコピー&ペーストを行うときにロボットはスクレイピングをする」と考えればイメージしやすいかと思います。ただし、スクレイピングの場合は人間がコピー&ペーストするよりも多くの情報を取得することができ、ここがスクレイピングの便利なところです。

抽象的な説明だけではわかりにくいので、どのような情報が取れるのか実際に見てみましょう NISMO マルチファンクションブルーミラー フェアレディZ Z33(全車) 9636S-RNZ30。
(最後に具体例ワークフローのソースコードを添付するので、ぜひお試しください。)

サッカーの試合結果をスクレイピングで取得する

「UEFA Champions League Liverpool vs Paris Saint-Germain (18 SEPT 2018)の試合結果情報を取得する」というワークフローでスクレイピングを実演したいと思います。合わせて、スクレイピング(ScrapePage)テキストを取得(GetText)の両方を使って違いを説明したいと思います。

では早速ワークフローを組んでみましょう。

【42230-00】 クローム・キャリパーロータカバー ランドクルーザー ハーレー純正パーツ MX/レオニスMX


まず、Google検索 ( https://www.google.co.jp/webhp?hl=ja&sa=X&ved=0ahUKEwi-pNOjtcbdAhUK9LwKHTonAAQQPAgD )を開いて「UCL 結果 リヴァプール PSG」を検索します。

【42230-00】 クローム・キャリパーロータカバー ハーレー純正パーツ
RSR RS-R ダウンサス ホンダ N BOXカスタム JF3 H29/9~ FF Ti2000 DOWN H425TD 一台分 RS-R ローダウン サス!【代引不可】SWAGE-LINE(スウェッジライン):ステンレスメッシュ ブレーキホース フロントホースキット GAFB162.ラジエターホース APP ラジエターホースシステム 青 E-S13/E-KS13/E-RS13/E-KRS13 シルビア/180SX E-S13/E-KS13/E-RS13/E-KRS13 ブルー NISSAN 日産 ニッサン ラジエターホース【店頭受取対応商品】,AERO WORKZ/TK STYLE ヴェルファイア 30系 前期 Zグレード カーボンリップスポイラー

【42230-00】 クローム・キャリパーロータカバー ハーレー純正パーツ

検索するためにはブラウザを開く(OpenBrowser)アクション文字入力(TypeText)アクションを用います。

文字入力のCSSセレクタには検索欄のセレクタを用いてください。また、「UCL 結果 リヴァプール PSG」はスペースも含め全て全角で記述してください。(半角が混じると、英語の検索ページとして表示されてしまうケースがございます。)

2.Enterキーを叩いて検索する

文字入力が完了したら検索してみましょう。検索には検索ボタンをクリックする方法とEnterキーを叩く方法がありますが、今回はEnterキーを叩く方法で検索をかけてみたいと思います。

キーを送信(SendKeys)アクション(クーポン配布中) EARLS OILクーラーホースSET ラウンド #6 9-13R ZEPHYR400/X/ZEPHYR750/ZR-7 [サーモ対応] 14057238C 【送料無料】(北海道・沖縄除く) 【安心の宅配便配送 送料無料】 バックカメラ CCD + リアカメラ入力ハーネス クラリオン Clarion NX311 2011年モデル 埋め込み 丸型ガイドライン有り 【純正ディーラーナビ 配線 端子 ケーブル 変換コード 車用品 カー用品】 YOKOHAMA ADVAN dB V552 ヨコハマ アドバン デシベル サマータイヤ 215/60R16 MANARAY SCHNERDER StaG ホイールセット 4本 16インチ 16 X 6.5 +48 5穴 114.3 をドラッグ&ドロップしてみてください。

ブラウザ欄には文字入力(TypeText)アクションのアウトプットを入れてください。CSSセレクタも文字入力(TypeText)と同じもので結構です。キー欄には["Enter"]と入力してください。このアクションでは叩くキーを["◯"]で囲います。( ex ["a","i","u","e","o,","Enter"] )

検索に成功するとこのような画面が表示されます 15インチムーブL150、160系ENKEI オール オールフォー KCR マシニングブラック 5.0Jx15トランパス LUK 165/55R15。

3.スクレイピングで情報を取得する

さて、いよいよスクレイピングです。

スクレイピング(ScrapePage)アクションを使用します フジツボ FGK レガリスK マフラー アトレーワゴン バンパースリット無車 4WD TA-S330G H18/11~H19/09。

今回はスクレイピングだけではなく

クローム・キャリパーロータカバー ハーレー純正パーツ クローム・キャリパーロータカバー ハーレー純正パーツ 【42230-00】

テキストを取得(GetText)アクションも使って、其々の違いを比較したいと思います。また、スクレイピングには文字情報のみ抽出(text_only)というモードもあるので、こちらも合わせて、3つの方法を比較したいと思います。

スクレイピングする部分はこの部分です。

スクレイピングを行うためにはスクレイピングする部分のセレクタが必要です。下の画像で示すようにGoogle Chromeのディベロッパーツールで対象部分のソースコードを右クリック、Copy selectorでセレクタを得ることができます 【送料無料 VW(パサート)】 PIRELLI ピレリ ウィンター アイスアシンメトリコ 215/55R17 17インチ スタッドレスタイヤ ホイール4本セット 輸入車 EUROTECH ユーロテック ガヤ エリージ(グロスブラック) 7J 7.00-17。実際に取得したセレクタはこちらです。「 #sports-app 」
(ここはやや難しいので、今回は上記のセレクタをコピー&ペーストして使用してください。)



取得したセレクタを貼りつけると、このようになっているかと思います。


同様に、文字情報のみ抽出(text_only)をオンにしたアクションをドラッグ&ドロップしてください。


最後に、テキストを取得(GetText)アクションをドラッグ&ドロップしてください。セレクタはスクレイピングと同じものです。

以上でワークフローは組み上がりました!
実行を押して、其々のアクションで取れる情報にどのような違いがあるか見比べてみましょう。


スクレイピングの結果

スクレイピング(文字情報のみ抽出)の結果

テキストを取得の結果


いかがでしょうか?

其々のアクションで、情報の取れ方が違うことがわかるかと思います。テキストを取得では人の目に見える部分だけが取れているのに対して、スクレイピングでは目に見えない部分の情報も取れています。また、スクレイピング(文字情報のみ抽出)では、文字列の間に「\n(改行)」があり、文の構造の情報が入っていることがわかります。

スクレイピング、スクレイピング(文字情報のみ抽出)、テキストを取得をどのように使い分ければ良いのか

ここまでの説明で、其々のアクションの違いはご理解頂けたかと思います。では、其々の違いをどうやって使い分ければ良いのか?

最初に述べたように、スクレイピングは多くの情報を取れます。例えば、スクレイピングした部分にはYoutubeの動画リンクが挿入されていて、この情報はスクレイピングを用いないと取得できません 。ただし、スクレイピングで取得したテキストには「\n(改行)」が入ってしまい、邪魔となることもあります。なので、文字列の情報のみが欲しい場合はテキストを取得アクションを使用します。スクレイピング(文字情報のみ抽出)はあまり使う機会はないかもしれませんが、リストになっている文章を取得する時に用います。

【42230-00】 クローム・キャリパーロータカバー ハーレー純正パーツ

以上でスクレイピングの説明は終わりです!
お疲れ様でした!!

ソースコード

# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: 'https://www.google.co.jp/webhp?hl=ja&sa=X&ved=0ahUKEwi-pNOjtcbdAhUK9LwKHTonAAQQPAgDTS-C1730S '

# 文字入力
+type_text_1:
  action>: TypeText
  browser: +open_browser_1
  selector: 'input[name="q"]'
  text: 'UCL 結果 リヴァプール PSG'
  clearValue: false

# キー叩く
+send_keys_1:
  action>: SendKeys
  browser: +type_text_1
  selector: 'input[name="q"]'
  keys: ["Enter"]

# スクレイピング
+scrape_page_2:
  action>: ScrapePage
  browser: +send_keys_1
  selector: '#sports-app'
  text_only: false

# スクレイピング
+scrape_page_1:
  action>: ScrapePage
  browser: +send_keys_1
  selector: '#sports-app'
  text_only: true

# テキストを取得
+get_text_1:
  action>: GetText
  browser: +send_keys_1
  selector: '#sports-app'

今回のワークフローとログ例