【问题标题】:Node Scraping text from HTML节点从 HTML 中抓取文本
【发布时间】:2021-07-01 19:55:43
【问题描述】:

那是网址:https://www.zebrafell.de/starkwind_check.html 我想提取(用于我的天气页面):
Letzte Aktualisierung: Mo, 07. Jun, 21:31
阿默西
Amtliche WARNUNG vor STARKWIND
Mo, 07. Jun, 20:37 Uhr
Es treten Gewitter und Windböen mit Geschwindigkeiten um 45 km/h (13m/s, 25kn, Bft 6) auf.
这是网页上的相关剪辑:

...<body><div id="main"><div id="wettertab">
<p><strong>Letzte Aktualisierung: Mo, 07. Jun, 21:31 Uhr</strong></p>
<h1 id="Bayern">Bayern</h1>
<h2 id="Ammersee">Ammersee</h2>
<table>..<thead>
<tr><th>Schlagzeile</th><th>G&uuml;ltig von</th><th>G&uuml;ltig bis</th><th>Beschreibung</th></tr></thead>
<tr><td>Amtliche WARNUNG vor STARKWIND</td><td>Mo, 07. Jun, 20:37 Uhr</td><td></td><td>Es treten Gewitter und Windb&ouml;en mit Geschwindigkeiten um 45 km/h (13m/s, 25kn, Bft 6) auf.
</td></tr></table>...

我还没有找到解决它的正确方法......(这是我第一次 - 我尝试使用 got 和 JSDOM)

 const vgmUrl = "https://www.zebrafell.de/starkwind_check.html";
 const response = await got(vgmUrl);
 const dom = new JSDOM(response.body);
 console.log("test", dom.window.document.querySelectorAll("Ammersee"));

但结果总是空的...我什至找不到“Ammersee”?! 也许有人有时间向我展示基础知识...谢谢 loz(我厌倦了尝试和错误)

【问题讨论】:

  • 就我个人而言,我会使用 Puppeteer 库进行网页抓取,但您可以从这篇文章中获得一些灵感 stackoverflow.com/questions/58052001/…
  • 还有为什么你有querySelectorAll("Ammersee")而不是querySelectorAll("#Ammersee")

标签: node.js dom


【解决方案1】:

我将如何使用 Puppeteer 库来做到这一点:

const puppeteer = require('puppeteer');     // First line
const browser = await puppeteer.launch();

const page = await browser.newPage();
await page.goto('https://www.zebrafell.de/starkwind_check.html');

const myElement = await page.evaluate(() => {
   return document.getElementById('Ammersee').outerHTML;
});

console.log(myElement);

await browser.close();

如果您想要一个工作演示,请复制我的所有代码(不包括第一行)并将其粘贴到此处https://try-puppeteer.appspot.com/,然后单击RUN IT

【讨论】:

  • 感谢您的帮助.. 它提供了一个条目!我必须更详细地查看 DOM!
猜你喜欢
  • 2018-05-03
  • 1970-01-01
  • 1970-01-01
  • 2021-11-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多