【问题标题】:Scraping an HTML table in Common Lisp?在 Common Lisp 中抓取 HTML 表格?
【发布时间】:2011-01-22 02:14:29
【问题描述】:

我想从包含在 HTML

中的网页中提取一些信息。怎样才能把所有的表信息提取成一个不错的|分开的文件? 作者|书籍|年份|评论 比尔·布赖森|几乎所有事物的简史|2004 斯蒂芬霍金|时间简史|1998|还没读完。

理想情况下,我想要一个函数,将 URL 和输出文件作为参数,然后给出上述输出。

(defun 提取表 (url 文件名) (从 html 表中提取(获取网页 url))) (提取表“http://www.mypage.com”“output.txt”)

上述输出的示例 HTML 输入:

Lisp

欢迎使用 Lisp

作者 图书 年份 评论
比尔·布莱森 几乎所有事物的简史 2004
史蒂芬·霍金 时间简史 1998 还没读完。
正文>

标签: common-lisp


【解决方案1】:

Drakma 开始获取数据。要解析这件事,您可能会发现 cxml 很有帮助。或者更好:您可以使用closure-html,它应该解析任意HTML 4。closure-html 包的Common-Lisp.net 页面有一个screen scraping example

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-01-04
    • 1970-01-01
    • 2011-03-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-08-15
    • 1970-01-01
    相关资源
    最近更新 更多