【问题标题】:Which language is best for this editoral and op-ed aggregator project?哪种语言最适合这个社论和专栏聚合器项目?
【发布时间】:2009-08-11 16:58:22
【问题描述】:

我正在为我想关注的一堆英文报纸的社论和专栏页面寻找一个聚合器。目标是生成一个 HTML,它只是我想在国际上关注的十几份报纸的社论集合,以便我可以在早上打印出来。由于这是一个非常狭窄的要求,我找不到任何可用的东西,所以我正在考虑自己写一个。

现在,我以前做过大约 8 年的程序员(现在我在获得 MBA 学位后被摇摆到华尔街的“黑暗面”)。我今天对编程的了解不够,无法在脚本语言上做出一个好的选择,所以我不确定哪种语言最好(性能不是关键问题,用于解析 HTML、文本处理以及获取数据的库实时网页更重要)。

PS:我不介意几乎只在 Win32 环境中学习一门新语言(以前我广泛使用 x86 ASM、C 和 Visual C++/MFC)。

【问题讨论】:

    标签: html aggregators


    【解决方案1】:

    使用 Python 和出色的 lxml 库来抓取 HTML。它支持 CSS 选择器,非常方便,而且速度相当快。它也能很好地处理损坏的 HTML。

    【讨论】:

    • 确保查看 lxml.html 模块。文档可能有点混乱,所以只需尝试在交互式 Python shell 中使用它 - 这就是我学会使用它的方式。
    【解决方案2】:

    解释型语言在代码生成方面做得很好,你应该考虑 Perl 或 Ruby

    【讨论】:

      猜你喜欢
      • 2013-02-08
      • 2017-07-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-09-16
      • 1970-01-01
      • 2016-01-06
      • 1970-01-01
      相关资源
      最近更新 更多