【问题标题】:Reading Text from an Instagram Profile从 Instagram 个人资料中读取文本
【发布时间】:2020-07-11 21:39:48
【问题描述】:

问题是如果用户输入 Instagram URL,如何从 Instagram 个人资料中读取文本。我尝试使用 java.net.URL,但得到的只是一大堆 HTML 文本。我对处理网页知之甚少,因此我正在寻求一些有关如何从个人资料(简历、帖子标题、cmets)中获取文本的帮助。

谢谢!

【问题讨论】:

标签: java html url


【解决方案1】:

您可以使用抓取工具(Scrapy of Parsehub 等)。只是提醒一下,这违反了 Instagram 的服务条款,所以要小心 提示提示

【讨论】:

    【解决方案2】:

    您好,您可以将html代码拆分为html标签前后的字符串。

    并将列表中的第二个字符串用于第一次拆分,并将列表中的第一个字符串用于第二次拆分。

    但是你需要一些html知识才能知道什么是html标签,以及如何找出需要拆分的标签。

    玩得开心,希望能帮到你!

    【讨论】:

      【解决方案3】:

      您可以使用 jsoup (https://jsoup.org/) 从 html 内容中提取特定标签。

      这是一个从 HTML 正文中提取 h1 标签内容的示例。

              // Parse HTML String using JSoup library
              String HTMLSTring = "<!DOCTYPE html>"
                      + "<html>"
                      + "<head>"
                      + "<title>JSoup Example</title>"
                      + "</head>"
                      + "<body>"
                      + "<table><tr><td>
                             <h1>HelloWorld</h1></tr>"
                      + "</table>"
                      + "</body>"
                      + "</html>";
       
              Document html = Jsoup.parse(HTMLSTring);
              String title = html.title();
              String h1 = html.body().getElementsByTag("h1").text();
      

      您可以从以下博客文章中找到更多示例 https://javarevisited.blogspot.com/2014/09/how-to-parse-html-file-in-java-jsoup-example.html

      希望这有帮助。

      【讨论】:

        猜你喜欢
        • 2015-08-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2017-09-19
        相关资源
        最近更新 更多