【问题标题】:Finding ID from different Tweet URL从不同的推文 URL 中查找 ID
【发布时间】:2020-04-03 00:38:54
【问题描述】:

我正在从推文 URL 中获取 id,

url=["https://twitter.com/bbcworldservice/status/1240666763425128449?ref_src=twsrc%5Etfw", 
    "https://twitter.com/BILOSuperSaver/status/1240578769255051264/photo/1", 
   "https://twitter.com/Rangoli_A/status/1227792415676780545"]

for i in url:
   tid=i.split('/')[-1]
   print(tid)

输出,我得到的是

1240666763425128449?ref_src=twsrc%5Etfw
1
1227792415676780545

我知道,这是获取ID的基本方法,我也尝试了其他方法,结果是一样的

预期输出

1240666763425128449
1240578769255051264
1227792415676780545

【问题讨论】:

    标签: python regex python-3.x beautifulsoup


    【解决方案1】:

    您可以使用 ID 紧跟在单词“status/”之后这一事实,您的程序所做的是将每个字符串用“/”分割并取该列表中的最后一项,但 ID 并不总是排在最后- 如您列表中的第一个 URL 所示:

    "https://twitter.com/bbcworldservice/status/1240666763425128449?ref_src=twsrc%5Etfw"
    

    从您列表中的示例中,我将假设 ID 位于单词“status”之后并被该单词分割,取第二项(因为我们想丢弃之前的内容)。然后,我们将使用“/”再次拆分并取第一项(因为我们想丢弃后面的内容):

    for i in url:
        tid = i.split('status/')[1].split('/')[0].split('?')[0]
        print(tid)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-04-04
      • 1970-01-01
      • 2016-02-09
      • 1970-01-01
      • 2020-09-07
      相关资源
      最近更新 更多