【发布时间】:2021-07-18 20:07:47
【问题描述】:
在这个链接https://patents.google.com/patent/WO2012061469A3/en?oq=medicinal+chemistry我想要打印专利引用的代码,它应该给出出版号,标题。
然后我想使用 pandas 将出版物编号放在一列中,将标题放在另一列中。到目前为止,我已经使用 beautiful soup 将 HTML 文件转换为可读格式。我选择了反向引用 HTML 标记,并在该标记下打印引用的出版物编号和标题。我举了一个例子,但是我有一个文件夹,里面装满了 HTML 文件,我稍后会做。
x = soup.select('tr[itemprop="backwardReferences"]')
y = soup.select('td[itemprop="title"]') # this line gives all the titles in the document not particularly under the patent citations
print(y)
print(y)
【问题讨论】:
标签: python html pandas list beautifulsoup