【问题标题】:Tokenize and label HTML source code using Python使用 Python 标记和标记 HTML 源代码
【发布时间】:2019-04-22 14:43:57
【问题描述】:

我有一些带注释的 HTML 源代码,其中的代码类似于您使用 requests 得到的代码,并且注释是带有标记项目开始的字符索引的标签和

例如,源代码可以是:

<body><text>Hello world!</text><text>This is my code. And this is a number 42</text></body>

标签可以是例如:

[{'label':'salutation', 'start':12, 'end':25},
 {'label':'verb', 'start':42, 'end':45},
 {'label':'size', 'start':75, 'end':78}]

分别指“Hello world”、“is”和“42”这三个词。我们提前知道标签没有重叠。

我想处理源代码和注释以生成适合 HTML 格式的标记列表。

例如,它可以在这里产生如下内容:

['<body>', '<text>', 'hello', 'world', '</text>', '<text>', 'this', 'is', 'my', 'code', 'and', 'this', 'is', 'a', 'number', '[NUMBER]', '</text>', '</body>']

此外,它必须将注释映射到标记化,生成与标记化长度相同的标签序列,例如:

['NONE', 'NONE', 'salutation', 'salutation', 'NONE', 'NONE', 'NONE', 'verb', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'size', 'NONE', 'NONE']

在 Python 中完成此任务的最简单方法是什么?

【问题讨论】:

    标签: python html token


    【解决方案1】:

    您可以使用BeautifulSoup 的递归来生成所有标签和内容的列表,然后可以使用它来匹配标签:

    from bs4 import BeautifulSoup as soup
    import re
    content = '<body><text>Hello world!</text><text>This is my code. And this is a number 42</text></body>'
    def tokenize(d):
      yield f'<{d.name}>'
      for i in d.contents:
         if not isinstance(i, str):
           yield from tokenize(i)
         else:
           yield from i.split()
      yield f'</{d.name}>'
    
    data = list(tokenize(soup(content, 'html.parser').body))
    

    输出:

    ['<body>', '<text>', 'Hello', 'world!', '</text>', '<text>', 'This', 'is', 'my', 'code.', 'And', 'this', 'is', 'a', 'number', '42', '</text>', '</body>']
    

    然后,匹配标签:

    labels = [{'label':'salutation', 'start':12, 'end':25}, {'label':'verb', 'start':42, 'end':45}, {'label':'size', 'start':75, 'end':78}] 
    tokens = [{**i, 'word':content[i['start']:i['end']-1].split()} for i in labels]
    indices = {i:iter([[c, c+len(i)+1] for c in range(len(content)) if re.findall('^\W'+i, content[c-1:])]) for i in data}  
    new_data = [[i, next(indices[i], None)] for i in data]
    result = [(lambda x:'NONE' if not x else x[0])([c['label'] for c in tokens if b and c['start'] <= b[0] and b[-1] <= c['end']]) for a, b in new_data]
    

    输出:

    ['NONE', 'NONE', 'salutation', 'salutation', 'NONE', 'NONE', 'NONE', 'verb', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'size', 'NONE', 'NONE']
    

    【讨论】:

      【解决方案2】:

      目前我已经使用 HTMLParser 完成了这项工作:

      from html.parser import HTMLParser
      from tensorflow.keras.preprocessing.text import text_to_word_sequence
      
      class HTML_tokenizer_labeller(HTMLParser):
        def __init__(self, annotations, *args, **kwargs):
          super(HTML_tokenizer_labeller, self).__init__(*args, **kwargs)
          self.tokens = []
          self.labels = []
          self.annotations = annotations
      
        def handle_starttag(self, tag, attrs):
          self.tokens.append(f'<{tag}>')
          self.labels.append('OTHER')
      
        def handle_endtag(self, tag):
          self.tokens.append(f'</{tag}>')
          self.labels.append('OTHER')
      
        def handle_data(self, data):
          print(f"getpos = {self.getpos()}")
          tokens = text_to_word_sequence(data)
      
          pos = self.getpos()[1]
          for annotation in annotations:
            if annotation['start'] <= pos <= annotation['end']:
              label = annotation['tag']
              break
          else: label = 'OTHER'
      
          self.tokens += tokens
          self.labels += [label] * len(tokens)
      

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2020-11-04
        • 1970-01-01
        • 2013-10-23
        • 2014-10-31
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多