【发布时间】:2019-04-22 14:43:57
【问题描述】:
我有一些带注释的 HTML 源代码,其中的代码类似于您使用 requests 得到的代码,并且注释是带有标记项目开始的字符索引的标签和
例如,源代码可以是:
<body><text>Hello world!</text><text>This is my code. And this is a number 42</text></body>
标签可以是例如:
[{'label':'salutation', 'start':12, 'end':25},
{'label':'verb', 'start':42, 'end':45},
{'label':'size', 'start':75, 'end':78}]
分别指“Hello world”、“is”和“42”这三个词。我们提前知道标签没有重叠。
我想处理源代码和注释以生成适合 HTML 格式的标记列表。
例如,它可以在这里产生如下内容:
['<body>', '<text>', 'hello', 'world', '</text>', '<text>', 'this', 'is', 'my', 'code', 'and', 'this', 'is', 'a', 'number', '[NUMBER]', '</text>', '</body>']
此外,它必须将注释映射到标记化,生成与标记化长度相同的标签序列,例如:
['NONE', 'NONE', 'salutation', 'salutation', 'NONE', 'NONE', 'NONE', 'verb', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'NONE', 'size', 'NONE', 'NONE']
在 Python 中完成此任务的最简单方法是什么?
【问题讨论】: