【发布时间】:2026-01-05 19:40:02
【问题描述】:
我有一些新闻标题,我想提取标题中涉及的公司名称。这是一个例子
headlines = [
"Chicago Policemen's Annuity & Benefit Fund hired Chicago Equity Partners to manage $50 million in active U.S. smidcap value equity.",
"Belmont Contributory Retirement System is searching for at least one U.S. small-cap equity manager to run initially up to $5 million.",
"Phoenix Employees' Deferred Compensation Board will begin a search for an investment consultant before the end of February."
]
如您所见,此处的模式是感兴趣的公司名称是首个大写单词链。第二个大写单词链是二级公司。
在我们的示例中,我想返回两个与提取连续大写字母相关的变量。因此,它将返回“芝加哥警察年金和福利基金”、“贝尔蒙特缴费退休制度”和“凤凰城员工延期补偿委员会”
有没有办法在 Python 中使用正则表达式进行这种提取?
【问题讨论】:
-
第一个例子不应该停在
Chicago Policemen's Annuity吗? “&”不是大写字母。 -
你试过什么?请发布您的代码并描述它当前产生的内容与您希望它产生的内容。此外,与号
&不是大写字母,因此不符合您所描述的意图。 -
&是一个字母吗?我认为它是非词绒毛分隔词。 -
为什么每个人都对这个 & 符号如此感兴趣? OP的意图很明确,不是吗?