【问题标题】:How to remove lines containing similar duplicates?如何删除包含相似重复项的行?
【发布时间】:2014-01-27 22:15:56
【问题描述】:

我有一个包含 URL 的文本文件。如何删除带有 www 和非 www 的重复地址? 例如我有两个网址:

example.com
www.example.com

我想删除一个,或者从 www.example.com 中删除“example.com”,然后我可以删除所有 www.

文件包含大约 8k 个网址,因此我无法手动执行此操作

Urls 用新行分隔,或者以某种方式在 PHP 中执行,将每个分解为数组然后比较? (这将非常耗时)

【问题讨论】:

  • 如果您了解 PHP,您应该忘记 notepad++ 并使用 PHP 进行操作。一定更容易。
  • 我认为 PHP 正则表达式可以做到这一点。

标签: php notepad++


【解决方案1】:

在 Notepad++ 中搜索“www”。然后 全部替换 为空格。 然后做一个PHP文件,分解成一个数组,然后使用array_unique()

【讨论】:

    【解决方案2】:

    我首先删除了所有 www。 -> 替换所有 www。到 '' 然后删除重复: Regex: Remove lines containing

    【讨论】:

      猜你喜欢
      • 2019-09-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-10-10
      • 2020-02-04
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多