【问题标题】:Open Source Address Scrubber?开源地址洗涤器?
【发布时间】:2008-11-14 23:03:26
【问题描述】:

我已经输入了一组姓名和地址以及 Excel 电子表格,但问题是输入地址的许多人以许多不同的非标准格式输入它们。我想在将所有地址转移到我的数据库之前清理这些地址。环顾四周,我在地址清理器(解析器或格式化程序)的方式中真正发现的是Semaphore 提供的那个。就我的目的而言,我真的不需要所有这些,也不想支付软件的许可费。有什么免费和/或开源的东西可以帮我清理吗?

【问题讨论】:

  • 或许可以提供一些示例数据。

标签: database street-address


【解决方案1】:

自从我从事邮寄业务以来...

可邮寄地址不是地理编码。一个允许 USPS 将邮件投递到,另一个告诉您该点在哪里。 USPS 不会对其可邮寄地址进行地理编码。它对于标记要定位的人员区域/区域很有用。

您购买的不是软件许可,而是数据。邮局有很多规则,特别是如果您在商业上这样做并试图获得比头等舱更好的价格。有关完整的规则列表,请参阅 USPS Domestic Mail Manual。 USPS 一直在拉链之间移动拉链和家庭。该公司(我为之工作)向 USPS 支付其更新的邮件列表的费用,以便我们可以更新我们的数据库。每周一次。

回到你的问题。您想将数据更改为通用格式(street -> st)还是在寻找重复数据并只想存储真实的可邮寄地址?

通用格式;您可以将地址分成几部分,清理空白并应用术语/翻译字典。然后应用一些 sql 来查找重复项。请记住,家庭(1 个主要街道)不同于人(john doe,1 个主要街道)。

对于可邮寄的地址,你们中的一些人(读者)不会喜欢这个答案,但你想要信息而且这不是免费的。有人花费时间或金钱来获取和维护这些列表。所以,找一个商业模式来为这份名单筹集资金,或者找一个会为你做这件事的人。 Data and mail management

实际上,Semaphore 相当便宜,请记住,地址 db 必须每季度更新一次,每季度 19 美元相当便宜。

另一个地址清理产品。 SAP PostalSoft。不过我不知道数据的成本是多少。

【讨论】:

    【解决方案2】:

    我实际上在地址验证行业工作……Jim 的回答是明智的接受。不幸的是,对于我们这些预算较低的人来说,USPS 的官方数据非常昂贵,而且系统也很复杂。 (我根据经验知道,因为我工作的公司 SmartyStreets 提供的地址验证比大多数公司都低。)

    在这里我能做的最好的帮助是推荐一个低成本/免费的替代方案(取决于您的数量),例如 LiveAddress,其中地址列表没有最低购买量,而且 API 超级便宜且超级- 比较容易。

    【讨论】:

    • 更新:地址验证 API 服务(位于 SmartyStreets)现在可以免费使用,如果您仍然需要一个好的解决方案。
    【解决方案3】:

    【讨论】:

      【解决方案4】:

      我使用过的大多数软件都非常昂贵(或者换句话说,营销部门很天真并且预算巨大)。

      这类工作是地理编码的先驱。这个linked Wiki article 包含一个地理编码软件列表,其中一些是免费的。如果幸运的话,一些免费的可能包括地址标准化例程。

      如果你找到一个好的,请告诉我。

      【讨论】:

        【解决方案5】:

        我们使用 Accuzip。它比大多数解决方案(约 700 美元/年)便宜得多,并且每两个月更新一次。它使用 USPS 地址标准化 API,为此我编写了一个 .NET 包装器。这让我可以实时运行它(Accuzip,默认情况下,只带有批处理模式)。

        【讨论】:

          猜你喜欢
          • 2016-05-09
          • 2011-08-10
          • 1970-01-01
          • 1970-01-01
          • 2014-04-29
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2013-05-15
          相关资源
          最近更新 更多