【发布时间】:2012-05-13 05:00:13
【问题描述】:
我知道有无数个线程在问这个问题,但我找不到可以帮助我解决这个问题的线程。
我基本上是在尝试解析大约 10,000,000 个 URL 的列表,确保它们按照以下标准有效,然后获取根域 URL。这个列表几乎包含了你能想象到的所有东西,包括(和预期的格式化 url)之类的东西:
biy.ly/test [VALID] [return - bit.ly]
example.com/apples?test=1&id=4 [VALID] [return - example.com]
host101.wow404.apples.test.com/cert/blah [VALID] [return - test.com]
101.121.44.xxx [**inVALID**] [return false]
localhost/noway [**inVALID**] [return false]
www.awesome.com [VALID] [return - awesome.com]
i am so awesome [**inVALID**] [return false]
http://404.mynewsite.com/visits/page/view/1/ [VALID] [return - mynewsite.com]
www1.151.com/searchresults [VALID] [return - 151.com]
有人对此有什么建议吗?
【问题讨论】:
-
您并没有真正使用给定的标准验证任何内容。您是否还想进行 WHOIS 查询以查看该域是否实际存在?
-
你到底要干什么?
localhost是一个有效的 URL。someverylongdomainnamethatprobablydoesntexist.com也是,但可能不存在。 -
@yAnTar:cmets 中链接的语法是
[link text](URL)。 -
“我找不到能帮我解决这个问题的人。” - 你还不够努力。