【发布时间】:2019-03-26 10:13:49
【问题描述】:
此应用程序将充当搜索引擎,从不同(至少 200 个)学术机构(包括大学、学院和其他培训机构)中提取与教师相关的信息。这包括教师姓名、最高资格、专业领域、专业类型(教学、研究、辅导等)、经验(以年为单位)和隶属关系,并将它们存储在数据库中。
我要从200个网站获取数据,也就是说每个网站都有自己的标签和其他东西,每个网站的正则表达式都不一样,我该怎么做,有人可以帮忙吗?
【问题讨论】:
-
到目前为止你有什么尝试?
-
非常感谢您的回答,我就是这样做的。
-
$regexp = '!(.* ?)!'; preg_match_all($regexp, $name_url, $name); $f_name = $name[1];返回 $f_name;
-
但是如你所知,每次正则表达式都会改变,我该如何操作这个东西?
-
这是网页抓取,不是网页抓取。如果每个站点都不相同,您将不得不为每个站点编写自定义代码。另外,您是否获得了 200 家机构的书面许可?你需要它,否则,它是违法的,受版权保护。
标签: javascript php regex oop