【发布时间】:2011-11-29 17:20:22
【问题描述】:
请问谁知道如何将此内容导入 mysql 数据库?
我想从这个 HTML 中获取数据到数据库中。我有 5000 个这样的文件,我想导入它们。问题是文件中有嵌入的 JavaScript。请查看此消息底部的 HTML 内容。
我查看了simple_html_dom,但不知道如何正确处理。
提前致谢。
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title></title>
<meta name="GENERATOR" content="Quanta Plus">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<div id="company_record">
<div class="comp_record_left">
<H1>Company name</H1>
<b>Contact:</b> Contactpersoon naam<br/>
<b>Address:</b> Adresstraatname 43<br/>
<b>Zipcode:</b> 4444 ZC<br/>
<b>City:</b> Placename<br/>
<b>Email:</b>
<script language='JavaScript' type='text/javascript'>
<!--
var prefix = 'mailto:';
var suffix = '';
var attribs = '';
var path = 'hr' + 'ef' + '=';
var encdd = 'memailadr' + '@';
encdd = encdd + 'hotmail' + '.' + 'com';
encdd = encdd + 'hotmail' + '.' + 'com';
document.write( '<a ' + path + '\'' + prefix + encdd + suffix + '\'' + attribs + '>' );
document.write( enc );
document.write( '<\/a>' );
//-->
</script><script language='JavaScript' type='text/javascript'>
<!--
document.write( '<span style=\'display: none;\'>' );
//-->
</script>Dit e-mail adres is beschermd tegen spambots. U heeft Javascript nodig om het te kunnen zien.
<script language='JavaScript' type='text/javascript'>
<!--
document.write( '</' );
document.write( 'span>' );
//-->
</script>
<br/><br/>
<img src="/images/4000001_img.jpg" alt="Company name image alt"/><br/><br/><br/>
<b>Comments:</b>
Our comppany is wonderfull this is our services<br />
service 1 <br />
service 1 <br />
service 1 <br />
service 1 <br />
</div>
<div class="comp_record_right">
<div class="rating_block">
<p class="item">
Company: <span class="fn">Company name </span>
</p>
<span class="rating">
Rating: <span class="average">5</span> (scale to
<span class="best">10</span>)
</span>
<span> After <span class="count">10</span> days.</span>
</div>
</div>
</div>
</body>
</html>
【问题讨论】:
-
如果您要解析 JavaScript 并将评估后的 DOM 插入数据库,那么这可能不是正确的方法。请改用simile.mit.edu/wiki/Crowbar 之类的内容。
-
只想将记录放入数据库,包括其中的电子邮件地址.. 不知道如何使用 Crowbar .. 非常感谢您的时间..
-
@GABRIELCIRSTEA simple_html_dom 看起来很适合探索 dom,您可以轻松获取具有特定类的任何节点。但是使用它假设您可以轻松列出所有 5000 个文件,并在它们之间拥有一致的内容。
标签: php javascript mysql domdocument