【发布时间】:2014-12-11 15:10:05
【问题描述】:
我想提取html标签'title'和'meta'标签之间的数据,我想提取URL属性的值以及'?'之前的文本。
<html lang="en" id="facebook" class="no_js">
<head>
<meta charset="utf-8" />
<script>
function envFlush(a) {function b(c){for(var d in)c[d]=a[d];}if(window.requireLazy){window.requireLazy(['Env'],b);}else{window.Env=window.Env||{};b(window.Env);}}envFlush({"ajaxpipe_token":"AXjbmsNXDxPlvhrf","lhsh":"4AQFQfqrV","khsh":"0`sj`e`rm`s-0fdu^gshdoer-0gc^eurf-3gc^eurf;1;enbtldou;fduDmdldourCxO`ld-2YLMIuuqSdptdru;qsnunuxqd;rdoe"});
</script>
<script>CavalryLogger=false;</script>
<noscript>
<meta http-equiv="refresh" content="0; URL=/notes/kursus-belajar-bahasa-inggris/bahasa-inggris-siapa-takut-/685004288208871?_fb_noscript=1" />
</noscript>
<meta name="referrer" content="default" id="meta_referrer" />
<title id="pageTitle">
" CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN "
</title>
<link rel="shortcut icon" href="https://fbstatic-a.akamaihd.net/rsrc.php/yl/r/H3nktOa7ZMg.ico" />
即CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN 和 685004288208871。
我尝试了以下代码:
>>> soup.title.contents
输出是
[u'" CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN "']
在此我不想要字符 '[]' 、 'u' 和单引号。
另外,关于实施以下内容:
>>> soup.meta.contents
我得到的输出为:
[]
接下来我可以尝试什么?我是 BeautifulSoup 的新手。
【问题讨论】:
-
soup.title.text是你想要的。u'...'之所以存在,是因为交互式 shell 在返回值上调用repr。
标签: python html beautifulsoup extract