【发布时间】:2017-06-19 02:35:39
【问题描述】:
我正在学习用python3爬行。 我只想从 html 代码中提取文本。
ex) 在 html 中
<div class='titleArea'>
"~~~~~ text~~~~"
</div>
所以,我写了这段代码来提取文本
title_temp = soup.findAll('div',class_='titleArea')
print(title_temp)
** 我知道 print(title_temp[0].text) 但没关系
结果是
这张图片的内容是
[<div class='titleArea'>
@#$!$^!@#!@^#!$^!@#!@#!@#
</div>]
[<div class='titleArea'>
@#$!$^!@#!@^#!$^!@#!@#!@#
</div>]
***有两个List的原因是重复的。
我不想要那个文本。
我该怎么办?
我认为是 utf-8 的问题。
对吗?
所以,
我写的
# -*- coding: utf-8 -*-
但是,没有效果。
【问题讨论】:
-
张贴网址并请求代码
-
“我不想要那个文本”是什么意思。 ?请发布您想要的确切输出?
-
url 是 hri.co.kr/board/…,我想精确地确定每个帖子的标题唯一的 '~~~~~ text~~~~'
标签: python python-3.x web-crawler utf