【发布时间】:2018-10-19 01:49:15
【问题描述】:
我正在尝试抓取博客:https://blog.naver.com/ssamssam48/221271075217
我正在尝试在上面的 url 中获取博客的名称和博客的作者。如果你进入源代码,这部分信息都可以得到:
<title>용의주도미스고의 행복만들기♪ : 네이버 블로그</title>
</head>
<script type="text/javascript"
src="https://ssl.pstatic.net/t.static.blog/mylog/versioning/Frameset-
584891086_https.js" charset="UTF-8"></script>
<script type="text/javascript" charset="UTF-8">
var photoContent="";
var postContent="";
var videoId = "";
var thumbnail = "";
var inKey = "";
var movieFileSize = "";
var playTime = "";
var screenSize = "";
var blogId = 'ssamssam48';
var blogURL = 'https://blog.naver.com';
var eventCnt = '';
var g_ShareObject = {};
g_ShareObject.referer = "";
博客名称在标题标签内,作者 ID 在 var blogId = 'ssamssam48。我目前正在通过 Python 使用 Selenium,但是当我尝试 brower.title 时,我得到了帖子的标题,但没有得到源代码中显示的博客标题。至于作者的ID,我完全不知道如何到达那些var 部分
我还尝试以不同的方式处理这些信息 - 而不是查看源代码,而是查看开发人员工具栏的元素部分。在这里,您可以在带有 xpath //*[@id="blog-profile"]/div/div[2] 的包装器中找到有关作者的信息的部分,但是当我通过 Selenium 搜索它时,它说这样的元素不存在。
我认为部分问题可能是帖子的正文全部隐藏在此网页部分中,上面写着#document
谁能帮我得到博客的标题和作者的名字?还有#document 中的标签是什么意思??
【问题讨论】:
标签: python python-3.x google-chrome selenium web-scraping