【发布时间】:2014-10-25 23:38:54
【问题描述】:
我正在尝试从 Youtube 播放列表页面的 HTML 代码中提取信息。 (播放列表名称、视频名称、视频链接)
我知道使用正则表达式是不好的做法,但由于该程序仅供个人使用,而且我只在播放列表中的每个视频中读取 1 行,因此不需要非常复杂。
就像我对每个视频所说的那样,我基本上只需要 1 行。
例子:
<tr class="pl-video yt-uix-tile " data-video-id="VIDEO-ID" data-set-video-id="" data-title="TITLE"><td class="pl-video-handle "></td><td class="pl-video-index"></td><td class="pl-video-thumbnail"><a href="reflink inside palylist" class="ux-thumb-wrap yt-uix-sessionlink contains-addto pl-video-thumb" data-sessionlink="sessionlink"> <span class="video-thumb yt-thumb yt-thumb-72"
我基本上只需要两个信息是 VIDEO-ID 和 TITLE。 到目前为止,我的 RegEx 模式如下所示:
Pattern pLine = Pattern.compile("<tr class=\"(?<line>.*)");
他准确找到了我需要的台词,但我每次尝试只获得 TITLE 和 VIDEO-ID 都没有结果:/
如果这是一个微不足道的问题或不应该在这里问的问题,我很抱歉。但这是我目前的情况。不,这不是功课;)
【问题讨论】:
标签: java html regex youtube extract