【发布时间】:2018-01-05 16:03:03
【问题描述】:
-module(wikipedia).
-export([main/0]).
-define(Url, "http://en.wikipedia.org/w/api.php?format=xml&action=parse&prop=sections&page=Chicago").
-define(Match, "^[A-Za-z]+[A-Za-z0-9]*$").
main() ->
inets:start(),
%% Start ssl application
ssl:start(),
{ok, {_Status, _Header, Body}} = httpc:request(?Url),
T = re:run(Body, ?Match, [{capture, all_but_first, binary}]),
io:format("~s~n",[T]).
我想使用正则表达式匹配将维基百科页面的内容存储在“T”中。然后我要去取标题。但是上面的代码说不匹配。我不知道如何使用 erlang 获取维基百科页面的标题。请帮忙。(我是erlang的新手)。 [我想要类似的东西:https://stackoverflow.com/questions/13459598/how-to-get-titles-from-a-wikipedia-page]
【问题讨论】:
-
哪一行出现
nomatch错误?您可以在问题中包含堆栈跟踪吗? -
另外,该页面是 xml,所以我建议使用 erlang.org/doc/apps/xmerl/xmerl_ug.html 来解析 XML 并提取您想要的内容。
-
输出显示不匹配。@Stratus3D
-
嗯,好的,所以
io:format/2调用正在打印nomatch,这意味着这是T的值。这意味着re:run/3调用没有找到任何与您的正则表达式匹配的内容。 -
这是有道理的,因为您的正则表达式除了字母和数字外不允许任何内容,但 XML 将包含许多其他字符。那个正则表达式应该在做什么?
标签: regex erlang wikipedia erlang-shell erlangweb