【发布时间】:2014-05-22 02:34:11
【问题描述】:
我目前正在编写一个类似于食谱的 java 程序。我已经建立了所有东西,但不幸的是,我没有食谱。
我四处寻找,发现http://allrecipes.com/。我查看了来源,发现了包含成分、食谱和营养成分的行。
我记得在终端中使用了grep,我很快发现lynx 很有用。这是我到目前为止所拥有的(对于示例页面)。
第一次提到成分后获得100行:lynx -dump "http://allrecipes.com/Recipe/Potato-Crunchy-Tenders/" | grep -n -A 100 "Ingredients"
获取“成分”的行号:lynx -dump "http://allrecipes.com/Recipe/Beef-Tips-and-Noodles/" | grep -n "Ingredients" | cut -f1 -d:
我做了几个例子,发现食谱在“Ingredients”行之后的 6 行开始,每隔一行一个新的成分,像这样:
"135:Ingredients [66]编辑并保存
136-
137- 原始食谱制作 6 份 [67]更改份
138- 制作 6___________________ 份 (*) 美国 ( ) 公制 [68]调整食谱
139-([69]帮助)
140- * [ ]
141- 1/2 杯油炸植物油
142- * [ ]
143- 1 1/2 杯牛奶
144- * [ ]
145- 1 个鸡蛋
146- * [ ]
147- 1(7.6 盎司)包装大蒜味速溶土豆泥 "
我的目标是以某种方式获取文本文件中的成分,以便我可以用 java 解析(我对此很满意)。我希望对食谱做同样的事情。
这样,我可以为许多食谱自动执行此操作,因此我不必手动获取所有这些。
有没有更简单的java方法呢?
干杯。
【问题讨论】:
-
您可能想要解析网站的 html,jsoup 等工具可以帮助您。如果这是我的项目,我会在 Google 上搜索,下载并试一试。