【发布时间】:2017-12-16 14:19:03
【问题描述】:
我正在尝试生成一个 Python 程序来确定网站是否有害(色情等)。
首先,我制作了一个 Python 网页抓取程序,用于计算每个单词的出现次数。
这是一个键值字典,比如
{ word : [ # 出现在有害网站中,# 包含这些词的网站数] }.
现在我希望我的程序分析来自任何网站的文字,以检查该网站是否安全。但我不知道哪种方法适合我的数据。
【问题讨论】:
-
我的想法是,如果一个网站包含某些仅在有害网站上频繁出现的词(一定次数)-> 该网站是有害的。任何 cmet 表示赞赏!
-
如果您要求处理数据的方法和工具:学习和分类。您可以查看TensorFlow library 并检查moocs
-
Scikit-learn 可能更容易上手。完成教程。
-
@SeanHwang ,让我们在这里认真一点。我会要求您稍微修改一下您的问题并将其发布在这两个社区Artificial Intelligence 和Cross Validated
标签: machine-learning artificial-intelligence classification cross-validation text-classification