【问题标题】:Classifying Twitter Text By Gender按性别对 Twitter 文本进行分类
【发布时间】:2013-08-27 15:44:25
【问题描述】:

我有几百条推文可供我使用,我希望通过获取真实姓名并查看至少 2 条推文来将每个推特用户分类为男性和女性。我已经编程从他们的个人资料中获取每个人的真实姓名,我现在正在寻找对他们的推文文本进行分类,以尝试更强有力地确认用户是 M 还是 F。我已经查看并在线搜索了文本示例分类,但不太确定从哪里开始。我还在这个链接Twitter Text With Gender Download.找到了一些非常有用的数据 任何关于如何将推文文本分类为男性或女性撰写的建议将不胜感激!我有点碰壁了。

【问题讨论】:

    标签: twitter machine-learning classification


    【解决方案1】:

    genderComputer 是@Bogdan Vasilescu 的 Python 脚本,它试图从一个人的名字(主要是名字)和位置(国家)推断出一个人的性别。该工具将来自different countries 的信息与来自gender.can open source C program for name-based gender inference 的有关小词、l33t-speak 和数据的信息相结合。

    【讨论】:

      【解决方案2】:

      你可以看看我的python性别检测项目https://github.com/muatik/genderizer

      它会尝试通过查看作者姓名和/或示例文本(例如推文)来检测作者的性别。

      【讨论】:

      • 很酷的概念,但经过测试,名称很好,但仅使用文本似乎很不准确。 “我是两个孩子的母亲”给出“无”; ''我是三个孩子的妈妈' 给'男'; ''我是五个孩子的母亲' 给出'女性'; “我喜欢在商场购物”给出“无”,甚至“我是女医生”给出“男性”。
      • 是的,我并没有声称它的准确性达到预期水平,主要是因为它需要用英文文本github.com/muatik/genderizer/issues/1 进行训练。
      • 听起来不错,你能简单地告诉我如何用你的包使用现有的微博数据集进行训练吗?
      【解决方案3】:

      您可能还想看看这个基于名字返回性别的 REST API:http://www.thomas-bayer.com/restnames/

      【讨论】:

        【解决方案4】:

        你需要一个训练集,这是一个显而易见的陈述。没有其他办法。正如您在上一个问题Using Naive Bayes Classification to Identity a Twitter User's Gender 中已经说明的那样,您可以手动创建它们,也可以以半监督方式创建它们,您可以使用外部规则(如那些真实姓名)创建训练集。

        最简单的方法是使用现有的推文数据来训练带有性别标签的分类器,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/

        其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

        【讨论】:

        • 非常感谢您帮我找到这个数据集!我真诚地感谢它。我一定会看看这个。
        • 您能否提供有关博客性别数据集的来源和更多详细信息(或指向)?我想将它用作研究项目的一部分,但我需要更多地了解它。何时/如何收集等。
        • 没关系,我找到了来源。对于任何有兴趣的人,这里描述/使用它:cs.uic.edu/~liub/publications/EMNLP-2010-blog-gender.pdf
        【解决方案5】:

        我没有任何其他由男性或女性编写的 SURE 文本数据集来帮助训练分类器。

        那么这对你来说是一个障碍。您需要使用这样的数据集执行监督学习,例如使用感知器学习器;或者您需要执行无监督学习,例如 k-means 聚类,并尝试找到您可以(有些随意地)声明为男性或女性信号的集群。在实践中,用无监督的方法区分性别几乎是不可能的,至少在没有其他现有信息、先验或可以构建的特征图的情况下。

        【讨论】:

        • 机会,k-means 或任何其他聚类将区分性别接近 0,这不是一个好建议。这只会发现任何数据分离,说话者的性别是非常微妙的东西,必须仔细训练/设计,聚类不会起作用。
        • @lejlot 同意,考虑到数据的性质,这可能是一个远景。
        • 好的,令我高兴的是,我发现了一些可能对我有用的文件。我编辑了我的原始帖子以将其包含在上面。它具有估计男性或女性的术语和用户 ID。
        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-01-31
        • 2017-09-22
        • 1970-01-01
        • 2012-10-04
        相关资源
        最近更新 更多