【问题标题】:Using multiple columns of text as features for multi class classification使用多列文本作为多类分类的特征
【发布时间】:2019-06-04 20:46:27
【问题描述】:

我有一个包含多个文本列的数据集,我必须将其用作机器学习模型的特征以进行多类分类。

例如。

特征(所有文本) 目标(文本类)

feature1 feature2 feature3 feature4 -- target1

任何人都可以建议如何准备输入功能以及获得最大准确性的最佳方法是什么很清楚。

就像 news_group 分类问题一样。

【问题讨论】:

  • StackOverflow 不是代码编写服务。请通读Help Center,尤其是How do I ask a good question? 如果您遇到特定问题,请彻底研究,在这里彻底搜索,如果您仍然卡住,请发布您的代码和问题描述。另外,请记住包括Minimum, Complete, Verifiable Example。人们会很乐意提供帮助
  • @Andreas 我确实使用堆栈溢出作为代码编写服务

标签: python-3.x machine-learning multilabel-classification


【解决方案1】:

我的建议是根据文本列创建多个词嵌入,然后使用功能 API 在神经网络中组合这些嵌入。

参考链接:https://keras.io/guides/functional_api/

【讨论】:

    【解决方案2】:

    假设您有新闻的标题/段落作为输入,您想要对其类别进行分类,例如政治、游戏、商业。请注意,一条新闻可以位于多个标签下。

    为此,您可以搜索主题建模,其中目标是找到数据的类别/类别。

    这个link 将用不同的 2 分类器很好地解决这个问题。

    【讨论】:

    • 在建议的技术和建议的链接中,都是关于一列文本作为特征的。我想了解何时以文本段落格式存在多个列,必须将其作为 ML 模型的特征。
    • 其实那个链接解释的很笼统,可以扩展到多列。假设,你有三个特征,第一个特征是一个问题(假设它是编码竞争问题),第二个特征是它的级别类型,第三个特征是用户历史或用户上次访问的问题的 id,现在,你的目标就是找到这个实例的类别或类别,用户会喜欢这个问题的程度(例如五开始评分预测)。
    猜你喜欢
    • 2019-06-13
    • 2020-09-10
    • 2021-05-31
    • 2017-03-03
    • 2019-07-25
    • 1970-01-01
    • 2020-11-29
    • 2015-12-13
    • 2015-04-23
    相关资源
    最近更新 更多