【问题标题】:Git commit classificationGit 提交分类
【发布时间】:2020-02-07 08:25:04
【问题描述】:

我想可视化我们项目中提交的统计信息。我想根据一些指标将它们分为几组,例如提交消息或更改的代码行数。

我可以使用任何系统的方法吗?我在为提交消息分类选择正确的关键字和为大小分类选择适当的阈值时遇到了麻烦。

【问题讨论】:

  • 您是在寻求技术帮助(例如,我如何从 Git 中获取这些数据?)或统计方法(例如,我如何区分“小”提交和“大”提交? )?
  • 我要求统计方法

标签: git github statistics gitlab classification


【解决方案1】:
  1. 如果您的目标是仅分析提交消息,您可能希望使用自然语言处理 (NLP) 工具。一个好的起点可能是书Tidy Text Mining。此资源适用于 R,但如果您还不熟悉术语 词频 (TF) 或 逆文档频率 (tdf),则提供简明的介绍。您将从一个简单的单词直方图开始,但是为了能够基于它做出陈述,您必须自定义 stopwords 并且可能进行许多其他预处理,例如 word stemming .

  2. 如果您对 GIT 项目的一般指标(不限于提交消息)感兴趣,我建议您查看Silvio Montanari's Code-Forensics project

    code-forensics 是用于分析存储在版本控制系统中的代码库的工具集。它利用存储库日志或版本历史数据,对复杂性、逻辑耦合、作者耦合进行深入分析,并检查软件系统不同部分在代码流失和修订数量等指标方面的时间演变.

  3. 关于提交的有价值信息已经隐藏在 GIT 标记 中,以防在您的项目中使用它们。首先,您可以尝试git log --graph --oneline --simplify-by-decoration,它会为您提供GIT tag tree

免责声明:我不隶属于提到的两个网站/项目,但我确实提出了链接的 SO 问题。

【讨论】:

  • @MacakM 我编辑了我的答案以澄清,我希望它对你有所帮助。如果是这样,我不介意反馈,如果不是,评论会很好。
猜你喜欢
  • 2023-03-11
  • 2016-11-29
  • 1970-01-01
  • 2022-10-15
  • 1970-01-01
  • 1970-01-01
  • 2014-02-22
  • 2020-05-07
  • 2015-11-18
相关资源
最近更新 更多