LCTT/Grank

grank 项目的可能出现误差的点

Open

#11 建立於 2018年10月1日

在 GitHub 查看
 (0 留言) (0 反應) (0 負責人)Python (237 star) (37 fork)user submission
enhancementhelp wanted

描述

可能导致误差的点

1. 丢弃项目中未设定时间的 commit / pr

在使用 GraphQL 抓取数据时,发现了部分 commit / pr 是未标注时间的,未确保这些 dirty data 不影响项目的分析,丢弃了这部分数据。但是同样可能导致数据分析的结果不够精确。

相关代码位置:https://github.com/LCTT/Grank/blob/53790555c6f06a3bbcb22f9211003c0907c51652/grank/script/activity.py#L76

2. 邮箱不精确

在使用 GraphQL 抓取数据时,发现部分 commit/pr 的email 为 github 域下的,考虑到无法对 Github 域下的项目分析其所属的企业和个人,将此部分数据丢弃。以确保社区化分析的准确性。

https://github.com/LCTT/Grank/blob/7b00abb67f1c0dde18ddb3ac8da2046f722e3444/grank/libs/helpers.py#L229-L234

貢獻者指南