LCTT/Grank

grank 项目的可能出现误差的点

Open

#11 opened on 2018年10月1日

GitHub で見る
 (0 comments) (0 reactions) (0 assignees)Python (237 stars) (37 forks)user submission
enhancementhelp wanted

説明

可能导致误差的点

1. 丢弃项目中未设定时间的 commit / pr

在使用 GraphQL 抓取数据时,发现了部分 commit / pr 是未标注时间的,未确保这些 dirty data 不影响项目的分析,丢弃了这部分数据。但是同样可能导致数据分析的结果不够精确。

相关代码位置:https://github.com/LCTT/Grank/blob/53790555c6f06a3bbcb22f9211003c0907c51652/grank/script/activity.py#L76

2. 邮箱不精确

在使用 GraphQL 抓取数据时,发现部分 commit/pr 的email 为 github 域下的,考虑到无法对 Github 域下的项目分析其所属的企业和个人,将此部分数据丢弃。以确保社区化分析的准确性。

https://github.com/LCTT/Grank/blob/7b00abb67f1c0dde18ddb3ac8da2046f722e3444/grank/libs/helpers.py#L229-L234

コントリビューターガイド

grank 项目的可能出现误差的点 · LCTT/Grank#11 | Good First Issue