Conversation
抱歉我刚看见这个PR,我们在库中有自动生成的脚本,会自动生成大部分的区划变更。 |
jianghc724
left a comment
There was a problem hiding this comment.
抱歉久等,我今天下午终于有整块的时间进行仔细review,因为里面的部分变化令我意想不到,我需要打开对应的网页对改动进行仔细检查。
这个repo是接近六年前我们写的,comment可能有点多,也可能有错,欢迎讨论!
除了以下所有的comment,还需要劳烦你整合一下commit的结构,目前的结构相对来说对于reviewer不是很友好,也容易遗漏。我认为table的变化应该立刻体现在diff和rule的变化,这样更为直观。
Commit 1: 修复脚本中的路径错误
Commit 2: 修正失效url
Commit 3: update script for descrptions并将新获取的网页存档,如果之后没有做23年的区划变更,不用将网页修改至23年,22年即可。
Commit 4: 添加丢失的2017/2018/2019 csv的表头 并更新对应的diff
以上四个commit为框架更新或者为obvious change,以下的commit为区划代码勘误
Commit 4: 佛山地区代码修正
牵扯到1982.csv及对应的diff和rule,以及后来某一年佛山地区代码进行更新之后的修正
Commit 5: 永济/河津代码修正
牵扯到1994-1999对应的csv,1994的diff和rule,以及最后这两个地区再进行变更的时候的修正
Commit 6: 桥东区区划变更时间勘误
牵扯到2014对应的csv,以及两个diff,rule中时间的变化
Commit 7: 马尔康区划调整变更时间勘误
牵扯到2015对应的csv,以及两个diff,rule中时间的变化
Commit 8: 大量2018年的区划调整被误划入2019年
估计是因为我们当时做这个的时候刚好是2018年10月前后,导致数据出现了混乱,这个commit要格外仔细
Commit 9: Resort 2022.csv
2022年的csv和diff都需要对应修改
(Optional) Commit 10: Add 2023 change
我看到了你爬了2023年的东西,如果有时间且乐意的话可加进去,没时间就放在这。请优先调整commit结构。
总的comment可能有点长,见谅!再次为之前没空仔细review拖了这么久感到抱歉。
| 1986-1987,330206,滨海区,北仑区 | ||
| 1986-1987,350211,郊区,集美区 | ||
| 1986-1987,362501,抚州市,临川市 | ||
| 1986-1987,379006,威海市,胶州市 |
| 2017-2018,530630,530681,水富县 -> 水富市 | ||
| 2017-2018,620824,620881,华亭县 -> 华亭市 | ||
| 2018-2019,130223,130284,滦县 -> 滦州市 | ||
| 2018-2019,140421,140404,长治县 -> 上党区 |
There was a problem hiding this comment.
这两行的确本不应该出现在这里,疑似后续因为没地方放手动添加,请只更改年份。
接之前通过马尔康行分割的comment,剩下的看起来合理。
| 1990-1991,320611,郊区,港闸区 | ||
| 1990-1991,440502,同平区,龙湖区 | ||
| 1990-1991,440503,安平区,金园区 | ||
| 1990-1991,440504,公园区,升平区 |
| 2017-2018 371200 莱芜市 | ||
| 2017-2018 371202 莱城区 | ||
| 2017-2018 430221 株洲县 | ||
| 2017-2018 511521 宜宾县 |
There was a problem hiding this comment.
这里需要对对应的handwritten也进行修改,请根据我的总review进行commit重构,这样会一眼看出什么改动漏了。
98e58db to
3bbc7c2
Compare
@jianghc724 parse-diff.sh 这个能改成增量生成吗, 否则每次都得核对所有年份的所有数据 division-changes/scripts/parse-diff.py Line 50 in feb009d |
我不是很清楚这里的增量生成的具体意思,这里需要生成所有年份的所有数据,不然结果会有问题。 |
可以参考这个提交, 我主要不想每次运行都报 duplicate additions 这个, 也不知道报的问题处理没 |
@jianghc724 @lizy14 按照上面的内容, 重新整理了整个分支, 简要如下
|
主要修改如下
问题:
请问, 有什么好办法能高效并且准确生成行政区的变更情况吗? 能分享一下相关的思路吗?