贡士
- UID
- 155378
- 积分
- 2985
- 回帖
- 1024
- 主题
- 67
- 铜币
- 44241
- 威望
- 2434
- 银币
- 0
- 贡献
- 0
- 发书数
- 57
- 注册时间
- 2023-6-14
- 最后登录
- 2024-4-27
- 在线时间
- 1537 小时
|
楼主 |
发表于 2024-4-18 12:50
|
显示全部楼层
本帖最后由 edennow 于 2024-4-18 12:59 编辑
非常感谢反馈。
其中《》、《》和《》,《》中间标点的问题,可以参考一下目前的标点符号规范,如果是并列的名词或者书名,这中间最好是不放逗号或者顿号。
如果书名号(或引号)之间是顿号,我认为 99.99% 都是在罗列一些并列的名词,比如《三国演义》、《红楼梦》、《西游记》,“一级联盟”、“二级联盟”、“三级联盟”这样的,因此顿号我是直接删掉了,在 bc 里也没有显示出这个修改。
但如果书名号(或引号)之间是逗号,确实会碰上:“他写了一本《水浒传》,《水浒传》从此家喻户晓,流传至今”这种实际上不应该删除中间逗号的情况。目前也没有办法做到很好的检测,只能是把对逗号的修改在 bc 里显示出来,供用户自行判断。
如果是不需要参考这样的规范的,可以直接把:
['before' => "”,“", 'after' => "”“"],
['before' => "’,‘", 'after' => "’‘"],
['before' => "》,《", 'after' => "》《"],
这几条从 normalMap 的顶部删掉就可以了,特别是一些标点符号使用较为规范的书,发现去除引号中间的逗号会有比较多的误改,那就最好把这个修改从词库里去掉再执行。
其他一些关于的地得误改的反馈也很有效,其中有些词条是我加的时候偷懒了(比如“地音调”改成“的音调”),有些例外的情况还没来得及考虑,后续会进行一些补充。
不过按目前这种机械的做法,如果想提高一些词条的辨识度,就只能加上一些前缀后缀,把一个词条拆成几个带其他限制字符的词条了,而一旦这么加,有些词条的替换能力就会被限制,导致同一种错误会有部分漏改。
而且有一些词条,即使再补充很多的例外情况,通过类似“暴发户->暴发户”这种防误伤词条进行覆盖,或者加前缀后缀,也还是会产生一些误改的,因为“能改得多的必然改错的也多”“能错得少的基本能改的也很少”。
所以目前感觉有些词条(以及正则,特别是“带”“戴”修复的那两条)还是需要做一些权衡,可能在某些情况下还是允许一些词条有误改的存在,会在加词条的时候省事一点(否则就只能把这些词条彻底删掉不改了),用户在 bc 对比结果的过程中进行一些手动修复目前看是必不可少的。
如果想避免用这个脚本跑同一本书,每跑一次就误改一次,可以考虑按照帖子里的“书籍专有替换”那部分的写法,把特定书籍的一些错误记录下来,就不会反复被误改了(当然太水的书就没必要这么大张旗鼓了哈哈)。
我感觉这种做法还是挺有效的,我也自己加了挺多本书的特定误改词条,节省了不少重复修复误伤的劳动。而且通过写这样的记录,可以总结出一些词条的误改情况,对词库做一些补充。 |
|