楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-4-24 21:47 | 显示全部楼层
edennow 发表于 2024-3-30 07:52
我也找了几本书来试了一下,其实它分词的结果基本算是比较准确的,不过可能是我不怎么了解细节,感觉确实 ...

整理了300条左右的新词条,不知道有没有重复的
看了下,词库还是4月4号的

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

点评

词库更新了。  发表于 2024-4-25 07:12
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

禁止发言

UID
158436
积分
525
回帖
771
主题
1
铜币
3015
威望
139
银币
0
贡献
0
发书数
0
注册时间
2023-8-7
最后登录
2024-4-22
在线时间
111 小时
发表于 2024-4-20 09:19 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-18 21:38 | 显示全部楼层
本帖最后由 edennow 于 2024-4-18 21:41 编辑
破晓陨星沉 发表于 2024-4-18 21:26
对于脚本的运作,我有一个疑问:
我在词库里看到有一些条目前后完全一样的内容,比如
    ['before' => " ...

是这样的,其实你在当前页面搜一下帖子内容就能看到了:“可以通过设置 before 与 after 值相同的词条”。
那里有比较详细的说明,还有另外几条规则也可以详细理解一下。

就是可以通过先规定所有 "干个世纪"要改成“下个世纪”,然后再通过“若干个世纪->若干个世纪”这样的设置规定碰到这部分例外词条就保持原样。

这就类似于防火墙,先挡住所有的流量,然后通过白名单,放一些例外的流量进来。

目前在自定义词库那个文件里面,用正则搜一下:'before' => "(.*?)", 'after' => "\1" 这样的内容,就能看到很多这种防止误改的词条了。
当然这样也会导致有些词条漏改一些内容,不过主要是为了提升相关词条的正确率,也还算划算。
回复 支持 反对

使用道具 举报

1

听众

2

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
48
回帖
35
主题
2
铜币
186
威望
29
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-5-8
在线时间
21 小时
发表于 2024-4-18 21:26 | 显示全部楼层
对于脚本的运作,我有一个疑问:
我在词库里看到有一些条目前后完全一样的内容,比如
    ['before' => "干个世纪", 'after' => "下个世纪"],
    ['before' => "若干个世纪", 'after' => "若干个世纪"],
是不是所有的替换都是同时进行的?
这样就能达成“若干个世纪”就不变,别的“干个世纪”就变成“下个世纪”这个效果?
[发帖际遇]: 破晓陨星沉 在公交车没有注意,被小偷偷去了 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

1

听众

2

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
48
回帖
35
主题
2
铜币
186
威望
29
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-5-8
在线时间
21 小时
发表于 2024-4-18 19:51 | 显示全部楼层
破晓陨星沉 发表于 2024-4-18 11:58
我今天试了一下15号的脚本,发现了一些问题,整理了一下,请参考

感谢  楼主威武
[发帖际遇]: 破晓陨星沉 今天运气很好,系统奖励 1 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-18 12:50 | 显示全部楼层
本帖最后由 edennow 于 2024-4-18 12:59 编辑
破晓陨星沉 发表于 2024-4-18 11:58
我今天试了一下15号的脚本,发现了一些问题,整理了一下,请参考

非常感谢反馈。

其中《》、《》和《》,《》中间标点的问题,可以参考一下目前的标点符号规范,如果是并列的名词或者书名,这中间最好是不放逗号或者顿号。

如果书名号(或引号)之间是顿号,我认为 99.99% 都是在罗列一些并列的名词,比如《三国演义》、《红楼梦》、《西游记》,“一级联盟”、“二级联盟”、“三级联盟”这样的,因此顿号我是直接删掉了,在 bc 里也没有显示出这个修改。

但如果书名号(或引号)之间是逗号,确实会碰上:“他写了一本《水浒传》,《水浒传》从此家喻户晓,流传至今”这种实际上不应该删除中间逗号的情况。目前也没有办法做到很好的检测,只能是把对逗号的修改在 bc 里显示出来,供用户自行判断。

如果是不需要参考这样的规范的,可以直接把:

    ['before' => "”,“", 'after' => "”“"],
    ['before' => "’,‘", 'after' => "’‘"],
    ['before' => "》,《", 'after' => "》《"],

这几条从 normalMap 的顶部删掉就可以了,特别是一些标点符号使用较为规范的书,发现去除引号中间的逗号会有比较多的误改,那就最好把这个修改从词库里去掉再执行。

其他一些关于的地得误改的反馈也很有效,其中有些词条是我加的时候偷懒了(比如“地音调”改成“的音调”),有些例外的情况还没来得及考虑,后续会进行一些补充。

不过按目前这种机械的做法,如果想提高一些词条的辨识度,就只能加上一些前缀后缀,把一个词条拆成几个带其他限制字符的词条了,而一旦这么加,有些词条的替换能力就会被限制,导致同一种错误会有部分漏改。
而且有一些词条,即使再补充很多的例外情况,通过类似“暴发户->暴发户”这种防误伤词条进行覆盖,或者加前缀后缀,也还是会产生一些误改的,因为“能改得多的必然改错的也多”“能错得少的基本能改的也很少”。

所以目前感觉有些词条(以及正则,特别是“带”“戴”修复的那两条)还是需要做一些权衡,可能在某些情况下还是允许一些词条有误改的存在,会在加词条的时候省事一点(否则就只能把这些词条彻底删掉不改了),用户在 bc 对比结果的过程中进行一些手动修复目前看是必不可少的。

如果想避免用这个脚本跑同一本书,每跑一次就误改一次,可以考虑按照帖子里的“书籍专有替换”那部分的写法,把特定书籍的一些错误记录下来,就不会反复被误改了(当然太水的书就没必要这么大张旗鼓了哈哈)。
我感觉这种做法还是挺有效的,我也自己加了挺多本书的特定误改词条,节省了不少重复修复误伤的劳动。而且通过写这样的记录,可以总结出一些词条的误改情况,对词库做一些补充。
[发帖际遇]: edennow 帮女神消灭了一只小强,获得奖励 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

1

听众

2

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
48
回帖
35
主题
2
铜币
186
威望
29
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-5-8
在线时间
21 小时
发表于 2024-4-18 11:58 | 显示全部楼层
我今天试了一下15号的脚本,发现了一些问题,整理了一下,请参考

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

点评

词库更新了。  发表于 2024-4-18 19:11
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-13 16:28 | 显示全部楼层
lsk1700 发表于 2024-4-13 13:55
按照词条格式写了点还算通用的词条,大部分词条都可以联想。

感谢感谢,我看了只有一两条没有直接使用,其他都加了进去。
不过也不用管我没有加的那几个词条,只要你是在文件的末尾加了自己的词条,就一定会生效的。

点评

客气了,应该感谢你开发并分享这软件,方便校对。  发表于 2024-4-13 19:56
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8777
回帖
705
主题
282
铜币
44540
威望
8256
银币
0
贡献
0
发书数
275
注册时间
2022-3-4
最后登录
2024-5-8
在线时间
445 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
发表于 2024-4-13 13:55 | 显示全部楼层
edennow 发表于 2024-4-9 15:28
嗯嗯,这样的操作是没问题的,就是需要确保看到蓝色的那一行【已完成该轮校正】再去 BC 比较,结果就应该 ...

按照词条格式写了点还算通用的词条,大部分词条都可以联想。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

38

听众

0

收听

14

好友

版主

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

UID
123946
积分
7420
回帖
1195
主题
224
铜币
206079
威望
6688
银币
0
贡献
0
发书数
222
注册时间
2020-4-29
最后登录
2024-5-8
在线时间
933 小时

原创或校书系列:优秀论坛之星风流原创或校书系列:精英热心助人

发表于 2024-4-12 10:50 | 显示全部楼层
edennow 发表于 2024-4-12 10:12
啊,那看看是否能加入白名单呢,里面啥也没有,就是一个 php 运行库加上几个脚本文件而已哈哈。

我知道软件肯定没问题,就是蛋疼被当木马直接删了哈哈
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-9 03:04 , Processed in 0.043489 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表