楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44259
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-18 09:27 | 显示全部楼层
本帖最后由 edennow 于 2023-11-18 09:42 编辑
cumt313 发表于 2023-11-18 08:56
跟楼主再探讨一下哈。我拿楼主校对的《大英公务员》试了一下,我只用ed的宏改了一下原始的文本,也改出了10 ...

那可以把你的宏也用附件形式分享一下不?当然,如果可以把你改完的那份文本也分享一下就更好了。

我也是苦于没有什么比较优质的词库,现在基本是一点点从 tf 的词库往自己的词库里搬。

如果你愿意分享一下的话,后续我也可以转成现在 php 脚本里的词库,继续参考完善。

回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-18 08:56 | 显示全部楼层
跟楼主再探讨一下哈。我拿楼主校对的《大英公务员》试了一下,我只用ed的宏改了一下原始的文本,也改出了1000多个错误,和楼主改正的错误差不多。实际用了差不多一分钟,远没有楼主的PHP快,这个只要几秒钟。速度上楼主的脚本完胜。说明楼主的大方向完全正确。我把我的改完了,又把楼主的epub文本转换成TXT进行对比,发现我改后和楼主改后的文本居然有四千多处不同。我的ed的宏是在别人的基础上手工加了词条的,从两千多加到差不多两万条,断断续续加了两三年吧。词条的来源主要是TF词库中的词条,然后是别人的读校笔记中的词条,还有就是我自己读校后的词条。因为是手工一条一条加上的,所以费时不少。一个小时估计只能加一百多条,加到两万条就用了我差不多两百个小时。一开始还是有误杀的情况,后来注意到了,基本就没出现过误杀的情况。我加的词条一般是三个字的俗语,四个字的成语,然后是五个字的“的地得”短语,两个字的词语我一般会前后加个标点避免误杀。剩下的两个字的常见错别字我会放到校对助手里面,用校对助手再校对一下,人眼判断。
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-17 23:36 | 显示全部楼层
edennow 发表于 2023-11-17 21:23
windows 库文件过时了,
参考 https://www.php.cn/faq/562426.html 重新装一下

感谢楼主,本来躺下了,手机上看到楼主回复消息,又起来重新整了一下,下了X86的版本还是没有解决问题,最后又下了一个X64的版本完美解决。真的太感谢了,感觉打开了一个校对的新天地。我本身也喜欢看小说,一开始是没太注意文本质量的,基本上生冷不忌,但看得多了就渐渐不能忍受文本质量太差的了,错别字太多基本不会看的。在网上也不好找到太如意的版本,就开始自己校对。自己慢慢摸索了几年,学了些大神写的校对帖子,也慢慢在扩充自己的词库,也喜欢并支持自动化处理,因为这是提高效率的必由之路,还能避免一些重复、机械的操作。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44259
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-17 21:23 | 显示全部楼层
本帖最后由 edennow 于 2024-3-29 13:25 编辑

更新记录【2023】
9 月 2 日版本更新,新添加了 1000 条左右的词条,php 程序改成可一键运行,不用考虑自己装环境。

9 月 4 日版本更新,继续完善替换表,新增了 “原文件预处理流程说明”,同时修改 php 脚本以支持这个预处理逻辑。

9 月 4 日版本更新二,继续完善替换表,修改 php 脚本。
新增脚本功能 1:规范“连续多行内容双引号”的写法。
可参考该帖:http://www.1000qm.vip/forum.php?mod=viewthread&tid=322617
生效前提是:
如果为 txt 文件,需格式化成行首缩进 2 个全角空格,且段落间无空行;
如果为 epub 中的 html 文件,需保证正文内容是写在 <p> 标签中,<p> 不能有属性,比如 <p class="aaa"> 之类的,这种不会生效。

新增脚本功能 2:规范“出乎……意料之外”的错误写法,杜绝这类中小学送分题的病句出现。


9 月 6 日版本更新,完善操作脚本,支持对 epub 文件的一系列操作,详情参考:
http://www.1000qm.vip/forum.php?mod=viewthread&tid=336341

9 月 7 日版本更新,完善校正表,进一步降低误伤率,
本次修改参考了《文章里的虫子》部分介绍,感兴趣可以看下:

https://www.jianshu.com/nb/51091878

9 月 10 日版本更新,修改 php 脚本的校对替换逻辑,显著提升校对速度,以及 epub 从 txt 拆分还原速度。


9 月 20 日版本更新,继续完善替换表,下载了新版本的 emeditor 测试了下,发现之前 emeditor 宏报错的原因是:这个含有大量中文内容的宏文件编码应该必须改成 gb2312 或 gbk(为啥 utf8 不行……)。

10 月 12 日版本更新,继续完善替换表,增加了 php 脚本对正则表达式转换的支持,以及繁体中文转简体(默认不开启)的功能
开启方法请看上方的修改校正表说明一节。

10 月 21 日版本更新,继续完善替换表,在 php 脚本中引入 txtFormat v2.0.8 的完整错别字词库(默认不开启),该词库包含约十万条词条,开启方法请看上方的修改校正表说明一节。

11 月 15 日版本更新,继续完善替换表,在 php 脚本中引入 txtFormat v2.0.8 的“的地得”词库(默认不开启),该词库包含约一万条词条,开启方法请看上方的修改校正表说明一节。
支持将阅读软件的批注自动转成校对替换表详情见:操作流程


12 月 24 日版本更新,重新整理了词库的词条替换逻辑,并完善了相关词条设置,移除了原来瞎搞的 repeat_skip 二次替换逻辑,准确率应该有所提升,如果有在使用该脚本,建议更新一下,并尝试阅读理解一下帖子里的 词条替换逻辑 一节。
顺便移除了原来无脑转换的 emeditor 宏(没心思去优化,效率和准确率都较低)

12 月 26 日版本更新,继续完善替换表,尝试引入 gojieba 分词,但按目前的词条设置来看,不太适合利用分词来提升准确率,故暂不启用,可以自行尝试编译 src/tools 中的 gojieba.go 并修改 main.php 中的分词开关。

12 月 28 日版本更新,继续完善替换表,新增单双引号的查错和把【双引号外的单引号】统一规范成双引号的功能。
详情见:引号查错
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-17 21:14 | 显示全部楼层


楼主,再帮我看一下呢,这究竟是怎么回事?我在公司能用,回到家用自己的电脑就不行。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44259
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-17 13:22 | 显示全部楼层
本帖最后由 edennow 于 2023-11-17 13:51 编辑
cumt313 发表于 2023-11-17 09:13
楼主的思路确实太先进了,关于误杀大家可以看一下我的回复,实际上是可以解决的。我之前用TF校对,一两百万 ...

关于减少误伤我是比较认同按自己的需求来修改不同的词库的,毕竟适合自己的才是真正有用的。

其实想要维护自己的词库无非就是在做“加法”和“减法”,个人是比较倾向当准备引入新词库的时候,先一股脑做“加法”,直接用新词库的大部分词条来单独校正几本书(是先用自己的原有词库把这些书籍校正过的),宁肯有杀错也不放过,校正完之后,大概在 beyond compare 里扫几眼校正结果,就能把新词库有,而自己的原有词库没有的词条筛选出来(改错的统统不管,或者在新词库里直接把这些错的删掉就行了),加到自己的词库里面,重复操作几遍,就能比较好地把原有词条和新词条融合起来,而不至于漏掉一些有用的新词条。

关于词条长度,基本上两个字及以下都容易出现误伤,三个字到四个字的适用性就比较强了,带标点符号的准确性更佳(因为没有做中文分词,只能这么粗略地归类一下)。

另外就是在 beyond compare 对比的时候,发现只要善用 ctrl+h 来全局替换(勾选“返转搜索”和“正则表达式”),就可以马上减少很多明显误伤的词条,而不用跑到别的编辑器再反复操作:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-17 09:13 | 显示全部楼层
楼主的思路确实太先进了,关于误杀大家可以看一下我的回复,实际上是可以解决的。我之前用TF校对,一两百万字的要校对几个小时,而且有很多重复的操作,一不小心还是会误杀,重来。后面我用几个软件交叉校对,大部分稿件要不了一个小时,找出的错误比单用一个软件还多得多。里面的关键在于词库分别存放和批量替换,以及词库的不断完善。
[发帖际遇]: cumt313 喝酒过量,被老婆大人罚跪搓衣板并扣减零花钱 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-17 08:56 | 显示全部楼层
edennow 发表于 2023-11-16 23:31
传了新的附件,处理了空格路径的问题,可以重新下来试试。

感谢楼主再次更新,在公司试了一下,确实没问题了,回去在自己的电脑上再试一下。楼主的思路确实太牛了,希望再次完善词库,优化代码。当然,这个要求有点过分了,楼主可以无视。之前用了ed软件,只能完全匹配才能批量替换,我看到楼主还有正则式替换,顿时惊呆了。我自己也写了一点正则式代码,用在TF软件上,不过主要是“的地得”的正则式,因为我发现TF的词库也不是很完善,有错漏的,而且词库不能自己添加。还是说一下我自己的校对思路,第一步用ed批量替换,基本保证词语不会误杀,会误杀的词语都放到校对助手上了,一般用时一两分钟。第二步用TF软件,大概十多分钟。第三步用校对助手,词库已经由一千多条增添到三千多条,主要是容易误杀的两字词语,一般也是二十分钟。最后一步用黑马,也是大概十分钟。后面三步查出的错误中的成语或短语,都及时更新到ed的宏里面,保证词库的最大化。这样校对起来就越来越快了。
[发帖际遇]: 做为仅有的一个渡劫期修士,cumt313 为了购买渡劫所需法宝,花了 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44259
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-16 23:31 | 显示全部楼层
cumt313 发表于 2023-11-16 22:43
点击右键以管理员运行,提示:系统找不到指定的路径。

传了新的附件,处理了空格路径的问题,可以重新下来试试。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44259
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-16 22:54 | 显示全部楼层
cumt313 发表于 2023-11-16 22:43
点击右键以管理员运行,提示:系统找不到指定的路径。

我猜应该是你存放的位置名称有空格,比如你的 windows 用户名是不是有空格?
忘掉要考虑这种情况了,你试试把这个 FixText 文件夹直接放到 d 盘或者其他盘试试,不要放到任何含有空格路径的地方。
[发帖际遇]: edennow 参与义务献血,补偿营养费 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-4-28 00:58 , Processed in 0.041689 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表