楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

11

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
121178
积分
1702
回帖
1823
主题
434
铜币
20051
威望
567
银币
0
贡献
0
发书数
61
注册时间
2019-2-15
最后登录
2024-5-8
在线时间
1307 小时
QQ
发表于 2023-11-18 21:08 | 显示全部楼层
本帖最后由 adianso 于 2023-11-18 21:09 编辑

为什么要用php啊

感觉py go更适合做这个工作吧,go静态编译,二进制单文件无需依赖

我目前就是用go写了脚本,用正则批量替换
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-18 21:02 | 显示全部楼层
再和楼主探讨一下哈。楼主的脚本运行速度之快,这个不用说了。当下该尽量扩充、完善词库,其他那些小软件中词汇量有限,可以考虑把黑马校对中的词库导出来,据说有几千万的错词库。网上有一个2004破解版的,我一般最后也会拿黑马过一遍,也能改正一些错误。
[发帖际遇]: 台风把 cumt313 家中玻璃砸烂,损失了 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-18 19:50 | 显示全部楼层
楼主可以看一下我用的词库,也有极少量会误杀的词语,我也在不断增删修改,希望对你完善词库有帮助,后面和你的词库有些是重复的我就删掉了。我使用的词库主要在成语修改那里,宏里面其他词语我还没吸收过来。我觉得里面有些二字词语可以适当加一个字,变成常用、常见的,就可以减少误杀了。正则式替换应该是下一个发展的方向。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44800
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-18 12:32 | 显示全部楼层
cumt313 发表于 2023-11-18 10:42
楼主可以看一下哈,我就是在这里添加的,之前看错了,我的词库没那么多,我自己只添加了几千条哈。这里面的 ...

这一份我之前就有看过的,我最开始就有把这里面我觉得有用的大部分都整合到脚本里了。

还是对你自己改的词库比较感兴趣,等有空的时候期待你分享一下哈(还有《大英公务员》你改完后的文本)。
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-18 10:42 | 显示全部楼层
楼主可以看一下哈,我就是在这里添加的,之前看错了,我的词库没那么多,我自己只添加了几千条哈。这里面的词库你看能不能加到PHP脚本里。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-18 10:36 | 显示全部楼层
edennow 发表于 2023-11-18 09:27
那可以把你的宏也用附件形式分享一下不?当然,如果可以把你改完的那份文本也分享一下就更好了。

我也 ...

我的宏是风遗尘的哈,只是词条我扩充了一点,其他没动。现在加班呢,回家有空我再分享出来哈。我最主要的词条也是从TF上扒的,只是扒的时候,有些我做了修改和删除,因为受够了它的重复、机械操作。另外就是用宏修改后,拿几部小说同时用TF校对,比如要修改”XX的看了“改为”XX地看了“,就会一条一条改,最终确定”XX“的具体文字,然后批量添加到宏脚本去,也不会误杀,就是效率不高。这个方法比较笨,没有用正则式灵活,因为ed的宏好像只能完全匹配才能替换,正则式匹配不会改动。当然,可能是因为我不懂计算机知识,也许是代码不对。我是文科生,大学计算机学习只限于Word,确实是没法动别人的代码。懂这些都是这几年东学西学一点才知道的。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44800
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-18 09:27 | 显示全部楼层
本帖最后由 edennow 于 2023-11-18 09:42 编辑
cumt313 发表于 2023-11-18 08:56
跟楼主再探讨一下哈。我拿楼主校对的《大英公务员》试了一下,我只用ed的宏改了一下原始的文本,也改出了10 ...

那可以把你的宏也用附件形式分享一下不?当然,如果可以把你改完的那份文本也分享一下就更好了。

我也是苦于没有什么比较优质的词库,现在基本是一点点从 tf 的词库往自己的词库里搬。

如果你愿意分享一下的话,后续我也可以转成现在 php 脚本里的词库,继续参考完善。

回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-18 08:56 | 显示全部楼层
跟楼主再探讨一下哈。我拿楼主校对的《大英公务员》试了一下,我只用ed的宏改了一下原始的文本,也改出了1000多个错误,和楼主改正的错误差不多。实际用了差不多一分钟,远没有楼主的PHP快,这个只要几秒钟。速度上楼主的脚本完胜。说明楼主的大方向完全正确。我把我的改完了,又把楼主的epub文本转换成TXT进行对比,发现我改后和楼主改后的文本居然有四千多处不同。我的ed的宏是在别人的基础上手工加了词条的,从两千多加到差不多两万条,断断续续加了两三年吧。词条的来源主要是TF词库中的词条,然后是别人的读校笔记中的词条,还有就是我自己读校后的词条。因为是手工一条一条加上的,所以费时不少。一个小时估计只能加一百多条,加到两万条就用了我差不多两百个小时。一开始还是有误杀的情况,后来注意到了,基本就没出现过误杀的情况。我加的词条一般是三个字的俗语,四个字的成语,然后是五个字的“的地得”短语,两个字的词语我一般会前后加个标点避免误杀。剩下的两个字的常见错别字我会放到校对助手里面,用校对助手再校对一下,人眼判断。
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-17 23:36 | 显示全部楼层
edennow 发表于 2023-11-17 21:23
windows 库文件过时了,
参考 https://www.php.cn/faq/562426.html 重新装一下

感谢楼主,本来躺下了,手机上看到楼主回复消息,又起来重新整了一下,下了X86的版本还是没有解决问题,最后又下了一个X64的版本完美解决。真的太感谢了,感觉打开了一个校对的新天地。我本身也喜欢看小说,一开始是没太注意文本质量的,基本上生冷不忌,但看得多了就渐渐不能忍受文本质量太差的了,错别字太多基本不会看的。在网上也不好找到太如意的版本,就开始自己校对。自己慢慢摸索了几年,学了些大神写的校对帖子,也慢慢在扩充自己的词库,也喜欢并支持自动化处理,因为这是提高效率的必由之路,还能避免一些重复、机械的操作。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44800
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-17 21:23 | 显示全部楼层
本帖最后由 edennow 于 2024-3-29 13:25 编辑

更新记录【2023】
9 月 2 日版本更新,新添加了 1000 条左右的词条,php 程序改成可一键运行,不用考虑自己装环境。

9 月 4 日版本更新,继续完善替换表,新增了 “原文件预处理流程说明”,同时修改 php 脚本以支持这个预处理逻辑。

9 月 4 日版本更新二,继续完善替换表,修改 php 脚本。
新增脚本功能 1:规范“连续多行内容双引号”的写法。
可参考该帖:http://www.1000qm.vip/forum.php?mod=viewthread&tid=322617
生效前提是:
如果为 txt 文件,需格式化成行首缩进 2 个全角空格,且段落间无空行;
如果为 epub 中的 html 文件,需保证正文内容是写在 <p> 标签中,<p> 不能有属性,比如 <p class="aaa"> 之类的,这种不会生效。

新增脚本功能 2:规范“出乎……意料之外”的错误写法,杜绝这类中小学送分题的病句出现。


9 月 6 日版本更新,完善操作脚本,支持对 epub 文件的一系列操作,详情参考:
http://www.1000qm.vip/forum.php?mod=viewthread&tid=336341

9 月 7 日版本更新,完善校正表,进一步降低误伤率,
本次修改参考了《文章里的虫子》部分介绍,感兴趣可以看下:

https://www.jianshu.com/nb/51091878

9 月 10 日版本更新,修改 php 脚本的校对替换逻辑,显著提升校对速度,以及 epub 从 txt 拆分还原速度。


9 月 20 日版本更新,继续完善替换表,下载了新版本的 emeditor 测试了下,发现之前 emeditor 宏报错的原因是:这个含有大量中文内容的宏文件编码应该必须改成 gb2312 或 gbk(为啥 utf8 不行……)。

10 月 12 日版本更新,继续完善替换表,增加了 php 脚本对正则表达式转换的支持,以及繁体中文转简体(默认不开启)的功能
开启方法请看上方的修改校正表说明一节。

10 月 21 日版本更新,继续完善替换表,在 php 脚本中引入 txtFormat v2.0.8 的完整错别字词库(默认不开启),该词库包含约十万条词条,开启方法请看上方的修改校正表说明一节。

11 月 15 日版本更新,继续完善替换表,在 php 脚本中引入 txtFormat v2.0.8 的“的地得”词库(默认不开启),该词库包含约一万条词条,开启方法请看上方的修改校正表说明一节。
支持将阅读软件的批注自动转成校对替换表详情见:操作流程


12 月 24 日版本更新,重新整理了词库的词条替换逻辑,并完善了相关词条设置,移除了原来瞎搞的 repeat_skip 二次替换逻辑,准确率应该有所提升,如果有在使用该脚本,建议更新一下,并尝试阅读理解一下帖子里的 词条替换逻辑 一节。
顺便移除了原来无脑转换的 emeditor 宏(没心思去优化,效率和准确率都较低)

12 月 26 日版本更新,继续完善替换表,尝试引入 gojieba 分词,但按目前的词条设置来看,不太适合利用分词来提升准确率,故暂不启用,可以自行尝试编译 src/tools 中的 gojieba.go 并修改 main.php 中的分词开关。

12 月 28 日版本更新,继续完善替换表,新增单双引号的查错和把【双引号外的单引号】统一规范成双引号的功能。
详情见:引号查错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-8 20:10 , Processed in 0.039612 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表