楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-21 09:06 | 显示全部楼层
再和楼主探讨一下哈。楼主的脚本运行速度快,词库可看、可修改,确实非常方便做成个人适用的词库。另外,我看了一下黑马2004的破解版和V21版本,里面的错词库不能查看,只能往里面添加,能改动的好像只有知识库了。当然,也许懂计算机技术的大佬可以破解导出来。增加词库另外一个办法就是找一本文本质量巨差的小说,字数不用太多,先用脚本修改,然后读校,做好标记,一本书估计能提炼出成百上千个错词,就是这个过程有点痛苦,最好是找本自己稍微感兴趣的书来做。我有兴趣和楼主一起来完善这个词库,可以加我扣扣:二七七零六二九六二。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-18 22:34 | 显示全部楼层
本帖最后由 edennow 于 2023-11-21 16:01 编辑
cumt313 发表于 2023-11-18 19:50
楼主可以看一下我用的词库,也有极少量会误杀的词语,我也在不断增删修改,希望对你完善词库有帮助,后面和 ...

大概看了下《大英公务员》的校正对比,发现 4000 多处里面有差不多 2000 处是因为两边的格式不一致……
空行开头一边有全角空格,一边没有,调整了排版后就剩 2000 多处了,
这两千多处还有几百处是因为原文件中有一部分标点符号没有规范,英文逗号之类的我都做了转换,你改的貌似还有漏掉没转的。
这个校正我也是比较早做的,的地得都没处理,和你处理过的地方也有不少不同。
其他主要是一些细节词条有些差异了,感觉也还好了,主要是一些用语习惯各人有不一样的,也很正常。
从你改的结果里我也补充了一些词条,不过你漏改的貌似也有不少哈哈。

可以用 beyond compare 参考下我调整过排版和编码的版本,如果愿意的话也可以用我后面更新的词库来校正比较一下。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-18 21:29 | 显示全部楼层
cumt313 发表于 2023-11-18 21:02
再和楼主探讨一下哈。楼主的脚本运行速度之快,这个不用说了。当下该尽量扩充、完善词库,其他那些小软件中 ...

黑马校对的我之前是没有找到,后面再找找看吧,积累词条都是非一日之功了,慢慢增加吧。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-18 21:25 | 显示全部楼层
adianso 发表于 2023-11-18 21:08
为什么要用php啊

感觉py go更适合做这个工作吧,go静态编译,二进制单文件无需依赖

这个代码最开始是很久之前写的了,后面越写越多,懒得换了

现在批量替换词条那块也是调的 go 方法实现的。
回复 支持 反对

使用道具 举报

10

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
121178
积分
1717
回帖
1835
主题
434
铜币
19794
威望
576
银币
0
贡献
0
发书数
61
注册时间
2019-2-15
最后登录
2024-4-27
在线时间
1295 小时
QQ
发表于 2023-11-18 21:08 | 显示全部楼层
本帖最后由 adianso 于 2023-11-18 21:09 编辑

为什么要用php啊

感觉py go更适合做这个工作吧,go静态编译,二进制单文件无需依赖

我目前就是用go写了脚本,用正则批量替换
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-18 21:02 | 显示全部楼层
再和楼主探讨一下哈。楼主的脚本运行速度之快,这个不用说了。当下该尽量扩充、完善词库,其他那些小软件中词汇量有限,可以考虑把黑马校对中的词库导出来,据说有几千万的错词库。网上有一个2004破解版的,我一般最后也会拿黑马过一遍,也能改正一些错误。
[发帖际遇]: 台风把 cumt313 家中玻璃砸烂,损失了 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-18 19:50 | 显示全部楼层
楼主可以看一下我用的词库,也有极少量会误杀的词语,我也在不断增删修改,希望对你完善词库有帮助,后面和你的词库有些是重复的我就删掉了。我使用的词库主要在成语修改那里,宏里面其他词语我还没吸收过来。我觉得里面有些二字词语可以适当加一个字,变成常用、常见的,就可以减少误杀了。正则式替换应该是下一个发展的方向。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2023-11-18 12:32 | 显示全部楼层
cumt313 发表于 2023-11-18 10:42
楼主可以看一下哈,我就是在这里添加的,之前看错了,我的词库没那么多,我自己只添加了几千条哈。这里面的 ...

这一份我之前就有看过的,我最开始就有把这里面我觉得有用的大部分都整合到脚本里了。

还是对你自己改的词库比较感兴趣,等有空的时候期待你分享一下哈(还有《大英公务员》你改完后的文本)。
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-18 10:42 | 显示全部楼层
楼主可以看一下哈,我就是在这里添加的,之前看错了,我的词库没那么多,我自己只添加了几千条哈。这里面的词库你看能不能加到PHP脚本里。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1631
回帖
2001
主题
1
铜币
9324
威望
630
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-4-27
在线时间
801 小时
QQ
发表于 2023-11-18 10:36 | 显示全部楼层
edennow 发表于 2023-11-18 09:27
那可以把你的宏也用附件形式分享一下不?当然,如果可以把你改完的那份文本也分享一下就更好了。

我也 ...

我的宏是风遗尘的哈,只是词条我扩充了一点,其他没动。现在加班呢,回家有空我再分享出来哈。我最主要的词条也是从TF上扒的,只是扒的时候,有些我做了修改和删除,因为受够了它的重复、机械操作。另外就是用宏修改后,拿几部小说同时用TF校对,比如要修改”XX的看了“改为”XX地看了“,就会一条一条改,最终确定”XX“的具体文字,然后批量添加到宏脚本去,也不会误杀,就是效率不高。这个方法比较笨,没有用正则式灵活,因为ed的宏好像只能完全匹配才能替换,正则式匹配不会改动。当然,可能是因为我不懂计算机知识,也许是代码不对。我是文科生,大学计算机学习只限于Word,确实是没法动别人的代码。懂这些都是这几年东学西学一点才知道的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-4-27 15:41 , Processed in 0.039426 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表