楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-10 17:32 | 显示全部楼层
本帖最后由 edennow 于 2024-1-10 17:36 编辑
adianso 发表于 2024-1-10 17:17
我打算用go写一下,兼容你的词库。

当然可以,用 ai 转代码应该能搞定大部分逻辑,不过我是暂时没动力去做了……

其实语言个人感觉不太关键,主要目前词库需要持续人工维护,也挺麻烦的。
回复 支持 反对

使用道具 举报

11

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
121178
积分
1702
回帖
1823
主题
434
铜币
20046
威望
567
银币
0
贡献
0
发书数
61
注册时间
2019-2-15
最后登录
2024-5-8
在线时间
1307 小时
QQ
发表于 2024-1-10 17:17 | 显示全部楼层
我打算用go写一下,兼容你的词库。

回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-2 14:24 | 显示全部楼层
本帖最后由 edennow 于 2024-4-26 15:04 编辑
cumt313 发表于 2023-11-17 21:14
楼主,再帮我看一下呢,这究竟是怎么回事?我在公司能用,回到家用自己的电脑就不行。

已知问题 1:
windows 下如出现 PHP Warning...vcruntime140.dll... 相关报错信息,应该是 windows 库文件过时所致。


在这个页面:https://visualstudio.microsoft.com/zh-hans/downloads/
找到这个,下载装一下试试(64 位系统要装 x64,不行就装 x86 试试,反之亦然)。


已知问题 2:
windows 下如出现类似乱码界面:


应该是 cmd 的默认编码不支持中文内容导致的,可参考这个链接:
https://blog.csdn.net/B11050729/article/details/131463516
进行一些设置。
推荐先在乱码的界面右键一下标题栏,进入 cmd 设置,然后更改一下字体,换成如图所示的宋体或者 simsun(实际也是宋体)之类的自带系统中文字体试一试:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-12-24 08:35 | 显示全部楼层
如果有在用这个脚本,建议更新一下,准确率有一定提升,
并尝试阅读理解一下帖子里的 词条替换逻辑 一节。

回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

秀才

Rank: 5Rank: 5

UID
150225
积分
557
回帖
1095
主题
1
铜币
196
威望
9
银币
0
贡献
0
发书数
0
注册时间
2023-2-16
最后登录
2024-5-8
在线时间
387 小时
发表于 2023-11-24 11:32 | 显示全部楼层
文字校对行业的AI,草根书友的造福者,致敬技术大虾!!!
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

秀才

Rank: 5Rank: 5

UID
150225
积分
557
回帖
1095
主题
1
铜币
196
威望
9
银币
0
贡献
0
发书数
0
注册时间
2023-2-16
最后登录
2024-5-8
在线时间
387 小时
发表于 2023-11-24 10:29 | 显示全部楼层
继续跟帖学习中,感谢大虾无私分享会!!!
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1634
回帖
2010
主题
1
铜币
9447
威望
628
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-8
在线时间
805 小时
QQ
发表于 2023-11-21 09:06 | 显示全部楼层
再和楼主探讨一下哈。楼主的脚本运行速度快,词库可看、可修改,确实非常方便做成个人适用的词库。另外,我看了一下黑马2004的破解版和V21版本,里面的错词库不能查看,只能往里面添加,能改动的好像只有知识库了。当然,也许懂计算机技术的大佬可以破解导出来。增加词库另外一个办法就是找一本文本质量巨差的小说,字数不用太多,先用脚本修改,然后读校,做好标记,一本书估计能提炼出成百上千个错词,就是这个过程有点痛苦,最好是找本自己稍微感兴趣的书来做。我有兴趣和楼主一起来完善这个词库,可以加我扣扣:二七七零六二九六二。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-18 22:34 | 显示全部楼层
本帖最后由 edennow 于 2023-11-21 16:01 编辑
cumt313 发表于 2023-11-18 19:50
楼主可以看一下我用的词库,也有极少量会误杀的词语,我也在不断增删修改,希望对你完善词库有帮助,后面和 ...

大概看了下《大英公务员》的校正对比,发现 4000 多处里面有差不多 2000 处是因为两边的格式不一致……
空行开头一边有全角空格,一边没有,调整了排版后就剩 2000 多处了,
这两千多处还有几百处是因为原文件中有一部分标点符号没有规范,英文逗号之类的我都做了转换,你改的貌似还有漏掉没转的。
这个校正我也是比较早做的,的地得都没处理,和你处理过的地方也有不少不同。
其他主要是一些细节词条有些差异了,感觉也还好了,主要是一些用语习惯各人有不一样的,也很正常。
从你改的结果里我也补充了一些词条,不过你漏改的貌似也有不少哈哈。

可以用 beyond compare 参考下我调整过排版和编码的版本,如果愿意的话也可以用我后面更新的词库来校正比较一下。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-18 21:29 | 显示全部楼层
cumt313 发表于 2023-11-18 21:02
再和楼主探讨一下哈。楼主的脚本运行速度之快,这个不用说了。当下该尽量扩充、完善词库,其他那些小软件中 ...

黑马校对的我之前是没有找到,后面再找找看吧,积累词条都是非一日之功了,慢慢增加吧。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44784
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-18 21:25 | 显示全部楼层
adianso 发表于 2023-11-18 21:08
为什么要用php啊

感觉py go更适合做这个工作吧,go静态编译,二进制单文件无需依赖

这个代码最开始是很久之前写的了,后面越写越多,懒得换了

现在批量替换词条那块也是调的 go 方法实现的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-8 14:30 , Processed in 0.045703 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表