楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1015
主题
67
铜币
44548
威望
2438
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-3
在线时间
1539 小时
 楼主| 发表于 2023-9-5 18:20 | 显示全部楼层
seeyuer 发表于 2023-9-5 18:06
用了链接里面的 emeditor,还是不行,但是 PHP 脚本可以用。我的文件 也是 UTF-8 编码的。

感觉老哥的 ...

那确实奇怪了,我用的是他那个 x64 的包,是能成功替换的(会卡一段时间),可能得等哪位大佬帮忙看看了,可以试试按我的写法创建新文件,自己写一两条规则保存成新的宏,看看能不能执行,难道是词条数量太多,还是中间某些内容有问题导致的?

php 脚本自动备份和预处理这个可以考虑,后面看抽时间写一下吧,主要当时想的是让用户自己动手存两份文件,可以保证不会忘掉后面要进行对比哈哈。
回复 支持 反对

使用道具 举报

3

听众

0

收听

0

好友

儒士

Rank: 4

UID
155110
积分
343
回帖
260
主题
1
铜币
1221
威望
212
银币
0
贡献
0
发书数
0
注册时间
2023-6-9
最后登录
2024-5-3
在线时间
56 小时
发表于 2023-9-5 18:06 | 显示全部楼层
本帖最后由 seeyuer 于 2023-9-5 18:18 编辑

目前我使用的版本是 22.2。我的文件也是 UTF-8 编码的。用了链接里面的 emeditor,还是不行,但是 PHP 脚本可以用。

老哥的 PHP 脚本可不以增加个功能,在替换文本错别字前,先把 book 文件夹里的文件自动备份到 bookbak 文件夹里,不用手动备份。感觉这样可能会方便点。
[发帖际遇]: 西元3000年,身为考古学家的 seeyuer,从起点的服务器里面考证到古人类的强大程度,获得奖励 2 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1015
主题
67
铜币
44548
威望
2438
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-3
在线时间
1539 小时
 楼主| 发表于 2023-9-5 15:44 | 显示全部楼层
seeyuer 发表于 2023-9-5 14:47
导入宏,使用宏的时候,提示第 6 行有问题。看宏的代码,没看出啥问题。定义的词条没有替换。楼主该怎么解 ...

http://www.1000qm.vip/forum.php?mod=viewthread&tid=54364

我用的是这个版本的 emeditor,点击运行的时候有响警报,但是没有错误信息弹出,而且词条全部都替换了,
感觉可能是文件或者宏的编码有问题?

我一直处理的都是 utf-8 编码的文件,你可以确认下文件编码,如果还是不行,看看你愿不愿意发出文件来,我看下用 emeditor 能不能转换。

另外,下面那个 php 脚本里面有自动处理文件编码的功能,全部都会转成 utf-8,你可以试试看用那个会不会有问题。
回复 支持 反对

使用道具 举报

3

听众

0

收听

0

好友

儒士

Rank: 4

UID
155110
积分
343
回帖
260
主题
1
铜币
1221
威望
212
银币
0
贡献
0
发书数
0
注册时间
2023-6-9
最后登录
2024-5-3
在线时间
56 小时
发表于 2023-9-5 14:47 | 显示全部楼层
导入宏,使用宏的时候,提示第 6 行有问题。看宏的代码,没看出啥问题。定义的词条没有替换。楼主该怎么解决啊?
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1015
主题
67
铜币
44548
威望
2438
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-3
在线时间
1539 小时
 楼主| 发表于 2023-9-4 02:23 | 显示全部楼层
本帖最后由 edennow 于 2023-10-21 20:16 编辑

UPDATE



回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1015
主题
67
铜币
44548
威望
2438
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-3
在线时间
1539 小时
 楼主| 发表于 2023-9-2 19:10 | 显示全部楼层
本帖最后由 edennow 于 2024-4-21 21:23 编辑

更新记录【2023
传送门

更新记录【2024】
1 月 2 日版本更新,继续完善替换表,新增了 postFixMap”校正后置词库,
以及“书籍专有替换词库”,详情请见上面的修改校正表说明”一节。
(请在本页面搜索 ⑤$postFixMap书籍专有替换词库.php 查看说明

1 月 13 日版本更新,将 txtFormat 词库中的四字词条做了基本的筛选(我觉得没用的都没加进来),整合进了自定义词库中。
目前自定义词库的词条数量已超 5.5 万,基本覆盖了 txtFormat 中的四字词条(我认为),不过其中可能也有不少词条需要根据书籍实际校正情况,自行进行删减。
另外,txtFormat 中的三字和二字词条(约 4.5 万条)较容易产生混淆,以后看情况随缘整合吧。


3 月 19 日版本更新,执行 【双击运行】1.书籍校正.bat 前,提供【是否需要进行额外的标点符号修正】的选项。
请详细看一下命令行的提示信息,可自行尝试不同选项,以确认各选项的修正效果,之前是强制执行这部分标点符号修正的。


3 月 24 日版本更新,新增 csv 格式的词库转换功能,具体内容见 85 楼。

4 月 3 日更新词库,优化操作流程,以便于调用多种词库进行多轮校对。

经过粗略测试多本网文的校正效果,目前脚本的自动修正基本能达到 txtFormat 【有效】手动操作(排除掉 TF 那些乱七八糟的误改) 80%-90% 的效果(还会额外做出很多 txtFormat 默认词库没有的修正)。

在目前优化的操作流程中,可以在选用【自定义词库】完成第一轮校正后,再输入 1 进行第二轮校正,
并在此轮校正中选用【txtFormat 词库】来校正,结果相当于将 txtFormat 中的每个错别字修改都应用了“全部替换”(等于是在 txtFormat 中做了 100% 的修正操作)。

此外,还可以通过【的地得词库】【繁转简词库】等继续进行多轮校正,每轮校正都只会在 BC 中看到当前选择词库的修改效果。

4 月 5 日更新词库,词条新增“replaceHolder”(随意造的词)设置,可用于进一步折叠词条,便于扩展不同的前缀后缀等(尤其是一些“的地得”的词条)。
不过该设置的操作比较复杂,等同于将 (开心|高兴|振奋)的(说着|笑着) 这样的正则通过脚本自动展开成“开心的说着”“开心的笑着”“高兴的说着”“高兴的笑着”……这样一批词条。

以后有空再详细说吧,如果在词库中见到有“@”,以及 replaceHolder 字段的词条,先无视就可以了。
如果感兴趣也可以拉到 $normalMap 的最后,搜索一下“付诸实践”,在那个词条的位置附近有写一些注释说明,可供
理解参考。

4 月 15 日更新词库,部分替换频率比较高的词(不少是可改可不改的)加了一些基于个人理解和查证的注释说明(例如“不承想”“按捺”“喑哑”“”“化装眼力见”“门闩”“脚指头”“定制”“的一声”“的一下”“藉以”),增删词条前可以先在自定义词库中进行搜索参考,避免重复劳动。
另外如果有些词搜不到,应该是被 regexMap 里的那十几条正则给改了,也可以稍微熟悉一下那些正则,根据个人需要进行调整,目前数量并不算多。



回复 支持 反对

使用道具 举报

15

听众

0

收听

0

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
127833
积分
3350
回帖
1731
主题
19
铜币
26664
威望
2373
银币
0
贡献
50
发书数
15
注册时间
2020-11-9
最后登录
2024-5-4
在线时间
744 小时
发表于 2023-9-2 06:34 | 显示全部楼层
感谢分享,现在网站的反爬手段大多是替换人物名和部分词语反义,盗版就像在看道诡异仙一样癫
世间无限丹青手,一片伤心画不成。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1015
主题
67
铜币
44548
威望
2438
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-3
在线时间
1539 小时
 楼主| 发表于 2023-9-2 00:12 | 显示全部楼层
本帖最后由 edennow 于 2023-9-2 00:31 编辑
sunjq1976 发表于 2023-9-1 23:55
运行到14行报错,报的缺少“)”,好奇怪。进去看了第14行,没发现问题

是说那个宏文件吧,我试了也是有报错,可能是写法有问题?

但是定义的那些词条也都顺利替换了,可以比较下原文件看看有没出错。

ps:
又改了一下格式,传了新附件,貌似没有一开始就报错了,但是最后好像还是会响警报,不清楚具体什么原因,
不过功能貌似没什么问题,凑合看看先吧
回复 支持 反对

使用道具 举报

2

听众

0

收听

0

好友

儒士

Rank: 4

UID
155186
积分
276
回帖
278
主题
8
铜币
2639
威望
132
银币
0
贡献
0
发书数
6
注册时间
2023-6-10
最后登录
2024-4-29
在线时间
119 小时
发表于 2023-9-1 23:55 | 显示全部楼层
运行到14行报错,报的缺少“)”,好奇怪。进去看了第14行,没发现问题
[发帖际遇]: sunjq1976 用“公主抱”送老爷爷过马路,得到奖励 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

10

听众

0

收听

0

好友

举人

Rank: 6Rank: 6

UID
130789
积分
1843
回帖
2285
主题
1
铜币
6038
威望
700
银币
0
贡献
0
发书数
0
注册时间
2021-2-17
最后登录
2024-5-3
在线时间
124 小时
发表于 2023-9-1 23:26 | 显示全部楼层
感谢楼主的分享!!!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-4 09:52 , Processed in 0.042615 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表