楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-18 23:58 | 显示全部楼层
kll85757 发表于 2024-1-18 23:50
刚才逐个试错发现这个问题了,十分感谢

这个词条是特殊中的特殊了……其他词条一般不会出现这种问题。

其实现在 normalMap 里所有和“噘嘴”有关的词条基本都可以删掉,因为到最后都会被 regexMap 里面的正则给改成正确的。

而 regexMap 中的所有规则,在预处理的时候都不会执行,因为怕正则不严格(好几条都是随便写的)导致改错,如果在预处理的时候执行这些正则的话,差异项会被掩盖掉,即使改错了也发现不了。

所以建议也把那里的十几条规则详细看一下,把不需要的删掉。如果有发现 normalMap 里面明明没有相关词条,却被更改了,大概率都是那些正则改的。
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

举人

Rank: 6Rank: 6

UID
164576
积分
1015
回帖
477
主题
36
铜币
9633
威望
755
银币
0
贡献
0
发书数
33
注册时间
2023-11-1
最后登录
2024-5-7
在线时间
191 小时
QQ
发表于 2024-1-18 23:50 | 显示全部楼层
edennow 发表于 2024-1-18 23:25
对了,另外就是那个单字的“噘”->“撅”那一条最好不要加到 preprocessMap 里面,会造成一些混淆。

刚才逐个试错发现这个问题了,十分感谢
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-18 23:25 | 显示全部楼层
本帖最后由 edennow 于 2024-1-18 23:28 编辑
kll85757 发表于 2024-1-18 22:44
执行的是1 的脚本

这个warning 好像也不关事吧,图右上角是执行文本

对了,另外就是那个单字的“噘”->“撅”那一条最好不要加到 preprocessMap 里面,会造成一些混淆。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-18 23:05 | 显示全部楼层
kll85757 发表于 2024-1-18 22:44
执行的是1 的脚本

这个warning 好像也不关事吧,图右上角是执行文本

额……这个还是有关系的

我之前把词库加载的逻辑改了一下,这个残留的词库名忘掉了没有处理,会导致一些问题。

可以在 main.php 里面把 normalFixMap 那整行删掉,或者可以重新下载我刚传的附件。

正常这个脚本应该是不会输出任何 warning 或者 error 之类的报错信息的。
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

举人

Rank: 6Rank: 6

UID
164576
积分
1015
回帖
477
主题
36
铜币
9633
威望
755
银币
0
贡献
0
发书数
33
注册时间
2023-11-1
最后登录
2024-5-7
在线时间
191 小时
QQ
发表于 2024-1-18 22:44 | 显示全部楼层
本帖最后由 kll85757 于 2024-1-18 22:54 编辑
edennow 发表于 2024-1-18 22:30
我试了下会替换 booksBak 里的内容,没发现问题,有没有打印出什么报错信息?
如果没有的话,确定执行的 ...

执行的是1 的脚本

这个warning 好像也不关事吧,图右上角是执行文本

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
[发帖际遇]: kll85757 手机掉厕所请人打捞,花了 1 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-18 22:30 | 显示全部楼层
本帖最后由 edennow 于 2024-1-18 22:32 编辑
kll85757 发表于 2024-1-18 22:12
我想让“噘”和“噘”这两个字段互换,我在$normalMap里将所有这两个字的变量复制到preprocessMap最后面 ...

我试了下会替换 booksBak 里的内容,没发现问题,有没有打印出什么报错信息?
如果没有的话,确定执行的是 1 那个脚本吧?
[发帖际遇]: edennow 早睡早起,坚持晨练,获得奖励 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

举人

Rank: 6Rank: 6

UID
164576
积分
1015
回帖
477
主题
36
铜币
9633
威望
755
银币
0
贡献
0
发书数
33
注册时间
2023-11-1
最后登录
2024-5-7
在线时间
191 小时
QQ
发表于 2024-1-18 22:12 | 显示全部楼层
edennow 发表于 2024-1-18 17:43
“把这部分‘特征明显,误伤率低,出现频率高’ 的词组在 原文件的文本 里进行替换”
就是说只要把新的 ...

我想让“噘”和“噘”这两个字段互换,我在$normalMap里将所有这两个字的变量复制到preprocessMap最后面,但booksBak里的原文件并没有生效,这是哪里出问题了吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-18 17:43 | 显示全部楼层
本帖最后由 edennow 于 2024-1-18 17:48 编辑
kll85757 发表于 2024-1-18 00:35
原谅我资质愚钝,有关于“原文件预处理 的流程思路”,这个思路我明白,但如何“把这部分‘特征明显,误伤 ...

“把这部分‘特征明显,误伤率低,出现频率高’ 的词组在 原文件的文本 里进行替换”
就是说只要把新的词条写在这个 $preprocessMap 变量里,就会在预处理的时候被替换掉,不用额外再做什么操作,只要写了,就会作用到 booksBak 文件夹里的所有书籍的备份原文件。

而写在 $normalMap 变量里的词条,是对 books 文件夹里的书籍文件替换时用的。

可以分别运行一下 1 和 2 那两个 bat,然后分两次看看有预处理和没预处理的比较结果,应该就能看出预处理词条的替换效果了。

要删除词条的话,直接把整行删掉,或者加两个斜杠注释掉都是可以的,我留的一些注释掉的词条只是想有时候做个参考而已,把所有注释掉的词条都删掉,也不会有什么影响。
[发帖际遇]: edennow 在寺庙拜佛,偶遇功德箱破损,贪财贪财,捡得 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

4

听众

0

收听

0

好友

举人

Rank: 6Rank: 6

UID
164576
积分
1015
回帖
477
主题
36
铜币
9633
威望
755
银币
0
贡献
0
发书数
33
注册时间
2023-11-1
最后登录
2024-5-7
在线时间
191 小时
QQ
发表于 2024-1-18 00:35 | 显示全部楼层
本帖最后由 kll85757 于 2024-1-18 14:47 编辑

原谅我资质愚钝,有关于“原文件预处理 的流程思路”,这个思路我明白,但如何“把这部分‘特征明显,误伤率低,出现频率高’ 的词组在 原文件的文本 里进行替换”?

方法是:
“如果你能理解我说的这个思路,可以自己修改 src/maps文件夹 里 1.自定义词库.php 的 $preprocessMap 变量的词条(里面都是预处理流程中用到的词条),把不需要的删掉,加上你认为百分百不会误伤的词条(需要把这里的改动也同步到 同文件的 $normapMap 变量,因为前者是后者的子集,$preprocessMap 变量里有的词条用 ctrl + f 就能在 $normapMap 变量 找到一份一模一样的 ),最好也是把新加的词条放到最后,因为是从上到下遍历替换的,放在最后可以确保新加的内容生效。”

方法实在没搞懂,譬如图中绿色的,按我理解前面带双斜杠的是意味着后面的代码不生效,那就代表这是已经把不需要的,删掉的了?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44775
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-1-10 17:52 | 显示全部楼层
adianso 发表于 2024-1-10 17:17
我打算用go写一下,兼容你的词库。




自定义词库那个文件里面有不少词条是用 php 数组折叠了的,和 go 数据类型不是很兼容。
这个是转成 json 格式的,应该可以直接使用,可以参考一下哈。
其他文件里的词库用正则转一下应该就行了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-8 11:34 , Processed in 0.039928 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表