楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44248
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-28 07:16 | 显示全部楼层
本帖最后由 edennow 于 2024-3-28 08:58 编辑
無愛 发表于 2024-3-27 23:02
弄了300条左右新词条,你若有空,看着剔除不必要的。

非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后面再结合实际使用情况调整。
有几个同时加到了 preprocessMap 里,bc 比较的时候也忽略掉算了。
不过里面的“再接再厉”和“稀里哗啦”这两个词的内容有点混乱了,应该是复制的时候出错了吧。

另外,刚刚又加了个重量级的“稍候->稍后”,很多书里一抓一大片,可以考虑单独进行修正……
[发帖际遇]: edennow 成为×点签约作家,收入 1 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-27 23:02 | 显示全部楼层
edennow 发表于 2024-3-24 21:58
用 beyond compare 比较 csv 应该还是可以的(csv 其实也是纯文本,直接用文本对比就可以),不过好像不 ...

弄了300条左右新词条,你若有空,看着剔除不必要的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44248
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-24 21:58 | 显示全部楼层
本帖最后由 edennow 于 2024-3-24 22:47 编辑
無愛 发表于 2024-3-24 12:21
原来是这样,试着用BCompare数据对比那项比对表格,直接卡死了。窘
EmEditor升级了新版,比旧 ...

用 beyond compare 比较 csv 应该还是可以的(csv 其实也是纯文本,直接用文本对比就可以),不过好像不能直接在那个比较页面里手动编辑,还是有点不是太方便。
这个囧字的问题我基本都是视而不见了,就当是网文方言吧……
有些词要仔细区分难度还是比较大的,不说用脚本或者别的方式自动改,就是人工改都得斟酌老半天。
比如现在的一些 ai 校对也无法完全解决的地得的问题,手动去改又太耗费时间,现在基本都是先把一些明显能处理的错误搞定,其他的很多细节问题就在阅读过程中通过批注一点点记录,比较随缘了,至少一眼看过去不太违和就满足了。
[发帖际遇]: 西元3000年,身为考古学家的 edennow,从起点的服务器里面考证到古人类的强大程度,获得奖励 2 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-24 12:21 | 显示全部楼层
edennow 发表于 2024-3-24 06:56
浑水的词条之前应该是加过了的,可以搜索下看看。

至于 excel 表的问题,其实之前我也考虑过把词库文 ...

原来是这样,试着用BCompare数据对比那项比对表格,直接卡死了。窘
EmEditor升级了新版,比旧版功能跟多,也更复杂了。得适应适应。

欸,说到窘,得加个词条,碰到过多次了,都是写成“囧”(老书比较常见)。
《说文解字〈卷七〉〈囧部〉》囧:窻牖麗廔闓明。象形。凡囧之屬皆从囧。讀若獷。賈侍中說:讀與明同。俱永切。
如:囧态、很囧、大囧、囧事……

但也不绝对,有些是说“囧”的表情。
如:表情是一个“囧”字
需要避免“泰囧”“人在囧途”的误伤。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44248
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-24 06:56 | 显示全部楼层
本帖最后由 edennow 于 2024-3-24 08:17 编辑
無愛 发表于 2024-3-24 00:28
“摊”与“滩”对比,“滩”太具有欺骗性了,有三点水以为跟液体相关的都用“滩”,后来查了词典才发现草 ...

浑水的词条之前应该是加过了的,可以搜索下看看。

至于 excel 表的问题,其实之前我也考虑过把词库文件改成 json、csv、yaml、toml 之类的格式,也考虑过另外用 sqlite、access 之类的本地数据库或者 excel 来管理。
其实目前的词库相当于就是个 txt 纯文本文件,使用 bc 对比或者一些文本编辑器来直接编辑都没有问题,通用性应该还是不错的。
如果改成 json 之类的格式还好,同样是保存成纯文本,但是如果弄成 excel 表的话应该换成 csv 会比较好(否则会是 xlsx 等二进制格式,不好用别的工具比对和编辑)。

csv 的导出和转换的操作其实我之前已经实现了,只是因为这个格式有些局限性(目前词条里一定不能含有英文逗号和英文引号),没有把这个功能开放出来。
这个功能我本来是想用来整合一些外部词库的,但是一直也没找到什么比 txtFormat 更好的词库,所以基本没怎么用过。

可以下载新的附件,里面有个 csv_operation.bat 的命令,打开之后,输入 0 可以将对应的 map 转成 csv 文件,输入 1 可以通过 csv 生成对应的词库格式 txt 文件(只是用于统一一下数据格式,基本不会用到)。
现在就是可以输入对应 map 的索引,生成比如 normalMap 的 csv 文件,然后就可以在 excel 里面进行 csv 文件的编辑。
只要在 maps 文件夹中有对应 map 的 csv 文件,就会自动优先加载 csv 里的词条,不会再去加载 php 文件里的了(没有生成 csv 文件的 map,就还是加载 php 里的词条,比如 preprocessMap 和其他各种 map)。
不过我这边就不会在附件里直接提供 csv 了,如果后面我这边有词库更新,需要自行将更新的 php 词库转换成 csv 文件,和你本地的 csv 词库对比差异。

其实还是更推荐直接编辑 php 的词库文件的(目前那个正则的 regexMap 暂时不能转成 csv,只能先直接改 php 文件,犯懒了),
主要是我也更喜欢用 php 数组的:

['before' => ["四两拔千斤", "四两拨千金", "四两拨千钧", "四量拨千斤"], 'after' => "四两拨千斤"],
['before' => "高海拨地区", 'after' => "高海拔地区"],
['before' => ["aaa", "bbb", "ccc"], 'after' => ["111", "222", "333"]],


这种比较灵活的形式来任意表示“多对一”“一对一”“多对多”的关系,
还可以通过加注释的方式来保留一些可供参考的词条,以及做一些词条注解(csv 要保留注释有点麻烦……)。
又改了下,现在可以在 csv 文件中前两列(before 和 after 列)之外的任意一列加上对应词条的注解(最好统一写在第三列,以后如果数据的结构有变动比较好统一处理)。
目前自定义词库的词条数量也还算比较少(展开数组后实际是六万出头),检索替换等编辑操作还算是比较便利的。

如果一直用旧版本的 emeditor 可能会有点落伍了,我如果用论坛分享的 emeditor 来编辑 php 格式的词库文件也不太顺手,很多类似:

【多行同时编辑】【批量添加/取消注释(使用 ctrl+/ 快捷键)】【总览全局搜索结果(搜索相关词条的时候很有用)】【分屏编辑同一文件】

这样的操作都无法实现(有些应该能做到,但我不怎么会用 emeditor),可以考虑更新 emeditor 版本,或者使用其他一些现代一点的编辑器,比如 vscode 之类的,有助于提升编辑体验。
可以看一下 vscode 的一些编辑操作演示:https://blog.csdn.net/weixin_46655235/article/details/121788623
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-24 00:28 | 显示全部楼层
edennow 发表于 2024-3-23 23:13
哈哈,也算是能学到一些现代汉语的规范吧,比如我之前一直把“一摊水”写成“一滩水”的,就算输入法写成 ...

“摊”与“滩”对比,“滩”太具有欺骗性了,有三点水以为跟液体相关的都用“滩”,后来查了词典才发现草率了,跟你犯了一样的错误。

['before' => ["这滩浑水", "这滩混水"], 'after' => "这摊浑水"],
这个词条有欺骗性,得看语境。若是带有“蹚”“掺和”“搅和”,用“趟”更合适。
建议加个反查词条。

脚本的词库能不能做成调用Excel表格的呀?这样维护起来更直观、更方便一点,也不怕复制代码时,多或少复制空格,前几天看了个程序员找了一天Bug的视频,Bug原来是多了个空格。故才有此一问。
目前记笔记用的是Excel表格,用Word记录过,不太直观。
不知道能不能实现?
[发帖际遇]: 無愛 过年期间遭遇熊孩子,破财消灾,发红包 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44248
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-23 23:13 | 显示全部楼层
無愛 发表于 2024-3-23 22:57
现在基本养成了有疑问的字词,先查词典的习惯。单纯的靠记忆真的很容易遗漏,就比如:
“莽莽”与“茫茫 ...

哈哈,也算是能学到一些现代汉语的规范吧,比如我之前一直把“一摊水”写成“一滩水”的,就算输入法写成“一摊水”,我都会手动把“一摊水”给改成“滩”,后来查了词典才知道一直都搞错了-_-||

不过这个脚本也只是通过机械重复的方式来解决一些机械重复的问题(有时候会惊叹于不同的作者写的不同的书,怎么犯的错误都是一样一样的,感觉好像乐此不疲……),是不能寄希望于搞定所有文本问题的,只能通过这种类似精卫填海的方式,把一些碰到的问题记录下来,一次性解决,避免一直重复劳动。

总之就是日积月累了,这个脚本好处就是你只要往里加词条,它就会帮你改;坏处当然就是,你不往里加,它也不能自行推断,因此改语病什么的就不用奢望了……

这些都是只能靠以后大佬们搞出开放人工智能工具才有可能实现了,不过暂时用这个脚本应该也能提高一些操作效率。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-23 23:02 | 显示全部楼层
cumt313 发表于 2024-3-23 20:33
加反查词条的思路确实很好,能很好地避免误伤。可以拿几本稿子来试一下,就基本能确定了。两个字的词条误 ...

两个字的词条,你不加吧,又会遗漏,加了又会误伤。只能通过比对发现问题记笔记,做出反查词条,还是得手动查。
对比原先的逐个字词去单独查找,这个脚本太方便快捷了,该误伤耗费的时间可以忽略不计。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-23 22:57 | 显示全部楼层
edennow 发表于 2024-3-23 20:39
感谢,除了人名那几个基本都可以加防止误伤的词条,可以留意后续的脚本附件更新。

其中那个“的说”改 ...

现在基本养成了有疑问的字词,先查词典的习惯。单纯的靠记忆真的很容易遗漏,就比如:
“莽莽”与“茫茫”(这俩词太看语境了)
“全当”与“权当”(这俩词太看语境了)
“拜将封侯”与“拜相封侯”
“怙恶不改”与“怙恶不悛”
“不可置否”与“不置可否”
“电光火石”与“电光石火”(当时还觉得“电光火石”对的,因为游戏的技能也叫这名字)
等等,有些词很考验知识积累啊。

等再校书,有问题再反馈。词库积累,真是大工程啊。
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44248
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-23 20:39 | 显示全部楼层
無愛 发表于 2024-3-23 20:10
词条反馈,没过txtFormat,单纯运行脚本后BCompare比对

感谢,除了人名那几个基本都可以加防止误伤的词条,可以留意后续的脚本附件更新。

其中那个“的说”改成“地说”是因为我偷懒了,当时加了很多的类似“掌柜的说”“看门的说”之类的,后面发现这种情况太多了,暂时就没继续往里加类似词条了,只能通过手动修复相关词条,相信应该也比较容易能看出来,或者把这个词条删掉不改也可以。

那个连续引号中间的逗号去掉的,有的情况是不能直接改的,但是有的情况不改又不合适,放在这里也是提供一个自行判断的入口,如果有误改也是需要手动修复。

和上面那个“的说”之类的词条一样,有部分词条就是容易误改(特别是两个字的,当时加的时候就是没考虑到防误伤的问题),但是我认为“它制造的问题”和“它解决的问题”之间比例比较悬殊,大部分情况下还是能解决掉一些问题的,所以暂时还是保留了。

融会古今是从 txtFormat 词库里直接搬过来的,打算把 before 和 after 位置换一下,txtFormat 词库里有不少都是有问题的,我目前也是碰到一个改一个,但只要改好一次就不会重复改错了。

可以把修改过后的文本再用 txtFormat 修正一下,体验一下脚本改的效果,目前我试过基本上脚本是把 txtFormat 里面 80% 到 90% 的词条给改了(还有很多是脚本里独有的词条做出的额外修改),再去 txtFormat 里手动改的话(可以尝试看一下帖子里的“txtFormat 词库”的相关信息,用脚本调用 txtFormat 词库自动改也是可以的),要做的有效修改应该不算多了。

还有部分人名的,因为这都是某本书里才有可能出现的误改,也可以尝试看一下帖子里的“书籍专有替换”的逻辑,为每本书建立单独的词条集合,防止重复修正某本书时,重复发生误改。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-4-27 17:50 , Processed in 0.041050 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表