查看: 367|回复: 17

[求助] 校对方面:关于文字查找(已解决)

[复制链接]

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-16 15:21 | 显示全部楼层 |阅读模式
本帖最后由 無愛 于 2024-3-16 23:27 编辑

自行校对了几本书,是真心佩服论坛的各位校对大神们。完整校对完一本书需花费大量精力与时间,完全是用爱发电啊。
感慨完说说自己在校对中碰到的小问题,希望有大神帮忙解惑。
在校对过程中,找到些同音的错字,一个个查找起来修改很费时间,大部分都是无效查找,有没有什么方法屏蔽掉这些查找呢?

比如:形势”与“形式”、“无瑕”与“无暇”……
例句:
教会都是以秘密组织的形势存在。
唉,终究是形式比人强啊。

他们不断相爱相杀,互相重创对方,导致双方都无瑕他顾。
她那充满喜悦的脸上绽放着无暇的笑容。

如上例句,如何在查找的过程中排除正确的搜索。
比如:在查找“无瑕”与“无暇”中,将“无暇他顾”、“的笑容”列为无须查找的对象。
或者有没有更为高效的定位方法?txtFormat只能定位少量的,大部分还是会遗漏。
回复

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
 楼主| 发表于 2024-3-16 23:20 | 显示全部楼层
校了几本书还没注意,原来txtFormat的“叠字”那里就有屏蔽查找的正则。也是刚刚无意翻到的。

具体正则是:
(?<![目中])的的(?![确])


萌新的我又学到一个新知识了,说说自个儿试验出来的结果。

如:我需要屏蔽掉“无瑕的笑容”、“完美无瑕”、“洁白无瑕”这个无需查找的正确项,则可以这么写:
(?<![完美|洁白])无瑕(?![的笑容])

试验了其他词,当左或者右括号内无需内容的时候,直接用“|”,不然没法查找。
如:
(?<![|])格格(?![不入])
(?<![将功])赎罪(?![|])

若将它们连起来,同样是需要用“|”分隔开。
如:
(?<![完美|洁白])无瑕(?![的笑容])|(?<![|])格格(?![不入])|(?<![将功])赎罪(?![|])

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

点评

正解,很好的教程  发表于 2024-4-2 11:43
回复 支持 反对

使用道具 举报

16

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1024
主题
67
铜币
44316
威望
2435
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-28
在线时间
1538 小时
发表于 2024-3-16 20:24 | 显示全部楼层
本帖最后由 edennow 于 2024-3-16 20:31 编辑

这种建议还是整理一些自己用的替换词条以及正则表达式可能会好一点吧。

如果愿意折腾的话,可以试用一下我分享的这个替换表,根据自己的需要可以自定义词库和正则来一键替换,可能可以省一点工夫:http://www.1000qm.vip/forum.php? ... 5526&extra=page%3D1

不过当前还是靠和 txtformat 一样的机械堆砌词条的方式来处理,维护那个词库还是需要细看一些规则,有点麻烦的……
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
 楼主| 发表于 2024-3-16 22:50 | 显示全部楼层
edennow 发表于 2024-3-16 20:24
这种建议还是整理一些自己用的替换词条以及正则表达式可能会好一点吧。

如果愿意折腾的话,可以试用一下 ...

大概明白了坛友的意思了,得翻翻之前读校时记的笔记,做成词库了。
正则不是很懂,屏蔽查找的正则怎么写?
回复 支持 反对

使用道具 举报

16

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1024
主题
67
铜币
44316
威望
2435
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-28
在线时间
1538 小时
发表于 2024-3-16 23:01 | 显示全部楼层
無愛 发表于 2024-3-16 22:50
大概明白了坛友的意思了,得翻翻之前读校时记的笔记,做成词库了。
正则不是很懂,屏蔽查找的正则怎么写 ...

正则主要是用来限定一些查找的规范吧,如果基本不了解的话可能需要在网上找一些基础教程看一看,用来整理一些文本还是很方便的,就比如:无暇他顾 这种,就可以通过断言来限定后面不要出现 他顾。

无暇(?!(他顾))

也可以写成限制多种不出现:

无暇(?!(他顾|你顾|我顾))

我之前也分享了一个帖子:http://www.1000qm.vip/forum.php?mod=viewthread&tid=346989
不过可能对正则表达式有个大概印象再看这个整理的会好一点。
特别是掌握正则中的“分组替换”,可以在很多情况下做到事半功倍。
[发帖际遇]: edennow 体验乞丐生活,获得 2 铜币. 幸运榜 / 衰神榜
回复 支持 0 反对 1

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
 楼主| 发表于 2024-3-16 23:25 | 显示全部楼层
edennow 发表于 2024-3-16 23:01
正则主要是用来限定一些查找的规范吧,如果基本不了解的话可能需要在网上找一些基础教程看一看,用来整理 ...

感谢坛友解惑,原来在txtFormat的“叠字”查找那项校对就有正则可以抄哇。
以前校书都没认真去看,太复杂了。
回复 支持 反对

使用道具 举报

16

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1024
主题
67
铜币
44316
威望
2435
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-28
在线时间
1538 小时
发表于 2024-3-16 23:34 | 显示全部楼层
無愛 发表于 2024-3-16 23:25
感谢坛友解惑,原来在txtFormat的“叠字”查找那项校对就有正则可以抄哇。
以前校书都没认真去看,太复 ...

是的,txtFormat 本身就是通过一堆正则来做校正的,如果你用的是 2.0.8 而不是 2.1.0 版本,甚至可以看到“校正常见错别字”的那一栏里面有由八九万个关键字拼成的一条无敌长的正则来进行查找。

不过个人觉得 txtFormat 的操作还是有点繁琐了,特别是校正错别字的时候。
第一是不知道整个文件到底有多少(它认为的)错别字,只能一个个往下点,有时候一个文件里面要点成千上万次鼠标。
第二是它本身的词库里面有一些是改错了的,或者是不符合个人口味的,想改词库也没有什么入口可以改(其实可以另外在它的根目录写一个自定义词库的文件,估计大部分人都没看它的使用文档而不知道这回事)。
第三是它用一堆拼凑的正则来检测,就注定了性能不会很高,如果是几百万字的文本,扫一遍太费时间了……

如果以后有哪些开放出来的易用且准确的 ai 工具才是一劳永逸了(现在也有一些模型和库,不过对我来说门槛有点高,看不懂……)。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
 楼主| 发表于 2024-3-16 23:48 | 显示全部楼层
edennow 发表于 2024-3-16 23:34
是的,txtFormat 本身就是通过一堆正则来做校正的,如果你用的是 2.0.8 而不是 2.1.0 版本,甚至可以看到 ...

是的,真希望大佬们早点做出AI校对,手动校对是真的太费心力了。
txtFormat校对错别字那一项,我只当它是查找定位工具,用EmEditor打开需要校对的文本,txtFormat只是负责查找而已。(第一次用这软件校错别字那一项,经历过软件闪退,又没保存的事故,就再也没用它点“替换”校对了)
[发帖际遇]: 做为仅有的一个渡劫期修士,無愛 为了购买渡劫所需法宝,花了 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

16

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1024
主题
67
铜币
44316
威望
2435
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-28
在线时间
1538 小时
发表于 2024-3-17 00:25 | 显示全部楼层
本帖最后由 edennow 于 2024-3-17 00:27 编辑
無愛 发表于 2024-3-16 23:48
是的,真希望大佬们早点做出AI校对,手动校对是真的太费心力了。
txtFormat校对错别字那一项,我只当它 ...

感觉你这样的操作可能不如打开一下 2.0.8 版,把它那整条正则复制出来,到 emeditor 里面去直接进行查找好一点,这样也许不用在两个软件之间跳来跳去(好吧,我试了会卡死,可以无视了……)。

另外如果有尝试我写的那个脚本,可以在改完文件之后,通过 beyond compare 对比一下校正结果,有什么 bug 或者建议也欢迎提出哈。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
 楼主| 发表于 2024-3-17 15:31 | 显示全部楼层
edennow 发表于 2024-3-17 00:25
感觉你这样的操作可能不如打开一下 2.0.8 版,把它那整条正则复制出来,到 emeditor 里面去直接进行查找 ...

好,下次校对书,试试脚本。
新增词库是不是如下图所示进行操作?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-4-28 19:00 , Processed in 0.043840 second(s), 28 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表