楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-17 21:14 | 显示全部楼层


楼主,再帮我看一下呢,这究竟是怎么回事?我在公司能用,回到家用自己的电脑就不行。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-17 13:22 | 显示全部楼层
本帖最后由 edennow 于 2023-11-17 13:51 编辑
cumt313 发表于 2023-11-17 09:13
楼主的思路确实太先进了,关于误杀大家可以看一下我的回复,实际上是可以解决的。我之前用TF校对,一两百万 ...

关于减少误伤我是比较认同按自己的需求来修改不同的词库的,毕竟适合自己的才是真正有用的。

其实想要维护自己的词库无非就是在做“加法”和“减法”,个人是比较倾向当准备引入新词库的时候,先一股脑做“加法”,直接用新词库的大部分词条来单独校正几本书(是先用自己的原有词库把这些书籍校正过的),宁肯有杀错也不放过,校正完之后,大概在 beyond compare 里扫几眼校正结果,就能把新词库有,而自己的原有词库没有的词条筛选出来(改错的统统不管,或者在新词库里直接把这些错的删掉就行了),加到自己的词库里面,重复操作几遍,就能比较好地把原有词条和新词条融合起来,而不至于漏掉一些有用的新词条。

关于词条长度,基本上两个字及以下都容易出现误伤,三个字到四个字的适用性就比较强了,带标点符号的准确性更佳(因为没有做中文分词,只能这么粗略地归类一下)。

另外就是在 beyond compare 对比的时候,发现只要善用 ctrl+h 来全局替换(勾选“返转搜索”和“正则表达式”),就可以马上减少很多明显误伤的词条,而不用跑到别的编辑器再反复操作:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-17 09:13 | 显示全部楼层
楼主的思路确实太先进了,关于误杀大家可以看一下我的回复,实际上是可以解决的。我之前用TF校对,一两百万字的要校对几个小时,而且有很多重复的操作,一不小心还是会误杀,重来。后面我用几个软件交叉校对,大部分稿件要不了一个小时,找出的错误比单用一个软件还多得多。里面的关键在于词库分别存放和批量替换,以及词库的不断完善。
[发帖际遇]: cumt313 喝酒过量,被老婆大人罚跪搓衣板并扣减零花钱 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-17 08:56 | 显示全部楼层
edennow 发表于 2023-11-16 23:31
传了新的附件,处理了空格路径的问题,可以重新下来试试。

感谢楼主再次更新,在公司试了一下,确实没问题了,回去在自己的电脑上再试一下。楼主的思路确实太牛了,希望再次完善词库,优化代码。当然,这个要求有点过分了,楼主可以无视。之前用了ed软件,只能完全匹配才能批量替换,我看到楼主还有正则式替换,顿时惊呆了。我自己也写了一点正则式代码,用在TF软件上,不过主要是“的地得”的正则式,因为我发现TF的词库也不是很完善,有错漏的,而且词库不能自己添加。还是说一下我自己的校对思路,第一步用ed批量替换,基本保证词语不会误杀,会误杀的词语都放到校对助手上了,一般用时一两分钟。第二步用TF软件,大概十多分钟。第三步用校对助手,词库已经由一千多条增添到三千多条,主要是容易误杀的两字词语,一般也是二十分钟。最后一步用黑马,也是大概十分钟。后面三步查出的错误中的成语或短语,都及时更新到ed的宏里面,保证词库的最大化。这样校对起来就越来越快了。
[发帖际遇]: 做为仅有的一个渡劫期修士,cumt313 为了购买渡劫所需法宝,花了 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-16 23:31 | 显示全部楼层
cumt313 发表于 2023-11-16 22:43
点击右键以管理员运行,提示:系统找不到指定的路径。

传了新的附件,处理了空格路径的问题,可以重新下来试试。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-16 22:54 | 显示全部楼层
cumt313 发表于 2023-11-16 22:43
点击右键以管理员运行,提示:系统找不到指定的路径。

我猜应该是你存放的位置名称有空格,比如你的 windows 用户名是不是有空格?
忘掉要考虑这种情况了,你试试把这个 FixText 文件夹直接放到 d 盘或者其他盘试试,不要放到任何含有空格路径的地方。
[发帖际遇]: edennow 参与义务献血,补偿营养费 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-16 22:43 | 显示全部楼层
edennow 发表于 2023-11-16 22:19
那你右键点一下那个 bat,然后用管理员身份运行试下?
应该会有信息打印出来吧,我试了是可以执行的。

点击右键以管理员运行,提示:系统找不到指定的路径。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2023-11-16 22:19 | 显示全部楼层
cumt313 发表于 2023-11-16 22:05
楼主, FixText.zip (16.43 MB, 下载次数: 124)这个文件下载了解压放到桌面上了,也放入书籍了,但双击下面 ...

那你右键点一下那个 bat,然后用管理员身份运行试下?
应该会有信息打印出来吧,我试了是可以执行的。
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-16 22:05 | 显示全部楼层
楼主, FixText.zip (16.43 MB, 下载次数: 124)这个文件下载了解压放到桌面上了,也放入书籍了,但双击下面的bat文件没反应呢。求告知是怎么回事。
[发帖际遇]: cumt313 经过了千辛万苦,捕捉了一只楼主,获得奖励 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

2

好友

举人

Rank: 6Rank: 6

UID
2230
积分
1635
回帖
2011
主题
1
铜币
9451
威望
629
银币
0
贡献
0
发书数
0
注册时间
2015-7-1
最后登录
2024-5-9
在线时间
806 小时
QQ
发表于 2023-11-16 20:15 | 显示全部楼层
白看一辈子 发表于 2023-10-10 20:04
直接脚本一建改错字容易误杀
如果搞完还要考BC的话还不如TXTformat一个一个校

一键替换还是可以的,但要注意词条是成语,或者是三个字并且带有标点的,这样基本就不会误杀了。自动替换过后用比对软件一查,就可以发现哪些会误杀,把误杀的删掉就是了。容易误杀的放到另一个软件去,人眼比对一下再决定是否修改,这样基本就没问题。完全搬用楼主的词条不可取。
[发帖际遇]: “宝宝不开心”,cumt313 获得奖励棒棒糖一根,价值 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-9 10:00 , Processed in 0.040973 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表