楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-29 22:13 | 显示全部楼层
edennow 发表于 2024-3-29 17:39
随手搜了一下,这个貌似还蛮好用的:https://www.sougood.top/tool/9887/
这个工具就是用了结 ...

好东西啊。
按照教程测试了一本在读小说,效果不是很理想,蛮多角色名(几百个的高频)没提取出来。搜索了停用词也没相关的。
[发帖际遇]: 無愛 彩票中了安慰奖,得到 2 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-3-29 17:39 | 显示全部楼层
無愛 发表于 2024-3-29 15:42
那敢情好,坐等更新






随手搜了一下,这个貌似还蛮好用的:https://www.sougood.top/tool/9887/
这个工具就是用了结巴分词来做了一些统计分析,幸好搜了一下,不然差点动手重复造轮子了。

可以详细看一下那篇文章里面的停用词和自定义词的说明,可以根据实际情况自行调整。
我也没怎么深入了解过结巴分词的细节,不过这算是大名鼎鼎的几种分词方案之一了,效果还是不错的,
它分出来的词同时会标注名词形容词等词性。

这个工具第一次点开的时候有可能会卡一下,短暂出现黑色的空窗口,不过等它加载一会就好了。

江海  764 名词
片刻  747 数词
样子  741 名词
说道  728 动词
少女  724 名词
说话  698 动词
一声  693 数词
女人  688 名词

根据这样的统计结果,可以通过正则把它转换成词库里的 before after 形式,作为防止误伤的词条,临时加进去后再进行校正。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
[发帖际遇]: edennow 只顾着仰头看云,被高跟鞋美女踩伤了膝盖,损失 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-29 15:42 | 显示全部楼层
edennow 发表于 2024-3-29 15:15
之前有看到过一些 python 的实现,不过没怎么实际去弄,我后面考虑下这个统计高频词的功能吧,有时候提前 ...

那敢情好,坐等更新
[发帖际遇]: 無愛 在公交车没有注意,被小偷偷去了 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-3-29 15:15 | 显示全部楼层
無愛 发表于 2024-3-29 14:58
大神,有没有角色名提取、统计的工具呀?
校书是真的怕了作者用的角色名出现混乱,读校也会有忽略遗漏的 ...

之前有看到过一些 python 的实现,不过没怎么实际去弄,我后面考虑下这个统计高频词的功能吧,有时候提前把一些角色名提取出来防止误伤也是挺好的。
[发帖际遇]: 做为仅有的一个渡劫期修士,edennow 将要渡劫前得到师娘赞助 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-29 14:58 | 显示全部楼层
edennow 发表于 2024-3-28 07:16
非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后 ...

大神,有没有角色名提取、统计的工具呀?
校书是真的怕了作者用的角色名出现混乱,读校也会有忽略遗漏的时候,特别是小说字数多、角色多的情况下,(大概率是拼音输入法的锅)。
想着若有提取统计工具的话,根据出现的频率与相似程度方便修正。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-28 14:49 | 显示全部楼层
edennow 发表于 2024-3-28 07:16
非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后 ...

“再接再厉”和“稀里哗啦”这两个词确实是复制的时候没注意。
后面有个无效词条,应该可以合并
    ['before' => "逆出一句", 'after' => "迸出一句"],
    ['before' => ["崩出一句", "嘣出一句", "迸出一句", "绷出一句"], 'after' => "蹦出一句"],
   
“稍候->稍后”这词还真没注意去查辨析,太平常了。带有“请”“片刻”的用“稍候”正解,其他通改应该没啥问题。
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-3-28 07:16 | 显示全部楼层
本帖最后由 edennow 于 2024-3-28 08:58 编辑
無愛 发表于 2024-3-27 23:02
弄了300条左右新词条,你若有空,看着剔除不必要的。

非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后面再结合实际使用情况调整。
有几个同时加到了 preprocessMap 里,bc 比较的时候也忽略掉算了。
不过里面的“再接再厉”和“稀里哗啦”这两个词的内容有点混乱了,应该是复制的时候出错了吧。

另外,刚刚又加了个重量级的“稍候->稍后”,很多书里一抓一大片,可以考虑单独进行修正……
[发帖际遇]: edennow 成为×点签约作家,收入 1 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-27 23:02 | 显示全部楼层
edennow 发表于 2024-3-24 21:58
用 beyond compare 比较 csv 应该还是可以的(csv 其实也是纯文本,直接用文本对比就可以),不过好像不 ...

弄了300条左右新词条,你若有空,看着剔除不必要的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-3-24 21:58 | 显示全部楼层
本帖最后由 edennow 于 2024-3-24 22:47 编辑
無愛 发表于 2024-3-24 12:21
原来是这样,试着用BCompare数据对比那项比对表格,直接卡死了。窘
EmEditor升级了新版,比旧 ...

用 beyond compare 比较 csv 应该还是可以的(csv 其实也是纯文本,直接用文本对比就可以),不过好像不能直接在那个比较页面里手动编辑,还是有点不是太方便。
这个囧字的问题我基本都是视而不见了,就当是网文方言吧……
有些词要仔细区分难度还是比较大的,不说用脚本或者别的方式自动改,就是人工改都得斟酌老半天。
比如现在的一些 ai 校对也无法完全解决的地得的问题,手动去改又太耗费时间,现在基本都是先把一些明显能处理的错误搞定,其他的很多细节问题就在阅读过程中通过批注一点点记录,比较随缘了,至少一眼看过去不太违和就满足了。
[发帖际遇]: 西元3000年,身为考古学家的 edennow,从起点的服务器里面考证到古人类的强大程度,获得奖励 2 威望. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-3-24 12:21 | 显示全部楼层
edennow 发表于 2024-3-24 06:56
浑水的词条之前应该是加过了的,可以搜索下看看。

至于 excel 表的问题,其实之前我也考虑过把词库文 ...

原来是这样,试着用BCompare数据对比那项比对表格,直接卡死了。窘
EmEditor升级了新版,比旧版功能跟多,也更复杂了。得适应适应。

欸,说到窘,得加个词条,碰到过多次了,都是写成“囧”(老书比较常见)。
《说文解字〈卷七〉〈囧部〉》囧:窻牖麗廔闓明。象形。凡囧之屬皆从囧。讀若獷。賈侍中說:讀與明同。俱永切。
如:囧态、很囧、大囧、囧事……

但也不绝对,有些是说“囧”的表情。
如:表情是一个“囧”字
需要避免“泰囧”“人在囧途”的误伤。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-9 04:22 , Processed in 0.039909 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表