楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

1

听众

1

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
30
回帖
22
主题
1
铜币
136
威望
18
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-4-27
在线时间
13 小时
发表于 2024-4-4 23:05 | 显示全部楼层
大佬更新好勤啊,我下午才下的3号的版本,现在又更新了
[发帖际遇]: 破晓陨星沉 认真洗了个脸,竟获得“女儿国十大美男”称号,奖励 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-4-4 19:23 | 显示全部楼层
無愛 发表于 2024-4-4 17:33
增加了700条左右的词条,大部分集中在“的得”误用上。

感谢感谢,有几个防和谐的我先注释了,等有需要再开启了。
其他很多的得转换的我觉得都很靠谱,把后面的逗号直接去掉了。
顺便把这部分转换也同步到了那个“的地得词库”里面、
不过那个“捶锤”的正则不太好处理,后面再看吧……

最近用“txtFormat 词库”和“的地得词库”来多轮校对也能补充一些修正。
感觉 txtFormat 的词库有不少词条还是有点神奇的,特别是对五笔打字的一些纠错,我这种只会拼音输入的是整理不出这些来……
不过直接用这两个词库来全局替换都是会有不少误改,也是需要持续维护的。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-4-4 17:33 | 显示全部楼层
edennow 发表于 2024-3-30 07:52
我也找了几本书来试了一下,其实它分词的结果基本算是比较准确的,不过可能是我不怎么了解细节,感觉确实 ...

增加了700条左右的词条,大部分集中在“的得”误用上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-30 07:52 | 显示全部楼层
無愛 发表于 2024-3-29 22:13
好东西啊。
按照教程测试了一本在读小说,效果不是很理想,蛮多角色名(几百个的高频)没提取出来。搜索 ...

我也找了几本书来试了一下,其实它分词的结果基本算是比较准确的,不过可能是我不怎么了解细节,感觉确实也有一些局限。

比如“诸葛亮借东风”这句话,它能正确识别“诸葛亮”是个完整的人名并进行统计。
但是如果改成“诸葛暗借东风”,就只能识别出“诸葛”和“暗”这两个词了。

这应该是跟结巴分词自带的那个分词词库有关,里面也只记录了一些固定的词组搭配,所以如果人名是“复姓+单名”的,然后统计的时候又选了那个“忽略单个字”的,估计就没什么效果了。
这个工具也只提供了 exe 文件,做不了什么修改,只能通过那个自定义词的 txt 文件看实际情况进行扩充了。

另外,如果是主要想提取角色名的话,可能不得不在停用词那个文件里加上很多的常用词,估计也会达到一个比较巨大的数量,否则也会被那些常见的词占据排名较前的位置,导致分辨不出哪些人名出现频率较高。
[发帖际遇]: edennow 在论坛上传违禁小说,被网警发现,处罚 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-29 22:13 | 显示全部楼层
edennow 发表于 2024-3-29 17:39
随手搜了一下,这个貌似还蛮好用的:https://www.sougood.top/tool/9887/
这个工具就是用了结 ...

好东西啊。
按照教程测试了一本在读小说,效果不是很理想,蛮多角色名(几百个的高频)没提取出来。搜索了停用词也没相关的。
[发帖际遇]: 無愛 彩票中了安慰奖,得到 2 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-29 17:39 | 显示全部楼层
無愛 发表于 2024-3-29 15:42
那敢情好,坐等更新






随手搜了一下,这个貌似还蛮好用的:https://www.sougood.top/tool/9887/
这个工具就是用了结巴分词来做了一些统计分析,幸好搜了一下,不然差点动手重复造轮子了。

可以详细看一下那篇文章里面的停用词和自定义词的说明,可以根据实际情况自行调整。
我也没怎么深入了解过结巴分词的细节,不过这算是大名鼎鼎的几种分词方案之一了,效果还是不错的,
它分出来的词同时会标注名词形容词等词性。

这个工具第一次点开的时候有可能会卡一下,短暂出现黑色的空窗口,不过等它加载一会就好了。

江海  764 名词
片刻  747 数词
样子  741 名词
说道  728 动词
少女  724 名词
说话  698 动词
一声  693 数词
女人  688 名词

根据这样的统计结果,可以通过正则把它转换成词库里的 before after 形式,作为防止误伤的词条,临时加进去后再进行校正。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
[发帖际遇]: edennow 只顾着仰头看云,被高跟鞋美女踩伤了膝盖,损失 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-29 15:42 | 显示全部楼层
edennow 发表于 2024-3-29 15:15
之前有看到过一些 python 的实现,不过没怎么实际去弄,我后面考虑下这个统计高频词的功能吧,有时候提前 ...

那敢情好,坐等更新
[发帖际遇]: 無愛 在公交车没有注意,被小偷偷去了 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

15

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2985
回帖
1024
主题
67
铜币
44244
威望
2434
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-4-27
在线时间
1537 小时
 楼主| 发表于 2024-3-29 15:15 | 显示全部楼层
無愛 发表于 2024-3-29 14:58
大神,有没有角色名提取、统计的工具呀?
校书是真的怕了作者用的角色名出现混乱,读校也会有忽略遗漏的 ...

之前有看到过一些 python 的实现,不过没怎么实际去弄,我后面考虑下这个统计高频词的功能吧,有时候提前把一些角色名提取出来防止误伤也是挺好的。
[发帖际遇]: 做为仅有的一个渡劫期修士,edennow 将要渡劫前得到师娘赞助 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-29 14:58 | 显示全部楼层
edennow 发表于 2024-3-28 07:16
非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后 ...

大神,有没有角色名提取、统计的工具呀?
校书是真的怕了作者用的角色名出现混乱,读校也会有忽略遗漏的时候,特别是小说字数多、角色多的情况下,(大概率是拼音输入法的锅)。
想着若有提取统计工具的话,根据出现的频率与相似程度方便修正。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
297
回帖
149
主题
10
铜币
1357
威望
217
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-4-25
在线时间
81 小时
发表于 2024-3-28 14:49 | 显示全部楼层
edennow 发表于 2024-3-28 07:16
非常感谢,看了也是只有少部分没有直接加进去,里面好几个都是我原来想加又犹豫的,这次还是加进去吧,后 ...

“再接再厉”和“稀里哗啦”这两个词确实是复制的时候没注意。
后面有个无效词条,应该可以合并
    ['before' => "逆出一句", 'after' => "迸出一句"],
    ['before' => ["崩出一句", "嘣出一句", "迸出一句", "绷出一句"], 'after' => "蹦出一句"],
   
“稍候->稍后”这词还真没注意去查辨析,太平常了。带有“请”“片刻”的用“稍候”正解,其他通改应该没啥问题。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-4-27 14:23 , Processed in 0.040590 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表