楼主: edennow

[软件] 分享个人使用的网文常见字词替换校对表(含 php 脚本)

  [复制链接]

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-8 11:39 | 显示全部楼层
lsk1700 发表于 2024-4-6 23:36
教程看着好复杂,下载试试。

可以先不看细节,一键运行之后用 bc 比较下结果体验看看。
建议是在用 txtFormat 或者其他工具之前,用这个脚本先自动做几轮校正,个人感觉会减少相当多的重复且无效的点鼠标操作。
如果有意见或者建议,非常欢迎反馈。
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8777
回帖
705
主题
282
铜币
44560
威望
8256
银币
0
贡献
0
发书数
275
注册时间
2022-3-4
最后登录
2024-5-8
在线时间
445 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
发表于 2024-4-6 23:36 | 显示全部楼层
教程看着好复杂,下载试试。
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

11

听众

0

收听

5

好友

版主

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

UID
165414
积分
2824
回帖
432
主题
59
铜币
42260
威望
2573
银币
0
贡献
0
发书数
56
注册时间
2023-11-16
最后登录
2024-5-9
在线时间
342 小时

双子座猪头版主原创或校书系列:入门原创或校书系列:觉醒发主题系列:闻鸡起舞发书系列:乐于分享活跃会员

发表于 2024-4-6 09:57 | 显示全部楼层
太专业了 抽空我仔细看下楼主的教程
[发帖际遇]: 书眸 向地震灾区捐款 1 铜币. 幸运榜 / 衰神榜
欢迎光临【书眸专区】只为极致提高阅读体验而投身EPUB制作
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-4 23:22 | 显示全部楼层
破晓陨星沉 发表于 2024-4-4 23:18
我下午用这脚本跑我存的小说的时候发现的以下两个没有词组,可以加进去:
"地祗"改成"地祇"  (词库会把 ...

非常感谢,这个脚本的很多词条确实是需要持续维护的,暂时只能通过人工识别来操作了。
回复 支持 反对

使用道具 举报

1

听众

2

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
48
回帖
35
主题
2
铜币
188
威望
29
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-5-9
在线时间
21 小时
发表于 2024-4-4 23:18 | 显示全部楼层
edennow 发表于 2024-4-4 23:09
哈哈,差不多告一段落了,都是写了些新的功能才更新的,后面就是堆词条,估计就不太会频繁更新了。

我下午用这脚本跑我存的小说的时候发现的以下两个没有词组,可以加进去:
"地祗"改成"地祇"  (词库会把"神祗"改成"神祇",但是到没有“地祇”的条目)
"匾额头"改成"扁额头"(词库会把"扁额"改成"匾额",但后面有头的时候,就改错了,要改回来)
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-4 23:09 | 显示全部楼层
破晓陨星沉 发表于 2024-4-4 23:05
大佬更新好勤啊,我下午才下的3号的版本,现在又更新了

哈哈,差不多告一段落了,都是写了些新的功能才更新的,后面就是堆词条,估计就不太会频繁更新了。
[发帖际遇]: 台风把 edennow 家中玻璃砸烂,损失了 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

1

听众

2

收听

0

好友

童生

Rank: 3Rank: 3

UID
173412
积分
48
回帖
35
主题
2
铜币
188
威望
29
银币
0
贡献
0
发书数
0
注册时间
2024-4-1
最后登录
2024-5-9
在线时间
21 小时
发表于 2024-4-4 23:05 | 显示全部楼层
大佬更新好勤啊,我下午才下的3号的版本,现在又更新了
[发帖际遇]: 破晓陨星沉 认真洗了个脸,竟获得“女儿国十大美男”称号,奖励 4 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-4-4 19:23 | 显示全部楼层
無愛 发表于 2024-4-4 17:33
增加了700条左右的词条,大部分集中在“的得”误用上。

感谢感谢,有几个防和谐的我先注释了,等有需要再开启了。
其他很多的得转换的我觉得都很靠谱,把后面的逗号直接去掉了。
顺便把这部分转换也同步到了那个“的地得词库”里面、
不过那个“捶锤”的正则不太好处理,后面再看吧……

最近用“txtFormat 词库”和“的地得词库”来多轮校对也能补充一些修正。
感觉 txtFormat 的词库有不少词条还是有点神奇的,特别是对五笔打字的一些纠错,我这种只会拼音输入的是整理不出这些来……
不过直接用这两个词库来全局替换都是会有不少误改,也是需要持续维护的。
回复 支持 反对

使用道具 举报

2

听众

0

收听

1

好友

儒士

Rank: 4

UID
162852
积分
301
回帖
160
主题
10
铜币
1334
威望
215
银币
0
贡献
0
发书数
5
注册时间
2023-10-2
最后登录
2024-5-8
在线时间
84 小时
发表于 2024-4-4 17:33 | 显示全部楼层
edennow 发表于 2024-3-30 07:52
我也找了几本书来试了一下,其实它分词的结果基本算是比较准确的,不过可能是我不怎么了解细节,感觉确实 ...

增加了700条左右的词条,大部分集中在“的得”误用上。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复 支持 反对

使用道具 举报

17

听众

0

收听

13

好友

贡士

Rank: 7Rank: 7Rank: 7

UID
155378
积分
2986
回帖
1016
主题
67
铜币
44811
威望
2439
银币
0
贡献
0
发书数
57
注册时间
2023-6-14
最后登录
2024-5-6
在线时间
1540 小时
 楼主| 发表于 2024-3-30 07:52 | 显示全部楼层
無愛 发表于 2024-3-29 22:13
好东西啊。
按照教程测试了一本在读小说,效果不是很理想,蛮多角色名(几百个的高频)没提取出来。搜索 ...

我也找了几本书来试了一下,其实它分词的结果基本算是比较准确的,不过可能是我不怎么了解细节,感觉确实也有一些局限。

比如“诸葛亮借东风”这句话,它能正确识别“诸葛亮”是个完整的人名并进行统计。
但是如果改成“诸葛暗借东风”,就只能识别出“诸葛”和“暗”这两个词了。

这应该是跟结巴分词自带的那个分词词库有关,里面也只记录了一些固定的词组搭配,所以如果人名是“复姓+单名”的,然后统计的时候又选了那个“忽略单个字”的,估计就没什么效果了。
这个工具也只提供了 exe 文件,做不了什么修改,只能通过那个自定义词的 txt 文件看实际情况进行扩充了。

另外,如果是主要想提取角色名的话,可能不得不在停用词那个文件里加上很多的常用词,估计也会达到一个比较巨大的数量,否则也会被那些常见的词占据排名较前的位置,导致分辨不出哪些人名出现频率较高。
[发帖际遇]: edennow 在论坛上传违禁小说,被网警发现,处罚 5 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-5-9 08:57 , Processed in 0.050894 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表