查看: 1354|回复: 18

[求助] 关于校对问题,求解决方法

[复制链接]

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
发表于 2023-4-21 00:28 | 显示全部楼层 |阅读模式
本帖最后由 lsk1700 于 2023-4-21 18:31 编辑

一、【txtFormat v2.10】校对着好好的,突然莫名其妙闪退,特别是校对错别字那项经常发生。搞得我现在基本校对十几分钟就得退出重进软件,不知道有解决的办法没有?


二、章节较多的文本,不知道各位大神是用EmEdito还是txtFormat统一章节序号?【txtFormat v2.10】太卡太慢了,刚刚碰到内存不足的情况(如下图),属实是第一次遇到。


三、校对广告及其他问题、嵌套的双引号、引号不匹配、屏蔽字、防和谐间隔符、半角标点符号……等类目的时候,经常性的漏判断,只能校对完一个类目后退出软件重新校对就能补漏,不知道有何方法解决。


四、排版问题(不算问题,算敬告吧),这个【按章节排版】慎用,也是最近发现的,会把英文状态下的符号全部转换为中文状态,文本内若有英文句,这就很尴尬了,全得重新弄。



五、碰到一章中有2~3个章节标题的如何解决,若是在第一、二行还可以用【txtFormat】分割后删除1KB的TXT文本后再用【txt文件批量处理】合并,若是在中间或者其他行有相同的标章节题,这个如何处理?碰到过这个问题,章节少还好,逐章删掉,章节多就属实没办法。
【txt文件批量处理】这软件还是蛮好用的,分享下。按行分割几乎必用,只因文本重复搜索工具【Dupli Find v3.0】只支持32768行。




六、使用文件对比工具【BCompare v3.3.12】经常性碰到程序错误,是在复制状态行的时候出现(如下图)。不过等一段时间后关掉弹窗提示又好了,费解啊。



七、不算问题,算交流吧。不知道各位大神是如何校对文本的,说下我的方法与顺序。
1、找书源,起码2~4个及以上。(确定文本编码统一,UTF-8的文本容量大,但是能显示的东西多,现基本用ANSI,容量占用小,不过转码前请注意文本内有无英文状态下的问号,有就替换为中文状态下的问号,转码后再次查找,没有后,那么就可以了。若有,那就别转码了,或者查找到底是哪里的字或者符号,若是几个颜文字,就改为代替的,若是文字,那就别转码了。)

2、找封面,封面模糊的用在百度以图搜图,找出更加清晰的图片,还是没有就用【画片视频增强器dim2clear】或【opaz Gigapixel AI】放大,放大后还是模糊的就拖入PS处理,模糊的基本是小说网站Logo以及文字,直接百度搜索Logo,文字在【求字体网https://www.qiuziti.com/】,按截图搜字体,找到字体百度下载安装(那里下载需要RMB)。还有这网站找封面也蛮清晰的https://huaban.com/guide

3、查书评、查小说出处、首发、完结日期。

4、下载好书源先用文件对比工具【BCompare v3.3.12】进行比对,这个过程最为艰难。需要确定用哪个做底本,确定完后进行比对混合校对。(以前过分相信河洛的文本,后面比对的时候发现缺失蛮多内容,现在基本很少用河洛的作为底本,基本都是作为比对。)(排版不行的得先排版统一,不然比对的时候很吃力。)

5.1、比对完毕后是统一文本的过程,比如:【第一,XXX。第二,XXX。】中文序号后面我习惯用顿号【、】,所以改为【第一、XXX。第二、XXX。】
5.2、英文的除错及统一首字母为大写,没有其他更换的办法,只能A、B、C……逐个进行搜索替换,确保无漏。不知道大神有没有更快捷的方式且能确保无漏。
5.3、谐音的替换,如:国骂【艹、草】统一为【操】,【麻痹】为【又马逼(怕和谐,故意这么打)】这个得逐个排查,【特么】为【他又马】……等等。
5.4、修复缺冒号、用错符号的对话,如:【说“、说,“、说。“】【道“、道,“、道。“】为【说:“】【道:“】……等等。

6、接着用【txt文件批量处理】分割文本为32768行,用文本重复搜索工具【Dupli Find v3.0】进行重复文本的删减。

7、前面的处理完毕后就直接使用文本校对工具【txtFormat v2.10】进行章节错乱不规范、广告及其他问题、嵌套的双引号、引号不匹配、屏蔽字、防和谐间隔符、半角标点符号、不匹配的括号、不常见的特殊字符、不规则的标点符号、错误行造成的标点符号、叠字、叠词、繁体字、中文间的空格、硬回车、拼音、行尾右引号缺少标点、无标点的行尾、常见错别字的校对了。(叠词跟错别字最难,因为错误是最多的,所以会放到最后,先叠词后错别字。部分文本引号不匹配也很多。)

8、排版不行的,如一行多字的会进行重排。使用【文本工具:Notepad2 v4.21.01 r3540(15f717a1)】,对句号进行分行;使用【文本工具:EmEdito v8.06】内的排版脚本【中华太阳系联盟增强版 风遗尘版】→【格式整理:行与段落排版】→【★段落重排(非快速)】进行重排。
(需要注意的是,这个脚本排版后文本内容的部分括号有些会消失,这点需要在【txtFormat v2.10】【不匹配的括号】内重新校对,排版前注意备份未排版的文本,以便做对比。)


以上就是我校对文本的方式。书源取获:
一、在于安卓APP【阅读】,有10000多书源吧,(其实很多都是垃圾书源)
二、百度、360、搜狗、必应、谷歌搜索。用吾爱大神的工具【网文提取工具_2.10.02】进行下载(几乎支持所有的小说网站下载,复制小说目录那个页面的网站进行下载)
三、各类校对网站,及论坛。当然,对于文件名中的校对版永远都得保持怀疑的态度进行对待。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

评分

参与人数 1威望 +10 铜币 +30 收起 理由
baizhai1704 + 10 + 30 论坛有您更精彩!

查看全部评分

似此星辰非昨夜,为谁风露立中宵。
回复

使用道具 举报

23

听众

2

收听

60

好友

管理员

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

UID
17
积分
61586
回帖
14513
主题
536
铜币
9059
威望
51742
银币
2665
贡献
1147
发书数
251
注册时间
2015-5-5
最后登录
2024-3-28
在线时间
16135 小时

论坛之星活动区勋章年度活动达人

发表于 2023-4-21 10:24 | 显示全部楼层

楼主辛苦,楼主有心,必须点上一个大大的赞!!

对应着楼主所定的序号,拣我知道的说一下:

一、闪退问题涉及软件稳定性或者操作系统兼容性,死结,无解。要么换用别的软件或系统,要么就得养成随手保存的习惯以免损失太重。

二、楼主说的“统一章节号”是指章节齐全无缺情况下的章节序号统一编排吗?若是这样的话,建议使用EmEditor,类似下面的几行脚本就能解决问题:
var n=1
var found=1
while (found==1)
{
        found=document.selection.Replace("\n正文 第[一二两廿三卅四五六七八九十百千零0-9]+章","\n正文 第"+n+"章",eeFindReplaceRegExp);
        n++;
}
若是还不确定是否有缺章,要使用软件来排查的话,还是用txtFormat的“文章分割/章节整理”对话框下的“重新获取章节名”功能来得方便——至于章节较多的文本使得txtFormat太卡太慢的问题,有笨办法可以解决:大文本分成几个小文本,具体多小视你的计算机内存配置而定。

三、楼主所说“漏判断”,我在使用txtFormat排查双引号嵌套时常见,txtFormat程序就设计成了这个样子——同一对双引号内有多对嵌套双引号时,它每次都只能查出第一对,后面还有的话就被忽略,确实需要重复查找。但是,广告、引号不匹配、屏蔽字、防和谐间隔符、半角标点符号等的排查好像都不需要重复进行。

五、章节中多余的章节序号,我都是在EmEditor中使用正则式逐个排查,使用软件来处理的话,担心会出现误伤。


[发帖际遇]: baizhai1704 彩票中了安慰奖,得到 2 铜币. 幸运榜 / 衰神榜
不为无益之事,何以遣有涯之生
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
 楼主| 发表于 2023-4-21 12:08 | 显示全部楼层
baizhai1704 发表于 2023-4-21 10:24
楼主辛苦,楼主有心,必须点上一个大大的赞!!

对应着楼主所定的序号,拣我知道的说一下:

感谢大神解惑。

二、的是将中文序号统一为阿拉伯数字序号(中文看着累且占用文本容量),且章后面空一格。

三、楼判断的出现过很多次了,不单单是双引号嵌套,其他类目也会出现,查找一个类目后显示弹窗【未找到】,然后退出软件后,重新打开校对哪个类目再查找就能找出遗漏的。

五、这个碰到章节多的真心累啊,只能逐个处理。


另外,还有个问题。

做chm电子书出了一点问题。
一切按照论坛内的教程来做的,死活显示不出来封面。
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
 楼主| 发表于 2023-4-21 12:59 | 显示全部楼层
baizhai1704 发表于 2023-4-21 10:24
楼主辛苦,楼主有心,必须点上一个大大的赞!!

对应着楼主所定的序号,拣我知道的说一下:

还有个问题,汗。
就是用【txtFormat v2.10】校对【双引号不匹配】时。碰到过很多次了,文本内含有大量的单引号【‘XXX’】的内容(校对后没问题),校对的话一个一个的排查很费时间,在下面正则中删掉哪个可以屏蔽掉单引号的查找。
原本是想把单引号全本换成双引号的,怕误伤,就没敢动。

^[^“\n]*[::][^\n‘“]*[’”'"]|\".*?\"|“.*?[^”]\"|\".*?”|(?:(?<=[::]))?“[^”“]*(\n)[^”“]*”|^(?:[  \n\t]+)?[’”]|[::][’”'"]|”[^“”\n]*”|“[^”“‘\n]*?[’'"]|‘[^’‘“\n]*?[”'"]|[“‘]\r\n|[’'][^‘’'\n]*[’']|‘[^’‘\n]*‘|“[^”“\n]*“(?!.*”)|“[^”“\n]*“|‘[^’‘\n]*“|”[^“‘\n]*’|“[^”“\n]*[‘’]+(?!.*?”)|(?=[^“\n]*)”[\x4e00-\x9fa5]{1,}“(?=[^”\n]*$)|(?=[^‘\n]*)’[\x4e00-\x9fa5]{1,}‘(?=[^’\n]*$)|(?<=[::])”[^”::\n]*?“|(?<=[::])‘[^’::\n]*?’|^[^\n‘“]*[”’]|‘[^’\n]*'|^[^“\n]*['”]|[‘“][^”“’‘'"\n]*$|(?!.*“)‘(.*?)’(?!.*”)

评分

参与人数 1铜币 +2 收起 理由
baizhai1704 + 2 ……不懂这个

查看全部评分

似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

23

听众

2

收听

60

好友

管理员

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

UID
17
积分
61586
回帖
14513
主题
536
铜币
9059
威望
51742
银币
2665
贡献
1147
发书数
251
注册时间
2015-5-5
最后登录
2024-3-28
在线时间
16135 小时

论坛之星活动区勋章年度活动达人

发表于 2023-4-21 13:14 | 显示全部楼层
lsk1700 发表于 2023-4-21 12:08
感谢大神解惑。

二、的是将中文序号统一为阿拉伯数字序号(中文看着累且占用文本容量),且章后面空一 ...
封面图片 1.jpg 的位置放错了,应该放在 HP_v3.2 软件输出文件夹(文本按章节分割之后的)里的 txt 目录下,与之并列的是分开的各章节文本 1_1.txt、2_1.txt、2_2.txt、2_3.txt ……如下图示(我是把输出位置设定成了Windows的桌面):


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
不为无益之事,何以遣有涯之生
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
 楼主| 发表于 2023-4-21 18:21 | 显示全部楼层
baizhai1704 发表于 2023-4-21 13:14
封面图片 1.jpg 的位置放错了,应该放在 HP_v3.2 软件输出文件夹(文本按章节分割之后的)里的 txt 目录下 ...

感谢大神解惑,总算是成功了。
上个月想做chm的,就卡在封面不显示了。
在教程帖子回复 了楼主一直没回应,今天碰到问题就一并问出来了。
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

逍遥公子 该用户已被删除
发表于 2023-4-21 22:37 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
 楼主| 发表于 2023-4-22 17:44 | 显示全部楼层
逍遥公子 发表于 2023-4-21 22:37
我校对过几本刺猬猫的书,没达到大佬那种级别,就随便聊几句
第一步,我会还原作者的原稿(正文+番外+两篇 ...

汇总屏蔽字,是个好习惯,还真没想过呢。
我基本都是按内容直接浏览器搜索,部分能搜索出来,搜索不出来的基本都对应上下文靠猜测补齐。校对多了现在大概知道屏蔽的内容是啥,能补齐个八九不离十,最怕的就是:几乎所有的书源内的屏蔽字,字符数量不对,这个就很难搞了。比如:本来屏蔽的是3个字,结果屏蔽符*,只有1个或者2个。

书源还是多备几个做比对为好。我是经常碰到这情况,部分书会有首发版(即未整改的版本,里面会有敏感内容);还有就是整改后的版本,内容变味了。尤其是军事文、都市言情、跟灵异文最为严重。
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

14

听众

0

收听

25

好友

菠菜结算

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

UID
122880
积分
28478
回帖
6920
主题
1438
铜币
157379
威望
24257
银币
0
贡献
0
发书数
415
注册时间
2020-2-17
最后登录
2024-3-28
在线时间
1253 小时

菜农勋章阡陌书组

QQ
发表于 2023-5-8 17:33 | 显示全部楼层
大致说说我的一些方法:
一、打开txtFormat前先打开EmEdito只保存不关闭,txtFormat校对一些后点下保存,转回EmEdito点重新加载,这样就不用老退出去了。
二、用EmEdito校对章节序号,全部换成阿拉伯数字(大写的成书后会显的书面很乱),EmEdito中的宏基本解决你说的问题,推荐EmEditor宏(排版脚本)中华太阳系联盟增强版 风遗尘版。宏如果有什么不懂的可以找老白,然后用HP先排版看下,有错改正就好。
三、这个基本没啥好方法,我都是慢慢水磨。
五、宏里面有个 删除连续重复两行的多余标题,可以解决,不过再用此宏前,要先删除所有空行,删除后再重新排版。
因为我也属于小白,这些也是自己摸索跟请教大神得来的,如果有好的方法请告知,不胜感谢!

[发帖际遇]: pvps 收留了一只流浪猫,奖励 3 铜币. 幸运榜 / 衰神榜
回复 支持 反对

使用道具 举报

8

听众

0

收听

8

好友

阡陌书组

Rank: 13Rank: 13Rank: 13Rank: 13

UID
141105
积分
8464
回帖
668
主题
274
铜币
41463
威望
7966
银币
0
贡献
0
发书数
267
注册时间
2022-3-4
最后登录
2024-3-25
在线时间
424 小时

发书系列:乐于分享发主题系列:闻鸡起舞发书系列:有福同享发主题系列:业精于勤原创或校书系列:入门原创或校书系列:觉醒原创或校书系列:优秀

QQ
 楼主| 发表于 2023-5-8 20:04 | 显示全部楼层
本帖最后由 lsk1700 于 2023-5-8 20:29 编辑
pvps 发表于 2023-5-8 17:33
大致说说我的一些方法:
一、打开txtFormat前先打开EmEdito只保存不关闭,txtFormat校对一些后点下保存, ...

感谢大佬解惑。
一、的按照你的方法确实减少了闪退的几率,还是会有发生。
五、的试过了,只能是连续行的多余重复行跟内容里的行,碰到章节标题在中间的没法删除。

[发帖际遇]: lsk1700 积极锻炼身体,奖励 5 铜币. 幸运榜 / 衰神榜
似此星辰非昨夜,为谁风露立中宵。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2024-3-28 22:50 , Processed in 0.043913 second(s), 35 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表