阡陌居

 找回密码
 立即注册
搜索
热搜: 新人报到
查看: 167|回复: 14

[闲聊|笑谈] 有没有觉得用软件修改TXT文件空行后文件变大的?

[复制链接]

用户组:秀才

      UID
3637
      积分
515
      回帖
46
      主题
11
      发书数
4
      威望
482
      铜币
8685
      贡献
0
      阅读权限
40
      注册时间
2025-3-2
      在线时间
132 小时
      最后登录
2025-12-13
发表于 2025-11-22 19:35 | 显示全部楼层 |阅读模式
碰上好几个了,原来下载的和别人读校后的的对比,用TXT对比软件修正过,但是两个文件差80%到120%的体积,也没有看出来大在哪里?
我自己删空行是用记事本的替换,要删就一起删了,大小几乎不变。
举例就是《漫游在影视世界》,现在是21.5MB,早先没校对的大概14.5MB,文本对比软件扫过,内容一致后还是差那么多。是编码问题吗?
PC上没问题,多看可能有符号问题,其他都一样。
回复

使用道具 举报

用户组:分区版主

      UID
1796
      积分
863
      回帖
302
      主题
25
      发书数
16
      威望
673
      铜币
33465
      贡献
0
      阅读权限
100
      注册时间
2025-3-1
      在线时间
335 小时
      最后登录
2025-12-16
发表于 2025-11-22 20:19 | 显示全部楼层
当然是编码不同导致的,用 utf-8 就比中文的 gb 编码大,但 gb 编码很容易缺字。个人不纠结编码,只看字数,在我这只有 utf-8 一种编码

评分

参与人数 1铜币 +5 收起 理由
chenvenvei + 5 热心助人

查看全部评分

回复

使用道具 举报

用户组:贡士

寻自在,不得

爱心会员勋章

      UID
15393
      积分
2922
      回帖
1163
      主题
173
      发书数
46
      威望
1008
      铜币
20747
      贡献
1200
      阅读权限
60
      注册时间
2025-4-19
      在线时间
748 小时
      最后登录
2025-12-16
发表于 2025-11-22 23:11 | 显示全部楼层
全角中文,GB码和BIG码是两个字节的,utf-8码一个中文字是3个字节,冷僻字还有可能4个字节

评分

参与人数 1铜币 +2 收起 理由
chenvenvei + 2 热心助人

查看全部评分

故不积跬步,无以至千里;不积小流,无以成江海。
回复

使用道具 举报

用户组:翰林

灌水王者

      UID
1376
      积分
17142
      回帖
30865
      主题
14
      发书数
0
      威望
1702
      铜币
39803
      贡献
0
      阅读权限
80
      注册时间
2025-3-1
      在线时间
1360 小时
      最后登录
2025-12-16
发表于 2025-11-22 23:42 | 显示全部楼层
主要应该就和ED说的那样,字体编码不同,体积大小就不同的~~~
回复

使用道具 举报

用户组:进士

爱心会员勋章重建论坛勋章

      UID
611
      积分
5140
      回帖
1092
      主题
656
      发书数
654
      威望
2412
      铜币
33826
      贡献
1200
      阅读权限
70
      注册时间
2025-3-1
      在线时间
226 小时
      最后登录
2025-12-16
发表于 2025-11-23 00:08 | 显示全部楼层
应该就是编码不同造成的
[发帖际遇]: lht6501 帮女神消灭了一只小强,获得奖励 3 铜币. 幸运榜 / 衰神榜
回复

使用道具 举报

用户组:管理员

爱心会员勋章重建论坛爱心会员勋章重建论坛勋章管理员勋章

      UID
5
      积分
160340
      回帖
23763
      主题
17538
      发书数
17523
      威望
119766
      铜币
429150
      贡献
2400
      阅读权限
200
      注册时间
2025-2-27
      在线时间
1714 小时
      最后登录
2025-12-16
发表于 2025-11-23 06:34 | 显示全部楼层
还是只能看总字数来确定篇幅啊,不过字数里面可能也会有求打赏之类的广告
回复

使用道具 举报

用户组:秀才

      UID
18472
      积分
893
      回帖
1330
      主题
1
      发书数
0
      威望
227
      铜币
3711
      贡献
0
      阅读权限
40
      注册时间
2025-5-27
      在线时间
115 小时
      最后登录
2025-12-16
发表于 2025-11-23 07:36 | 显示全部楼层
应该就是沙发那位大佬说的了,我之前转KINDLE用的TXT,转了格式也是文件大很多
回复

使用道具 举报

用户组:贡士

我本将心向明 奈何明月照沟渠

      UID
691
      积分
2143
      回帖
1680
      主题
24
      发书数
8
      威望
1283
      铜币
15486
      贡献
0
      阅读权限
60
      注册时间
2025-3-1
      在线时间
583 小时
      最后登录
2025-12-16
发表于 2025-11-23 08:33 | 显示全部楼层
    utf-8编码的TXT容量就是大,我还是比较习惯ANSI编码的,觉得ANSI编码的大小才是正常的。
回复

使用道具 举报

用户组:秀才

      UID
3088
      积分
907
      回帖
873
      主题
9
      发书数
8
      威望
458
      铜币
6368
      贡献
0
      阅读权限
40
      注册时间
2025-3-2
      在线时间
175 小时
      最后登录
2025-12-16
发表于 2025-11-23 11:05 | 显示全部楼层
Goodmorning 发表于 2025-11-23 08:33
utf-8编码的TXT容量就是大,我还是比较习惯ANSI编码的,觉得ANSI编码的大小才是正常的。  ...

ANSI是一个字节表示一个字符,不能表示中文
GB是两个字节表示一个汉字
UTF-8是四个字节表示一个字符,可以同时表示汉字、各种语系的字母

点评

实际上 ansi 不是一种具体的编码,在简体中文系统里,ansi 实际就是 gb 系列的编码。utf-8 是变长表示,英文还是 1 个字节,中文一般是 3 个,只有更复杂的是 4 个字节表示   发表于 2025-11-23 11:23
回复

使用道具 举报

用户组:贡士

我本将心向明 奈何明月照沟渠

      UID
691
      积分
2143
      回帖
1680
      主题
24
      发书数
8
      威望
1283
      铜币
15486
      贡献
0
      阅读权限
60
      注册时间
2025-3-1
      在线时间
583 小时
      最后登录
2025-12-16
发表于 2025-11-23 11:29 | 显示全部楼层
luoxda 发表于 2025-11-23 11:05
ANSI是一个字节表示一个字符,不能表示中文
GB是两个字节表示一个汉字
UTF-8是四个字节表示一个字符,可 ...

    感谢书友普及,这回知道了解了,这样看来,UTF-8编码应该是优选了,怪不得很多TXT编码用这个UTF-8。
    以前我还将UTF-8编码的TXT特意另存为ANSI编码的TXT,现在终于明白了,只要不影响阅读,顺其自然就好了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|阡陌居

GMT+8, 2025-12-16 22:42 , Processed in 0.200481 second(s), 35 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表