贡士
- UID
- 155378
- 积分
- 2985
- 回帖
- 1024
- 主题
- 67
- 铜币
- 44248
- 威望
- 2434
- 银币
- 0
- 贡献
- 0
- 发书数
- 57
- 注册时间
- 2023-6-14
- 最后登录
- 2024-4-27
- 在线时间
- 1537 小时
|
楼主 |
发表于 2024-3-24 06:56
|
显示全部楼层
本帖最后由 edennow 于 2024-3-24 08:17 编辑
浑水的词条之前应该是加过了的,可以搜索下看看。
至于 excel 表的问题,其实之前我也考虑过把词库文件改成 json、csv、yaml、toml 之类的格式,也考虑过另外用 sqlite、access 之类的本地数据库或者 excel 来管理。
其实目前的词库相当于就是个 txt 纯文本文件,使用 bc 对比或者一些文本编辑器来直接编辑都没有问题,通用性应该还是不错的。
如果改成 json 之类的格式还好,同样是保存成纯文本,但是如果弄成 excel 表的话应该换成 csv 会比较好(否则会是 xlsx 等二进制格式,不好用别的工具比对和编辑)。
csv 的导出和转换的操作其实我之前已经实现了,只是因为这个格式有些局限性(目前词条里一定不能含有英文逗号和英文引号),没有把这个功能开放出来。
这个功能我本来是想用来整合一些外部词库的,但是一直也没找到什么比 txtFormat 更好的词库,所以基本没怎么用过。
可以下载新的附件,里面有个 csv_operation.bat 的命令,打开之后,输入 0 可以将对应的 map 转成 csv 文件,输入 1 可以通过 csv 生成对应的词库格式 txt 文件(只是用于统一一下数据格式,基本不会用到)。
现在就是可以输入对应 map 的索引,生成比如 normalMap 的 csv 文件,然后就可以在 excel 里面进行 csv 文件的编辑。
只要在 maps 文件夹中有对应 map 的 csv 文件,就会自动优先加载 csv 里的词条,不会再去加载 php 文件里的了(没有生成 csv 文件的 map,就还是加载 php 里的词条,比如 preprocessMap 和其他各种 map)。
不过我这边就不会在附件里直接提供 csv 了,如果后面我这边有词库更新,需要自行将更新的 php 词库转换成 csv 文件,和你本地的 csv 词库对比差异。
其实还是更推荐直接编辑 php 的词库文件的(目前那个正则的 regexMap 暂时不能转成 csv,只能先直接改 php 文件,犯懒了),
主要是我也更喜欢用 php 数组的:
['before' => ["四两拔千斤", "四两拨千金", "四两拨千钧", "四量拨千斤"], 'after' => "四两拨千斤"],
['before' => "高海拨地区", 'after' => "高海拔地区"],
['before' => ["aaa", "bbb", "ccc"], 'after' => ["111", "222", "333"]],
这种比较灵活的形式来任意表示“多对一”“一对一”“多对多”的关系,
还可以通过加注释的方式来保留一些可供参考的词条,以及做一些词条注解(csv 要保留注释有点麻烦……)。
又改了下,现在可以在 csv 文件中前两列(before 和 after 列)之外的任意一列加上对应词条的注解(最好统一写在第三列,以后如果数据的结构有变动比较好统一处理)。
目前自定义词库的词条数量也还算比较少(展开数组后实际是六万出头),检索替换等编辑操作还算是比较便利的。
如果一直用旧版本的 emeditor 可能会有点落伍了,我如果用论坛分享的 emeditor 来编辑 php 格式的词库文件也不太顺手,很多类似:
【多行同时编辑】【批量添加/取消注释(使用 ctrl+/ 快捷键)】【总览全局搜索结果(搜索相关词条的时候很有用)】【分屏编辑同一文件】
这样的操作都无法实现(有些应该能做到,但我不怎么会用 emeditor),可以考虑更新 emeditor 版本,或者使用其他一些现代一点的编辑器,比如 vscode 之类的,有助于提升编辑体验。
可以看一下 vscode 的一些编辑操作演示:https://blog.csdn.net/weixin_46655235/article/details/121788623
|
|