查看: 12501|回复: 0
上一主题 下一主题 跳转到指定楼层

[手册]SOSG小说组 录入明细准则V1.31【有录入意向但是担心手速等问题的请看这里】

717

主题

915

存在感

552

活跃日
 6 

家中的荣誉团员

发帖: 4841
SOS币: 6819
注册: 2009-03-06
访问: 2024-02-19

楼主
发表于 2010/11/12 | 编辑

猜你喜欢: etypist v150


SOSG小说组 录入明细准则V1.31

本贴供录入初级人员及有录入报名意向者面试参考,本贴禁水,可回复提问

本手册下载:
http://www.humyo.com/FYkfbzv/SOSG%E5%B0%8F%E8%AF%B4%E7%BB%84%20%E5%BD%95%E5%85%A5%E6%98%8E%E7%BB%86%E5%87%86%E5%88%99%20ver1.31.doc?dl=1

http://u.115.com/file/f636fcf936

http://www.rayfile.com/files/a5250511-f544-11df-80f0-0015c55db73d/

----------我是分割线-----------

练习用扫图(已修好)下载:
http://u.115.com/file/f4411b9f66

http://www.humyo.com/FQWcMHY/%E7%BB%83%E4%B9%A0%E7%94%A8%E4%BF%AE%E5%9B%BE.rar?a=sUxsbURxM2U

http://www.rayfile.com/files/24ce0b02-eda9-11df-b16c-0015c55db73d/

==================================

软件录入:
    (除特殊情况外)必须使用已经有修图人员修过,专门用于录入的OCR图,不使用未修过原图来进行录入。


附1 部分推荐OCR软件及相关下载地址:
e Typist 12(优先推荐):http://u.115.com/file/dnh5wsrz

汉王PDF OCR (简体中文版) 8.1: http://www.newhua.com/soft/77263.htm
漢王5.0(綠色)
http://u.115.com/file/f4188b0a7e
http://www.rayfile.com/files/7f4c48f5-ee4b-11df-b14a-0015c55db73d/
http://www.humyo.com/FQWcMHY/HWOCR50UP.rar?a=HIbrULR7pM8


漢王8.0(安裝檔)
http://u.115.com/file/f4adaf002d
http://www.rayfile.com/files/5d3c09a6-ee4b-11df-8e37-0015c55db73d/
http://www.humyo.com/FQWcMHY/HWPDFOCR80.rar?a=fuoBmFYm40c


Readiris 11 Pro (綠色)(待測)
http://u.115.com/file/f49c96b415
http://www.rayfile.com/files/2c9f1270-ee4b-11df-84c0-0015c55db73d/
http://www.humyo.com/FQWcMHY/Readiris%20Pro%2011%20Corporate%20Edition.rar?a=rcQaPIjpR38

Microsoft Office Document Imaging(仅支持Tiff格式图片):Microsoft Office 2007 附带工具
若不清楚如何使用OCR软件,请往下看。
PS:OCR软件不唯一,本贴内举出的例子仅为参考,若有更好的OCR软件可以推荐之

==================================

校对与转简:
由于OCR软件的识别率不是100%以及繁转简之后也会出现一些用字上的错误,所以在软件录入和转简之后要对内容进行校对。校对不需要对文章做出任何的润色,若台版的措辞与大陆的措辞有差异的话,以原文的措辞为基准。


附2 录入与转简易错字归纳(by 鹿岛美雪@SOSG等)
遗——还    妳——你    睑——脸    厌——感    咸——感    威——感    
厩——感    枣——聚    著——着    姊——姐    思——嗯    恩——嗯
女干——好        瞇——眯    部——都    耍——要    暍——喝    拚——拼
髮——发    鬆——松    溷——混    麽——么    
刺——剌(注意,双向的错误都有可能发生)
于——子(注意,双向的错误都有可能发生)
目——日(注意,双向的错误都有可能发生)
用——甩(注意,双向的错误都有可能发生)
时——的(注意,双向的错误都有可能发生)
关——开(注意,双向的错误都有可能发生)
圆——园——团(注意,以上的错误都有可能发生)
拚→拼
畤→時→时
束→東→东
大—太
足——是
卜——上
卜——下
十——士
直——真
曰——日
问——间
超——起
赳——起
丫——了
=垣——「这
=逗——「这


注意:全文标点必须均为全角中文符号,可利用“替换”进行全文的半角/全角转换。但英语、数字和一些复合使用的符号(如:!?)使用半角字符。


附3 转简软件与在线翻译教程:
转简软件:Microsoft Office Word 2007及以上版本(以07为例):
图片需登录后查看

位置如图中所示↑

在线翻译:Google 翻译——http://translate.google.cn/?hl=zh-cn&tab=wT#

先点一下上传文档
图片需登录后查看


然后选择好要被转简的文本文档,设置好源语言和目标语言后点翻译即可。
图片需登录后查看


==================================

排版:
    为了全文的格式的统一,因此排版时必须严格要求以下说明:
==================================
1.因OCR录入的原因,会出现的文章过长的句子被断开多节的情况,因此要重新要把这些句子重新连接起来。
图片需登录后查看

断开的句子↑

图片需登录后查看

连起来↑

==================================

2.每句句子前要加上两个全角字符的空格。

图片需登录后查看

要像第二行的句子那样前面空出规定的字节数↑

可以利用word的缩进来排版,然后另存为成纯文本就可以了。(但是不能直接复制到TXT文档里,word的缩进格式不可复制)

图片需登录后查看

缩进↑

图片需登录后查看

另存为至纯文本↑


==================================

3.若原文的字有一些特殊的效果(如大字体,加粗等),一律使用code代码作出标识。并在把TXT交给负责人时稍微提醒或说明一下。(此项一般多出现于章节标题)

==================================

附4 常用code代码
CODE:
字体大小:[size=][/size](“=”后面填入1~6的数字,标准大小为3)
字体:[font=][/font] (“=”后面填入字体名即可,如宋体,黑体等,标准为宋体)
加粗:[b][/b]
斜体:[i][/i]
下划线:[u][/u]


==================================

4.若有注释,则把注解写在被注释的词的后面。
例:这件事太233(注:233 来源于猫扑论坛表情符号的第233号,是一张捶地大笑的图像)了。

    5.完成后必须保存成编码为“unicode”的TXT文档(文本文档)再交给负责人,尽量不要提交doc等其余格式。
图片需登录后查看

保存时编码如上改为unicode↑

==================================

附录:
OCR使用方法(以汉王为例):
1.先修改系统参数,参数如下↓:
图片需登录后查看

2.按上方的按钮打开文件(图)或者把图片直接拖入下方的列表框中。
图片需登录后查看


3.此步有两种选择:
方法1:
(1)先点击如下按钮
图片需登录后查看



(2)选择框可以自由缩放,使全部内容都在框体内,每个框内的编号必须按顺序排好,因为这影响OCR的先后顺序。
图片需登录后查看


若顺序不正确,可在框内按紧左键指向另一个框来调整编号顺序。
图片需登录后查看


方法2:
(1)先任意拖出一个框(在限定范围内按紧左键拖动即可)
图片需登录后查看


(2)点击一下“竖栏”这个按钮,使框体的边框颜色变成暗红色。
图片需登录后查看


(3)如此循环把全部内容框中即可(推荐至少两个框以上,不然可能会出现不可预料的顺序问题)
图片需登录后查看


4.点击一下“开始识别”按钮(或F8)即可识别。
图片需登录后查看


5.对OCR后的内容初次校对。
图片需登录后查看

上层OCR后的文本内容会与下层的显示自动对应,所以初次校对在软件内完成比较方便。

6.把文本找出来。

软件会自动生成两个文件,PST是记录框选的文件,TXT自然就是文本了。
图片需登录后查看



[ 此贴被奇跡のかけら在2011-12-19 13:20重新编辑 ]

关于我们|无图版|SOSG WIKI

Copyright © 2006-2024 SosG.Net
Total 0.013573(s) query 7, Gzip enabled,  沪ICP备07006640号-3