尚书七号使用方法?
首先得把拍摄文件等放平,最好是定在墙上,用均匀的光照射,不能有影子。相机一定要横放,取景范围要刚好与要获得文字的范围吻合。
然后导入至尚书7号,按识别,你就会发现它已经把你要的文字全体识别了,最后只要选择格式保存就好了。PS。尚书只能识别一般的电脑打印体,如果手写体可能识别率就没那个高,如果需要识别的文件较多,请多拍几张照片,文件一定要放平部能有褶皱,相机要与文件水平。
延伸阅读
如何将表格用扫描仪扫描下来?
所需工具:扫描仪;word2007 、 Excel2007 ;尚书七号OCR 软件。
1. 扫描表格。首先依次把表格扫描成TIF 图像文件备用。扫描时300dpi 就可以,太高的话识别率反而下降,而且处理时间加长。文件名最好与页数相关,这样在查对起来时也更加方便。在预扫时确定扫描的边界,没有用的部分不用扫描,只选择表格体就可以了。
2. 进行表格识别。现在轮到本次任务的主角尚书七号OCR 识别软件登场了!我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送,没有的话可以到网上下载一个。在尚书七号软件中,点“ 文件→ 打开图像” ,找到刚才扫描的表格图像。这时在右侧图像区中单击左键,选“ 编辑→ 旋转图像→ 右转90 度” 或按“ Ctrl+R ” 组合键,将图像摆正(这一步根据实际情况进行左旋还是右旋)。现在图像已摆正了,不过还有一些倾斜。这时点“ 编辑→ 自动倾斜校正” 或“ Ctrl+D ” 组合键对原稿进行倾斜校正。这一步骤非常重要,直接影响到表格识别率。下面进行表格的识别。点“ 识别→ 开始识别” (图1 ),或按快捷键“ F8 ” ,几秒种后识别结果已跃然屏幕上。图1 尚书七号软件下面对识别后的表格文字进行初步校正。一般怀疑有误的地方,软件用红色表示出来。当鼠标放上去时会有图像提示,方便进行校正。在删改后表格线可能有所变动,不用管它。对于0 ~9 的识别错误,有的必须先行加以纠正,例如“ 3 ” 识别成“ :{ ” ,“ 7 ” 识别成“ / ” ;有的可以在Word 中用查找替换的方法加以改正,比如,“ 0 ” 识别成字母“ O ” ,“ 1 ” 识别成字母“ l ” ,“ 5 ” 识别成字母“ s ” 。这样,80% 的错误可以在这里消灭。数字间有空格也不用管它,可以进行后期处理(图2 )。 图2 尚书七号软件3. 在 Word 中进行纠错并生成Excel 数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word2007中(2000 及以上版本即可)。页面不妨设置为横向A3 纸,因为我们只是利用Word 进行纠错并生成TXT 文件,这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正(别忘了时时存盘)。每张表格识别后都做以上处理,待所有表格都粘贴过来以后,利用Word 的查找、替换功能进行纠错。具体操作如下:选择制表符“ ┣ ” ,按“ Ctrl+C ” 组合键;点“ 编辑→ 替换” ,在“ 查找内容” 文本框内按“ Ctrl+V ” 组合键,“ 替换为” 文本框内不填任何字符,点“ 全部替换” ,就消掉了所有的“ ┣ ” 符号。类似地,我们将“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能,将“ .” 及“ 。” 替换成小数点“ . ” ,将字母“ O ” 、“ l ” 、“ s ” 分别替换成数字“ 0 ” 、“ 1 ” 、“ 5 ” ,再有把所有的空格也用这种方法去掉。“ ┃ ” 可以保留,也可以替换成英文的“ , ” 作为间隔符。这样,表格就变成了下面的样子:接着把这个文件另存为纯文本文件。4. 数据导入Excel 。打开Excel 软件,点“ 数据→ 导入外部数据→ 导入数据” ,“ 文件类型” 选“ 文本文件” ,找到刚才保存的那个纯文本文件,点“ 打开” 进入文本导入向导(图3 )。 图3 文本导入向导步骤1 中默认的“ 原始数据类型” 就是“ 分隔符号” ,直接点“ 下一步(N )” 。在步骤2 中,“ 分隔符号” 文本框中单击左键,输入英文符号“ , ” ,点“ 下一步(N )” 。步骤3 中,在“ 不导入此列” 前收音机钮上点左键,忽略
有没有不用打字扫描就能出字软件?
尚书7号
在工作中常需要识别文字,感觉尚书七号效果不错的.虽然使用方法很简单,但是工作量较大的时候,注意一点技巧,工作效率还是会提高的,我自己走了不少弯路,写出来和大家分享.个人表达能力有限,偏差之处,还望海涵。
基本使用方法:
1、打开尚书七号,选择打开图象。(我用的版本可以识别的格式有bmp、tif、jpg)
2、选择开始识别或按F8。识别结果将显示在窗口上部,下部显示版面分析结果。其中红线为可识别部分,绿线为不可识别。
3、选择输出–到指定格式文件,将识别结果保存为需要的格式。
识别前应注意的问题:
1、图片质量。批量识别时,首先应确保要识别的图片质量。如不能识别还需要重新处理,甚至会导致软件死掉,浪费时间。我本人就曾深受其苦。图片分辨率应稍高,肉眼看感觉偏大,因为识别工具是有点近视的,文字和底色对比要求不高,通常来说,肉眼能看清楚即可,底色发灰或发黑基本不会影响识别结果。
2、避免有不规则形状(图片)出现。识别工具在进行版面分析时,只能采用方形切割,当图片中存在文字环绕不规则形状时,则无法将文字和该形状划分开,则将出现错误或无法识别。此时,较快的办法是在PS中,吸取该图片附近的页面底色,用粗画笔将该区域涂上,不必讲求效果,颜色没有太大差别即可,重新保存图片。
3、避免图象倾斜。尚书七号中也有自动倾斜校正和手动倾斜校正工具,但即使经过校正,识别率还是低很多。如果是拍摄的书本,可能会产生一定弧度,此时保证行的两端对齐即可。另外在拍摄时应避免高光等会使图象各部分亮度反差大的情况。
书本转换(扫描、拍摄)技巧
1、可以将书摊平,一次将两边都扫描或拍摄下来,节省时间。处理图片时不必剪开,这时要用到尚书七号的分栏工具了。直接用鼠标在打开的图象上拖拽,可出现选框,分成左右两个分栏,分栏左上角的编号就是识别结果的排列顺序。它会将自动按照编号顺序将所有分栏的内容连接在一起。
2、手动分栏可解决部分图象无法识别的问题。在进行识别后,可以看到版面分析结果,有时候由于图象质量原因,自动分析出的有效版面只是很小的一部分。此时可以按ctrl+del取消版面分析结果,用鼠标拖拽,划定需要识别的范围,重新进行识别。当图片质量问题不大时,这个办法有效。
有时候(尤其是拍摄所得图片),文字扭曲严重,即使用PS也无法调整好。可尝试手动分栏,多划分几栏,每一栏包含一行或少数几行文字,这样对于每个分栏来说,它所包含的范围内误差度相对减小,可提高识别率。
3、使用批量识别功能。尚书七号可以一次性识别大量图片。但在实际应用中,依次识别不宜过多,便于随时检查识别结果,发现错误及时修正。
4、批量识别图象时,保存文件也要花费大量时间。事实上,尚书七号在识别文件的同时,会在图片所在文件夹生成文本文档,名称与图片名称相同。因此,如果不是特别需要,可以不必再保存输出结果。
如所识别内容属于一部分,可以将左侧的图象列表全选(ctrl+A),再选择“输出–到指定格式文件”,则当前所有识别内容按照图片排列顺序保存在一个文件中。
我使用的尚书七号不能记忆保存路径,每次选择保存时,都会默认打开程序安装目录下的“outout”文件夹,不必每次都选择路径,可以先保存在这里,然后一起转移文件。
5、如果想保留文件中的图片,在输出结果时选用RTF格式,再用word打开,可以看到格式完全正确的文字和图片了。
6、用书本的页码给文件命名是明智的选择。我曾经用内容摘要命名,自以为清晰明了,结果在最后修正错误字符时悔恨交加。
7、当一个图象完全无法识别时,可稍稍增加亮度或对比度,有时候只差那么一点点,它也不给你工作。
8、分栏的几个类型。当单击一个分栏时,工具栏中会相应分栏类型的按纽会按下。分栏有横栏(横排文字)、竖栏(竖排文字)、图片、表格等几个类型,一般情况下可以自动识别类型,但手动分栏时一定要选择相应的类型,以提高识别率。
以上问题针对拍摄情况而言,扫描的话相信会减少问题,如果能拆书的话,最好还是拆吧。
怎么把A4纸上的表格弄出来电子版的表格,扫描行吗,我只要表格不要表格里面的数据?
可以的,但精度可能达不到你想要的标准。1.工具准备:下载“尚书七号OCR识别”软件、扫描仪2.安装后运行“尚书七号”。
3.在尚书七号内,点“扫描”,扫描你的“表格”(选择的精度高些)
4.扫描完成后,点尚书七号中的“表格(3)”按钮。
5.依次点“版面分析(F5)”、“开始识别(F8)”。
6.然后选“输出”-“输出到指定格式”-xls格式、命名,保存。以上就完成了,但结果可能达不到你的要求!注:尚书七号转换文本精度还是挺高的,转换表格相对来说差些。
尚书七号怎么用?
尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件。尚书七号是一款专门为识别文字而研发的软件,尚书七号是应用OCR技术,为满足书籍、报刊杂志、报盘票据、公文档案等录入需求,实现系统管理方式而设计的软件系统。尚书七号OCR软件适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
操作
1.尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件,该软件是放在了扫描仪随机的驱动光盘中,用户可以选择安装。
2.软件安装完毕后,用户请点击桌面左下角”开始”,找到”尚书7号OCR”软件图标,并点击。打开尚书7号OCR的使用界面。
3. 打开尚书7号OCR的”文件”采单下的”选择扫描仪”,选择对应扫描仪的驱动”MICROTEK SCANWIZARD 5″的选项。并选择”确定”。
4. 选择”文件”菜单下的”扫描”,将打开扫描仪的驱动。下面的界面是扫描仪的”高级控制面板”。
5. 用户请注意选择SCANWIZARD 5软件中,左面”设置”窗口中的”图像类型”,请选择”RGB色彩”或者”灰阶”的类型,并注意扫描仪分辨率是300PPI。
6. 当用户作完”预览”后,设置需要扫描的范围,就可以点击”扫描”按钮,扫描仪将开始扫描的工作。将扫描好的文件,直接传递到尚书7号OCR默认的目录中(默认的存储图像文件的目录是用户计算机C盘下的SHOCR2002目录下的IMAGE目录)。扫描完毕后,请用户关闭掉扫描仪驱动程序SCANWIZARD 5.用户可以看到需要扫描的文件已经传递给尚书7号中,默认的文件名是HW001.JPG。
7. 请用户选择尚书7号软件中的”编辑”菜单下的”自动倾斜校正”,让尚书7号软件对扫描进来的图像作相应的旋转,以保证图像中的文字是水平排列,而非倾斜。因为太过倾斜的文字,将影响到尚书软件的识别效果。
9. 版面分析完毕后,用户可以看到对应的文字块,都有对应的识别框被选择。
10. 用户此时,请注意,对应的识别框,其属性是否正确。识别框分别有”横栏”、”竖栏”、”表格”和”图像”等四种属性,分别有四种不同颜色的选框来表示。
11. 核对无误后,用户可以使用”识别”菜单下的”开始识别”按钮。得到结果……
12. 此时实际上已经进入文字校对状态……
13. 当用户校对完毕后,或者不在尚书7号内作校对,用户可以选择”输出”菜单下的”到指定格式文件”.
用户可以看到,识别的结果,有TXT、RTF、HTML、XLS等格式可以选择。默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。用户选择一个对应的文件名,就可以存盘了。为了方便,用户可以选择”输出到外部编辑器”的选项,这样存盘的同时,尚书7号OCR会自动调出对应的编辑软件,如TXT存盘可以自动调用NOTEPAD软件,RTF存盘将自动调用WORD软件,XLS存盘将自动调用EXCEL软件。