Sunday, November 14, 2004

将PDF文件转换为TXT文件

  PDF是电子图书常用的文件格式,但是由于PDF文件不便阅读(需要安装Acrobat才能看),而且少则几百K,多则十来兆,不便网上传输,我们常常希望能把它转化成文本文件格式,却又往往无从下手。其实,这并不是一件难事。
  首先,我要向大家介绍一个能将PDF文件转成TXT文件的软件??Aerial2.0。(not compatible with Acrobat 5).
  我们知道,阅读PDF文件的工具,当属Adobe的Acrobat reader软件了,而Aerial则是Acrobat的一个插件。在安装了Aerial之后,Acrobat reader的菜单中的"plug-ins"就会多出一项"Aerial"。
  Aerial 2.0为我们浏览PDF文件提供了强大的功能:
  1.index manager:用于查找和管理文章的索引(必须要有Acrobat Exchange);
  2.navigator: 为PDF文件建立树结构,方便我们浏览;
  3.paper clip page:剪贴页管理(必须要有Acrobat Exchange);
  4.copy table to clipboard:将表格复制到剪贴板;
  5.save as RTF :这才是我们最需要的功能,转化之后不仅保留了文字,连字体和颜色图案都能保留下来!
  但是,Aerial并不是万能的,它对中文支持不太好,排版有时会比较混乱,而且遇上扫描的纯图形的PDF文件时就无能为力了。要想把此类PDF文件转化成文本文件,就相对麻烦一些了,具体步骤如下:
  1.先用Acrobat打开PDF文件,选定区域,放大到300%?500%(视具体情况而定), 复制到剪贴板。
  2.用Photoshop或Photoimpact等图形软件调出剪贴板的图形,存成单色的(注意:一定要单色)TIF、PCX或BMP文件,图形文件格式视你所用的OCR软件而定。笔者推荐使用BMP文件存盘。
  3.用OCR软件识别图形文件(笔者用的是Wtocr7.0),经过简单的排版校正后,一般能有95%以上的识别率。再经过你的手工修改后,就可以了。
  以上是笔者在实际过程中的一些经验,希望能对朋友们有所启发。Aerial 可以到http://www.china139.com/soft/28-1.asp下载。或者点此下载。

  想把PDF文件转换成文本方式的工具也很多。比如在Acrobat 5.0中,我们可以快速地将Adobe PDF文件另存为RTF文件,或者TIFF、JPEG、PNG格式的图像文件。Acrobat可将Adobe PDF文件的每个页面转换成单个的图像文件,图像格式视所选而定;利用PDF2HTM也可以将PDF文件变为HTML文件,而且完全支持中英文PDF文档的转换,对PDF的版面信息可以完全保留,生成HTML的效果基本与原版的PDF一致,简单排版后即可输出。如果你对其中的插图不感兴趣,还可以用PDF2TXT。下面我们一起来看看下PDF2HTM和PDF2TXT的用法。

  ★PDF2HTM★

  从http://www.pdfimage.com/pdf_ps/pdf2htm/PDF2HTM2.0.zip处下载的PDF2HTM文件不过106KB,其中包括一个文本文件README.TXT和一个程序文件PDF2HTM.EXE。这是一个基于DOS环境的程序文件,由魔镜软件工作室独立开发。

  它的用法很简单。进入MSDOS方式,转到程序所在目录,假设要转换的PDF文件也在同一目录,文件名为demo.pdf,在DOS命令提示符下输入“PDF2HTM demo.pdf”即可。再dir一下或者回到Windows资源管理器下看看,增加了些什么文件?

  ★PDF2TXT★

  从ftp://ftp1.mydown.com/home2/soft33/pdf2txtv2.0.zip处下载的pdf2txtv2.0.zip是508KB,内含两个文件:GZIP.dll和pdf2txt.exe。我们只需把它们解压到同一目录即可。



  运行pdf2txt.exe,单击“File”下的“PDF2TXT”,弹出打开文件对话框,如图1。选择一个欲转换的PDF文件,单击“打开”,随后弹出一“另存为”对话框,设定文本文件保存的位置。单击“保存”。OK!快到你所设定的位置上去看看吧。是不是很令人心动?

  当然,如果你已经安装了Adobe Acrobat Reader,你就可以用它来转换PDF文件了。

  以上给大家详细介绍了获取各种帮助文档的源文件(文本文件和其中的插图)的工具和用法。利用这些源文件,我们就可以实现本篇开头所提出来的目标??既不买书,又可以免去了眼睛的“奔波劳顿”(看屏幕要左右来回移动)之苦。把帮助文档的源文件用打印机打出来,自己制作的一本参考书不就到手了吗?呵呵!
(Pasic)

本文根据:《电脑报》1999年3月01日第08期 修改整理




No comments: