2007-04-21

让pdftohtml支持中文

没装fbgs时,查到pdftohtml和pdftotext可以转pdf为html和txt
不过对中文识别有些问题,我有几个用acrobat转doc成的pdf,用pdftohtml就能识别中文,而自己用latex写的就不行。

有个参数-c很搞笑,pdftohtml不认中文时,就把它们转成图片放到网页中。
另外有个参数是-enc,感觉不大会用,总说couldn't find unicodeMap.. “猜中”个UTF-8可以用,但是仍然不能正确转换。

原来我的pdftohtml是poppler-utils里的,后来把它卸了,装了xpdf一系列东西,以及一个单独的pdftohtml.
之后有一些变化,比如pdftohtml和pdftotext不需要参数就能正常转换的那几个pdf(说是用acrobat转的),现在必须用参数-enc才可以,而且totext用-enc GBK可以,而tohtml用-enc GBK有乱码,用-enc EUC-CN才行。
另外/etc/xpdf有一些unicodeMap文件,定义了一些unicodeMap,然而用在我自己的pdf上还是不行。

最后我又改回poppler-utils了,还是觉得它提供的pdftohtml好使。而且-enc命令也可以用,这应该是某个xpdf的包支持的。(注意,我没有完全卸载xpdf的包,只是把和poppler-utils冲突的卸了)

今天发现了cmap宏包,说是可以让生成的pdf中的文字支持复制粘贴。不过我试过,没有用。
然后发现了ccmap宏包,这个是针对中文的,是cct宏包的一部分。源里没有这个东西,于是我到http://lsec.cc.ac.cn/cgi-bin/viewcvs.cgi/cct/ccmap/把里面的东西全下载下来(其中Makefile和t1.tex可以不要,另外Attic里面的文件也要下来),放到/usr/share/texmf/tex/latex/ccmap(具体要看tex的安装目录),把包解开,最后运行texhash
现在在.tex文件里加入\usepackage{ccmap}(我记得cmap要求是在\documentclass后紧接着就调入cmap,不知道ccmap是否也需要这样),再用pdflatex编译,哇!出现中文了,只是默认是utf-8输出的,用-enc GBK选项就好了!

最后,根据一个同学的说法,本质不在于cmap还是ccmap,只要有那些.cmap文件就行了,我试了过了,的确是这样,现在用\usepackage{cmap}也可以了。