2009-03-12

做点事情挺难的―谈编写的拼音首字转换程序

前两天自己心血来潮编写了一个将outlook导出的csv电话本自动将姓改为拼音首字母缩写的小程序,昨天晚上测试了一把才发现原来那种判断拼音首字的方法其实能含盖的字挺少的
,不少人的名用字都不在里面,那种判断规则我都怀疑是不是能包括全部的
gb2312字符集。于是昨晚再上网搜了一通,看有没有更全一些的汉字拼音库可以下载,发现搜到的东西大部分都是一个地方出来的,而且像
CSDN之类的地方下载个东西受限制挺多,还要积分什么的。一点儿都不像国外的sf.net之类的网站似的那么方便,下载东西靠论坛的积分好像是很多国内网站聚集人气一种方式,其实也造成了很多的虚假繁荣。比如很多人卖自己的帖子或是回帖才能看,而回贴的人大多数只是回个乱七八槽的话,从而造成一种虚假的人气很高的假象,也造成了存储资源有大量浪费,要存储那么多的垃圾信息,而检索信息的人也带来了很大的麻烦,因为想看到一些中肯的评论都很困难。

闲话少说,昨晚最后还是找到了一个朋友用python编写的unicode汉字拼音首字检索字典,因为它是直接将常量写成程序的,几百k的程序运行起来也比较慢,于是想把他的字典表格导出到一个文件中,初步选用sqlite数据库的格式,这样还可以将数据给别人用。但是遇到了一系列的问题,先是python
sqlite的insert语句不支持一次插入多行数据,搞出了一堆的错误,调试了很久才发现是这种问题。后来这里没问题做数据库的程序能正常运行了,但又发现数据库文件大小没变,数据没有写进文件中,经测试才发现python
sqlite对于unicode支持不好的原因,可恨的是竟然也不给个错误信息出来。搞到了十二点多才睡觉,最后只好用python的pickle模块将数据存储。对于检索的程序还没完成。

真正想做一件事才发现挺难的,比我想像的要难得多,不过我也相信自己会很快完成这个程序的。

--
从我的移动设备发送

欢迎光临我的博客:

http://deerlux.blogspot.com/

没有评论: