dengjun 发表于 2008-6-17 20:40:13

用电脑编写的《简明广州音字典》如何统计成语

<p>      用电脑编写的《简明广州音字典》如何统计成语</p><p>《简明广州音字典》是用数据库编写的。《字典》中有多少四字成语?我们是怎样统计的?</p><p>在编写数据库文件guangzd.dbf 时,在例释字段,成语前面用"|"作为标志。但是成语的位置是随着该词的词义而出现,因此位置并不固定,用数据库来统计比较麻烦。因此需要把数据库文件转换为文本文件,在DOS状态下用DOS命令find.exe 来统计。<br />具体步骤如下:</p><p><br />1.把guangzd.dbf 拷贝成数据库文件 gzzd.dbf<br />2.删除 gzzd.dbf 文件中 order,py2等字段,只留下hz,yy,ty,py,jie,order六个字段.<br />总篇幅减少到702,606 字符.<br />3.拷贝 gzzd.dbf 成为文本文件 gzzd.txt,篇幅改为712,415字符.<br />4.用find 命令检索"|"<br />find "|" gzzd.txt 就可以查看"|"在文本文件gzzd.txt的出现情况.<br />5.用命令拷贝成为一个文件chengyu.txt<br />find "|" gzzd.txt &gt;chengyu.txt<br />6.用 wps 调查出文本文件 chengyu.txt<br />chengyu.txt 有3118行,也就是3118条以上.<br />7.把文本文件chengyu.txt 拷贝到联网的计算机上,可以在网上发布.</p><p>chengyu.txt总共有3118行,现在把第一部分(24行)和最后部分(24行)为例发表如下:</p><p>   第一部分</p><p>一   yad-   壹   yī      一个.一定.一起.一同|一心一意.   2<br />丁1ding-叮   dīng    天干第四位:|甲乙丙丁.丁(姓).      3<br />丁2ding-叮   dīng    人丁.添丁.园丁|人丁兴旺.          4<br />七   cad-   草一切 qī      七个.七十.七月|七上八下.          7<br />三   sɑm-   素担1切sān      三个.三十.三月|三三两两.          8<br />干1gon-   肝   gān      干涉.干戈.干净.干粮|大动干戈.   9<br />干3gon.   高按切 gàn      干部.干事.干练.干将|干劲十足.    11<br />上1soeng` 尚   shàng上下.上海|上下左右|七上八下.   15<br />上3soeng" 商"    shǎng上声|平上去入.                   17<br />才   coi*   材   cái      才能.人才.刚才.方才|才疏学浅.    18<br />下1hɑ`    夏   xià      下来.下面.下边.底下|下不为例.    19<br />与1yu"    雨   yǔ      |与世长存(与:和).赠与(赠给).   25<br />万1mɑn`   曼   wàn      一万.万一.千万|千军万马.         28<br />丰   fung-风   fēng    丰富.丰收.丰足.丰碑|丰功伟绩.    30<br />井2jing/整   jǐng    井然|井井有条|坐井观天.          32<br />开   hoi-   海-    kāi      开放.开通|开花结果|开诚布公.   33<br />夫1fu-    肤   fū      丈夫.夫人.匹夫.渔夫|夫唱妇随.    34<br />天   tin-   他烟切 tiān    天天.天下.天体|天罗地网.         37<br />无1mou*   芜   wú      有无.无论|无家可归|一往无前.   40<br />专   jun-   之渊切 zhuān专门.专家.专业|专心致志.         42<br />五   ng"    伍   wǔ      五个.五星红旗|五湖四海.          46<br />不   bad-   布乞切 bù      不是.不用.不但.不堪|不置可否.    49<br />友1yao"   有   yǒu      朋友.战友.友好.友谊|酒肉朋友.    51<br />丑3cao/   差口切 chǒu    丑角.小丑|跳梁小丑.            55</p><p>   最后部分</p><p>餐   cɑn-   草悭切 cān      聚餐.野餐.餐厅|风餐露宿.       8862<br />音   yam-   阴   yīn      音乐.声音.音信|音容笑貌.       8866<br />韵   wan`(/)运   yùn      押韵.韵母.音韵.韵脚|琴韵悠扬.8867<br />韶   xiu*   诗摇切 sháo    &lt;书&gt;美:韶光.韶华|仪容韶秀.   8868<br />髯   yim*   严   rán      两腮的胡子:美髯公|白发苍髯.    8873<br />髭   ji-    支   zī      嘴上边的胡子:|髭须皆白.      8876<br />鬓   ban.   摈   bìn      鬓角|两鬓斑白|耳鬓厮磨.      8881<br />麻1mɑ*    么霞切 má      麻布.亚麻|心乱如麻.            8885<br />麻2mɑ*    么霞切 má      麻烦.麻痹.麻木|麻木不仁.       8886<br />麽2mo-    么   mó      幺麽(yāo-)(微小)|幺麽小丑.   8889<br />靡2mei"   美   mǐ      顺风倒下:披靡|所向披靡.      8893<br />靡3mei"   美   mǐ      靡靡(柔弱颓废):|靡靡之音.      8894<br />鹿   lug`(/)陆   lù      梅花鹿.鹿茸.鹿角|鹿死谁手.   8896<br />鏖1ou-    奥-    áo      鏖战(激烈地战斗)|赤壁鏖兵.   8904<br />麟   loen*鳞   lín      麒麟:|凤毛麟角.                8907<br />黑   hag-   克   hēi      黑板.黑暗|黑白不分|白纸黑字.   8909<br />墨   mag`   默   mò      墨水.墨汁.笔墨|墨守成规.       8910<br />默   mag`   墨   mò      默写.沉默.默认|默默无闻.       8911<br />黔2kim*   钳   qián    贵州的别称:|黔驴技穷.黔剧.   8913<br />黩   dug`   读   dú      黩武(滥用武力)|穷兵黩武.       8920<br />黯   am/    暗/    àn      |黯然无光|黯然泪下.            8924<br />鼠   xu/    暑   shǔ      老鼠.鼠疫.鼠窜.鼠标|鼠目寸光.8926<br />鼻   bei`   避   bí      鼻子.鼻孔.鼻涕.鼻祖|鼻青脸肿.8933<br />鼾   hon*   寒   hān      鼾声.打鼾.鼾睡|鼾声如雷.       8935<br /></p>

dengjun 发表于 2008-6-18 19:03:52

<p>    以上的办法是大概统计的办法,如果成语有重复,数字不一定准确。<br />    要做到准确,比较笨的办法,就是把文本文件调入数据库文件,然后把不是四字成语的词语用手工的办法删除(大约3000条以上),只留下四字成语,然后用自编删除重复的程序删除重复的字,这样就可以成立一个成语的数据库。</p><p>    我试了一下,用这样种手工删除非成语词语的办法建立起来的成语数据库,半个小时可以完成250条,按照这个速度计算,30小时可以完成3000条成语的数据库,每天工作8小时,大约需要3-4天的时间。 <br /></p><p>[此帖子已被 dengjun 在 2008-6-20 21:05:15 编辑过]

dengjun 发表于 2008-6-20 21:04:40

输入数据库以后,用手工删除词语,留下四字词语3669条,删除重复,《简明广州音字典》共有四字词组3234条。
页: [1]
查看完整版本: 用电脑编写的《简明广州音字典》如何统计成语