internet的快速发展给我们提供了丰富的信息,但同时也提出了如何有效加以利用的难题, “丰富的数据与贫乏的知识”问题日益突出.当前对数据进行挖掘的方法一般称为“知识发现”或“数据挖掘”.知识发现涉及到数据收集.数据清洁.数据输出等过程,是统计学.模式识别.人工智能.机器学习等学科相结合的产物.可以认为是这样一个过程:从异构数据源收集信息并转换为用户需要的信息的过程. 【推荐阅读:Windows CE 编程的十点忠告】
v\:* {behavior:url(#default#vml);} o\:* {behavior:url(#default#vml);} w\:* {behavior:url(#default#vml);} .shape {behavior:url(#default#vml);} 关于互联网信息采集的思考 cf2000 cf2000 2 218 2003-02-11t07:38:00z 2003-02-11t07:38:00z 4 368 2101 a 17 4 2580 9.2812 7.8 磅 0 2 关于互联网信息采集的思考 信息来源的异构性是网络信息难以再利用的焦点所在.由于网络信息的异构性,导致了互联网信息再利用的“采集难”.“整理难”.国内外很多公司与企业都投入了大量的财力物力进行研发.现在也出现了很多工具与产品,通用型的如google搜索引擎,比较专业的如mp3搜索引擎.专门用于采集的如«信息仓库».象teleplort pro.或者google后台的robot程序等可以列入信息收集范畴,本人负责开发的cgrobot程序则有一定的数据重整功能.但是这些产品通常专业化程度很高,不适合于小型企业与个人用户使用.而象teleport pro虽然个人用户也会使用,但是下载下来的(页面)数据通常需要耗费大量的精力来编辑才能再利用.... 下一页