成都容海
容海在得到监测任务后,由监测组长分配给相关工作人员,启动自动扫描和
任何复核流程,云监测平台将预警信息和检测报告推送给用户,用户亦可在线查看相关数据。
产品功能特点
维护人员可方便指定采集的目标站点或页面。
采用多线程并发搜索技术,采集过程高效准确。
提供高效的更新手段,已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。
维护人员可方便设定信息监控的时间周期,设定两次更新之间的时间间隔,以分钟为单位,最小可设置为1分钟。
支持对采集的网页信息进行自动分类。
支持按内容对采集的网页信息进行自动排重,实现不重复新闻发布。
支持对网页中表格内容的自动判断和获取。
引入日期变量,使用户可精确定位带有日期信息的栏目或频道。
引入页码变量,可有效采集按一定翻页规则从数据库发布出来的信息。
引入数字变量,可有效采集按一定数字规则从数据库发布出来的信息。
结合容海 Server,在采集和展示(包括浏览、检索)层面实现了对多语种的支持。可对中、日、韩、俄、英、西、阿拉伯等各种语言站点进行采集。底层以UTF-8统一管理。
采集过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。
可以灵活设定采集结果的存储方式,具有开放性。
自动过滤网页中新闻的正文内容,剔除垃圾信息。
提供数据导出和数据导入功能,可实现与其它系统文件级的信息共享,并为实现内外网数据交换提供了技术支持。
增加了线程的采集延时设置,实现对采集目标的采集强度控制。
自动分类和自动排重功能作为可选项提供,可由维护人员设定。
增强了需要用户身份验证的网站的支持能力。
采集程序内存管理更为科学,加强了运行的稳定性和可靠性。
采集源定义,分解为网站名和频道名,使来源属性更为准确。
对于采集失效的采集源,采集模块中用红色显示,表明采集失效。
可以采集网页中的图片和表格,并在正文中标记图片和表格的位置;维护人员可以指定是否采集图片和表格,并且可以指定数据库存储策略,即在哪些数据库中存储图片。
实现了服务封装。容海网络信息智能采集推送系统的采集功能封装成服务形式,前端提供ADO组件和JavaBeans组件,调用和操纵网页采集功能。通过调用接口,可以制作采集功能的Web控制界面,实现远程控制。
自动分类支持多级分类。包括提供支持多级分类的容海智能分类器,以及对网页实施多级分类操作。