处理斯塔尔的 200 页报告花了 2.5 分钟, 而处理
16,500封读者信件则需要 90分钟,美国军方的先进技术
现在您也可以享用了……
由美国军方设计的一种可视化软件最近公开了其商业
版本——Themescape,并授权CartiaInc.制作。它可以将
数千份在线文档按照内容进行归纳,以三维“信息地图”
的形式表现出来。用户在“地图”上单击即可放大查看源
文档。CartiaInc.花了两年时间重写代码,将软件从高端
工作站转移植到普通 Windows平台上,并使它能以二维方
式显示。
Themescape软件使用高级神经技术和统计分组技术整
理在线文档。首先,用自然语言过滤算法将原始文本分解
为与文档含义相关的单词集。先删除“无用的”单词,如
冠词,然后根据上下文区分单词在不同场合的用法和含义
,并统计每个词的词频。最后,根据词频推断文章的“含
义”,并反映到“地形图”中。“地形图”中的每一“山
峰”表示一类概念。据称,无论Themescape扫描多少文档
,这一方法都能将文档按含义分成不同的类别。
Themescape可以处理网页、电子邮件信息、报告、字
处理器文档等各种文件。其处理速度取决于文档的数量。
处理斯塔尔的一份200页报告花了 2.5分钟,处理16,500
封读者信件也只需要90分钟。 |