凭借强大的分析海量数据和推断模式的能力,人工智能有望颠覆世界上最需要数据的行业之一。传统Web抓取机器人的数据识别能力不足是其主要缺点之一。
这种不足至关重要,尤其是在以独特的布局和内容架构抓取大量网站时。当用作数据源的网站进行升级以显着改变其布局时,此问题变得更加明显。
为解决此问题,企业可能需要将其网络抓取活动限制为具有相同布局的网站。而且,只要任何站点进行布局更改,即使是这样的列表也会被缩减。
除了帮助从无数个动态网站中提取数据之外,人工智能还承诺彻底改变开发人员执行网络抓取过程的每个步骤的方式,从选择正确的数据管道到清理数据,然后对其进行分类。
加入AI网络抓取潮流的时代从未比现在更好。计算成本正在下降,支持AI的硬件(例如NVIDIA GPU)正变得越来越普遍。由于这些技术日趋成熟,因此企业在Web抓取中部署AI以获得竞争优势变得越来越容易。
变形速度数据收集
一些企业可以从少数几个网站上从网络上获取其商务智能所需的所有信息。但是,大多数需要抓取网络的企业必须浏览数百个(有时甚至数十万个)网站。高速满足此类Web抓取需求可能与在大量数据中找到针头一样具有挑战性。
收集大量数据
借助更高的数据收集速度,AI Web抓取技术使企业可以在一轮中抓取更多的网站。更多信息可能会带来更深刻的见解,并最终从企业的网络抓取过程中获得更大的价值。
精度更高
启用AI的Web抓取的最佳卖点也许是能够以更高的精度推断出模式的能力。企业可以每次处理和分析大量数据,并且模式推断的准确性更高。这最终将带来更高的价值和更大的竞争优势。
麻省理工学院的科学家发表了一篇论文,描述了一种创新的基于AI的Web提取程序。该系统的标志是其自学能力,可从网络中提取有价值的信息。
与传统的网络抓取技术不同,麻省理工学院研究人员的AI系统不会通过机械地应用预设的数学规则来提取数据。相反,当遇到不适合任何前缀处理规则的非结构化数据时,该程序将采用一种动态方法来搜索网络,以获取有助于其进行正确调用的更多信息。
这项新技术最关键的突破性因素是它能够以更少的人为例子进行自我教导。传统的机器学习模型需要基于非常狭窄的一组参数的几个示例,而新的AI数据提取器只需要很少的指导数据。这要归功于一种算法,它可以搜索信息以填补空白。
另一个关键但并非唯一的功能是“置信度得分”功能,它表示程序预测的确定性级别。通过将自我学习时所做出的预测与人为干预时所进行的预测进行比较,该程序可以确定距正确预测有多接近。
并且,如果置信度得分未达到某个阈值,则程序将返回研究模式,以向自身提供更多相关信息,从而可以提高预测准确性。这个循环将一直持续下去,直到程序将其置信度得分提高到甚至超过可接受的阈值为止。
“由于要合并的数据存在很多不确定性,尤其是在存在对比信息的情况下,我们会根据数据提取的准确性给予奖励。通过对我们提供的训练数据执行此操作,系统学会了能够以最佳方式合并不同的预测,因此我们可以获得所需的准确答案。”
研究人员认为,他们的突破性技术将破坏从医疗保健到制造业,汽车和数字营销等各个行业的网页抓取。该系统审慎的自学习算法可以多种方式增强研究工作。它可以大大减少繁琐的研究工作,同时还可以保证结果的更高准确性。
此时,需要人工判断才能对动态站点进行分类。但是,由于其巧妙的“智能元搜索引擎4”,该机器超越了人类的准确性,并且以更大的规模和更快的速度超越了人类。
该算法还可以推断出每个查询最合适的搜索词,因此该算法也提高了人类的准确性。搜索之后,该算法然后基于预先建立的用户偏好对提取的数据进行分析和分类。
整个过程的每个阶段,包括人机交互,数据提取,数据分析和组织工作,都相互融合。例如,在每次搜索迭代结束时,用户可以评估结果的准确性,并提供反馈,然后机器可以使用该反馈信息来调整其搜索项,以获取更合理的数据源。
该算法通过在每个数据提取周期内基于用户的反馈同时更改搜索词来模仿人类的努力。在食品价格用例中,机器搜索了搜索词,而不搜索那些包含“价格”等的搜索词。
包含“价格”的搜索词指导了初始搜索。然后,当用户从结果中验证最重要的数据类型和数据源时,该算法会找出其他更有可能产生所需数据的搜索词。该算法不仅在搜索查询中使用了这些术语,还在数据分析和分类中使用了这些术语。
在该技术的大多数使用案例中,在用户将第一组反馈提供给算法后,从第二个周期开始便会形成更准确的结果。每个行程的结果都可以保存以备将来参考。这也使用户很容易使用来自先前查询结果的输入来为新搜索准备算法。