为企业用户找到更快完成Hadoop查询的方法是“钻井”的目标,这是Apache软件基金会承担的最新开源项目。Hadoop提供商MapR Technologies的产品管理总监Tomer Shiran表示,Drill已被确立为Apache孵化器项目,其持续的开发经验向全球软件工程师开放。MapRTechnologies是Apache Drill项目的支持者之一。
Drill项目将专注于创建谷歌Dremel Hadoop工具的开源版本,谷歌使用该工具来加速其Hadoop数据分析工具的内部使用。
“我们花了几个月的时间与Drill的许多组织和潜在用户以及我们的客户群进行了交谈,”Drill项目的创始成员Shiran说。“我们想把它作为一个开源项目放在那里,而不仅仅是保存在MapR中供我们自己使用。”
Shiran说,Drill通过在大型数据集上实现更快的查询来帮助Hadoop用户。
他说,“使用Drill,您将能够获得非常快速的响应。”他补充说,用户将能够在一秒钟内得到回应,这是与目前可用的其他工具的主要区别。
Hadoop目前是按设计工作的,所以可以批量处理大数据集。Shiran表示,Drill将通过进行“交互式分析”来改进这种方法,以便更快地在数据中找到所需的答案。"交互式分析比批处理快得多."
他表示,对Drill等工具的需求源于用户日益增长的需求。“人们总是在Hadoop中查询,但它有局限性,因为它不会在几秒钟内将答案返回给你。”
根据Shiran的说法,使用Drill的用户将能够进行临时分析并获得更快的响应,无论他们是在寻找异常、数据趋势甚至网络入侵。“考虑到所有这些情况,你必须得到相当迅速的回应,否则当你弄清楚时,这将是旧闻。”
新的Drill开源项目目前正在开发中,包括目前参与该项目的各种公司和个人。Shiran说:“将为此做出广泛努力。”“现在很多人都在积极开发这个项目,所以我认为我们的早期版本发布需要很长时间。”
据兰斯介绍,Drill的灵感来源于谷歌Dremel项目,该项目可以帮助谷歌分析庞大的数据集,比如分析抓取的Web文档、跟踪Android Market上应用的安装数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
通过将Drill开发为Apache开源项目,组织者将能够建立Drill自己的API和灵活强大的架构,这将支持广泛的数据源、数据格式和查询语言。
MapR提供其Hadoop产品的两个版本:免费的MapR M3;MapR M5是该产品的商业版本,具有高级功能,包括高可用性、创建数据快照和镜像数据集的能力以及24/7支持。