什么是 Apache Spark?伦理电影
Apache Spark 是一个用于大限制处理和机器学习的超快速差别式框架。Spark具有无尽可延伸性,使其成为钞票 500 强企业乃至微软、苹果和 Facebook 等科技巨头值得信托的平台。
Spark 先进的非轮回处理引擎不错当作沉寂装配、云做事或任何也曾运行的流行差别式盘算系统(如 Kubernetes 或 Spark 的前身Apache Hadoop)运行。
关于民俗使用 Java、Python、Scala 或 R 配景的门径员来说,Apache Spark 不时只需要很短的学习弧线。与所有 Apache 应用门径相通,Spark 也得到了大家开源社区的救济,而且不错随意与大多数环境集成。
底下简要先容 Apache Spark 的演变、责任旨趣、它提供的上风,以及合适的合作伙伴如安在确凿所有组织中简化和简化 Spark 部署。
从 Hadoop 到 SQL:Apache Spark 生态系统
与所有差别式盘算框架相通,Apache Spark 的责任旨趣是将巨额盘算任务分发到多个节点,然后在这些节点上将其解析为不错同期处理的较小任务。
但 Spark 的羁系性内存数据引擎使其有时动态引申大多数盘算功课,而不需要进行多阶段处理以及在内存和磁盘之间走动进行屡次读写操作。
这一遑急特色使 Spark 有时以高达 100 倍的速率完成Apache Hadoop中使用的多阶段处理周期。其速率加上易于掌持的 API 使 Spark 成为大型企业和征战东谈主员的默许用具。
Apache Spark 与 Hadoop 和 MapReduce
这并不是说 Hadoop 已进程时了。它能作念 Spark 作念不到的事情,而且不时提供 Spark 责任所依赖的框架。Hadoop差别式文献系统使该做事有时存储和索引文献,充任臆造数据基础设施。
而 Spark 则在该架构上引申差别式高速盘算功能。要是 Hadoop 是领灵验具和建树来构建和烹调数据大餐的专科厨房,那么 Spark 等于快速拼装和分发这些大餐以供奢华的加快器。
遑急的是要意志到,并非每个组织皆需要 Spark 的先进速率。Hadoop 也曾使用名为MapReduce的系统来加快差别式处理,而且不错以惊东谈主的速率处理高达 TB 的数据集。它通过同期将并行功课映射到特定位置进行处理和检索,并通过比拟访佛和诞妄集来减少复返的数据,并提供“干净”的信息来杀青这少许。
MapReduce 引申这些功课的速率相配快伦理电影,因此惟一数据最密集的操作才可能需要 Spark 提供的速率。其中包括:
酬酢媒体做事电信多媒体流媒体做事提供商大限制数据分析
由于 Spark 是为配合 Hadoop 基础架构而构建的,因此这两个系统不错很好地协同责任。基于 Hadoop 构建的快速增长组织不错凭证需要随意添加 Spark 的速率和功能。
Spark SQL
Spark SQL是 Apache 用于处理结构化数据的模块。Spark SQL 包含在 Spark 下载中,当作模块提供对最流行数据源的集成探访,包括 Avro、Hive、JSON、JDBC 等。
Spark SQL 将数据排序为定名的列和行,相配恰当复返高速查询。最遑急的是,它不错与新的和现存的 Spark 应用门径无缝集成,以杀青最好性能和最低盘算老本。
Spark SQL 是 Apache Spark 生态系统中的一个用具,该生态系统还包括 Spark Batch、Spark Streaming、MLlib(机器学习组件)和 GraphX。底下先容其他模块在 Spark 宇宙中阐述的作用。
Spark Streaming — Spark 可能是用于极快分析批量数据的完好用具,可是当存储库受到及时数据变化的影响时会发生什么?使用Spark Streaming,它在 Spark 装配之上运行,并为从确凿所有流行的存储库源中索取的及时数据添加交互式分析功能。Spark Streaming 为需要及时数据的弘远应用门径提供救济,并具有 Spark 可靠的容错功能,使该用具成为征战兵器库中的有劲兵器。MLlib — MLlib(机器学习库)也在 Apache Spark 上腹地运行,提供快速、可延伸的机器学习。MLlib 期骗 Spark 的 API 并与任何 Hadoop 数据源无缝配合。MLib 提供可靠的算法和惊东谈主的速率来构建和宝贵救济买卖智能的机器学习库。GraphX — 使用GraphX构建和操作图形数据,在 Spark 平台上引申比拟分析。以业内最快的速率调度和团结结构化数据。使用友好的 GUI 从不休增长的算法麇研讨进行选用,或构建自界说算法来追踪 ETL 细察。
Spark 生态系统的所有这些组件皆无缝交互并以最小的支出运行,从而使 Spark 成为一个弘远、可延伸的平台。
Apache Spark 的上风
关于依赖大数据杀青突出的公司来说,Spark 比竞争敌手具有一些昭彰的上风:
速率— 如上所述,Spark 的速率是其最受宽容的资产。Spark 的内存处理引擎比 Hadoop 和类似居品快 100 倍,后者需要读取、写入和采集传输时间来处理批处理。容错性— Spark 生态系统在容错数据源上运行,因此批处理使用已知“干净”的数据。可是,当流数据与源交互时,需要很是的容错层。Spark 及时将流数据复制到不同的节点,并通过将云尔流与原始流进行比拟来杀青容错。通过这种神态,Spark 致使不错为及时流数据提供高可靠性。最大抵制地减少手工编码— Spark 添加了 Hadoop 所穷乏的 GUI 界面,使其更容易部署,而无需巨额手工编码。固然有时手动定制最恰当应用门径挑战,但 GUI 提供了快速方便的选项来杀青常见任务。可用性——Spark 的中枢 API 与 Java、Scala、Python 和 R 兼容,从而不错随意构建赶紧限制的健壮应用门径。活跃的征战者社区— 日立处分决策、TripAdvisor 和雅虎等行业巨头已告捷大限制部署 Spark 生态系统。大家救济和征战社区为 Spark 提供救济并如期矫正构建。
要是组织发现这些规模的需求,Apache Spark 将为大数据运营带来闇练的处分决策和无与伦比的处理速率。
责任旨趣
Apache Spark 构建于现存架构中确凿无缝运行,救济四种类型的装配:
当地的沉寂YARN 客户端YARN 集群
每种装配类型皆使用略有不同的任务次序,但 Spark 中的所有大数据操作皆分为 Spark Batch 或 Spark Streaming 功课。
Spark Batch — 批处理功课分析已网罗到一个或多个数据存储中的数据(历史数据)。批处理功课从存储库提供信息以供分析。
Spark Streaming ——Spark 分析用具及时索取流数据,并通过分析用具提供对流数据和历史数据的细察,以便众人有时随时照拂变化的数据。
相关使用 Spark Batch 和 Streaming 过甚关系组件的更多安定信息,请参考此 Spark 时间初学。
Talend 和 Apache Spark
阿朱 露出Talend Big Data为企业提供了开释 Spark 弘远功能所需的平台,并能立即产生影响。以下是 Talend 简化和改善 Spark 体验的五种神态:
谐和操作——Talend 为所有腹地、云或搀和环境提供单一处分决策源,通过非征战东谈主员不错阐明和操作的直不雅界面全皆抵制大数据。可视化联想用具— Talend 使非门径员有时在 Spark、Spark Streaming 和 Spark MLlib 中构建和裁剪功课。裁汰大数据任务的时间复杂性使组织决策者更容易赢得深度买卖智能。简化合规性— 在线买卖宇宙监管日益严格,监管雷区层见叠出,确凿任何企业皆会靠近老本崇高且耗时的隐衷。Talend 提供用具和主张,匡助您支吾合规性挑战,举例 HIPPA、PCI DSS、萨班斯-奥克斯利法案、欧洲通用数据保护条例 (GDPR) 等,提供讹诈保护、数据治持续决决策、风险缓解等,让组织不错专注于业务,而不是合规性。期骗机器学习——预构建、拖放征战东谈主员组件以及各式预构建和可定制的算法闪征战东谈主员和数据科学家不错通过 Spark 友好的 GUI 用具期骗机器学习。裁汰总领有老本— 通过 Talend 照拂界面,Apache Spark 包含数据准备即做事,只需几分钟即可在职何环境中使 Spark 上线。简化的宝贵和轻量级图形联想用具充分期骗了 Spark 生态系统的一谈功能,同期裁汰了时间和盘算支出的投资。
了解相关 Talend 如何期骗 Hadoop 和 Spark 杀青数据敏捷性的更多信息。
Apache Spark 初学
Apache Spark 是一种突出的差别式框架,具有超快的操作和高档分析功能。Spark 大幅擢升了 Hadoop 框架的速率,增多了复杂的流式分析、快速无缝的装配和较低的学习弧线,因此专科东谈主士不错立即擢升买卖智能。
Talend 的单点管持续决决策增多了 Spark 友好的 GUI 部署用具、矫正的机器学习和弘远的分析用具,从而随意杀青擢升数据敏捷性。
立即驱动下载最新版块的 Apache Spark伦理电影,其中包含用于独有环境构建的预配置选项。然后下载 Talend Big Data Sandbox,驱动尝试在 Spark、Spark Streaming 和其他顶端大数据时间中进行谐和照拂。