关于Hadoop中的非结构化数据处理

最后一篇

rss.

严格的金马克

（@sathish）

成员主持人

加入：10个月前

帖子：1391

2011/03/11 11:53 AM

我们如何在Hadoop中导入非结构化和半结构化数据？它很容易导入结构化数据，因为我可以使用SQOOP直接从MySQL导入它。但在非结构化数据的情况下该怎么办？

引用

Anamika.

（@Anamika）

高尚的成员

加入：10个月前

帖子：1381

18/03/2021 11:54 AM

根据您的用例，有多种方法可以将非结构化数据导入Hadoop。

1.使用HDFS shell命令，例如从本地放置或复制，将平面文件移动到HDFS中。有关详细信息，请参阅文件系统shell指南。

2.使用WebHDFS REST API进行应用程序集成。WebHDFS REST API.

3.使用Apache Flume。它是一种分布式，可靠和可用的系统，用于有效地收集，聚合和将来自许多不同来源的大量数据移动到集中数据存储，例如HDF。虽然历史上涉及日志数据收集/聚合的Flume的大量用例，但是Flume可以与Kafka一起使用，并将自己变成实时事件处理管道。

4.使用风暴，通用，事件处理系统。在由螺栓和喷口组成的拓扑中，它可用于将基于事件的非结构化数据摄入到Hadoop中

火花的流式流组件提供了另一种选择，可以将实时非结构化数据摄入到HDF中。它的加工模型与风暴完全不同。虽然一次常规处理传入事件一次，但是Spark Streaming实际上批量在处理之前在短时间内到达的事件。它被称为迷你批次。当然，火花流在火花核心计算引擎的顶部运行，这些引擎在磁盘上比MapReduce更快地旋转，磁盘上的10倍。

回复引用

论坛统计

14. 论坛

2,745 话题

5,490 帖子

1 在线的

6. 成员

论坛图标：论坛不包含未读的帖子论坛包含未读帖子标记所有阅读

主题图标：没有回答回答说积极的热的黏不批准解决了私人的关闭

由WPFORO提供动力由WPForo版本为1.8.4提供支持