SERVICE PHONE

400-123-4657
  • 诚信为本,市场在变,诚信永远不变...

新闻动态

当前位置: 首页 > 新闻动态

探讨大数据分析过程的数据整理-加拿大pc28

发布时间:2025-01-25 点击量:532
本文摘要:数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。

数据整理是数据分析过程中最重要的环节,在大数据分析过程中也是如此。在小数据时代,数据整理还包括数据的清除、数据切换、归类编码和数字编码等过程,其中数据清除占有最重要的方位,就是检查数据一致性,处置违宪值和缺陷值等操作者。在大数据时代,这些工作被弱化了,在有些大数据的算法和应用于中,基本仍然展开数据清除了,因为大数据的多样化使得其数据,有一定的不精确性,但数据切换和编码过程还是必须的。下面以大数据分析中文本分类的例子,来分析大数据整理的过程。

  在本例中,以mahout为大数据分析软件,文本分类算法搭配朴素贝叶斯算法(newbayes),分类对象是来自有所不同类别的新闻数据。  当我们用于网页爬虫,每小时源源不断的从多个有所不同类别的新闻网站上获得数据时,获得的这些数据都是文本数据,也就所谓结构化数据,这些数据是不必须展开数据清除过程,但它们在转入到mahout构建的朴素贝叶斯算法时,必须展开适当的数据切换。

该切换主要分两个步骤:  1.数据系列化  由于获得的大量的文本数据集中于,每个新闻占到一个文档,共计无数个小的文件,由于Mahout运营在Hadoop的HDFS上,HDFS是为大文件设计的。如果我们把这些无穷多个小文件都拷贝上去,这样是十分不适合。比如说:假设对1000万篇新闻展开分类,怎么会要拷贝1000w个文件么?这样不会使HDFS中运营namenode节点的终端瓦解掉。

  因此,Mahout使用SequenceFile作为其基本的数据交换格式。其思路是:通过调用mahout内置的解析器,扫瞄所有目录和文件,并把每个文件都转换成单行文本,以目录名结尾,回来是文档经常出现的所有单词,这样就把无穷多个小文件,转换成一个系列化的大文件。然后把这个大文件,再行上传遍HDFS上,就可以充分发挥HDFS分布式文件系统的优势。当然,这个切换过程由mahout的内置工具已完成,而大数据分析师这个时候只必须把所有的新闻按文件夹分好类摆放好,同时运营mahout内置的解析器命令就可以了。

  2.文本内容向分析  非常简单地说道就是把文本内容中的每个单词(除去一些连接词后)转换成数据,简单地说道就是展开向量空间模型化(VSM)。该过程使每个单词都有一个编号,这个编号是就它在文档向量所享有的维度。

这个工作在mahout中构建时,大数据分析师也只必须继续执行其中的一个命令,就可以精彩地构建文本内容的向分析。  有了这些被向分析的数据,再行通过mahout的朴素贝叶斯算法,我们就可以对计算机训练出有一套规则,根据这个规则,机器就可以对先前搜集的新闻数据展开自动的分类了。  从上述文本分类的大数据整理过程可以显现出,大数据时代的数据整理过程仍然特别强调数据的精确性,而特别强调的是对非结构化数据的数量化。

当然,有所不同的大数据分析应用于用于的算法也不一样,其数据整理过程也不过于一样,但从总体上看,大数据分析的数据整理区别于小数据时代的精确性,而显得更加粗犷一些。


本文关键词:加拿大pc,加拿大pc28,pc28加拿大官网,pc28加拿大官网在线预测

本文来源:加拿大pc-www.baiseecps.com