discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现
http://www.aboutyun.com/thread-8637-1-1.html
(出处: about云开发)

我们在进行日志分析的时候，那么日志的数据是杂乱无章的，或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗，说的直白一点就是要过滤里面的字符串。
下面便是我们需要过滤的数据：

183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"

这里如果对日志不了解或则不了解日志分析，可能会产生问题？为什么过滤这条数据，就能达到清洗的目的。这里所讲的只是核心内容，对于运行mapreduce来处理，可以看后面的文章。我这里重点讲如何把上面的数据，过滤出我们想要的数据。
我们需要什么数据，从about云分析discuz论坛apache日志hadoop大数据项目：概要设计说明书中，我们需要过滤出下面数据：

1.ip地址
2.访问时间
3.url地址
4.用户使用浏览器

过滤分析
1.ip地址获取
上面ip地址还是比较好过滤的，分隔符为- -即可得到我们想要的数据
ipField = line.split("- -")[0].trim();

2.访问时间
访问时间，想获取时间容易，但是想做一个文艺程序员还是得费点功夫。
[01/Aug/2014:01:01:05 +0800] ，对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式，这种方式没有错，算是一个正常程序员所做的事情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800，这里是由相关函数的。

dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);

复制代码

我们使用这个函数，将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。

2014年8月1日下午07时04分58秒

如果你采用了这种形式20140801070458，这个既不是文艺程序员、也不是正常程序员所做的事情，就只剩下2比程序员这个职称了。
ok,下面我们做的文艺一点。
可是我们怎么才能得到下面时间，一个个进行组合，getYarn()+getMonth......等，完，又步入2比程序员的行列。

2014年8月1日下午07时04分58秒

复制代码

这里介绍一个简单的方法

DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);

复制代码

dateField = df1.format(dt);

复制代码

这样就完美解决这个问题，不需要组合，只需要getDateTimeInstance传递参数即可，更多的时间格式参考Java新api获取年月日时分秒

3.url与浏览器的获取
这里面关键是对转义字符的理解正确，比如如何以双引号作为分隔符，如何以括号为分隔符。

解说完毕直接上代码：

运行结果如下：

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现的相关教程结束。

相关推荐

第三周PTA笔记回文数+A-B（大数减法）+高精度除法+数楼梯（大数加法）

1806最大数 string和sort函数用法

大数据分析中数据治理的重要性，从一个BI项目的失败来分析

ING国际银行基于Volcano的大数据分析平台应用实践

Net Core SignalR 测试，可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。

BuzzSumo：什么样的文章能获得疯转？（基于1亿篇文章大数据分析)

使用Kylin构建企业大数据分析平台的4种部署方式

使用Apache Kylin搭建企业级开源大数据分析平台

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现

discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现的相关教程结束。

相关推荐

第三周PTA笔记 回文数+A-B（大数减法）+高精度除法+数楼梯（大数加法）

1806最大数 string和sort函数用法

大数据分析中数据治理的重要性，从一个BI项目的失败来分析

ING国际银行基于Volcano的大数据分析平台应用实践

Net Core SignalR 测试，可以用于unity、Layair、白鹭引擎、大数据分析平台等高可用消息实时通信器。

BuzzSumo：什么样的文章能获得疯转？（基于1亿篇文章大数据分析)

使用Kylin构建企业大数据分析平台的4种部署方式

使用Apache Kylin搭建企业级开源大数据分析平台

第三周PTA笔记回文数+A-B（大数减法）+高精度除法+数楼梯（大数加法）