首页 / 大数据 / 智能技术_2:大数据分析与机器学习概论
智能技术_2:大数据分析与机器学习概论
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了智能技术_2:大数据分析与机器学习概论,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含6090字,纯文字阅读大概需要9分钟。
内容图文
目录
- 1 问题定义
- 2 资料收集-数据源
- 3 资料收集-资料取得
- 4 资料收集-数据类型
- 5 资料前处理-向量空间模型转换
- 6 遗漏值处理
- 7 数据前处理-资料正规化
- 8 数据前处理-属性选择
- 9 资料分析-分类
- 10 验证与衡量指标
智能技术_1:安装TensorFlow和Keras
智能技术_2:大数据分析与机器学习概论
# 写于2021.03.21
# 本文为学习笔记,侵删
# 总结不易 望赞鼓励
1 问题定义
问题定义是软件定义时期的第一个阶段。作为软件的开发者,在这个阶段必须弄清用户“需要计算机解决什么问题”。
也就是把大问题拆分成能解决的小问题。
例子:
「无人车」应用要解决的AI问题有哪些?
-
前车距离侦测: 撷取摄影机画面,进行「影像辨识」,识别「前方对象」,以及与前方对象的「距离」;也就是至少1个分类问题、1个估计问题
-
车道偏离侦测: 撷取摄影机画面,进行「影像辨识」,识别「分隔线」,以及侦测车辆「是否」
压到分隔线;也就是至少2个分类问题
2 资料收集-数据源
- 自行收集数据
? 智能型手机
? 感测设备 - 开放资料
? 国家数据:https://data.stats.gov.cn/index.htm
? 交通运输部 :http://www.mot.gov.cn/shuju/
? 气象数据网:http://data.cma.cn/
? 空气质量在线分析平台:https://www.aqistudy.cn/
? 公共运输整合信息流通服务平台:https://ptx.transportdata.tw
? 证券交易所:http://www.twse.com.tw/zh/page/trading/ex change/FMTQIK.html
? 尔湾加州大学机器学习知识库(UC Irvine Machine Learning Repository): http://archive.ics.uci.edu/ml/
3 资料收集-资料取得
3.1 无线网络讯号
① 采集经纬度,开启「GPS讯号」工作表
- 主要包含3个字段
? Record ID:为资料序号,每秒钟给予一个ID
? 经度
? 纬度
? 交通方式
② 开启「GPS讯号」工作表
- 主要包含3个字段:
? Record ID:为资料序号,每秒钟给予一个ID
? LAC:位置区码(Location Area Code)
? CID:细胞码(Cell ID)
? LAC & CID:位置区码+细胞码为同一个电信业者
的网络中唯一的基地台标识符
? Signal:讯号强度
3.2 公共运输整合信息流通服务- 各站点进出站人数
① 用Microsoft Excel开启CSV檔
- 依字段说明数据,浏览和解读数据内容
? 在2005年01月01日,马兰站整天进站人
数0位,出站人数1位 ? 在2005年01月01日,台东站整天进站人
数1422位,出站人数1273位
4 资料收集-数据类型
-
以结构分类
? 结构化数据
? 半结构化数据
? 非结构化数据 -
以测量尺度分类
? 名目尺度:没大小关系
? 顺序尺度:有大小关系
? 区间尺度
? 比例尺度
例子:
喇叭花,比如有三种喇叭花,看属于哪种。这个属于名目尺度,没有大小关系,那么是为1 不是为0.分为三个栏目,选中一个是a,a类为1,b,c类为0
结构化数据:
- 能够用资料或统一的结构加以表示,具有域名、域值,并且每一笔笔数据的字段是统一的,可用二维表结构表示
【例如:】关系数据库、逗号分隔值(Comma-Separated Values, CSV)檔
半结构化数据:
- 半结构化虽然能够具有数据结构,包含域名、域值,但每一笔数据的字段可能是不一样的
【 例如:】可延伸标记式语言(Extensible Markup Language, XML)、 JavaScript对象标记(JavaScript Object Notation, JSON)
非结构化数据:
- 不具数据结构,不包含域名、字段值
【 例如:】文章、图档、声音档、影片檔
需将半结构化数据和非结构化数据转换为结构化数据,机器才能学习
名目尺度:
? 仅做为区分類别,其本身没有大小、顺序与比例的关系
? 例如:性别、颜色、地区
顺序尺度:
? 依资料的重要性、强弱、好坏等程度区分,个别给与大小不相等的數值,其數值具有顺序意义
? 例如:学歷、评分等级
区间尺度:
? 将资料予以量化,且满足度量公设(资料间的差距可以计算),其數字大小不但有意义且可以比较大小
? 例如:温度、年度
比例尺度:
? 比例尺度具有等距尺度的全部特征,而且有「零点」
? 例如:距离、长度、重量
5 资料前处理-向量空间模型转换
5.1 GPS
① 交通方式:骑车走路
我们 用名目尺度。两栏目:骑车 走路
【处理】:
1 号人物为骑车 所以骑车为1 走路为0
② 我们会同时一个地点接收多个基站讯号
record id 相同的为统一地点 那么把统一地点合成 同一笔项目
③ 合并起来一笔数据
④ 各站点进出人数处理
想处理哪个站 按站点把数据筛选出来 重新建工作表
本例为楠梓站
5.2 图文件
① 色彩编码
② 存储大小
③ 数据前处理-向量空间模型转换
6 遗漏值处理
- 方式一:删除遗漏值该笔数据
? 处理作法:若该笔数据任何一个字段遗漏,直接删除该笔数据 - 方式二:以整体的平均作为该遗漏值的填补资料
? 处理作法:若该笔数据只有遗漏少数1~2个字段,则以计算该字段整体的平均值,再将平均值填
入遗漏值处 - 方式三:依各个领域知识填补数据
? 处理作法:以领域知识来填补合适的数据;以无线讯号为例,讯号强度单位为dBm,当然接收到
基地台讯号强度时,讯号强度不低于-150 dBm,而遗漏值代表未接收到该基地讯号,故遗漏值可
设定为-150。空白全部填-150
7 数据前处理-资料正规化
由于每个数据属性的值域不一致,有些值域范围很大,有些值域范围很小,为避免值域范
围的影响,并为符合部分算
也就是法需求,需将数据正规化为0~1之间,下列为常见的正规化方式:
- 方式一:参考最大值进行调整
? 正规化作法:正规化后资料 = 原资料 / 最大值
? 还原作法:原资料 = 正规化后资料 x 最大值 - 方式二:参考最大值和最小值的间距进行调整
? 正规化作法:正规化后资料 = (原资料 – 最小值) / (最大值 – 最小值) ? 还原作法:原资料 = 正规化后资料 x (最大值 – 最小值) + 最小值
对站点进出站人数正规化
最大值:7457;复制7457 选择区域 右键选择性粘贴 选除 就全部除了7457
8 数据前处理-属性选择
虽然在大数据环境中有许多数据字段(属性),然而并非把所有数据都放到机器中学习,应
该挑选有用的资料,减少不必要的运算资源,以及可以避免一些干扰
常见的可删除的情况:
- 相同或相似数据字段(属性)可删除
? 当有两个数据字段的值无显着差异时,则代表这两个数据字段可选择其中一个即可 - 无作用之数据字段(属性)可删除
? 当有数据字段值为常数或是
① 如何确定数据相同或相似
卡方检定(chi-square test)
- 自由度是5-1=4 (也就是各几笔数据)
- 如果取95的信赖区间 那么艾尔法=0.05
- 查表可得,9.488
大于9.488 有显著差异
9 资料分析-分类
将出站大于0.5的值设定为1,代表「游
客多」的类别
将出站小于0.5的值设定为0,代表「游
客小」的类别
以作为后续分类的目标
格式-单元格-自定义:[>=0.5]!1;0
插入散点图-右上角+号 加入趋势线
右键 设置趋势线格式-线性 - 显示公式
10 验证与衡量指标
共7笔资料,真值中第1类共3笔,第2类共2笔,第3类共2笔
- 查准率(Precision):
? 第1类:共猜了4笔是第1类,其中答对2笔,故2 / 4 = 50%
? 第2类:共猜了2笔是第2类,其中答对2笔,故2 / 2 = 100%
? 第3类:共猜了1笔是第3类,其中答对0笔,故0 / 1 = 0%
查全率(Recall):
? 第1类:真值中第1类共3笔,其中答对2笔,故2 / 3 = 67%
? 第2类:真值中第2类共2笔,其中答对2笔,故2 / 2 = 100%
? 第3类:真值中第3类共2笔,其中答对0笔,故0 / 2 = 0% - F量测(F-Measure):
? 第1类:第1类查准率为50%,第1类查全率为67% ,调和平均数为57%
? 第2类:第2类查准率为100%,第2类查全率为100% ,调和平均数为100%
? 第3类:第2类查准率为0%,第2类查全率为0% ,调和平均数为0%
正确率(Accuracy):
? 全部7笔,共答对4笔,故4 / 7 = 57%
内容总结
以上是互联网集市为您收集整理的智能技术_2:大数据分析与机器学习概论全部内容,希望文章能够帮你解决智能技术_2:大数据分析与机器学习概论所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。