数据采集

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【6月更文挑战第16天】数据采集。

数据采集,又称“数据获取”,是数据分析的入口,也是数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。
image.png
1.传感器数据
传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。在工作现场,我们会安装很多的各种类型的传感器,如压力传感器、温度传感器、流量传感器、声音传感器、电参数传感器等等。
传感器对环境的适应能力很强,可以应对各种恶劣的工作环境。在日常生活中,如温度计、麦克风、DV录像、手机拍照功能等都属于传感器数据采集的一部分,支持图片、音频、视频等文件或附件的采集工作。
2.互联网数据
互联网数据的采集通常是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面中会包含指向其他页面的URL,于是从当前页面获取到这些网址加入到爬虫的抓取队列中,然后进入到新页面后再递归地进行上述的操作。爬虫数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
3.日志文件
许多公司的业务平台每天都会产生大量的日志文件。日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。对于这些日志信息,我们可以得到出很多有价值的数据。通过对这些日志信息进行采集,然后进行数据分析,就可以从公司业务平台日志数据中挖掘得到具有潜在价值的信息,为公司决策和公司后台服务器平台性能评估提供可靠的数据保证。系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
运维 Cloud Native Devops
「译文」什么是 SRE(站点可靠性工程师)?SRE 是做什么的?
「译文」什么是 SRE(站点可靠性工程师)?SRE 是做什么的?
|
6月前
|
算法 网络架构
MAC地址与帧结构
本文介绍了MAC地址和帧结构的基础知识。MAC地址是48位物理地址,分为组织唯一标识符(OUI)和制造商自定义两部分,用于局域网设备识别与链路层通信。帧结构以以太网帧为例,包含前导码、帧开始定界符、目的与源MAC地址、类型/长度字段、数据字段及帧校验序列(FCS),确保数据传输的准确性和可靠性。
768 8
|
缓存 网络协议 Linux
计算机网络——Wireshark软件使用与协议分析(ARP协议、IP与ICMP分析)
Wireshark软件使用与协议分析 ARP协议分析 使用 Wireshark 抓取局域网的数据包并进行分析: 1. 学习 Wireshark 基本操作:重点掌握捕获过滤器和显示过滤器。 2. 观察 MAC 地址:了解 MAC 地址的组成,辨识 MAC 地址类型。 3. 分析以太网帧结构:观察以太网帧的首部和尾部,了解数据封装成帧的原理。 4. 分析 ARP 协议:抓取 ARP 请求和应答报文,分析其工作过程。 IP与ICMP分析 启动 Wireshark,捕捉网络命令执行过程中本机接受和发送的数据报。
2567 0
计算机网络——Wireshark软件使用与协议分析(ARP协议、IP与ICMP分析)
|
4月前
|
数据采集 人工智能 算法
“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!
“脏”数据毁一生?教你用大数据清洗术,给数据洗个“澡”!
496 4
|
机器学习/深度学习 人工智能 搜索推荐
【AI 初识】解释推荐系统的概念
【5月更文挑战第3天】【AI 初识】解释推荐系统的概念
|
9月前
|
数据采集 存储 安全
【大数据】数据治理浅析
数据治理是数字化时代企业管理和利用数据的核心手段,确保数据的准确性、一致性和安全性。从基本概念、应用场景、必要性、需求分析等方面深入探讨其功能架构、技术架构、应用架构和数据架构,涵盖金融、医疗、应急管理等多个领域典型案例。随着政策法规推动、技术创新助力及市场需求增长,数据治理正朝着自动化、智能化方向发展,市场规模不断扩大,但人才短缺问题仍需解决。
890 11
【大数据】数据治理浅析
|
机器学习/深度学习 数据采集 搜索推荐
机器学习在智能推荐系统中的个性化算法研究
机器学习在智能推荐系统中的个性化算法研究
|
网络协议
邮件发送失败SPF报错问题排查解决方法
在邮件服务中, SPF报错常因域名未正配SPF记录致邮件被拒收。SPF用于防邮件欺诈,指定可代表域发邮件的服务器。常见SPF报错原因包括:缺少记录、格式错误、记录过长及新服务器未包含在记录中。排查步骤:检查记录存在性、验证格式、优化长度、确认服务器已包含。使用AOKSend时,获取其SPF记录并加入到DNS中。完成配置后测试邮件并利用服务日志进一步诊断问题。正确配置SPF能提高邮件送达率。
|
存储 文件存储 云计算
云计算中的云存储技术对比:技术深度与未来趋势
【7月更文挑战第5天】云计算中的云存储技术多种多样,每种技术都有其独特的优势和应用场景。随着技术的不断发展和应用场景的不断拓展,云存储技术将朝着智能化、自动化、多云/混合云、数据安全与隐私保护以及边缘计算与分布式存储等方向发展。未来,云存储技术将继续为云计算的广泛应用提供坚实支撑。
1069 3
|
XML 存储 网络协议
在Linux中,如何使用Wireshark进行网络协议分析?
在Linux中,如何使用Wireshark进行网络协议分析?