您现在的位置: 首页 > 数据 > 研究报告 > 数据方案

多源异构收视大数据平台架构及应用探究

作者:肖红江,郑冠雯,贾宏君,房磊    来源:广播与电视技术   发布时间:2018-08-06 20:12:18

      【流媒体网】摘要:电视收视大数据是国家大数据的重要组成部分,是支持广电业务融合创新的底层基础。


 

  本文研究了面向多源异构收视大数据的平台架构方案,既包括对大规模数据按既定规则实施汇聚、清洗、入库等一系列操作,也包括基于Hadoop技术框架构建大数据基础能力平台和规划相关应用的方法。本架构方案可作为全国收视大数据中心建设的技术参考。

  【关键词】多源,异构,大数据,收视行为

  1 研究背景

  2017年12月8日,习近平总书记在中共中央政治局集体学习会议上指出大数据是信息化发展的新阶段,要构建以数据为关键要素的数字经济,要运用大数据提升国家治理现代化水平,要运用大数据促进保障和改善民生。作为国家大数据资源的组成部分,掌握并运用好用户收视大数据是一项十分重要的工作。当前,视听媒体业务均是由不同主体自主建设与运营的,而业界不存在强制性的数据记录格式与采集行业规范,所以不同主体仅考虑自身业务必然导致数据日志记录与采集的差异性。广电行业在互联网时代要推动媒体业务深度融合创新,不仅是对多源异构数据实施统计分析,乃至扩展到构建丰富多彩的智慧广电应用,首先必须解决的就是异构数据的融合统一问题。因此,融合来自有线电视业务、IPTV业务、互联网电视(OTT TV)业务的收视大数据是非常重要的基础工作,从而保障后续收视大数据开发与应用顺利实施。为此,本文基于已发布的相关行业暂行技术文件,专门提出了一种针对广电多源异构收视大数据的平台架构方案,重点研究了收视大数据处理基础工具和应用开发方向,以及数据汇聚、清洗、入库方式等关键的数据准备环节。

  2 平台总体架构

  大数据平台总体架构必须依据数据特征和应用场景来设计。本文研究的特定场景是:数据平台拟汇聚多个地区(例如:北京、浙江等)、多个渠道(有线电视、IPTV、互联网电视)、

  多种电视业务(直播、点播、回看等)的大规模异构收视数据,对汇聚数据进行存储与加工,开展统计、分析、建模等工作,并支持对收视数据的二次加工开发。

  2.1 软件架构

  

2.jpg

 

  本文提出的收视大数据平台软件架构如图1所示。按从下至上的分层结构:

  1. 最底层是原始数据层,主要表明平台数据种类与来源,包括有线电视收视数据、IPTV收视数据、互联网电视收视数据以及电子节目指南数据。

  2. 第二层是数据汇聚清洗层,在完成对多地区、多渠道、多业务的收视数据集中汇聚后,按既定系列数据处理规则对原始数据进行清洗,并交付给更上一层进行存储与计算。

  3. 第三层是数据处理基础能力层,其中聚合了Hadoop大数据技术生态中数据处理的相关组件工具,如分布式文件系统(HDFS)、并行处理框架(MapReduce)、数据仓库工具(Hive)、集群管理、安全管理等。

  4. 最上层则是直接面向客户需求构建的应用层,包含收视指标基础报表应用、与特定场景结合的各种扩展应用,以及大数据应用可视化展示。

  2.2 硬件构成

  大数据平台软件功能必须构建在必要的硬件资源之上。如图2所示,数据平台硬件资源主要用于数据接收、数据存储、数据分析处理、可视化呈现四类功能。

  1. 数据接收相关硬件,主要包括网络安全设备、负载均衡服务器、接口服务器等。其中,网络安全设备(如防火墙等)用于保障收视数据在交换过程中的可靠性、完整性、保密性;负载均衡服务器用于进行高流量压力下的负载分配;接口服务器用于格式化收视数据的对接。

  2. 数据存储相关硬件,主要包括数据库服务器和网络存储系统等设备。其中,数据库服务器主要用于支撑收视数据的处理、分析与应用;网络存储系统主要用于海量历史数据的长期保存。

  3. 数据分析处理相关硬件,主要包括数据分析服务器、数据呈现服务器等设备。其中,数据分析服务器用于收视数据的统计、处理、分析、计算等工作;数据呈现服务器用于完成直观、友好的数据展示。

  4. 可视化呈现相关硬件,主要包括手机、台式机、专业拼接显示屏等设备。

  3 数据汇聚清洗层

  3.1 数据汇聚方案

  由于收视数据产生于不同地区、不同渠道、不同业务,原始样本数量、数据类型、数据格式等都存在较大差异。另外,如果直接将数千万用户的原始收视数据(对应日均数T数据量)汇接至一级数据中心集中存储与处理,实际操作成本是不够经济的。本文提出应按照已有行业暂行技术文件定义的电视收视数据元素集、数据交换接口,做到事前检验链路传输连通性、数据规范性和设备性能,使数据提供方和数据接收方在数据对接时能支持实时进行相应数据预处理,以减小对接收方数据中心存储和传输带宽的压力。在分析结果满足预定置信度的条件下,甚至可以对大数据按一定规模进行随机局部采样后才实施汇聚工作。

  

3.jpg

 

  多源异构收视大数据的汇聚方案如图3所示,具体的:

  1. 数据类型要求:按照GD/J 074-2018《电视收视数据元素集规范》、GD/J 075-2018《电视收视数据交换接口规范》定义的方法与规则,采集包括但不限于用户数据、设备数据、节目数据和行为数据四类收视数据。其中,节目数据包括直播类节目和非直播类节目;行为数据包括直播节目收视、点播节目收视、回看节目收视、用户登录、时移观看、广告观看、应用使用数据等。

  2. 数据格式要求:按照GD/J 075-2018《电视收视数据交换接口规范》的要求,以IETF RFC 8259规定的JSON字符串对收视数据进行描述。

  3. 数据范围要求:数据提供方应按照约定情况,按时段提供其全部的双向可回传收视数据,并明确给出可提供给数据接收方的数据规模。

  4. 数据传输方式要求:在实时与准实时交换模式下,采用HTTP/HTTPS协议进行数据传输,以UTF-8进行编码,并使用JSON格式进行数据封装;在非实时交互模式下,各数据提供方按照规范的定义,以JSON格式进行封装后将数据文件发送给数据接收方。

  3.2 数据清洗方案

  数据统计分析的基础是从数据提供方汇聚而来的收视数据,而收视数据在采集、汇聚过程中都可能出现部分无效数据,如不完整数据、错误数据、重复数据等。因此,应按照GD/J 076-2018《电视收视数据清洗规范》的要求对原始数据进行清洗,依次实施数据完整性校验、数据统一编码处理、无效数据校验与处理、噪声数据校验与处理、收视数据与节目内容对应、时间格式标准化处理、数据去重处理等操作,以保障数据的合理性、可靠性、准确性。

  3.3 数据入库方案

  由于多源收视大数据具有异构性,同样也应按照GD/J 075-2018《电视收视数据交换接口规范》给出的规则对各个不同来源的数据进行变换并统一形式,以保证加载到数据仓库数据的统一性和准确性。

  具体地,应对数据进行ETL(Extract-Transform-Load)处理,将数据从来源端经过抽取(extract)、转换(transform)、加载(load)后保存至大数据平台的数据仓库。其中,

  1.“ 抽取”:将数据从各种原始数据中进行提取,是后续工作的前提。包括从原始数据中抽取数据仓库所需要的字段,对抽取的字段进行去重、过滤,并对如空值、字段过长、类型异常等情况进行处理。

  2. “ 转换”:依据GD/J 075-2018《电视收视数据交换接口规范》,按照预先设计好的规则将抽取的数据进行转换,使异构数据的格式统一。

  3. “ 加载”:将转换完的数据按计划增量或全部导入到数据仓库中。

  在ETL处理的过程中,可针对收视数据统计分析的需求,按规定的规则对所需的各项指标和维度进行数据预处理,计算规则可根据已有指标体系和自定义的模型算法进行设计。

  4 数据处理基础能力层

  收视大数据基础能力平台本质上还是一套大数据处理平台,只是更加专注于运用现有成熟大数据技术以满足收视相关的特定场景需求,至少包括以下三点:满足大规模收视数据计算的需求;满足大规模收视数据存储的需求;满足收视数据系统可灵活扩展的需求。本文中“大规模”是指数千万用户、乃至数亿用户持续产生的收视数据量级。

  面对如此海量的存储、计算与扩展需求,本文提出应采用Hadoop大数据解决方案搭建收视大数据基础能力平台,对应总体软件架构中的第三层。大数据基础能力平台具备数据存储、数据交换、数据处理、数据开发、数据服务与平台管理功能模块。平台将数据均衡分布到集群上,通过复制副本以确保数据的可靠性和容错,优势在于效率提高、弹性扩容、低成本、弹性计算等,并能够热扩展集群的节点。平台支持根据制定的收视计算方法配置数据处理规则,按照规则处理后的数据将被加载到多维度分析引擎或实时分析引擎中,并为后续应用系统提供深入挖掘分析功能。

  5 收视大数据应用层

  收视大数据应用构建在大数据平台计算、存储和网络资源之上,是直接面向用户解决实际需求的载体。本节除了描绘基础统计报表应用之外,还特地针对不同扩展场景给出了应用实例形态。

  5.1 基于统计的基础报表应用

  常见收视数据基础统计报表应用集中于用户画像、直播、点播以及回看等方面,具体为:

4.jpg

  1. 用户收视行为分析。用于对用户在收看节目过程中行为的分析,如用户开机率、平均收视时长、用户活跃度、用户黏度等。

  2 直播收视分析。用于对直播观看行为进行收视分析,如直播频道、栏目、节目的收视率与市场份额等。

  3. 点播收视分析。用于对点播观看行为进行收视分析,如某个时点或时段统计下的点播业务整体收视量、栏目/节目点播收视量等。

  4. 回看收视分析。用于对回看观看行为进行收视分析,如某个时点或时段统计下的回看频道收视量、回看栏目/节目收视量等。

  5.2 与场景结合的扩展应用

  事实上,能够以收视大数据为基础进行二次开发的应用远远不止于简单的基础指标报表统计。通过深入挖掘收视大数据类型、特征、语义、时效等多种维度信息及其复杂组合,并与特定客户需求、特定场景相匹配对接,将产生出各种多姿多彩的大数据创新应用。

  1. 为党和政府提供多维度的节目宣传效果综合分析服务

  通过建立全网络收视调查规则,对单个特定节目、特定时段节目、季播节目、电视连续剧、公益广告和主题主线节目在有线电视网络、IPTV网络和OTT TV网络中的收视情况,从时段、频道、地域、受众群体等多维度对节目宣传效果(传播力、引导力、影响力、公信力)进行量化建模,实施统计、分析和排名。例如,“纪念改革开放40周年”主题活动,将包括纪录片、人物访谈、相关题材的影视剧等在内的一系列节目视为收视调查对象,分析各类节目对总体宣传效果的贡献,帮助政府掌握整体宣传效果,改进后续类似宣传工作部署。

  2. 为党和政府提供节目精细化闭环管理的服务

  综合运用机器学习和态势感知等技术,动态预测节目传播态势,预警收视率异常、传播效果不达预期、负面舆论增加等情形,支撑政府出台节目管理措施和政策。例如,从各地区、各类人群对各时段、各题材公益广告的收视情况统计分析中,掌握公益广告的传播特点和规律,帮助政府制定公益广告政策、引导社会传播正能量。又例如,跟踪问题节目、主旋律节目、优质节目(国产优秀影视剧、优秀动画片、优秀公益广告片等)在实施收视调控措施后,其调控效果是否达到预期,如问题节目是否得到抑制、优质节目是否得到弘扬等。

  3. 为节目制作与播出机构提供更为深入的收视数据挖据服务

  通过深入挖掘数据进行竞争对手和同业分析,包括提供细分领域节目收视数据和综合宣传效果的更加精准的专题分析。例如,针对某一题材电视剧(抗战、古装、青春偶像等)、某一类综艺节目(选秀、诗词、脱口秀),在大部分有线电视、IPTV和OTT TV的范围内,对各频道的播出和收视情况进行统计排行和收视分析。例如,基于文化和生活习惯的差异进行受众收视特征和收视偏好的专题分析。结合不同地域受众对节目语言、节目风格、节目情节和播出时段、收看渠道、收看终端等的收视差异,向台网提供节目制作、栏目设置和播出方案的调整与优化建议。根据对单个特定节目、特定时段节目、季播节目、电视连续剧传播效果的态势感知,为节目制作和播出提出优化建议,提高节目质量和自身的竞争力。

  4. 为广告商提供效果更显著的广告投放决策支撑服务

  从广告主题、题材角度精细分类,对广告的宣传效果开展多维度、精细化的分析,帮助广告商掌握商业广告投放效果,如平均暴露频次、毛评点、千人成本、收视点成本、媒体占有比重/媒体投资比重等。为广告商提供广告投放策略的循环改进咨询服务,即根据投放效果收视指标为广告商提供效果评价,帮助广告商优化今后的广告投放策略(如选择广告投放时段、地区、成本等),实现品牌和产品推广目标。

  6 总结

  围绕国家大数据战略及广电行业视听媒体收视大数据发展需要,本文探讨了多源异构收视大数据平台的软硬件架构方案,特别要求应按照行业暂行技术文件GD/J 074-2018、GD/J 075-2018、GD/J 076-2018定义的方法与规则对来自于有线电视、IPTV、互联网电视等大规模异构数据实施汇聚、清洗和入库。文中收视大数据平台选择基于成熟的Hadoop 技术体系构建而成,可在其上叠加基础收视指标报表统计应用以及各种面向特定场景的扩展应用。本架构方案特别适用于构建全国性收视大数据中心,未来必将在探索电视收视数据+智慧广电发展新模式中发挥重要作用。

  注:本文研究成果受国家新闻出版广电总局《中国特色收视率调查小范围规模试验》项目、《有中国特色的收视数据调查体系研究》(2017年社科研究项目)的支持。

责任编辑:吕佩
版权声明:凡来源标注有“流媒体网”字样的文章,版权均属流媒体网站,如需转载,请注明出处“流媒体网”。非本站出处的文章为本站转载,观点供业内参考,不代表本站观点。

相关新闻

{$Hits}