星环大数据产品和技术介绍
国产化替代全面开花星环科技用自研创新技术说话

国产化替代全面开花星环科技用自研创新技术说话“聚力攻坚基础软件,加速分布式数据库/混合事务分析处理数据库等产品研发推广。
”“十四五”规划明确,“强化基础组件供给,大力发展云计算/大数据/人工智能/区块链等平台软件开发框架”。
核心技术是国之重器,加速推进核心领域关键技术突破,完成核心网络中的软硬件国产替代是国家的一项长期战略。
5月26日,“向星力·未来数据技术峰会(FDTC)”在上海成功举办。
为了实现数量处理的智能化、多模态、平民化,星环科技推出众多创新产品,星环大数据基础平台TDH+星环数据云平台TDC、星环分布式交易型数据库KunDB、分析型数据库ArgoDB、分布式图数据库StellarDB、引擎 Scope、时序数据库TimeLyre、数据科学平台Sophon Base等完全满足信创要求,不但可以替换国外的商业和开源大数据平台、数据库等基础软件产品,而且拥有大量成功的应用案例,为用户创造新的价值。
1.星环TDH+TDC协同替换CDP,大数据基础平台更上一层楼星环科技自研的大数据基础平台TDH和星环数据云平台TDC联合,可以完美地替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。
新发布的星环THD9.3和TDC3.2以新一代湖仓集存储、多模型统一架构、综合性能提升、基于容器的资源管理技术、多租户等技术引领发展。
星环大数据基础平台TDH 9.3推出新一代湖仓集存储格式 Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,告别数据冗余。
新一代湖仓集统一存储 Holodesk在数集方面,支持基于Holodesk存储格式的集市分析,存储&计算双升级,分析性能大幅提升;在数仓方面,支持完整四种事务隔离级别,支持复杂批处理加工、数仓模型拉链表等,无需手工计算分桶数,自适应数据分布自动合并小文件;在数据湖方面,离线导入/实时写入,生态对接 Spark/Flink/Sqoop,时间旅行。
集团大数据平台系统性能指标和测试结果说明

集团大数据平台系统性能指标和测试结果说明集团大数据平台系统性能指标和测试结果说明本文介绍了一项针对运营商手机上网记录查询系统的性能测试。
该系统每日上网记录数近10亿条,每月数据量近9TB,数据量巨大,已经超越了传统关系型数据库可管理的容量上限。
因此,本测试旨在验证星环科技的商用Hadoop平台是否可以有效解决数据采集、加载、存储、查询、分析等问题。
测试内容包括存储节点数和存储量验证、并发加载数据的效率验证以及三个应用场景的性能验证。
测试环境配置包括300+台服务器、双电口万兆以太网卡、NameNode节点3台、DataNode节点、Zookeeper节点、集群监控节点、入库服务节点、Web查询应用服务器等。
测试结果显示,现有HDFS集群已被占用10.5PB,实际HBase表数据也已经有3.5PB左右。
集群导入性能没有问题,每秒平均达到1500万记录/秒,峰值时达到5000万/秒。
支持并发查询数目远高于请求/秒,上网记录查询速度不高于1秒。
总的来说,本测试证明了星环科技商用Hadoop平台的成熟稳定性,可以有效解决大规模数据管理的问题。
TPC-DS是一个多维数据模式的测试集,包含星型和雪花型等多种模式。
它包含7张事实表和17张纬度表,平均每张表含有18列。
该测试集包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。
这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。
可以说TPC-DS是一个与真实场景非常接近且难度较大的测试集。
TPC-DS的这个特点与大数据的分析挖掘应用非常类似。
Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。
因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。
大数据管理平台产品介绍

大数据管理平台产品介绍一、概述在当今数据驱动的商业环境中,企业和组织需要一个强大的大数据管理平台来收集、存储、处理和分析海量的数据。
我们的大数据管理平台提供了一系列强大的工具和服务,旨在帮助用户从复杂的数据中提取有价值的信息,以支持决策制定、优化运营和创新服务。
二、核心功能数据集成•数据采集:支持多种来源的数据接入,包括社交媒体、交易系统、物联网设备等。
•数据清洗:强大的数据预处理功能,可以去除冗余数据、纠正错误并标准化格式。
数据存储•分布式存储:采用可扩展的分布式存储系统,确保数据的安全性和高可用性。
•高效索引:为快速查询性能建立索引,提高数据检索效率。
数据处理•实时处理:支持实时数据处理和流分析,以便迅速响应业务需求。
•批量处理:高效的批量数据处理能力,适用于大规模的数据分析工作。
数据分析•高级分析:集成了机器学习、数据挖掘和统计模型,支持预测分析和模式识别。
•可视化工具:提供丰富的数据可视化工具,帮助用户直观理解数据分析结果。
数据安全与治理•访问控制:多级访问控制确保数据安全,防止未授权访问。
•数据质量管理:内置数据质量监控机制,确保数据的准确性和一致性。
三、技术架构云原生架构•多云支持:可在多个云平台上运行,包括公有云、私有云和混合云。
•容器化:利用容器技术实现服务的微服务化,易于部署和扩展。
可扩展性•动态伸缩:根据工作负载自动调整资源,优化性能和成本。
•多租户架构:支持多租户,满足不同客户的隔离需求。
四、应用场景•商业智能:为商业智能提供数据支持,揭示消费者行为和市场趋势。
•风险管理:通过分析历史数据,预测潜在风险并制定相应策略。
•客户洞察:深入理解客户需求,提升客户满意度和忠诚度。
•产品开发:利用用户反馈和市场数据,指导新产品的研发。
五、总结我们的大数据管理平台是为满足现代企业的数据分析和业务智能需求而设计的。
它不仅提供了强大的数据处理能力,还确保了数据的安全性和完整性。
通过使用我们的平台,企业可以释放数据的全部潜力,推动数据驱动的决策,从而在竞争激烈的市场中保持领先。
大数据系列专题(1):星环科技——企业级大数据基础软件的先行者

证券研究报告 | 2022年10月19日大数据系列专题(1):星环科技——企业级大数据基础软件的先行者证券分析师:熊莉S0980519030002联系人:黄浩峻行业研究 · 深度报告投资评级:超配(维持评级)证券分析师:朱松S0980520070001报告摘要l星环科技是国内领先的企业级大数据基础软件开发商。
星环科技是国内领先的企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务,已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,支撑客户及合作伙伴开发数据应用系统和业务应用系统,助力客户实现数字化转型。
2022年6月,公司多个产品或子产品入选Gartner发布的《中国数据库管理系统供应商识别指南》,在识别的8类数据库管理系统产品中,公司入选产品覆盖其中7类,是覆盖超过7类或以上产品的四家厂商之一,以及覆盖多模数据库的四家厂商之一。
l公司营收保持稳健增长,毛利率维持高位。
公司营收保持稳健增长,公司营业收入从2018年的1.13亿元增长到2021年的3.31亿元,复合增速43.1%,公司当前各项费用投入较大,目前仍处于亏损状态。
公司作为大数据产品型公司,2018-2021年毛利率分别为61.61%、60.69%、58.02%、58.94%,毛利率水平维持高位,此外,公司十分重视研发投入,研发费用绝对值保持稳定增长,研发费用率依旧维持高位。
从客户行业划分来看,金融、能源、政府等为公司当前主要行业。
l以大数据基础平台为核心,构建明日数据世界。
公司主要为客户提供数字化基础设施底层、中间层的基础软件和技术服务,支持客户的技术团队及合作伙伴构建数据和业务应用系统,助力客户进行数字化转型。
大数据基础软件业务为公司主营业务,营收占比超八成,主要包括大数据与云基础平台软件(TDH和TDC)、分布式关系型数据库(ArgoDB和KunDB)、数据开发与智能分析工具(TDS和Sophon)三大类。
大数据产品能力评测介绍

国内首个大数据产品评测体系
评测体系
基础能力
指标导向
性能
场景导向
Байду номын сангаас
Hadoop平台
MPP数据库
NoSQL数据库
Hadoop基础能力测试2.0
可用性
Namenode主节 点失效恢复 Datenode节点失 效恢复 HMaster节点失 效恢复 RegionServer节 点失效恢复 ResouceManag er节点失效恢复 Hive Server失效 恢复 HDFS备份恢复 HBase备份恢复 双集群互备 运维管理节点失 效及恢复
第二批评测
腾讯云、新华三、星 环、明略数据、东方 金信、博易智软6家企 业通过了Hadoop基 础能力评测
第三批评测
2家厂商通过了
第四批评测
9家厂商参加本次
Hadoop基础能力评测, Hadoop基础能力 评测,5家MPP数 5家厂商参加了性能专 项评测 据库厂商参加了 能力评测 MPP数据库基础
已经有24家的25个产品通过评测,其中包括21款Hadoop产品,5款MPP数据库产品 第五批测试正在进行中,目前有10家企业参与性能评测,有10家参与基础能力评测
运维管理
自动化部署 资源监控 作业监控 集群操作
兼容性
ODBC兼容性 JDBC兼容性 SQL支持度 传统数据库同步 跨不同数据库表 关联操作 异构硬件兼容性 操作系统兼容性
功能
数据导入 SQL任务能力 NoSQL数据库 机器学习
安全
认证 授权 加密 审计
多租户
租户管理 资源管理 资源隔离 资源监控
易用性
• • • • • 环境部署与集群规划 测试工具的使用 多任务调优能力 时间进度安排 集群的故障处理与运行维护
星环科技多模型数据库ArgoDB“一库多用“,构建高性能湖仓集一体平台

星环科技多模数据库ArgoDB“一库多用“,构建高性能湖仓集一体平台随着业务数据量不断增长的同时,数据结构也变得越来越灵活多样,数据不再局限于规整的结构化数据,半结构化、非结构化数据在数据域处理中的占比逐年上升,因此对不同模态的数据进行智能化数据处理的需求越来越迫切。
《中国信通院在数据库发展研究报告(2021 年)》中指出,在后关系型数据库阶段,数据结构越来越灵活多样、业务类型越来越复杂多变,为应对此类现状,越来越多的用户选择通过多模型数据库实现“一库多用“,将各种类型的数据进行集中存储、查询和处理,满足对结构化、半结构化和非结构化数据的统一管理需求。
Transwarp ArgoDB是星环科技自主研发的分布式分析型数据库,基于多模型统一架构支持关系型存储,宽表存储、搜索引擎、事件存储、图存储、键值存储、时序数据存储等10种数据模型,满足多种数据模型处理场景和复杂业务需求。
ArgoDB提供多模分析、实时数据处理、存算解耦、混合负载、数据联邦、异构服务器混合部署等先进技术能力,一站式满足OLAP、AETP、多模型融合分析、联邦计算、数据仓库、实时数仓、湖仓集一体等场景。
2019年8月,ArgoDB成为全球第四个通过TPC-DS基准测试并经过TPC 官方审计的数据库产品。
在架构上,ArgoDB基于存算解耦,实现了多模数据库的“四个统一”:⚫统一的SQL编译引擎,支持SQL 99/2003 标准语法,兼容TD,Oracle,DB2等多种方言,对不同模式的数据提供统一接口,将多个操作访问入口变为一个入口,将多种数据库语言变为一种语言,降低开发和迁移成本,简化用户操作。
⚫统一的计算引擎,将多套计算引擎变为一套引擎,将多份计算资源变为一份资源,提供高性能的分析计算和执行效率,满足跨模型数据复杂关联分析场景。
⚫统一的存储管理系统,同时支持分析型行列混合存储、支持具有搜索功能的文本存储等多模异构存储,并保证数据的强一致性,数据只需一次入库,即可通过异构存储的访问能力支撑多样化复杂分析场景,降低运维成本,将分散存储管理变为统一存储管理,极大简化系统架构,减少开发运维成本。
星环大数据方案介绍

目录
• 引言 • 数据存储与计算 • 数据管理与治理 • 数据分析与挖掘 • 行
数字化时代的数据挑战
目的与意义
随着数字化时代的来临,数据量呈现 爆炸式增长,传统数据处理方式已无 法满足需求。
本介绍旨在全面阐述星环大数据方案 的特点、优势和实施效果,以便更好 地了解和应用该方案。
社交网络分析
星环大数据方案提供了社交网络分析功能,能够处理和分析社交网络数 据,发现社交网络中的关键节点和群体。
用户可以通过社交网络分析技术,实现社交网络可视化、社区发现、影 响力分析、传播路径分析等任务,深入了解社交网络的结构和特征。
社交网络分析还支持大规模社交网络数据的处理和分析,能够提供高效、 准确的社交网络分析服务。
01
02
03
智慧城市
利用大数据分析技术,对 城市运行数据进行实时监 控和分析,提高城市管理 效率和服务水平。
医疗健康
通过对医疗数据进行分析, 实现疾病预测、个性化治 疗等,提高医疗健康水平。
教育行业
利用大数据分析技术,对 学生学习数据进行分析, 实现个性化教学和精准辅 导,提高教育质量。
06 方案优势与价值
与众多合作伙伴共建大数据生态系统,提供丰富的数据服务和应用, 满足客户多样化需求。
未来发展规划与目标
加强技术创新
持续投入研发,保持技术领先地位,推出更多创新的大 数据产品和服务。
提升客户体验
优化产品设计和服务流程,提高客户体验和满意度。
ABCD
拓展应用领域
将大数据方案应用到更多行业和领域,推动数字化转型 和智能化升级。
市场竞争力分析
技术领先
星环大数据方案在分布式存储、计算、实时处理等方面处于行业领先 地位,具有明显的技术优势。
国内主流的大数据平台厂商有哪些?

国内主流的⼤数据平台⼚商有哪些?随着互联⽹和IT技术的不断更新换代的发展,的应⽤平台也越来越多,种类也越来越丰富,并且⼤数据的应⽤也逐渐渗透到各⾏各业当中。
尤其是数据体量庞⼤的互联⽹、⾦融、制造⾏业等。
⼤数据也在悄⽆声息的改变着企业的运营模式,市场的导向,进⽽惠及到⼈们的⽇常⽣活中。
⽽对于“⼤数据”这⼀概念最早是来⾃于国外,经过不断的发展,兴起了⼀系列⼤数据技术,这也包括了⼤数据分析类、⼤数据数据处理类等,这也因此诞⽣了⼀⼤批的⼤数据⼚商。
其中最为让⼈关注且热门的⼤数据分析技术,它能够直接应⽤到各⼤企业的⽣产经营中,并且直接带来有效的帮助。
那么本篇⽂章,⼩编就来对国内⼤数据分析⼚商做⼀次盘点吧!(排名不分先后)⼀、思迈特软件Smartbi是国内商业智能BI⾏业的领导者,也是国内的⼤数据平台⼚商⾥的佼佼者,并且经过多年的持续发展,融合了多年来的实践经验,也整合了各⾏业的数据和决策的功能需求。
⽤更优质的产品和服务满⾜需求,实现各⼤⾏业的⼤数据类型的转变。
满⾜了最终⽤户在企业级报表、数据可视化分析、⾃助探索分析、数据挖掘建模、AI智能分析等⼤数据分析需求。
满⾜最终⽤户在企业级报表、数据可视化分析、⾃助探索分析、数据挖掘建模、等⼤数据分析需求。
产品⼴泛应⽤于领导驾驶舱、KPI监控看板、财务分析、销售分析、市场分析、⽣产分析、供应链分析、风险分析、质量分析、客户细分、精准营销等管理领域。
⼆、星环Transwarp星环科技是⼀个以hadoop⽣态系统为基础的⼤型数据平台公司,被Gartner魔⼒象限列⼊名单过,它的潜⼒不容忽视,它在技术上对hadoop 不稳定的部分进⾏了优化,功能得到了改进,提供了hadoop的企业⼤数据引擎等。
三、TalkingDataTalkingData属于独⽴的第三⽅品牌。
它的产品与之服务涵盖了移动应⽤数据统计、公共数据查询、综合数据管理等多款极具针对性的产品及服务。
在银⾏、互联⽹、电商⾏业有⼴泛的数据服务应⽤。
星环大数据工程师考试题目答案

星环大数据工程师考试题目答案1.下面哪个程序负责HDFS数据存储。
(C)NodeB.JobtrackerC.DatanodeD.secondaryNameNode2.HDFS中的block默认保存几个备份。
(A)A.3份B.2份C.1份D.不确定3.HDFS1.0默认Block Size大小是多少。
(B)A.32MBB.64MBC.128MBD.256MB4.下面哪个进程负责MapReduce任务调度。
(B)NodeB.JobtrackerC.TaskTrackerD.secondaryNameNode5.Hadoop1.0默认的调度器策略是哪个。
(A)A.先进先出调度器B.计算能力调度器C.公平调度器D.优先级调度器6.Client端上传文件的时候下列哪项正确?(B)A.数据经过NameNode传递给DataNodeB.Client端将文件切分为Block,依次上传C.Client只上传数据到一台DataNode,然后由NameNode负责Block 复制工作D.以上都不正确7.在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?(D)node,Datanode,TaskTrackernode,Datanode,secondaryNameNodenode,Datanode,HMasternode,JobTracker,secondaryNameNode8.若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。
(D)A.MaxB.MinC.CountD.Average9.MapReduce编程模型,键值对<key,value>的key必须实现哪个接口?(A)A.WritableComparableparableC.WritableD.LongWritable10.以下哪一项属于非结构化数据。
星环大数据工程师考试题目答案

星环大数据工程师考试题目答案随着大数据时代的到来,数据分析与处理的需求不断增加。
作为大数据领域的重要职业,大数据工程师的素质与能力显得尤为重要。
星环大数据工程师考试为了选拔优秀的数据工程师,设计了以下一系列题目,下面将给出这些题目的详细答案。
一、基础知识题(300字)1. 论述什么是大数据?大数据是指由传统的数据处理应用无法处理的大规模、高速率及多样化数据资源。
在大数据中,数据量大到难以用常规的数据库工具进行有效的管理和处理,同时其特征表现为数据量大、流速快、种类丰富以及价值密度低等。
2. 解释什么是数据仓库?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,其数据源来自各种不同的操作数据库、数据源系统以及第三方系统。
二、数据处理题(500字)1. 请写出ETL的全称,并简述其作用。
ETL(Extract-Transform-Load)是将数据从源系统中抽取出来,经过数据清洗、整合和转化后,将数据加载到目标系统中的过程。
ETL的主要作用是将分散、异构、冗余数据整合为一体,以满足目标系统的需求。
2. 解释维度建模和事实表。
维度建模是一种数据库设计方法,以事实表为中心,通过多个与之关联的维度表来描述业务过程。
事实表包含了衡量业务过程的数值度量,而维度表则存储了与事实表相关的上下文信息。
三、大数据工具题(600字)1. 请列举几个常见的大数据处理工具,以及它们的特点和应用场景。
- Hadoop:分布式计算框架,适用于海量数据的存储和计算。
- Spark:快速通用的大数据处理引擎,适用于实时数据处理和机器学习。
- Hive:基于Hadoop的数据仓库基础设施,适用于大规模数据集的查询和分析。
- Kafka:高吞吐量的分布式消息系统,适用于实时流式数据处理。
- Flink:分布式流处理和批处理框架,适用于实时和批量数据处理。
2. 请简述Hadoop的工作原理。
Hadoop采用分布式存储和计算的方式来处理大规模数据。
星环大数据产品和技术介绍

ODBC 3.5
SHELL
Cypher Compiler
Inceptor Execution Engine
Graph Search Engine
Source HDFS Text, ORC, ORC Transaction
图分析 Schema
节点1 个人/公司/… 个人/公司/…
节点2 个人/公司/… 个人/公司/…
ODBC 3.5
Connector中间件管理单元
Batch & Interactive SQL Engine
SQL 2003 Compiler 语法解析器
SQL Parser 优化器
RBO & CBO 代码生成
CODE GENERATOR
PL/SQL Compiler 存储过程解析器
Procedure Parser 控制流优化器
Inceptor
Hyperbase
Stream
File Interface HDFS
数据层
2020/5/4
10
数据挖掘产品 Discover & Midas
• Discover R语言开发 => 算法工程师,数据科学家 • Midas交互式挖掘 => 业务分析师,数据科学家
数据预览
预处理
特征工程
模型训练
Stargate
分布式内存/SSD列式存储
Holodesk
属性… 边属性 边属性
属性… 边属性 边属性
Source Hyperbase
…… … …
2020/5/4
Graph Searching
➢ SQL-like syntax ➢ Complex searching patterns ➢ Multiple data sources ➢ Real-time response
星环CTO孙元浩:技术解析TranswarpInceptor是怎样炼成的

星环CTO孙元浩:技术解析TranswarpInceptor是怎样炼成的以处理的数据量从GB到数⼗TB,即使数据源或者中间结果的⼤⼩远⼤于内存容量也可⾼效处理。
另外Transwarp Inceptor通过改进Spark和YARN的组合,提⾼了Spark的可管理性。
同时星环不仅仅是将Spark作为⼀个缺省计算引擎,也重写了SQL编译器,提供更加完整的SQL⽀持。
同时,Transwarp Inceptor还通过改进Sp摘要:经过1年多的持续创新与改进,星环已经在国内落地了数⼗个Inceptor的商⽤项⽬。
这是⼀篇星环Spark解决⽅案的技术解析,也是Spark⽤户可以效仿的优化之道。
【编者按】星环科技从2013年6⽉开始研发基于Spark的SQL执⾏引擎,在2013年底推出Transwarp Inceptor 1.0,并落地了国内⾸个7x24⼩时的商⽤项⽬。
经过1年多的持续创新与改进,星环已经在国内落地了数⼗个Inceptor的商⽤项⽬。
这是⼀篇星环Spark解决⽅案的技术解析,也是Spark⽤户可以效仿的优化之道。
以下为原⽂当前Hadoop技术蓬勃发展,⽤于解决⼤数据的分析难题的技术平台开始涌现。
Spark凭借性能强劲、⾼度容错、调度灵活等技术优势已渐渐成为主流技术,业界⼤部分⼚商都提供了基于Spark的技术⽅案和产品。
根据Databricks的统计,⽬前有11个商业的Spark版本。
在使⽤Spark作出计算平台的解决⽅案中,有两种主流编程模型,⼀类是基于Spark API或者衍⽣出来的语⾔,另⼀种是基于SQL语⾔。
SQL作为数据库领域的事实标准语⾔,相⽐较⽤API(如MapReduce API,Spark API等)来构建⼤数据分析的解决⽅案有着先天的优势:⼀是产业链完善,各种报表⼯具、ETL⼯具等可以很好的对接;⼆是⽤SQL开发有更低的技术门槛;三是能够降低原有系统的迁移成本等。
因此,SQL语⾔也渐渐成为⼤数据分析的主流技术标准。
CDHHDPMAPRDKH星环组件比较

一、组件比较:二、组件简介:1、Hadoop简介:集群基础组件,分为存储(HDFS)和计算(Mapreduce)两大部分。
apache社区开源。
技术来源于的GFS和Mapreduce。
2、Hbase简介:键-值非关系型数据库,apache社区开源。
是的Bigtable一个的实现。
3、Zookeeper简介:集群协调组件,已开源。
是的Chubby一个的实现。
4、Spark简介:内存计算框架,伯克利首先提出,现已开源。
5、Hive简介:基于HDFS的SQL工具,facebook开发,后开源。
6、Hue简介:图形化集群工具,cloudera开发,后开源。
7、Impala简介:基于HDFS的SQL工具,cloudera开发,后开源。
8、Sqoop简介:用于关系型数据库与NOSQL数据库之间的数据导入导出。
Cloudera开发,已开源。
9、Flume简介:用于数据流的导入,Cloudera开发,已开源。
10、Oozie简介:工作流系统,用于提交、监控集群作业。
Cloudera开发,已开源。
11、Solr简介:基于Lucene的全文搜索服务器。
已开源。
12、Isilon简介:基于OneFs操作系统的存储产品,美国赛龙公司开发,后属于EMC,一种集群存储方案。
13、K-Vstoreindexer简介:为HBase到solr的索引中间件,为NGDATA公司开发,已开源。
14、ClouderaManager简介:CDH集群安装管理工具。
Cloudera开发。
15、kafka简介:消息队列组件。
已经开源。
16、Storm简介:流数据处理组件。
17、Elasticsearch简介:基于Lucene的全文搜索服务器。
已开源。
18、ESSQL简介:基于Elasticsearch的SQL工具,大快开发。
19、DK-NLP简介:自然语言处理组件。
大快开发,已开源。
20、DK-SPIDER简介:分布式爬虫组件。
大快开发。
21、DKM简介:集群安装管理工具。
星环科技与中国太平保险达成项目合作

龙源期刊网
星环科技与中国太平保险达成项目合作
作者:洪蕾
来源:《中国信息化周报》2018年第37期
近日,星环科技与中国太平保险达成重要项目合作,中国太平保险利用星环科技大数据平台(TDH),建设大数据客户意向识别与应用平台。
“保险科技”是一种新兴的现象,借助诸如大数据、区块链、人工智能等新技术,优化现有服务链,进而帮助传统保险服务延伸至未曾覆盖到的市场。
在新科技的引领下,原保险行业的五个环节(产品设计、定价承保、分销渠道、理赔服务以及技术系统)都可以借助新技术实现科技化和智能化。
科技运用,一定要以满足客户需求为初心,实际保险业务中保险退保经常发生,退保也是客户的权利。
为了更好地服务客户,中国太平保险借助星环大数据平台,通过对客服联系中心的数据进行分析,利用机器学习和建模,准确、及时识别客户的退保倾向,精准地进行客服服务,同时也提高了保险公司内部的考核和绩效。
整个流程包括,电话呼入客服通话信息保存、客服录音转文本录音文本载入、退保预警识别引擎、高意向退保客户识别、客户经理退保挽留。
当下中国太平保险正积极把握发展机遇,和星环科技进行了多方面深入合作。
运用金融科技在多个领域开展各类探索实践,通过发挥金融科技公开、透明、高效等优势,加速保险的运营、产品、渠道、服务等自主创新,有效挖掘保险需求,降低交易服务成本,有力提升了核心竞争力。
星环大数据平台TDH,为中国太平保险提供了强有力的平台支撑。
同时星环科技也聚焦于解决现有保险业务痛点,为保险机构提供安全、体贴、易用体验。
(洪蕾)。
国内真正的大数据分析产品有哪些呢?

国内真正的大数据分析产品有哪些呢?
大数据的概念太泛了,即使是大数据分析,不同层级的产品也有很多,就如你说的国内最多的是数据应用类的产品。
1、大数据平台,华为和星环。
华为-FusionInsight,基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。
星环,基于Hadoop生态系列的大数据平台公司。
2、云端大数据,阿里云和华为云。
阿里云实力不差,与亚马逊AWS抗衡,做公有云、私有云、混合云,面向中小型企业。
华为云,定位运营商和大中型企业,依傍数据安全。
3、数据应用方面,围绕大数据BI和报表的帆软,特定业务应用的云CRM的纷享销客和等等。
数据应用现在主要分为两种模式,一种是纯正IT类,围绕企业部署应用的,如帆软。
还有一类是互联网2B形式,主要是SAAS产品,如销售易。
再来看一下大数据处理的流程,可以分为数据采集、数据存储、数据提取、数据挖掘、数据分析,数据展现和应用。
目前产于这些流程的产品都可以冠上“大数据”的称号。
题主所说的产品只是应用大数据分析流程上的不同环节。
其次纠正一下,国内的应用确实偏向于可视化,但也不能一概而论。
大多数我们所了解的BI产品如Tableau涉及到的是数据分析、展现、应用层面。
不过像帆软的BI工具FineBI提供cube型的缓存机制(数据仓库(存储功能)),也与R语言集成做数据挖掘这一块,延伸的触角会越来越多,也类似在做一站式的平台。
不过BI归BI,不能归类于大数据,大数据的每一块可以分开,BI还是涉及数据化管理的一种解决方案,内涵不同。
大数据产品方案

大数据产品方案1. 概述大数据产品方案是指基于大数据技术和分析方法,针对特定行业或问题提供解决方案的产品。
随着企业和组织对数据的需求不断增加,大数据产品方案成为了提升竞争力和决策能力的重要工具。
本文将介绍大数据产品方案的基本概念、应用场景、核心功能和开发流程。
2. 应用场景大数据产品方案适用于多个行业和领域,以下是一些常见的应用场景:2.1 销售预测通过收集和分析大量销售数据,可以建立销售预测模型,提供准确的销售预测结果。
这有助于企业合理安排生产和供应链,优化销售策略,提高销售效益。
2.2 金融风控大量的金融交易数据可以用于风险评估和欺诈检测。
通过分析历史数据和实时数据,可以建立风控模型,及时识别风险,保障金融安全。
2.3 健康管理结合个人健康数据和大数据分析方法,可以提供个性化的健康管理方案。
通过分析数据,可以评估健康风险、制定健康计划,并提供健康建议和监测。
2.4 城市交通优化通过收集城市交通数据,如车流量、交通事故、道路状况等,可以分析交通瓶颈和优化方案。
通过大数据产品方案,可以提供实时交通信息、导航规划、交通分析和预测等功能,提高城市交通效率。
3. 核心功能大数据产品方案通常包含以下核心功能:3.1 数据收集与清洗大数据产品方案需要收集和整合大量的数据,包括结构化数据和非结构化数据。
在收集数据之后,需要进行数据清洗和处理,确保数据的质量和一致性。
3.2 数据存储与管理大数据产品方案需要选择适当的数据存储和管理方案,如Hadoop、NoSQL数据库等。
这些方案具有高扩展性和高可靠性,能够应对大规模数据的存储和处理需求。
3.3 数据分析与挖掘大数据产品方案需要具备强大的数据分析和挖掘能力,包括数据预处理、统计分析、机器学习等方法。
通过分析数据,提取有价值的信息和模式,发现数据背后的规律和趋势。
3.4 可视化与报告大数据产品方案需要将分析结果以可视化的方式展示,如图表、仪表盘等。
这有助于用户理解数据和分析结果,并能够及时作出决策。
星环 大数据标准

星环大数据标准星环大数据标准是指在星环大数据平台中进行数据处理、存储、管理和分析的规范和准则。
它帮助企业和组织建立一套统一的大数据处理流程和操作规范,确保数据的质量、可靠性和安全性。
一、数据收集和采集的标准1.定义数据收集的目的和需求:在进行数据收集之前,明确明确数据收集的目的和需要,以便确定采集的数据类型、数据量和数据品质要求。
2.选择合适的数据采集工具和技术:根据数据需求和场景选择合适的数据采集工具和技术,例如传感器、摄像头、物联网设备、爬虫等。
3.设定数据采集的频率和时机:根据数据的实时性和准确性要求,设定合适的数据采集的频率和时机。
4.验证和校验数据:在数据采集过程中,对采集到的数据进行验证和校验,确保数据的准确性和完整性。
二、数据处理和清洗的标准1.建立数据清洗规则:根据数据的业务需求和特点,制定合适的数据清洗规则,包括数据格式、数据类型、数据缺失、异常值等方面。
2.删除重复和冗余数据:在数据清洗过程中,删除重复和冗余的数据,以减少数据处理和存储的成本。
3.处理缺失数据:对于数据中的缺失值,根据情况进行处理,可以进行填充、删除或者插值等操作。
4.处理异常数据:对于数据中的异常值,进行异常检测和处理,以确保数据的质量和准确性。
5.统一数据格式和命名规范:在数据处理过程中,统一数据格式和命名规范,以方便后续的数据分析和应用。
三、数据存储和管理的标准1.选择合适的数据存储技术:根据数据的规模和类型,选择合适的数据存储技术,包括关系型数据库、NoSQL数据库、分布式文件系统等。
2.设定数据存储的策略和容量:根据数据的实时性和可用性要求,制定合适的数据存储策略和容量规划,保证数据的安全性和可靠性。
3.设定数据访问权限和安全机制:在数据存储过程中,设定数据访问权限和安全机制,保护数据的机密性和完整性。
4.数据备份和恢复:制定数据备份和恢复的策略和方法,确保数据备份的及时性和完整性。
四、数据分析和挖掘的标准1.定义数据分析的目标和指标:在进行数据分析之前,明确数据分析的目标和指标,以便确定需要采取的分析方法和算法。
星环 删除表字段

星环删除表字段全文共四篇示例,供读者参考第一篇示例:星环是一款强大的数据治理平台,可以帮助用户轻松管理和维护数据库中的表结构。
在实际的数据库管理过程中,经常会碰到需要删除表字段的情况。
删除表字段是一项比较常见的数据库操作,但是在操作时需要谨慎处理,以避免对数据造成不必要的损失。
本文将介绍在星环平台上如何删除表字段,并提供一些注意事项和最佳实践。
一、删除表字段的必要性在数据库管理过程中,删除表字段是很常见的操作。
有以下几种情况会导致需要删除表字段:1. 数据字段多余:随着业务的发展和变化,原本设计的表结构可能会因为业务需求的变化而导致部分字段变得多余或者不再使用。
2. 数据字段冗余:有些表字段可能是冗余的,没有实际的业务意义,但仍保存在数据库中,占用存储空间。
3. 敏感字段删除:在进行数据安全管理时,可能需要删除一些敏感字段,以避免泄露用户隐私信息。
二、在星环平台上删除表字段的步骤1. 登录星环平台,并选择需要操作的数据库连接。
2. 在数据库连接中选择要删除字段的表格。
3. 找到要删除的字段,在字段列表中右键点击该字段,选择“删除字段”选项。
4. 确认删除字段的操作,系统会提示确认是否删除该字段。
5. 确认删除后,系统会自动删除该字段,并更新数据库表结构。
三、删除表字段的注意事项和最佳实践1. 确认字段是否多余:在删除字段之前,需要确认该字段是否真的是多余的,而不是因为业务需求的变化导致的误删。
2. 数据备份:在删除字段之前,建议先对数据库进行备份,以防删除操作不慎导致数据丢失。
3. 制定删除策略:在进行字段删除操作时,建议事先制定一个删除策略,包括哪些字段可以删除、哪些字段需要保留等。
4. 联系相关人员:在进行字段删除操作之前,需要与相关的业务人员和数据库管理员进行沟通,确认删除操作不会影响到业务数据的正常运行。
第二篇示例:在数据库管理系统中,有时会需要对已经存在的数据表进行修改,包括增加、删除或修改表的字段等操作。
星环数据库建表注释

星环数据库建表注释一、概述星环数据库是一种分布式的关系型数据库,用于存储和管理大规模数据。
在使用星环数据库进行数据存储和查询时,建表注释是非常重要的一环。
建表注释可以提供给开发人员和数据库管理员参考,帮助他们理解表的结构和含义,从而更好地进行数据库的设计和维护工作。
二、建表注释的作用1. 提供表的结构信息:通过建表注释,可以清晰地了解表的字段名、字段类型、字段长度、字段约束等信息,帮助开发人员正确使用表中的字段。
2. 解释字段含义:建表注释可以对每个字段进行解释,指明字段的含义和用途,使得开发人员能够更好地理解字段的作用,从而减少误用。
3. 说明表之间的关系:如果表与其他表存在关联关系,建表注释可以说明这些关系,帮助开发人员正确理解表之间的关联关系,以便进行相关查询操作。
4. 辅助数据库维护:建表注释可以为数据库管理员提供参考,帮助他们进行数据库维护工作,包括备份恢复、性能调优等。
三、建表注释的规范1. 使用规范的命名:建表注释应该使用规范的命名方式,具有一定的描述性。
注释应该简洁明了,能够准确地描述表的结构和含义。
2. 使用统一的格式:建表注释应该使用统一的格式,包括表名、字段名、字段类型、字段长度、字段约束等信息。
注释可以使用表格形式,便于阅读和理解。
3. 使用清晰的语言:建表注释应该使用简洁明了、通俗易懂的语言,避免使用专业术语或难以理解的词汇。
注释应该尽量准确地描述表的结构和含义。
4. 更新及时:建表注释应该及时更新,保持与表结构的一致性。
如果表结构发生变化,建表注释也需要相应地进行更新,以保证注释的准确性。
四、建表注释的示例以下是一个示例表的建表注释:表名:学生信息表(student_info)字段名字段类型字段长度字段约束注释学生ID INT 10 主键学生的唯一标识姓名 VARCHAR 20 学生的姓名性别 VARCHAR 4 学生的性别年龄 INT 3 学生的年龄班级ID INT 10 外键学生所在班级的ID从上述示例可以看出,建表注释对表的结构和含义进行了清晰的描述。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
优化存储 HDFS
(内置Transwarp Erasure Code)
Discover
数据挖掘 机器学习
Hyperbase
NoSQL数据库 综合搜索
批处理框架
Zookeeper
MapReduce2
协
作
服
全文搜索
务
Optimized Elastic Search
数据集成
Data Integration
ODBC 3.5
Connector中间件管理单元
Batch & Interactive SQL Engine
SQL 2003 Compiler 语法解析器
SQL Parser 优化器
RBO & CBO 代码生成
CODE GENERATOR
PL/SQL Compiler 存储过程解析器
Procedure Parser 控制流优化器
高效交互分析----内存/SSD计算
第一个支持SSD的基于Hadoop的高效计算引擎,可比硬 盘快一个数量级;可用于建立各种数据集市,对接多种主 流报表工具。
最完整的分布式机器学习算法库
支持最全(超过50余种)的分布式统计算法和机器学习算 法,同时整合超过5000个R语言算法包。适合风险控制、 反欺诈、文本分析、精准营销等应用。
星环科技 INFORMATICA 数字冰雹 百分点 博易智软 海云数据 精硕科技
TABLEAU 秒针系统 久其软件 腾云天下 永洪科技 用友软件 友盟
星环科技 CLOUDERA PIVOTAL 华为 巨杉软件 阿里
数据商品化
搭建数据共享、交 换、交易平台,为 数据资源供给方和 需求方提供交易环 境和服务。
支持复杂关键应用的大数据平台
高度兼容OLAP oracle应用
超越硅谷的企业级架构及功能模块 国内最多的落地应用案例 和高并发OLTP查询
大数据平台市场占有率最高
2014年进入中央政府采购网
唯一进入Gartner魔力象限中国公司
2020/5/4
3
Magic Quadrant for Data Warehouse and Data Management Solutiongs for Analytics
CFG Optimizer 并行优化器
Parallel Optimizer
Transaction Manager 分布式增删改
Distributed CRUD 事务并发控制器
Concurrency Controller
SHELL
多租户管理Guardian
计算资源配置 Resource Management 用户安全授权管理 Security & Authentication 行级安全控制 Row Level Security
九次方 联袂科技 秒针系统 腾讯大数据 腾云天下 亿赞普
贵阳大数据交易所 数海科技 数据堂
国政道 华道征信 华院数据 蚂蚁金服 明略数据 数字数思 同盾科技
DATA
数据
TECH.
技术
星环科技 7G网络
美林数据 龙信数据
东方国信 明略数据
国云数据 拓尔思
华傲数据 星图数据
华胜天成 亚信大数据
华为
以萨数据
实时同步
Data Alive
数据集成
Sqoop
日志采集
Flume
消息队列
Kafka
Transwarp Proprietary
Apache Projects
最完整的SQL支持
99%的SQL 2003支持,唯一完整支持PL/SQL的SQL on Hadoop引擎(98%),唯一完整支持ACID分布式事务 的SQL引擎;定位数据仓库和数据集市市场,可用于补充 或替代Oracle、DB2、MPP等分析用数据库。
支持最完整SQL和索引的NoSQL数据库
支持SQL2003、索引、全文索引,支持图数据库和图算 法,支持非结构化数据存储 支持高并发查询
最健壮和功能丰富的流处理框架
支持所有组件的高可用(HA) 支持流式SQL和流式机器学习
2020/5/4
7
交互式分析引擎Inceptor - 完整SQL支持
JDBC 4.0
星环科技是Gartner发布 的2016年《数据仓库及 数据管理解决方案魔力 象限》中唯一一家上榜 的中国公司,也是魔力 象限远见者(Visionaries) 星环科技 领域中全球最具前瞻性 的公司。
2020/5/4
4
中国大数硕科技
基础架构供应商
提供Hadoop发行版以及数据存储、 并行计算、数据治理等周边软件工 具和硬件的厂商。很多基础架构供 应商也提供解决方案。
基础架构供应商
2020/5/4
5
Transwarp Data Hub产品概述
2020/5/4
6
Transwarp Data Hub架构图
内置交互工具 Build-in Interactive
将商业产品或开源组件与业务知识 和定制开发相结合,形成大数据解 决方案,提供给行业客户。相比应 用程序供应商和平台供应商,解决 方案供应商是最直接接触行业客户 的企业。
数据采集提供
数据商品化
数据整合应用
解决方案供应商
应用程序供应商
应用程序供应商
多是以提供产品的形式 服务于客户企业。这些 产品可能是Bi工具,可 能是数据接入或挖掘领 域的细分产品。应用程 序除了独立销售,很多 时候也会作为整体解决 方案的一部分出现。
客户
1
数据采集提供
基于自身业务业务及背 后的监测、爬虫能力采 集互联网公开数据和用 户行为数据,加以清洗、 整理,面向市场提供数 据资源,数据资源供给 方角色。
数据整合应用
针对营销、风控、个性化 服务等需求,整合数据资 源,面向不同行业的客户 提供数据应用服务,最靠 近数据需求方角色。
解决方案供应商
Tools
SQL开发辅助
Waterdrop
可视化挖掘
Midas
交互工具
HUE
Transwarp Manager
交互分析
Zeppelin
工作流
Oozan
PL/SQL引擎 交互分析、图计算
流处理引擎
安全管控
资源管理 YARN
(内置Transwarp Extension)
星环大数据产品和技术介绍
2020/5/4
1
星环科技公司简介
2020/5/4
2
星环信息科技公司介绍
中国最久
Hadoop核心开发团队
研发,支持和销售团队来自于 Intel, Google, IBM,Oracle等 跨国企业 2016年1季度完成1.55亿B轮融资
领先 国内技术最 No.1 300%
大数据/数据库基础软件 中国落地案例最多 年营业额和客户增长