大数据－千寻百觅

从0开始学大数据（37）如何对数据进行分类和预测？

今天我们进入专栏的最后一个模块，补全大数据知识体系最后一块拼图，一起来学习大数据算法。大数据越来越多的和人工智能关联起来，所谓人工智能就是利用数学统计方法，统计数据中的规律，然后利用这些统计规律进行自动化数据处理，使计算机表现出某种智能的特性，而各种数学统计方法，就是大数据算法。关于专栏算法模块的设置，我会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面，为你展开大数据

大数据栈
百觅
11天前
71 热度
0评论

从0开始学大数据（36）为什么说数据驱动运营？

当我们谈论大数据的时候，我们究竟在谈什么？是谈 Hadoop、Spark 这样的大数据技术产品？还是谈大数据分析、大数据算法与推荐系统这样的大数据应用？其实这些都是大数据的工具和手段，大数据的核心就是数据本身。数据就是一座矿山，大数据技术产品、大数据分析与算法是挖掘机、采矿车，你学了大数据，每天开着矿车忙忙碌碌，那你只是一个矿工，可能每天面对一座金山却视而不见。数据比代码的地位要高得多，用途也大

大数据栈
百觅
12天前
68 热度
0评论

从0开始学大数据（35）如何利用大数据成为“增长黑客”？

增长黑客是近几年颇为流行的一个词汇，它是指利用数据、技术、产品等一系列手段为互联网产品获得快速用户增长的人。互联网的访问没有边界，用户量的增加对应成本的增加也几乎可以忽略不计，所以如何快速、大规模获取用户是互联网产品的成功之道，我们所熟知的成功的互联网公司，例如国内的 BAT、国外的 FLAG，都拥有数亿甚至数十亿的用户。你有没有曾经幻想过“如果全国人民每人给我一块钱，我就成了亿万富翁”？事实上

大数据栈
百觅
12天前
73 热度
0评论

从0开始学大数据（34）A-B测试与灰度发布必知必会

在网站和 App 的产品设计中，经常会遇到关于哪种产品设计方案更优的思考和讨论：按钮大一点好还是小一点好；页面复杂一点好还是简单一点好；这种蓝色好还是另一种蓝色好；新的推荐算法是不是真的效果好…这种讨论会出现在运营人员和产品经理之间，也会出现在产品经理和工程师之间，有时候甚至会出现在公司最高层，成为公司生死存亡的战略决策。在 Facebook 的发展历史上，曾经多次试图对首页进行重大改版，甚至有

大数据栈
百觅
12天前
68 热度
0评论

从0开始学大数据（33）一个电商网站订单下降的数据分析案例

企业运营的数据可以让管理者、运营人员、技术人员全面、快速了解企业的各项业务运行的状况，并发现公司可能出现的经营问题，进而能通过这些指标进行详细分析，最后定位问题的原因，并找到解决的办法。今天我们一起通过一个案例，来看看如何通过数据分析追踪并解决问题。数据分析案例 X 网站是一家主营母婴用品的电商网站，网站运营多年，是该领域的领头者之一，各项数据指标相对比较稳定。运营人员发现从 8 月 15 日

大数据栈
百觅
14天前
82 热度
0评论

The Dataflow Model：A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing

论文主要内容：这篇论文主要提出了一个统一的数据流模型，用于处理无界、无序、全球规模的数据集。该模型通过提供灵活的触发机制和集成增量处理支持，从追求数据完整性的角度转变为适应数据变化的角度。它将逻辑数据处理与底层物理实现分离，使得批量、微批量和流式执行引擎的选择成为对正确性、延迟和成本的简单选择。此外，该模型通过将管道实现分解为四个相关维度，提高了清晰度、可组合性和灵活性。该模型已经在MillWh

Flink
百觅
14天前
92 热度
0评论

The Dataflow Model：A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing

Apache Flink：Stream and Batch Processing in a Single Engine

论文主要内容：这篇论文主要介绍了Apache Flink，一个开源系统，用于处理流数据和批量数据。主要内容包括： Flink的软件架构由四层组成：部署层、核心层、API层和库层。核心层是一个分布式数据流引擎，执行数据流程序。API层包括批处理API DataSet和流处理API DataStream。库层包括机器学习库FlinkML、图处理库Gelly等。 Flink将流处理作为统一的数据处理模

Flink
百觅
19天前
116 热度
0评论

Apache Flink：Stream and Batch Processing in a Single Engine

从0开始学大数据（32）互联网运营数据指标与可视化监控

数据分析是大数据应用的一个主要场景，通过数据分析指标监控企业运营状态，及时调整运营和产品策略，是大数据技术的关键价值之一。互联网企业大数据平台上运行的绝大多数大数据计算都是关于数据分析的，各种统计、关联分析、汇总报告，都需要大数据平台来完成。下面给你讲一个我曾经遇到过的真实案例。老板跟技术部说，我们要加强监控。技术部以为老板对程序运行监控不满意，这也是情理之中，当对技术人员说监控的时候，他们通常

大数据栈
百觅
20天前
183 热度
0评论