用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互联网用户分析领域,用户画像可以简单描述为用户信息标签化,即通过收集并分析用户的社会属性、生活习惯、消费偏好等各维度的数据,从而抽象出用户的全方位多视角的特征全貌,最终就是让用户画像比用户更了解自己。
2024-08-16
Elasticsearch 是一个实时的分布式搜索分析引擎,它的底层是构建在Lucene之上的。简单来说是通过扩展Lucene的搜索能力,使其具有分布式的功能。ES通常会和其它两个开源组件logstash(日志采集)和Kibana(仪表盘)一起提供端到端的日志/搜索分析的功能,常常被简称为ELK。
2024-08-28
ElasticSearch 是一种基于 Lucene 的分布式全文搜索引擎,携程用 ES 处理日志,目前服务器规模 500+,日均日志接入量大约 200TB。
2024-08-28
日志在可观测技术发展的早期是用做故障回顾的。我们通过 metrics 发现指标异常,比如成功率下降,然后通过 trace 找到了有异常的某个服务,最后才通过日志找到具体的原因(接口返回异常)。在现代日志系统里,这些都可以通过日志来一站式解决:trace 本身就是一种特殊格式的日志,metrics 可以通过日志来实时生成。
2024-08-16
2012年以前,携程的各个部门日志自行收集治理(如图1)。这样的方式缺乏统一标准,不便治理管控,也更加消耗人力和物力。 从2012年开始,携程技术中心推出基于 ElasticSearch 的日志系统,统一了日志的接入、ETL、存储和查询标准。随着业务量的增长,数据量膨胀到 4PB 级别,给原来的 ElasticSearch 存储方案带来不少挑战,如 OOM、数据延迟及负载不均等。此外,随着集群规模的扩大,成本问题日趋敏感,如何节省成本也成为一个新的难题。
2024-08-16
用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。 作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。本文将从目的,架构、组成等几方面,带你了解携程在该领域的实践。
2024-08-16
随着企业数字化转型的深入发展,对用户深层理解的渴望日益迫切。在此背景下,本次分享精心剖析了用户画像标签的精髓及其在多变业务场景中的关键作用。从基础属性标签到策略上的标签,不仅系统性地介绍了各类型标签的构建与应用,还着重强调了在快节奏的数字化时代中,如何通过高效的异常值处理、时间衰减考量及数据区分度提升等手段,确保标签的准确性和实用性。并且深入讨论了如何长期评估和追踪用户画像的内聚性和稳定性,为数据产品经理提供了一把锐利的工具,助力其在激烈的市场竞争中准确把握用户需求,不断提升产品和策略的效能。
2024-08-16
数据治理是指在数据的生命周期内,对其进行管理的原则性方法,其目标是为了确保数据的安全、及时、准确、可用和易用。数据总是会变得无效甚至无用,因此就涉及到对存量数据的治理。 但这里要强调一下,数据治理不只针对存量数据,更重要的是对增量数据的治理,通过一系列手段,能保证数据从源头开始就是正确的。 此外,所有的治理都有具体的落地内容, 一个稳定的治理链路是所有数据治理的基石 。
2024-08-16
埋点数据是用户在使用产品过程中产生的一系列行为日志,比如用户使用抖音过程中点击、滑动等操作。对了解用户、优化业务来说,用户行为日志是非常重要的数据来源。
2024-08-16
随着时间推移和业务的快速发展,携程酒店数据累积越来越多。目前流量日数据在3T左右,再加上各种订单、价、量、态等数据更是庞大。现有Hive(Spark引擎)执行速度虽然相对较快,但在国际化发展背景下,一些海外业务由于时差问题,数据需要比国内提前数小时完成,性能提升迫在眉睫。2020年初,我们开始研究ClickHouse在数据仓库领域应用。
2024-08-16