
数据开发
文章平均质量分 82
数据开发指的是从各种来源收集、清理、转换和加载数据到数据仓库或其他数据存储系统中的过程,旨在为组织提供可用于分析和业务决策的数据
白日与明月
厚德 博学 慎思 笃行
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive-自定义函数
hive-udf函数使用原创 2025-03-02 22:29:07 · 386 阅读 · 0 评论 -
Hive大表和小表查询优化方案探索
Hive大表和小表查询优化原创 2025-03-01 22:30:51 · 480 阅读 · 0 评论 -
hive-distribute by使用场景解析
DISTRIBUTE BY 的最佳实践围绕 数据倾斜治理、Join 局部性优化 和 预聚合数据对齐 展开。实际应用中需结合业务场景、数据分布特点和执行引擎特性灵活调整,建议通过实验对比不同配置的性能差异。原创 2025-03-01 21:54:44 · 1017 阅读 · 0 评论 -
删除hive用户后该用户创建的表权限问题及修复
当hive集群开启多用户的模式下,假设用户组A的用户hive_test创建了一个表, 此时另一个用户也是可以访问这个表的,但是因为一些原因,目前需要删除用户组A和用户hive_test, 在这个情况下,该用户创建的表,此时能否正常被进行查询或者数据插入等操作? 如果不能,应该如何修复这个问题?原创 2025-02-20 10:15:37 · 1351 阅读 · 0 评论 -
正则表达式优化建议
当使用忽略大小写的标志时(例如在某些编程语言中通过特定的参数或修饰符),可能会意外地匹配到不希望的字符串。在优化后的表达式中,我们简化了模式,使用嵌套的分组和可选的量词。但如果对字符串的结构理解错误,可能会错误地使用锚点,导致不期望的匹配结果。)虽然是为了减少匹配量,但在复杂的表达式中可能会导致意外的行为,因为它们的行为取决于周围的模式和回溯机制。捕获组可能会捕获不需要的文本,或者在不需要捕获的时候进行了捕获,导致性能下降和结果的混乱。)时,如果不仔细考虑字符的范围,可能会意外地包含不需要的字符。原创 2024-09-02 22:19:30 · 1515 阅读 · 0 评论