Apache Flink的过去、现在和未来
Apache Flink的过去、现在和未来 杨克特(鲁尼) 阿里巴巴高级技术专家 过去 一切从2014年开始 2009 - 2014 2014 • 柏林工业大学博士生项目 • 基于流式 runtime 的批处理引擎 • 2014 年 8 月份 发布 Flink 0.6.0 Flink 0.7 Runtime Distributed Streaming Dataflow DataStream USER_SCORES GROUP BY Name; Flink 在阿里的服务情况 集群规模 超万台 状态数据 PetaBytes 事件处理 十万亿/天 峰值能力 17亿/秒 Flink 的过去 offline Real-time Batch Processing Continuous Processing & Streaming Analytics Event-driven Applications0 码力 | 33 页 | 3.36 MB | 1 年前3Moonshot AI 介绍
了语⾔建模的新标准;曾 与DeepMind和CMU合作研究,⾸次实现⼩样本性能逼近全监督学习的⾼效对⻬⽅法。 ii. 视觉⽅⾯。团队成员发明了MoCo,引爆了基于对⽐学习的视觉预训练范式,也是过去三年 CVPR引⽤量最⾼的⼯作;发明了ShuffleNet,最⾼效的视觉⽹络结构之⼀;主导开发了 detectron2,⼀个被⼴泛使⽤的视觉开源项⽬并被集成到Meta全线VR/AR产品中。 iii 三层: 第⼀层是scalinglaw结合next-token-prediction。这个基础对所有⼈都是⼀样的,追赶过程逐渐收 敛。在这个路径上,OpenAI现在做得更好,因为他们过去四五年投⼊了相应的资源。 第⼆层现在有两个核⼼问题。⾸先是如何通⽤地表⽰这个世界?真正的“通⽤”是像计算机⼀样,⽤ 0和1就能表⽰整个世界。对于基于transformer的语⾔模型来说,它能表⽰⼀本书、⼀篇⽂章、甚 generality这两个条件。我不认为BERT没有scalability,但是你能明显 看到它没有generality⸺不管scale到多⼤,它都不可能给你写⼀篇⽂章。多模态过去⼏年也是卡在 架构上,缺少真正通⽤的、有⼈愿意去scale的模型。Diffusion明显不是,scale上天了它也不可能 是AGI。今天auto-regressive的架构带来了⼀0 码力 | 74 页 | 1.64 MB | 1 年前3RISC-V 开放架构设计之道 1.0.0
发明者之一 RISC-V 是学生学习指令集架构和汇编语言编程的不错选择,二者是后续使用高 级语言的基础。本书清晰地介绍了 RISC-V,还包含对其演化历史的深刻见解,以 及与其他常见架构的对比。以过去的指令集架构为鉴,RISC-V 的设计者能规避 一些不必要、不合理的特性,使其易于教学。虽然它很简洁,但它的强大足以在实 际应用中广泛使用。很久以前我教过汇编编程的入门课,如果我现在去教这门课, 模式的可组合性、异常/中断处理的简洁和灵活性,以及无分支延迟槽等诸多特性,都 使得采用 RISC-V 架构进行相关教学更能阐述清楚上层软件与指令集架构之间、指令 集架构与底层微架构之间的密切关系。 在过去数十年,我们一直跟踪国外一流大学计算机组成与系统结构相关课程的教 学,从这些大学相关课程网站了解到,UC Berkeley、MIT 和 CMU 等大学从 2017 年 开始就陆续改用 RISC-V RISC-V 平台的团队。这一次, 怀着对 RISC-V 的感激之情、对 Patterson 教授的敬仰之心,更是为了让更多中国爱 好者了解 RISC-V 的愿望,我欣然接受了谭博士的请求。 过去几年深入接触 RISC-V 后,我心中时常呈现出一种愿景——RISC-V 很可能 像 Linux 那样开启开源芯片设计的黄金时代。事实上,伯克利的 “科研侠客们” 发明 RISC-V,就是希望 “Instruction0 码力 | 223 页 | 15.31 MB | 1 年前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
大模型能以更少的参数量达到更高的性能 360联合北大研发:5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判 之六 成本越来越低 过去一年,大模型成本「自由落体」 国外:GPT-4等效智能在过去18个月内价格下降240倍 国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要 而DeepSeek的创新更具颠覆性 24政企、创业者必读 DeepSeek是完美的颠覆式创新 技术创新——让过去做不到的事情可以做到 体验创新——让使用起来很难很复杂的东西变得很简单易用 市场推广创新——让过去很难得到的东西可以得到 商业模式创新——让过去很昂贵的东西变得很便宜甚至免费 DeepSeek正是符合这四种创新模式的完美例子 25 颠覆式创新的四种方式政企、创业者必读 科学研究:打造科研新范式 44政企、创业者必读 AI For Science,为基础科学带来革命性变化 2024诺贝尔化学奖颁发给研发AlphaFold的两位AI专家 未来所有科学研究都将以AI为中心 过去如何做蛋白质研究 AlphaFold 1. X射线晶体衍射 2. 核磁共振 3. 冷冻电子显微镜 1. 利用Transformer的预测能力, 2. 直接从蛋白质的氨基酸序列 3. 中预测蛋白质的3D结构0 码力 | 76 页 | 5.02 MB | 5 月前3RISC-V 手册 v2(一本开源指令集的指南)
RISC-V 是学生学习指令集架构和汇编级编程的理想选择,而它们是以后用高级语言工 作的基础。这本写得很清楚的书提供了对 RISC-V 的很好的介绍,再加上一些对其演化 历史的深刻见解及与其它常见架构的比较。以过去的指令集架构为鉴,RISC-V 的设计 者能够避免一些不必要的、不合理的特征,这让教学过程变得容易。即使它很简洁,它 也足够强大,能在实际应用中广泛使用。很久以前我教过汇编编程的入门课,如果我现 在 在加州大学伯克利分校担任计算机科学教授 40 年后于 2016 年退休, 随后加入 Google 担任杰出工程师(distinguished engineer,Google 的职位)。他还担任 了 RISC-V 基金会董事会副主席。过去,他曾被任命为伯克利计算机科学部(Computer Science Division)主席,并当选为计算机研究协会(Computing Research Association) 主席和计算机协会(ACM,Association 指令集的每个组 成部分的十章只用了 100 页——即便为了有助于快速阅读,平均每页用到了一张图片(一共 75 张)。 在解释指令集设计的原理之后,我们将阐述 RISC-V 架构师在设计指令集的时候,如何 在过去 40 年的指令集的基础上取其精华,去其糟粕。要评判一个指令集架构,不仅要看它 包括了什么,而且要看它省略了什么。 随后我们会按顺序介绍这个模块化架构的每个组成部分。每一章都会包含一个用 RISC-0 码力 | 164 页 | 8.85 MB | 1 年前32024 中国开源开发者报告
变化: 代码补全与生成是最容易度量的指标,并且市面上也以此类为主。 在不同环节,从时间角度来计算,如代码审查、代码测试等。 结合代码的问答,以减少工具切换、复制粘贴,提高效率。 过去,AI 编程工具主要针对的是个人开发者。但随着探索不断深入,我们发现,在结合团 59 / 111 队或组织的力量后,AI 编程工具出现了以下趋势:多样的 AI 工具正在融入自己的开发流程中; AI 形态变化:从本地 AI IDE 到领域特定的智能代码生成 与通用性的 AI 辅助相比,领域特定的 AI 辅助效果更好,因为它更了解领域的特点,更容易 生成符合领域规范的代码。从智能代码生成的角度来看,由于过去包含大量的语料知识,生成的 代码质量更高,更符合领域规范。 在前面,我们已经看到了 AI 辅助研发中心的概念,即在一个组织中,AI 辅助研发中心可以 为不同团队提供 AI 能力,以提升整体的研发效率。需要注意的是,AI 于是我们似乎可以判断,如果在这一波即将到来的对抗的高潮之后大模型还存在的话,康德 和黑格尔关于国际关系的构想似乎就要在 30 年的实践里逐渐成型。“世界公民观点下的普遍历 史观念”让开源大模型重新具有过去被认为的“合则两利”的性质,并形成新的共有的财产和公 共的财产关系。 于是现在要问,这 30 年我们这代人怎么办?作者认为有以下几个因素决定了我们的策略: 第一,要做大模型就要做成技术主权划定0 码力 | 111 页 | 11.44 MB | 8 月前3OpenShift Container Platform 4.14 存储
foo: bar $ oc create -f my-csi-app.yaml OpenShift Container Platform 4.14 存 存储 储 122 在过去,存储厂商一般会把存储驱动作为 Kubernetes 的一个部分提供。随着容器存储接口 (CSI) 的实 现,第三方供应商可以使用标准接口来提供存储插件,而无需更改核心 Kubernetes 代码。 卷,使集群管理员无需预置备存储。如果需要,您可以禁用此默认存储类 (请参阅管理默认存储 类)。 AliCloud Disk CSI 驱动程序 允许您创建并挂载 AliCloud Disk PV。 5.9.2. 关于 CSI 在过去,存储厂商一般会把存储驱动作为 Kubernetes 的一个部分提供。随着容器存储接口 (CSI) 的实 现,第三方供应商可以使用标准接口来提供存储插件,而无需更改核心 Kubernetes 代码。 Operator 和驱动 程序,必须在升级到 OpenShift Container Platform 4.14 前卸载 4.5 Operator 和驱动程 序。 5.10.2. 关于 CSI 在过去,存储厂商一般会把存储驱动作为 Kubernetes 的一个部分提供。随着容器存储接口 (CSI) 的实 现,第三方供应商可以使用标准接口来提供存储插件,而无需更改核心 Kubernetes 代码。0 码力 | 215 页 | 2.56 MB | 1 年前3动手学深度学习 v2.0
机视觉,需要大量的领域知识,以至于它们通常 被认为是完全独立的领域,而机器学习对这些领域来说只是一个小组件。因此,神经网络——我们在本书中 关注的深度学习模型的前身,被认为是过时的工具。 就在过去的五年里,深度学习给世界带来了惊喜,推动了计算机视觉、自然语言处理、自动语音识别、强化学 习和统计建模等领域的快速发展。有了这些进步,我们现在可以制造比以往任何时候都更自主的汽车(不过 可能没有 成熟的库应该自动化常见的任务,示例代码应该使从业者可以轻松地修改、应用和扩展常见的应用程序,以 满足他们的需求。以动态网页应用为例。尽管许多公司,如亚马逊,在20世纪90年代开发了成功的数据库驱 动网页应用程序。但在过去的10年里,这项技术在帮助创造性企业家方面的潜力已经得到了更大程度的发挥, 部分原因是开发了功能强大、文档完整的框架。 测试深度学习的潜力带来了独特的挑战,因为任何一个应用都会将不同的学科结合在一起。应用深度学习需 常见的问题来自不均衡的数据集,比如在一个有关医疗的训练数据集中,某些人群没有样本表示。想象一下, 假设我们想要训练一个皮肤癌识别模型,但它(在训练数据集中)从未“见过”黑色皮肤的人群,这个模型 就会顿时束手无策。 再比如,如果用“过去的招聘决策数据”来训练一个筛选简历的模型,那么机器学习模型可能会无意中捕捉 到历史残留的不公正,并将其自动化。然而,这一切都可能在不知情的情况下发生。因此,当数据不具有充 分代表性,甚至包含了一些社会偏见时,模型就很有可能有偏见。0 码力 | 797 页 | 29.45 MB | 1 年前3Django 官方教程翻译项目
我们现在知道了,问题出在当 pub_date 为将来时, Question.was_published_recently() 应该返回 False。我们去修改 models.py 里的方法,让它只在日期是过去的时候才返回 True: 1. # polls/model.py 2. 3. def was_published_recently(self): 4. now = timezone assertIs(recent_question.was_published_recently(), True) 现在,我们有三个测试来确保 Question.was_published_recently() 方法对于过去,最近, 和将来的三种情况都返回正确的值。 再次申明,尽管 polls 现在是个非常简单的应用,但是无论它以后成长到多么复杂,要和其他代码 进行怎样的交互,我们都能保证进行过测试的那些方法的行为永远是符合预期的。 CN) 构建 4. """ 5. 创建一个以 question_text 为标题,pub_date 为 days 天之后的问题。 6. days 为正表示将来,为负表示过去。 7. """ 8. time = timezone.now() + datetime.timedelta(days=days) 9. return Question0 码力 | 103 页 | 1.86 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 新部署集群,与现有集群双跑运行,稳定扩展(建议方式) 42 Greenplum扩展规划 Greenplum集群规划 • 业务运营越来越重要 Ø OLAP是根据历史数据,进行准确的统计计算 Ø 考虑过去的问题,为现在的决策提供参考和依据 • 定位与整合 Ø 公司内网GP小数据量计算,GP加载csv数据,GP大数据量统计 Ø 年表与实例无关,可以形成一个整体的大的Greenplum平台 Ø 网络互通,数据互通,相互备份0 码力 | 43 页 | 9.66 MB | 1 年前3
共 433 条
- 1
- 2
- 3
- 4
- 5
- 6
- 44