房源质量打分中深度学习应用及算法优化-周玉驰
COM ALL COPYRIGHTS RESERVED 9 AI选房本质上是TopN排序问题 2019 KE.COM ALL COPYRIGHTS RESERVED 10 AI选房 - 房源质量打分 好房定义 AI选房建模 Y = f (X) Y:未来?天能否成交 X:最近?天房源产生的所有行为 样本:挂牌满?天的房源 2019 KE.COM ALL COPYRIGHTS COPYRIGHTS RESERVED 40 了解分 • 分数解释:打分是怎么计算的 • 如何操作可以提升打分? 优质房(A) 次优房(B) 一般房(C) 经纪人的疑问 质量分数 • 具有排序意义 • 很难引导经纪人 2019 KE.COM ALL COPYRIGHTS RESERVED 41 雷达图 雷达图 • 明示数据的核心打分维度 • 每个维度展示特征的优缺点 • 引导经纪人,提高分数0 码力 | 48 页 | 3.75 MB | 1 年前32020美团技术年货 算法篇
团内部都有比较好的实践。美团也提供了高性能的 TF-Serving 服务(参见《基于 TensorFlow Serving 的深度学习在线预估》一文)以及自研的 MLX 模型打分服务, 都可以进行高性能的 Batch 打分。基于此,我们针对不同的模型,采取不同的策略: ● 深度学习模型:特征多,计算复杂,性能要求高;我们将计算过程放到公司统 一提供的 TF-Serving/MLX 预估服务上; 同,需要分别计算。 一个典型的模型预估请求,如下图所示: Augur 启动时会加载所有特征的表达式和模型,一个模型预估请求 ModelScore- 算法 < 13 Request 会带来对应的模型名、要打分的文档 id(docid)以及一些必要的全局信 息 Context。 Augur 在请求命中模型之后,将模型所用特征构建成一颗树,并区分 ContextLevel 特征和 DocLevel 特征。由于 维度,由于对每一个 Doc 都 要加载和计算对应的特征,所以在 Doc 加载阶段会对 Doc 列表进行分片,并发完成 特征的加载,并且各分片在完成特征加载之后就进行打分阶段。也就是说,打分阶段 本身也是分片并发进行的,各分片在最后打分完成后汇总数据,返回给调用方。 期间 还会通过异步接口将特征日志上报,方便算法同学进一步迭代。 在这个过程中,为了使整个流程异步非阻塞,我们要求引用的服务提供异步接口。0 码力 | 317 页 | 16.57 MB | 1 年前32022年美团技术年货 合辑
产生差异性。第二层级则通过不同单个模型的组合进一步产生差异性,差异性的提升 来源于两个方面,分别是模型组合方式的不同(用不同模型,根据单模型特征进行打 分)以及用于模型组合的特征因子的不同,这里特征因子包括模型的打分以及模型中 的隐层参数。第三层级则是考虑如何将不同融合结果组合在一起。由于划分出来的验 证数据集较小,如果使用复杂非线性模型往往容易过拟合。所以这里使用了一个基于 约束的线性模型来获得第二层级模型的融合权重。 α 与流行度成反比,来削弱流行商品的权重,从而消除流行度偏差。参 数 β 是正样本权重,用于解决样本不平衡问题。 第四个阶段首先将 i2i 打分通过 Max 操作进行聚合,突出打分集合中低热度商品的高 分信号,从而缓解流行度偏差问题。然后对商品列表的打分结合商品热度进行调整处 理,进而缓解流行度偏差问题。 关于该比赛的更多细节,大家可以参考《KDD Cup 2020 Debiasing 比赛冠军技术 是不适用的。下面会介绍关于将精排的排序能力迁移到粗排的精排联动效果优化工 作,以及基于神经网络结构自动搜索的效果和性能 trade-off 优化工作。 3.1 精排联动效果优化 粗排模型受限于打分性能约束,这会导致模型结构相比精排模型更加简单,特征数量 也比精排少很多,因此排序效果要差于精排。为了弥补粗排模型结构简单、特征较少 带来的效果损失,我们尝试知识蒸馏方法 [7] 来联动精排对粗排进行优化。0 码力 | 1356 页 | 45.90 MB | 1 年前3经典算法与人工智能在外卖物流调度中的应用
2 3 4 5 路线规划 • 动态规划最优配送路线,且合理 并单,以最低的配送成本最大化 满足用户配送体验。 • 考虑用户期望时间的TSP问题 • 构建模型综合评估用户体验与配 送成本打分 • 采用动态规划和模拟退火算法等 算法,求得最优路线 1 8 时间预估 用户下单 开始配送 骑士到店 骑士取餐 到达用户 完成交付 商户接单 商户出餐 到店时间 出餐时间 送餐时间 DNN对特征工程要求较低,自身可以学习有用的特征,PCA降维影响较小,但时间复杂度较高 • XGBoost模型 - 采用近似求解算法,找出可能的分裂点,避免选用贪心算法的过高时间复杂度 - 计算采用不同分裂点时,叶子打分函数的增益;并选择增益最高的分裂点,作为新迭代树的最终分裂 节点,构造新的迭代树 - 通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据 过滤数据 距离的节省: 订单组与骑士打分: 根据商圈压力调整: 3 分配方案 12 Greedy + 多轮KM算法分配方案 • Greedy分配解决特殊业务需求相关 • KM算法找到其余全局最优的分配方案 订单 骑士 订单 骑士 4 KM求解骑士和订单全局最优的分配 • 调度系统先对骑士和订单组(根据骑士的位置、身上的单量 等)进行打分,得到订单组和骑士的打分矩阵,然后根据业 务需0 码力 | 28 页 | 6.86 MB | 1 年前32023 中国开源开发者报告
谎称光猫损坏,需要花 299 元 换新。更换完后,联通再在后 台恢复用户的网络。 员工盗用公司游戏源代码 中国人民大学一名硕士毕业生涉嫌在校期间非法获取全校学生的个人信息, 并利用这些信息制作了一个给学生颜值打分的网站。 针对 “中国人民大学部分学生信息被非法获取” 的情况,海淀警方接到报警 后立即开展调查。 经查,嫌疑人马某某(男,25 岁,该校毕业生)涉嫌非法获取该校部分学生 个人信息等违法犯罪行为,后被海淀公安分局依法刑事拘留。 上海一游戏公司三名员工利 用职务之便,在从原公司离 职前盗取了公司开发的手游 源代码;并将该手游的源代 码提供给 了另一家网络 公 司,对方进行简单 “换皮” 之 后就开始上线经营。 创建颜值打分网站——结局很“刑” 一年私吞 260 余万元 民警随即展开工作,最终嫌疑人曹某迫于压力主动投案自首。 曹某是该公司的软件工程师,他坦白称,去年 8 月发现公司网站后台的漏洞, 用母亲和朋友身份证注册了两个0 码力 | 87 页 | 31.99 MB | 1 年前32.2.4 基于Kubernetes的私有云实战
Problem K8S的调度原理 K8S的调度原理 调度器调度⼀个 Pod 的过程分为两个阶段:调度周期 和 绑定周期 调度周期 • 选择符合条件的Node (硬性选择) • 给Node打分 (软性选择) 绑定周期 • 向binding接⼝发送Post请求,把结果告诉k8s 基于CPU实时使⽤率的调度器 借助Scheduling Framework可以实现⾃定义的调度器0 码力 | 47 页 | 10.67 MB | 1 年前3Python的智能问答之路 张晓庆
用知识库内的相似问,构造句对训练数 据,训练有监督的模型 Ø 基于通用领域的问答对,构造句对训练 数据,训练通用领域内有监督的模型 Ø 模型融合 Ø 判断(query,question)相关性打分, 返回top n作为最终命中知识点,给出对 应知识点的答案回复用户 • 依赖工具 Ø Python及第三方扩展包 各个击破-模型 各个击破-数据 • 开源数据抓取&清洗 • 依赖工具0 码力 | 28 页 | 2.60 MB | 1 年前3Python在金融领域的应用与创新 王宇韬
乱码问题解决 舆情评分系统 HUANENG GUICHENG TRUST CORPORATION LTD. 2. 版本1 - 根据标题评分 通过提炼新闻的标题信息,进行关 键词提取分析,进行合理打分。 核心代码如右图所示 score = [] keywords = ['违约', '诉讼', '兑付', '阿里', '百度', ' 京东', '互联网'] for i in range(len(title)):0 码力 | 51 页 | 4.69 MB | 1 年前3动手学深度学习 v2.0
如,亚马逊上的产品评级和评论。 在其他一些情况下,客户会提供隐性反馈。例如,某用户跳过播放列表中的某些歌曲,这可能说明这些歌曲 对此用户不大合适。总的来说,推荐系统会为“给定用户和物品”的匹配性打分,这个“分数”可能是估计 的评级或购买的概率。由此,对于任何给定的用户,推荐系统都可以检索得分最高的对象集,然后将其推荐 给用户。以上只是简单的算法,而工业生产的推荐系统要先进得多,它会将详细的用户活动和项目特征考虑 引言 图1.3.4: 亚马逊推荐的深度学习书籍 尽管推荐系统具有巨大的应用价值,但单纯用它作为预测模型仍存在一些缺陷。首先,我们的数据只包含“审 查后的反馈”:用户更倾向于给他们感觉强烈的事物打分。例如,在五分制电影评分中,会有许多五星级和一 星级评分,但三星级却明显很少。此外,推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买 量较大(可能被认为更好)的商品,然而目前用户的购买 ,但是在眼花缭乱的场景中找到他也如大海捞针。然而沃尔 多的样子并不取决于他潜藏的地方,因此我们可以使用一个“沃尔多检测器”扫描图像。该检测器将图像分割 成多个区域,并为每个区域包含沃尔多的可能性打分。卷积神经网络正是将空间不变性(spatial invariance) 的这一概念系统化,从而基于这个模型使用较少的参数来学习有用的表示。 218 6. 卷积神经网络 图6.1.1: 沃尔多游戏示例图。0 码力 | 797 页 | 29.45 MB | 1 年前3百度超级链 XuperChain 3.7 中文文档
场景是什 么? 环签名、零知识证明等技术适用于对隐私保护有较高需求的 网络中。目前环签名已经在crypto模块中开源,可以实现对交 易发起者信息的混淆,例如在论文评审场景里,实现评审者 对论文的匿名打分等;零知识证明目前尚未开源。 超级链有区块链浏览器吗? 暂时没有,在计划中,敬请关注。 什么是VAT,它的作用是什么? VAT (Verifiable Auto-generated Transaction0 码力 | 270 页 | 24.86 MB | 1 年前3
共 41 条
- 1
- 2
- 3
- 4
- 5