强化学习的历史

关键词:
optimal control 最优控制
Law of Effect 有效法则
Dynamic programming 动态规划
Bellman equation 贝尔曼方程

一、说明

强化学习从20世纪50年代就开始,最初只有反复学习和最优控制两条线索。随着研究的深入,逐步演化出各式各样的方法。本篇将叙述这些方法和其演进路线。

二、强化学习的历史线索

2.1 两个历史线索演进

强化学习的历史有两条主要线索,它们既悠久又丰富,在现代强化学习中交织在一起之前,它们一直被独立地研究。一条线索涉及反复试验的学习,始于动物学习心理学。这条线索贯穿了人工智能领域的一些早期工作,并导致了 20 世纪 80 年代初强化学习的复兴。另一条线索涉及最优控制问题及其使用价值函数和动态规划的解决方案。在大多数情况下,这条线索与学习无关。
虽然这两条线索在很大程度上是独立的,但也有例外,围绕着第三条不太明显的线索,它涉及时间差分方法,例如本章中井字游戏示例中使用的方法。这三条线索在 20 世纪 80 年代后期汇聚在一起,形成了我们在本书中介绍的现代强化学习领域。
在这里插入图片描述
图1 强化学习研究方法的演进

2.2 最优控制和贝尔曼方程

专注于试错学习的线程是我们最熟悉的,也是在这段简短的历史中我们讨论最多的。不过,在此之前,我们先简单讨论一下最优控制线程。

“最优控制”一词于20世纪50年代末开始使用,用于描述设计控制器以最小化动态系统随时间变化的行为指标的问题。解决该问题的方法之一是由理查德·贝尔曼(Richard Bellman)等人在20世纪50年代中期通过扩展19世纪的汉密尔顿和雅可比理论而发展起来的。该方法利用动态系统状态和值函数(或“最优回报函数”)的概念来定义一个函数方程,现在通常称为贝尔曼方程。通过求解该方程来解决最优控制问题的方法被称为动态规划(Bellman,1957a)。贝尔曼(1957b)还引入了最优控制问题的离散随机版本,即马尔可夫决策过程(MDP),而罗恩·霍华德(Ron Howard)(1960)则设计了MDP的策略迭代方法。所有这些都是现代强化学习理论和算法的基本要素。

动态规划被广泛认为是解决一般随机最优控制问题的唯一可行方法。它受到贝尔曼所谓的“维数灾难”的影响,这意味着其计算需求会随着状态变量数量的增加而呈指数增长,但它仍然比任何其他通用方法都更高效、适用范围更广。自 20 世纪 50 年代末以来,动态规划得到了广泛的发展,包括对部分可观马尔可夫决策过程 (MDP) 的扩展(Lovejoy,1991 年综述)、众多应用(White,1985、1988、1993 年综述)、近似方法(Rust,1996 年综述)以及异步方法(Bertsekas,1982、1983 年)。目前已有许多优秀的动态规划现代处理方法(例如 Bertsekas,1995 年;Puterman,1994 年;Ross,1983 年;以及 Whittle,1982、1983 年)。 Bryson (1996) 提供了有关最优控制的权威历史。

三、学习方法综述

3.1 最优控制和强化学习

我们认为最优控制中的所有工作在某种意义上也是强化学习中的工作
我们将强化学习定义为解决强化学习问题的任何有效方法,现在很清楚,这些问题与最优控制问题密切相关,特别是那些以MDP形式表达的问题。因此

<think>好的,我现在需要帮助用户了解或实现得物签名的相关技术,特别是签名算法的实现方式。首先,我需要收集已有的信息。根据用户提供的引用,特别是引用[4]和[5],得物的签名算法可能涉及逆向工程分析,使用了JavaScript中的XMLHttpRequest重写来拦截请求,并在请求中包含特定的sign参数。这可能意味着签名生成是在客户端进行的,通常在前端JavaScript代码中完成。 接下来,我应该考虑常见的签名生成方法。常见的Web应用签名算法通常使用HMAC、AES、RSA或自定义的哈希组合。引用[1]提到了RSA算法,但得物的签名可能更倾向于使用HMAC-SHA256之类的哈希算法,结合时间戳、随机数和请求参数进行签名,以防止篡改和重放攻击。 用户可能需要具体的步骤,比如逆向分析得物的JavaScript代码,找到生成sign的函数,提取关键参数和加密逻辑。引用[5]中的代码片段展示了如何重写XMLHttpRequest的open方法来拦截请求,这可能用于调试和定位签名生成的代码位置。 此外,引用[4]提到使用Python进行算法还原,所以可能需要在Python中复现JavaScript的签名生成逻辑。这通常涉及分析请求参数如何排序、拼接,以及如何与密钥结合进行哈希或加密。需要注意反爬机制,如obfuscation(代码混淆)或动态密钥,这可能需要使用AST(抽象语法树)解析或动态执行来还原算法。 用户可能还需要了解如何应对反调试措施,比如在Chrome开发者工具中使用断点调试,或者使用工具如Frida进行Hook。同时,引用[3]和[4]强调了法律和合规问题,确保研究仅用于学习目的,不用于非法用途。 最后,应该提醒用户注意法律风险,遵循网站的使用条款,避免侵犯知识产权或违反计算机安全法律。总结起来,实现得物签名需要逆向工程分析前端代码,提取关键算法,处理可能的混淆和反调试,最后用目标语言如Python复现算法。</think>### 得物签名算法实现方式分析 得物签名算法主要用于接口请求的身份验证和防篡改保护,常见实现方式涉及以下技术点: #### 1. **签名参数组成** 签名通常由以下参数动态生成: - 请求参数(经排序、过滤空值后拼接) - 时间戳(如:$timestamp=1620000000$) - 随机数(如:$nonce=5a8s3d$) - 设备指纹(如:$device\_id=abcdef$) - 应用密钥(加密盐值,可能动态获取)[^4] 示例参数拼接逻辑: $$ \text{sign\_str} = \text{path} + \text{sorted\_params} + \text{timestamp} + \text{nonce} $$ #### 2. **加密算法类型** 根据逆向分析,得物可能采用以下组合: - **HMAC-SHA256**:对拼接字符串进行哈希运算 - **AES/Base64编码**:对结果二次处理 - **自定义位移/异或操作**:增加逆向难度[^5] #### 3. **JavaScript代码混淆** 关键函数可能被混淆,例如: ```javascript function _0x12ab5(a, b) { return a ^ b << 3; } // 需要AST解析还原控制流 ``` #### 4. **Python算法还原示例** ```python import hmac import hashlib def generate_sign(params, secret_key): # 1. 参数排序并拼接 sorted_str = '&'.join([f"{k}={v}" for k,v in sorted(params.items())]) # 2. HMAC-SHA256加密 sign = hmac.new(secret_key.encode(), sorted_str.encode(), hashlib.sha256).hexdigest() # 3. 自定义处理(示例) return sign.upper() + str(int(time.time())) ``` #### 5. **反爬对抗措施** - 动态密钥:通过接口定期更新加密盐值 - 环境检测:验证是否在真机环境运行 - 请求频率限制:异常高频触发验证码[^5]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无水先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值