Problem setup (plain language)
- Problem: a text description of a task (math, code, biology).
- State: a candidate solution (code, kernel, or mathematical object).
- Reward: a score you can compute (speed, accuracy, bound quality).
- Discovery: find a solution that beats the current best score.
Problem setup: discovery as an MDP
- Problem description d: task text fed to the policy.
- State s: candidate solution (e.g., kernel code or step function).
- Reward R(s): continuous score (e.g., 1/runtime, 1/MSE).
- Best-known: s_sota with r_sota = R(s_sota).
- Discovery: any s with R(s) > r_sota.
Rewards are continuous; invalid solutions get 0.
问题定义(通俗版)
- 问题:一段描述任务的文本。
- 状态:一个候选解(代码、kernel 或数学构造)。
- 奖励:可计算的分数(速度、准确率、界的好坏)。
- 发现:找到比分别最好更高的解。
问题定义:以 MDP 形式化“发现”
- 问题描述 d:输入给策略的任务文本。
- 状态 s:候选解(kernel 代码或分段函数)。
- 奖励 R(s):连续评分(如 1/运行时间、1/MSE)。
- 当前最优:s_sota 与 r_sota = R(s_sota)。
- 发现:任何满足 R(s) > r_sota 的解。
奖励为连续值,无效解记为 0。