入门AI量化:每天2小时,3个月跑通人生第一个LSTM模型

用户头像Jacktick
2026-03-17 发布

这是《AI量化学习手记》系列的第一篇文章。在这个系列里,我会以学习者的视角,记录从零开始学AI量化的真实经历——踩过的坑、填过的土、试过的方法、翻过的车。不讲大道理,只分享真问题。今天这篇,是我入门3个月的真实复盘,希望能给同样刚起步的你一点参考。


引言:那个永远在“收藏”的我

2025年底,我被朋友拉进他的“量化小黑屋”——满屏跳动的K线、实时滚动的成交数据、角落里默默跑着的模型。

“这些都是AI在交易。”他说。

我盯着屏幕,脑子里冒出的第一个问题是:我一个文科生、数学停留在高中、编程零基础的人,能学会这个吗?

换作以前,我会立刻打开知乎,收藏几十篇“AI量化学习路线图”,买几本推荐的书,然后……就没有然后了。熟悉的循环:收藏从未停止,学习从未开始。

这一次,我决定换一种方式。不囤资料、不列完美计划,而是直接开始。每天下班后挤出2小时,用AI工具辅助我一步步往前走。3个月后,我竟然跑通了自己的第一个LSTM模型——虽然被朋友吐槽“拟合了噪音”,但这个过程让我彻底摆脱了“收藏家”的循环。

这篇文章就是我的“通关笔记”,分享给同样想入门、又怕坚持不下来的你。


一、入门三问:数学、编程、金融,到底要学到什么程度?

网上关于这个问题的说法五花八门:有的说“线代概率必须精通”,有的说“会用库就行”。其实,每个人的基础不同,根本没有统一标准。我是文科生,每天能挤出来的时间就2小时,必须找到适合自己的路。

我的答案是:不用等学完再动手,直接“干中学”

设定一个具体目标,比如“用LSTM预测茅台第二天的涨跌”,然后直接开干。遇到数学问题就补数学,遇到编程问题就学编程,遇到金融概念就查金融。哪里卡住补哪里,不用一口气吃成胖子。


二、我的核心武器:用AI工具搭建学习体系

2.1 创建专属AI导师

我用的工具是DeepSeek。关键不是工具,而是提示词。这是我给自己写的“AI导师”提示词模板,分享给你:

## 角色
你是一位资深的AI量化导师,擅长用通俗易懂的方式指导零基础小白。你精通Python、机器学习、金融知识,但从不直接给答案,而是引导我思考和动手。

## 我的背景
- 文科生,数学停留在高中,编程零基础。
- 上班族,每天学习时间有限(2小时左右)。
- 第一个目标是:用LSTM预测茅台(600519.SH)第二天的涨跌。

## 你的任务
1. 帮我拆解这个目标,列出需要一步步完成的任务清单。
2. 每当我完成一个任务,告诉我下一个做什么。
3. 当我卡住时,不要直接给代码,而是解释原理,引导我尝试。
4. 定期帮我复盘,总结学到的知识点,避免碎片化。

## 对话风格
- 耐心、鼓励,但不过度夸奖。
- 多用比喻,少用术语。
- 随时准备解释我不懂的概念。

有了这个导师,我再也不用纠结“下一步该学什么”了。他会像项目经理一样,带着我一步步往前走。

2.2 NotebookLM:我的私人知识库

“干中学”有个天然缺陷:知识容易碎片化。今天学LSTM输入格式,明天学数据清洗,后天学回测评估……如果不整理,过两周就忘。

我用NotebookLM来解决这个问题。这是Google的一个实验性工具,可以创建多个笔记本,每个笔记本相当于一个专属知识库。

我的操作步骤:

  1. 创建一个“AI量化”笔记本。把所有能找到的资料都扔进去:下载的PDF书籍(比如Ernest Chan的《量化交易》)、收藏的博客文章、B站视频的文字稿、甚至自己写的笔记。

  2. 用DeepResearch功能挖掘权威素材。当我对某个概念(比如“三重屏障法”)一头雾水时,我会用以下提示词让AI帮我深度搜索:

    请为我深度挖掘关于“三重屏障法(Triple Barrier Method)”的权威资料,要求:
    1. 原始出处:找到提出该方法的论文或书籍(Marcos López de Prado)。
    2. 核心原理:用通俗语言解释这个方法解决了什么问题,怎么做的。
    3. 代码实现:找到高质量的Python实现(GitHub或知名博客)。
    4. 社区评价:技术社区对该方法的真实讨论,正反面观点。
    5. 学习建议:对我这样的初学者,应该学到什么程度?需要掌握哪些前置知识?
    

    58d67d394d6e0e749bf1c5810b2e59ab.png

    搜到的结果(论文PDF、博客网页、GitHub仓库)全部保存下来,上传到NotebookLM。

  3. 利用内置模型提问和总结。资料都放进去后,我再用以下提示词让AI提炼核心知识点:

    你正在协助我处理一份关于“三重屏障法”的DeepResearch报告。请基于报告内容,提炼出以下信息,以便我存入Notion知识库:
    
    1. 核心思想(一句话总结)
    2. 解决的问题
    3. 具体步骤/原理
    4. 代码实现要点(关键函数或库)
    5. 社区共识(正反面评价)
    6. 学习优先级(对初学者的建议)
    7. 相关前置知识清单
    8. 延伸阅读推荐(1-2个)
    

    36e20273a71074517a93e0718e53b618.png

    这样一来,我不需要自己啃完整本书,就能快速获取核心知识点。而且因为是基于我自己的资料库回答,完全不用担心AI胡编乱造。

2.3 Notion AI:沉淀我的知识大厦

NotebookLM负责“查”和“快速学习”,Notion AI负责“存”和“体系化”。

我按照AI导师的建议,先在Notion里搭建了一个完整的知识框架。这个框架不是空架子,而是填充了每个学科最核心的20%知识点——这些知识点能覆盖80%的应用场景。

【数学篇】核心概念

核心概念 一句话说明 在量化中的应用
向量、矩阵运算 数据的基本表示,矩阵乘法用于特征组合 所有模型的基础(如因子加权)
特征值与特征向量 矩阵分解的核心,用于降维 PCA因子模型、风险模型
随机变量、期望、方差 描述数据的分布和不确定性 收益分布、风险评估
条件概率、贝叶斯定理 基于新信息更新信念 贝叶斯统计、贝叶斯优化
导数与偏导数 函数的变化率,梯度下降的基础 模型训练优化
链式法则 复合函数求导,反向传播的核心 深度学习训练

【编程篇】核心技能

核心技能 一句话说明 掌握程度
Python基础:数据类型、列表推导式、函数 编程入门基础 能写简单脚本
Pandas:DataFrame操作、groupby、时间序列 数据处理核心 必须熟练
NumPy:数组运算、广播机制 科学计算基础 会用即可
Scikit-learn:fit/predict、交叉验证 机器学习基础 理解流程
PyTorch:张量、自动求导、构建简单网络 深度学习框架 按需学习

【金融篇】核心概念

核心概念 一句话说明 为什么重要
订单类型(市价/限价/止损) 不同类型的交易指令 影响执行成本和滑点
买卖价差、流动性 市场深度和交易成本 高频策略的生命线
未来函数(前瞻偏差) 回测中使用了未来数据 回测虚高的主要原因
幸存者偏差 只考虑存活股票导致的偏差 回测结果失真
过拟合 模型死记硬背历史数据 实盘崩溃的元凶
最大回撤、夏普比率 风险收益核心指标 评估策略好坏

【模型篇】常用模型

模型 一句话说明 适用场景
线性回归 最简单的预测模型 因子预测、收益率预测
随机森林/XGBoost 树模型,非线性拟合能力强 分类问题、因子挖掘
LSTM 处理时间序列的循环神经网络 价格预测、波动率预测
Transformer 注意力机制模型 复杂时序依赖建模
DQN/PPO 强化学习模型 交易执行优化

这个框架不是一次性建好的,而是随着学习不断填充。每天学完后,我会花15分钟把新学的知识点填进对应的Notion页面。Notion AI还可以帮我自动生成复习卡片,提醒我哪些内容需要巩固。


三、数据获取:第一个绕不开的现实问题

路线图再完美,第一步就卡住了——数据从哪来?

我刚开始天真地以为,数据不就是一个API的事吗?试了一圈才发现,这里面的坑比想象的多。下面是国内主流数据源的详细对比,希望能帮你少走弯路。

数据源 核心优势 接入方式 注意事项 适用场景
Tushare Pro - 数据清洗极好,字段标准统一
- 覆盖A股全品类(股票、基金、期货、期权)
- 提供财务数据、特色因子
1. 官网注册获取token
2. pip install tushare
3. 在代码中设置token
- 需要积分(可通过注册、充值或贡献数据获取)
- 普通用户每分钟请求限制
- 2025年8月曾发生近一周服务中断
基本面量化、需要高质量数据的回测、学术研究
AKShare - 完全免费,无需积分
- 覆盖极广,包括股票、基金、期货、宏观数据,甚至一些奇葩数据(如大宗商品库存)
1.pip install akshare
2. 直接调用接口(如 ak.stock_zh_a_hist()
- 本质是爬虫,不稳定,随时可能因网站改版失效
- 速度慢,不适合高并发
- 实时数据延迟高(约500ms)
盘后研究、另类数据挖掘、学习用途、免费替代方案
Baostock - 无需注册,直接可用
- 数据稳定性高,很少缺失或错误
- 提供财务报表和财务指标
1.pip install baostock
2. 登录 bs.login() 后获取数据
- 分钟级数据有限(只有最近几天)
- 历史长度不足(部分数据只有几年)
- 文档较少
中长期基本面策略研究、数据交叉验证
JoinQuant - 一站式平台,提供数据、回测、模拟盘
- 社区活跃,有很多现成策略
- 数据质量有保障
1. 官网注册
2. 在平台内直接使用(支持本地SDK下载)
- 2025年涨价后年费接近千元
- 本地使用有限制
新手快速上手、不想自己搭回测框架的人
TickDB - 30天免费试用,全品类数据开放
- 一套API覆盖A股、美股、港股、外汇、贵金属、指数、加密货币
- 数据质量高,有预处理(前复权、异常过滤)
- 国内节点优化,延迟低
1. 官网注册获取API Key
2. pip install tickdb(SDK)
3. 调用接口
- 历史深度不如专业数据商(但日线足够)
- 付费方案尚未公布(试用期先爽)
个人开发者实盘、跨市场策略、从免费过渡到付费的场景

四、我的“干中学”实操全流程(供参考)

如果你也想试试这个方法,这是我的完整流程:

  1. 设定一个具体目标(我用的是:用LSTM预测茅台次日涨跌)
  2. 创建AI导师(使用上面的提示词模板)
  3. 搭建Notion知识框架(先建空架子,填充核心知识点)
  4. 启动NotebookLM素材库(把所有资料扔进去,用DeepResearch补充)
  5. 跟着导师开始干
    • 每一步遇到问题,先问导师
    • 需要深入的概念,用DeepResearch搜权威资料,存入NotebookLM
    • 学到的知识点,分类填充到Notion框架
  6. 每周复盘:让导师帮我总结本周学到的东西,更新知识框架

写在最后:最大的坑,是你自己

有位前辈说过一句话我印象特别深:

“我最大的错误是花了几个月在回测中完善策略,而不是尽早在模拟盘中向前运行。策略在历史数据上表现完美,是因为它在死记硬背。”

这句话提醒我:不要等到“准备好”再开始,因为你永远不可能准备好。与其花几个月囤资料、定计划,不如现在就动手,用AI工具辅助你边做边学。

如果你也对这套方法感兴趣,欢迎留言告诉我。文章里提到的AI导师提示词、DeepResearch提示词、Notion知识框架模板,我后续可以整理出来分享。

一起加油,从“收藏从未停止”到“学习真正开始”。


本文核心观点(速读版)

  • 放弃“收藏式学习”,转向“干中学”:设定目标,用AI导师指导实操
  • 用NotebookLM+DeepResearch搭建专属素材库,快速获取权威知识
  • 用Notion AI搭建知识框架,沉淀核心知识点(数学、编程、金融、模型)
  • 数据源对比:Tushare(质量好但需积分)、AKShare(免费但爬虫)、Baostock(稳定但数据有限)、JoinQuant(一站式但贵)、TickDB(新手友好,30天免费试用)
  • 最大的坑是自己:别过度准备,尽早动手

评论