量化研究第一步：用 WebSocket 实时 tick 数据

痛点：传统行情的颗粒度不够

在量化研究中，很多伙伴和我一样，习惯基于分钟或日线级别的数据回测。但实盘时你会发现，那些在日线图上看起来“平稳”的行情，在 tick 级别可能充满了激烈的订单流博弈。特别是对于热门美股，盘口变化极快，想要捕捉资金动向，秒级数据都嫌粗。

我之前用 REST API 轮询拿数据，信号采样不均匀，漏掉的微结构信息严重影响了因子表现。于是我开始寻找一种能持续、均匀地推送逐笔成交的方案。

WebSocket：推开微观市场的大门

WebSocket 的全双工推送特性，天然适合高频行情分发。它与行情源的连接一旦建立，就可以源源不断地接收 tick 推送，没有轮询盲区。我在选型的时候，重点关注了接口的订阅灵活性、数据字段的完整性以及连接的稳定性。经过小范围对比，我拿 AllTick 这个实时行情 API 做了测试，因为它的 WebSocket 订阅模式很干净，每条 tick 都包含了成交价、成交量、成交方向等关键字段，方便直接用于量化因子计算。

搭建最小可行管道

第一步永远是验证数据流。我用 Python 写了一个最简版本，把近期流动性最好的几只股票作为初始订阅列表，实时观察 tick 序列。

import websocket
import json

def on_message(ws, message):
    data = json.loads(message)
    # 逐笔打印价格与成交量
    print(f"{data['symbol']} 价格: {data['price']} 成交量: {data['volume']}")

def on_open(ws):
    # 订阅高流动性美股
    symbols = ["AAPL", "TSLA", "AMZN"]
    for symbol in symbols:
        ws.send(json.dumps({
            "action": "subscribe",
            "symbol": symbol
        }))

ws = websocket.WebSocketApp("wss://apis.alltick.co/ws/stock-tick",
                            on_message=on_message,
                            on_open=on_open)
ws.run_forever()

这让我可以直观地感受 tick 到达的密度和延迟。在这个基础上，再往后才是正式拼接量化分析模块。

量化分析如何用 tick 数据？

日内动量因子：对逐笔成交量做指数加权移动平均，识别短时放量。
订单流不平衡：通过 tick 的成交方向，估算主动买卖的力量对比。
微观波动率：用 tick 级别价格跳跃，度量真实的交易活跃度。

这些分析必须建立在完整、及时的 tick 序列之上。少几笔数据，不平衡度量就会失真。

生产环境加固建议

异步消息架构：用 asyncio + 消息队列，将数据接收和因子计算解耦。
持久化策略：tick 数据量巨大，建议按日写入列式存储，方便日后批量回测。
重连和去重：确保异常断线后能及时恢复，并通过 trade_id 去重。

结尾

在量化研究里，数据是原材料，它的质量和时效决定了策略的上限。自己动手搭建一套实时 tick 管道，看似是基础设施工作，实则是为后面的因子挖掘和模型迭代打下最牢靠的地基。希望我的这点经验，能给同在量化路上的你带来一些启发。