rediSQL使用记录
背景
最近我们组在做自动化数据可视化产品,一次配置,可自动适配实时、离线数据, 实时数据存储在Redis,当前端图表配置项功能越来越复杂时,基于Key的查询接口实现上越来越臃肿,越来越难以跟上前端功能的多样性。
比如前端要自动生成表格,假设数据有俩个维度(platform端,city省份),2个指标(pv浏览量,click_pv点击)
KEY的格式分别为:
platform_city_pv value
platform_city_click_pv value
第一天,PM要求表格展示4列明细数据就OK
实时接口实现步骤:
需要知道每个维度都有哪些枚举值,比如端:app/m/pc/other,省市有32个,这些枚举值我可以从维表获取
拼key,大约需要拼 2 * 4 * 32 = 256
第二天,PM提出新要求,要求按照某列排序
内存排序
第三天,PM要求加一列,显示点击率 ( click_pv/pv)
衍生指标计算,支持公式定义的指标
第四天,点击率要求保留2位小数
格式化处理
第五天,点击率要百分制
第六天,按照点击率倒序显示表格
第七天,表格要做分页,一页10行
第八天,表格需要过滤掉点击率小于5%的行数据
第九天,。。。。
第十天,卒。
你会发现接口再屌,也难以应对丰富的前端功能
领导知道了我们接口的苦衷,马上喊过去开会,讨论半天确实没有太好的方案,不过嘴里一直叨叨 ”有可能在Redis直接执行SQL呢”..
说者无意,听者有心。
google起来。查到了我们今天的主角:RediSQL
git地址: https://github.com/RedBeardLab/rediSQL
git真香.
介绍
rediSQL是Redis的SQLite数据库的嵌入模块,命令支持Redis几乎所有的类型和功能,支持SQL大部分语句, 使用也特别简单,下载,build后,启动redis时,加载编译后的so,就可以直接redis-cli命令行下执行SQL
安装
安装有两种方式
git clone & build * release
docker方式
由于rediSQL需要rust环境,比较繁琐,我直接使用了docker hub的可用image.
dalongrong/redisql (可用)
rediSQL开放的镜像远程服务网络有问题
1 | docker pull dalongrong/redisql # ( 默认你有可用docker |
SQL大部分功能都可以很好支持
SDK
想与我们的工程结合肯定需要有SDK的支持,不可能命令行操作。现在rediSQL支持三种语言
Python
Golang
Node.js
SDK实现方式都差不多,我们拿python来看一下使用方式。
获取连接(建议生产时使用连接池)
def conn():
return redis.StrictRedis(host='localhost', port=6379, db=0)
执行操作命令
redis = conn() # 获取连接
redis.execute("REDISQL.CREATE_DB", "db_1") # 创建数据库
query = "CREATE TABLE IF NOT EXISTS table_1(id integer primary key, age int, name text)"
redis.execute("REDISQL.EXEC", "db_1", query) # 创建表
q = f"INSERT INTO table_1 VALUES(1,21, 'zhangsan');"
self.redis.execute_command("REDISQL.EXEC", 'db_1', q)
性能测试
# -*- coding: utf-8 -*-
# Author: kaizhang01
import asyncio
import aioredis
import random
import redis
import time
def conn():
loop = asyncio.get_event_loop()
conn_co = aioredis.create_pool('redis://localhost', minsize=10, maxsize=300, loop=loop)
redis_co = asyncio.gather(*[conn_co])
redis = loop.run_until_complete(redis_co)
redis = redis[0]
return redis
def new_conn():
# return redis.Redis(host='localhost', port=6379, db=1)
# return redis.StrictRedis(connection_pool =
# redis.BlockingConnectionPool(
# max_connections = 15,
# timeout = 10))
return redis.StrictRedis(host='localhost', port=6379, db=0)
class RedisSQL():
"""redis sql test"""
def __init__(self):
self.table_name = 'adm_rcmd_all_di'
self.redis = new_conn()
self.dts = [
"2019-09-10", "2019-09-11",
"2019-09-12", "2019-09-13",
"2019-09-14", "2019-09-15",
"2019-09-16", "2019-09-17", "2019-09-18",
]
self.authors = [
"lisi",
"zhangsan",
"wangqiang"
]
self.position = [
'0300', '0200'
]
def db_init(self, run=False):
if run:
print(self.table_name)
self.redis.execute("REDISQL.CREATE_DB", self.table_name) # APP实时监测整体表
query = f"CREATE TABLE IF NOT EXISTS {self.table_name}(id integer primary key, position text, dt text, req_pv int, sign_show_pv int, click_pv int);"
print(query)
self.redis.execute("REDISQL.EXEC", self.table_name, query)
# statement = f"INSERT INTO {table_name} VALUES(1,'1111');"
# print(statement)
# self.redis.execute("REDISQL.EXEC", table_name, query)
return self
def main(self, run=False):
"""测试性能"""
# 写入百万数据,测试查询
if run:
for i in range(1, 1200000):
_p = self.position[random.randint(0, len(self.position) - 1)]
_dt = self.dts[random.randint(0, len(self.dts) - 1)]
req_pv = random.randint(5000000, 8000000)
sign_show_pv = random.randint(3000000, 5000000)
click_pv = random.randint(1000000, 2000000)
row = f"{i}, '{_p}', '{_dt}', {req_pv}, {sign_show_pv}, {click_pv}"
# print(row)
q = f"INSERT INTO {self.table_name} VALUES({row});"
self.redis.execute_command("REDISQL.EXEC", self.table_name, q)
return self
def select(self):
# q1 = f"SELECT dt, position,sum(req_pv) FROM {self.table_name} GROUP BY position,dt"
q1 = f"SELECT position, dt, sum(req_pv) as req_pv FROM {self.table_name} GROUP BY dt,position having(sum(req_pv) > 432683005803) order by position,req_pv desc limit 100"
print(q1, "\n", time.time())
X = self.redis.execute_command("REDISQL.EXEC", self.table_name, q1)
for x in X:
print(x)
print(time.time())
if __name__ == '__main__':
RedisSQL().db_init(True).main(True).select()
Todo: 更新数据测试
结论
单线程导入百万数据应该在2分钟左右
查询百万:1s
复杂SQL: 1s
1
SELECT position, dt, sum(req_pv) as req_pv FROM adm_rcmd_all_di GROUP BY dt,position having(sum(req_pv) > 432683005803) order by position,req_pv desc limit 100
对于实时数据一般只展示当天最新数据,所以在数据量有限的情况下,比如百万级,可以一试
查询rediSQL网上资料很少,wiki给的命令很多也是不靠谱,这也是我要记录下来的原因
没有在生产环境得到验证,选择使用可以,但前期一定要有灾备方案.
命裏有時終須有,命裏無時莫強求
end.