最近根据一个项目需要导出大量数据,数据量大概在百万级别
数据是存在clickhouse中,最开始尝试使用excel导出百万级数据,导出速度很慢,于是调整为使用csv格式,速度较excel的速度快,但是导出速度也不是特别理想。于是使用Java调用clickhouse-client进行导出,导出速度很快,几秒钟就导出。
调用clickhouse-client的方式,实际上就是Java调用Linux命令,Java调用Linux命令的通用方法如下:
private static String getObject(String cmd) throws IOException {
log.info("执行的命令为:" + cmd);
String[] cmdA = {"/bin/sh","-c", cmd);
Process process = Runtime.getRunTime().exec(cmdA);
LineNumberReader br = new LineNumberReader(
new InputStreamReader(process.getInputStream()));
StringBuilder buffer = new StringBuilder();
String line;
while((line == br.readLine()) != null) {
System.out.println(line);
buffer.append(line).append("\n");
}
log.info("命令执行结果:" + buffer);
return buffer.toString();
}
只需要在通用的Java调用Linux命令的方法上再封装一层,加上调用clickhouse-client即可
public static String exportClickhouseCsvCmd
(String username, String password, String sql, String filepath) {
组装clickhouse-client的sql导出命令
return getObject(command);
}
然后就可以在业务方法中调用该导出方法了。
这种方法调试会相对麻烦,每次需要更新到服务器上去进行测试,但是性能是最好的,大家可以根据自己项目的实际情况进行合理的取舍。