8.14,微软开源了之前已经发布的全自动数据可视化工具 LIDA。

我们利用他提供的 demo 看一下,都有哪些功能。
1.
上传文件。
目前支持csv,json
格式

2.
生成数据概要。 会生成全部变量的摘要,包括变量的行数、最小值、最大值、标准差。

3.
自动生成分析目标。 demo
里默认生成5个,可以在代码里改目标数量。

4.
生成可视化图表。 同步会生成 python 代码。

5.
微调图表。 可以在对话框里微调图表,例如更改图表标题,颜色,图例位置等。

6.
解释图表。会生成结构化的文字解释图表内容。

7.
对图表进行评分;生成其他推荐的图表。数据问题,未生成。


8. 其他设置。
可以选择可视化的包,默认 seaborn,有Altair,Matplotlib,GGPlot 可选。

可以选择底层大模型服务,有 openai,google,cohere,huggingface 的模型可选。

但当前版本有一个问题,其实也是当前各种开源的自动可视化工具都有的,就是生成的图表不支持中文字体,这是 python 的底层可视化包 matplotlib 导致的问题,如果是本地运行的代码,加一个字体设置就行了,但很多在线的服务难以更改。还有一个跟字体有关的问题,就是当前导入的含有中文的数据,也处理不了。 不过既然已经开源了,能折腾的大佬可以自己来改造了。
项目 github 地址 https://github.com/microsoft/lida。
分析师们的工作更加方便了,效率提升的同时,洞察也变得更重要了。
出自:https://mp.weixin.qq.com/s/qxyd7G-lqXKPtSRv9cpYfQ