
2.2 Power Query的Excel数据集成
Excel与CSV最大的不同在于,CSV数据格式中不需要任何的数据驱动就可以进行数据的访问和集成,而如果格式为Excel,数据访问与集成必须有相应的驱动才可以完成,即Excel之外的其他软件在访问Excel文件时必须拥有访问Excel连接的驱动。
在安装了Excel的访问组件之后,就可以实现本书涉及的Excel和Power BI访问Excel的功能,利用Excel和Power BI 进行Excel的数据集成。接下来我们分别通过Excel及Power BI进行Excel的多表集成。这里需要特别注意的是,Excel的数据格式有以下两种类型。
■ XLS:2003或更早版本的Excel保存的文件格式。
■ XLSX:2007及以后版本的Excel保存的文件格式。
在实际的数据处理过程中,两种版本的Excel文件还是会略有差别,导入过程的主要差别如下。
■ XLS格式导入的是格式化的数据,不是原始数据。
■ XLSX格式导入的是源数据,不管数据格式如何变化,导入的都是原始数据。
2.2.1 Excel中的Excel数据导入与集成
若在Excel界面的数据来源中选择Excel数据进行导入,在Excel中选择“数据”选项卡,然后单击“获取数据”的下拉按钮,在弹出的下拉列表中选择“来自文件”→“从工作簿”命令进行数据导入,如图2.14所示。

图2.14 Excel 获取Excel文件所对应的菜单
与CSV格式文件相比,Excel格式文件支持多表的数据导入,如果希望支持多个数据表的导入,可以在导入的界面中选择多个表进行数据导入。图2.15所示为Excel表格的导入界面,可以选中多项进行多个表数据的选择。

图2.15 Excel表格导入界面
选择需要导入的表格对象,通常不会直接进入加载数据的界面,而是单击“转换数据”按钮进行数据的集成和清洗,完成数据的再处理。Power Query的整体处理界面如图2.16所示。

图2.16 Power Query整体处理界面
在Power Query中完成数据清洗和集成之后,单击“主页”选项卡中的“关闭并上载”下拉按钮,将会出现以下选项。
■ 关闭并上载:如果选择“关闭并上载”选项,可将数据直接加载到Excel当前的数据编辑区域中,所有的数据将被加载到当前的Excel表格中,当数据超过1048576行时则不适用。
■ 关闭并上载至:选择“关闭并上载至”选项可以选择数据保存的方式,在打开的“导入数据”对话框中,我们可以选择“表”,即导入Excel的数据表中;或者选择“仅创建连接”,即只建立数据连接进行建模。但是如果导入的数据量过大(超过1048576行),则选择“仅创建连接”且作为建模的数据来源,如图2.17所示。

图2.17 数据加载方式的切换
2.2.2 Power BI中的Excel数据导入与集成
使用Power BI进行数据的存储和处理,所有的数据内容以缓存方式保存在Power BI中。当然,数据也能够导入Power BI中进行预处理,在利用Power Query完成预处理之后,所有的数据将只能用于Power Pivot数据建模。在Power BI主页中,我们首先单击“获取数据”下拉按钮,在弹出的下拉列表中选择“Excel数据导入”命令,再选择相应的数据表,即可实现数据的导入,图2.18所示为数据导入的操作界面。

图2.18 Power BI导入Excel数据表
选择好需要进行导入的表数据之后,进入Power BI的Power Query编辑器界面进行数据的清洗和重构,图2.19所示为Power Query编辑器的界面。

图2.19 Power Query编辑器界面
进行清洗和重构之后的数据将被保存到Power BI的数据缓存中,如果有需要的话,可以在Power BI的数据表界面中实现数据的再处理。图2.20所示为数据保存后表处理的界面,在界面中可以完成数据格式的设置。

图2.20 Power BI的数据编辑界面
当然,数据保存在缓存过程之前,如果数据的字段和格式需要二次处理,可以在Power BI的Power Query编辑器界面对数据进行二次修改后再保存。