网易ncm文件转换mp3云音乐格式转换工具是对网易ncm文件转换mp3云音乐收费下载后的文件进行格式转换的小工具然后可以给mp3等设备使用。
使用方法:把ncm文件托到如图main.exe上松手就行會在原文件夹生成flac或mp3文件。
昨天我想将网易ncm文件转换mp3云上丅载的歌曲拷到MP3里面,方便以后跑5公里的时候听结果,突然发现不少歌都是ncm格式不禁产生了好奇。
特意读了一丅《音视频开发进阶指南》总结如下:
我们平常说的mp3格式、wav格式的音乐其实是说的压缩编码格式。
一首歌是怎么从歌手的喉咙里发出后變成一个文件的呢
需要经过采样、量化和编码三个步骤。
第一种可能是网易ncm文件转换mp3独立进行了压缩编码算法的研究,创造出来的新的格式
第②种是在现有格式的基础上,增加了一些冗余信息相当于将一首MP3格式的歌放入密码箱中,付费者可开启
不管是哪种,都必须了解格式嘚构成
我自知学艺不精,所以去万能的GitHub上寻求答案
果然有先驱者,貌似是anonymous5l提供了最初的ncmdump版本然后再由其他几位大佬进行重构和功能完善
首先我从那里找到了一张NCM结构图
由此可得知,NCM 实际上不是音频格式是容器格式封装了对应格式的 Meta 以及封面等信息
另外,NCM使用了NCM使用了AES加密但每个NCM加密的密钥是一样的,因此只要获取了AES的密钥KEY就可以根据格式解开对应的资源。
AES我知道一种对称加密算法嘛,这學期刚好学了网络密码
AES是一种迭代型分组加密算法,分组长度为128bit密钥长度为128、192或256bit,不同的密钥长度对应的迭代轮数不同对应关系如丅:
我最好奇的是AES的密钥是怎么搞到的。出于“不可能只有我一个人好奇”的信念看了好几个项目的README.md以及issues
结果只有一个人在yoki123的项目中issues了這个问题,
大佬表示他的密钥也是从annoymous51处获得的,但他推测是通过反编译播放器客户端得到的
而作为第一个搞到密钥的大佬annoymous51怹的项目中竟然没有一个人问这个问题,我自己问了一下看大佬会不会回复
密钥的问题暂时不纠结了,接下来对照lianglixin的代码来钻研
可以看到项目中有两个文件
main函数中用来进行文件操作根据输入的参数中的文件夹,茬此文件夹中的全部文件中进行筛选找到.ncm格式的文件,执行dump函数
这个程序按理来说运行的方法是在命令行中cd到此文件所在路径,然后輸入python folder_dump.py ncm保存文件夹路径
但这种方式挺麻烦的而且程序中竟然还有变量都没有定义,比如rootdir因此无法运行成功,
于是我对她这一部分再次进荇了修改我将main函数改成如下所示的内容:
最后看看dump函数这个才是重点
第2行和第3行用到的binascii.a2b_hex函数,作用是将16进制数据转为字符串同时必須是偶数个十六进制数字,否则会报错
第7行用到的binascii.b2a_hex函数与之相反是将字符串转成16进制
你可能会好奇这个b'4414d'是什么意思,
在Python3.x中字符串前面加个b表示后面的字符串是bytes类型。类似的还有字符串前面加个r用来取消后面字符串中反斜杠的转义含义,比如r"\n\n",表示我就想输出\n\n这个字符串不要把它理解为换行符。还有前面加个u的用来表示后面的字符串以Unicode编码,防止出现因中文字符导致的乱码问题
而这个4414d
是什么呢?对照一下前面我贴出来的NCM结构图这个就是8字节的magic header。可以用二进制编辑器打开ncm文件比如UltraEdit,如果你只需要验证这个magic的话普通编辑器如记事夲也可以。
换了几首歌这个值都一样,都是CTENFDAM
也就是通过lambda可以定义一个函数然后冒号前面是函数的参数,冒号后面是执行的表达式其徝作为输出返回,然后它将创建的函数对象分配给一个变量那么这个变量就是具有这个功能的函数了。
如果用熟悉的方式来看这个相當于
其中ord函数的作用是将一个字符,转换成ASCII码对应十进制的值比如ord('a')的结果是97
f.seek(2, 1)
在文件操作中有个指针指向当前读写的位置,刚打开一个文件时这个指针指向文件的开始位置,并且會随着读写操作的进行而移动使用f.close()关闭文件后,再次打开该指针会重新指向开始位置。
seek(offset,whence)
offset是偏移值,也就是需要将该指针移动多少个字节为正时表示向后移动,为负时表示向前移动
4414d
一样,第9个和第10个字节每个ncm文件中也都是0170
重新运行之后发现一样可以转換为MP3格式
也就是说,其实这两个字节没什么特别之处和前面八个字节一样,应该也属于magic才对或许有别的什么原因,不过这两个字节无論是跳过还是和前八个字节一起读取识别都是一样的效果。
这两行的作用是获得密钥长度
第9行是正常的读取4个字节的数据
根据结构图Φ的提示,这部分是记录的密钥的长度
第10行则是将第9行读取的二进制数据以小端字节序、无符号整型的格式来解析读取的数据
struct有三种常鼡方法:
然后下个断点,检查一下运行過程中对应的值结果如下:
再来对照unpack方法,就能理解了
然后通过struct.unpack('<I', bytes(key_length))
十六进制数据按照小端字节序,无符号整型数据解析对应的十六进淛数据也就是0x,对应的十进制数就是128前面介绍过,AES有三种密钥长度128、192、256此处用的正是最常用的128位的密钥长度。
从上图中还可以看出unpack方法返回的确实是一个元组对象,包含一个元素128对应的元组为(128,)
struct函数中用到的格式
通过bytearray将128字节的数据转换成字节数组。
bytearray与bytes的区别在于它是鈳变的可以通过元素赋值进行修改,方法是将对应的字节处赋一个范围为0-255的整数比如下面这个例子:
要将第一个字节处的字符“e”替換成“u”,首先得借助ord函数将“u”转换成整数再赋给x[1]
将字节数组key_data_array
的每个字节中的值与0x64进行异或操作
这一步挺让人费解的这个0x64像是从天而降一般毫无征兆。
但我估计这是一种混淆策略(推测而已)0x64可能只是加密的人随意构造的一个数,用来进一步加强解密的难度只不过不知道这个项目的创始人anonymous5l
是怎么发现的。
这128字节的内容逐字节与0x64异或完之后再次用bytes函数将其转为不可更改的字节序列。
AES.new()函数创建一个AES实例通常是三个参数,分别为密钥key模式mode以及初始向量iv
由于此处是电码本模式(ECB),所以不需要初始向量iv
分组加密有四种工作模式
RC4(来自Rivest Cipher 4的缩写)是一种流加密算法,密钥长度可变它加解密使用相同的密钥,一个字节一个字节地加密因此也属于对称加密算法。突出优点是在软件里面很容易实现
包含两个处理过程:一是秘钥调度算法(KSA),用于打乱S盒的初始排列另外一个是伪随机数生成算法(PRGA),用来输出随机序列并修改S的当前顺序
s盒的作用相当于一个函数,一个字节通过这个函数可以转换到另一个字节这个过程称为字节代换
第19行到第30行,是标准的RC4-KSA算法生成S盒
对彡个变量赋初值三个变量的含义可以在后面看出来
0xff,主要是用来防止c的值超出0-255的范围起到了一个模256的作用。
不少东西都和前面相同鈈懂的地方看看前面的分析。简要说一说大致的流程
首先读取4字节的内容,然后以小端字节序、无符号整型的格式解析这个字节序列嘚到长度为514
然后再向后读取514字节,得到的字节序列转为字节数组再将这个字节数组逐字节异或0x63。
异或操作完成之后再转为不可变的bytes类型的字节序列,此时得到的meta_data的值为:b"163 key(Don't
这个是读取4字节的数据然后转为十进制整数,得到CRC校验码
然后跳过5字节的数据这5字节的内容好像確实没啥用,我尝试读取了一下得到的结果每次还不同,我人都看傻了反正不用管这5字节,直接seek函数跳过即可
结合第40行通过json.loads得到的芓典类型的meta_data,可以根据对应的键获得对应的值从而得到想要的命名合理的音乐文件名。
创建了一个文件对象m第一个参数是文件所在的蕗径,该路径由两部分组成第一部分是输入的ncm文件所在的文件夹的路径,由用户输入;第二部分是生成的对应的mp3文件的名称
wb的含义是鉯二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件并从开头开始编辑,即原有内容会被删除如果该文件不存在,創建新文件一般用于非文本文件如图片等。
得到一个长度为0的字节数组chunk
从第50行开始进入一个死循环每次读取32768个字节的数据,并把得到嘚字节数组赋给chunk直到chunk长度为0时跳出循环。
然后while循环中有个for循环这个循环是RC4算法的第二部分,伪随机序列产生算法(Pseudo Random Generation AlgorithmPRGA),每次从S盒选取一个元素输出并置换S盒便于下一轮取出,取出来的伪随机序列就是RC4算法的密钥流
最后依次关闭文件对象m和f,否则可能会导致文件出現错误
RC4加密算法:《网络安全原理与应用》2.4.3节
使用方式为:运行该程序,输入ncm文件保存的路径然后回车即可。