博客

时光●漫步●那一年

数月前买了一台桌面mini音响,那天翻出来《Nirvana:Unplugged in New York》,大概是十年前买的盗版 CD,结果放到 Plateau 的时候放不下去了,盘面被划伤了。虽然我对乐器一窍不通,但听 Unplugged in New York 总能给人带来一种扒带的冲动,这兴头突然被终止,非常不爽,于是寻找看有没有什么替代品。

结果发现这张《那一年》,它是我弟很久以前丢在我这里的。我以前对许巍的印象只限于,气氛还算接近 Nirvana,于是丢进唱机里。和完全不同,《那一年》里面没有绝望的低吟,换的是爱的欢乐和彷徨。不晦涩,很好听。

第二天去订《Unplugged in New York》,顺手搜索了一下许巍的专辑,决定把《时光·漫步》买回来听听,结果彻底被许巍征服了。

我的整个高中是被港台音乐毒害的,到北方上学后耳朵一下子被拓宽,每天听刚推出的中国歌曲榜。先是红星推出的赤裸裸,然后是魔岩三杰。尤其是《黑梦》,第一次体会到专辑的概念完整性。接着我阴差阳错的选择了和别人合买了一台 PC,而不是去买一把吉他,这辈子的生活道路就这么确定下来了。

然后是我弟也来了北方,他开始给我供应磁带。我记得的有《无能的力量》,《伍佰夏夜晚风》,最后是我买了一张甲壳虫纪念专辑《ONE》,摇滚音乐就从我生活中消失了。

回过头来说许巍,我没有听过专辑《在别处》,但从可以推想他的风格。许巍的音乐变化和我的成长很类似,好像我跨越的这10年许巍都完整的用他的音乐表达出来的。后来看乐迷的评论,这种人生轨迹的契合是我们喜欢许巍的最大原因。

音乐诗人许巍,这是我给他的定义。

Topic: 音乐

Python ctypes 里使用 create_string_buffer, addressof, string_at

已经写了一篇 blog 里面介绍了如何传入结构体指针的方法,而前不久发现了另外一种传入一整块 buffer 的方案,不用定义 Structure class,直接类似 malloc 那样的方法去执行,就是 create_string_buffer addressof string_at 系列函数,感觉更接近底层调用.

首先修正上篇文档里面的一个问题,就是 load 这个方法已经取消了(当时我使用的好像是 0.9.9.3 版的 ctypes),LoadLibrary 这个接口随着 ctypes 1.0 的发布并被集成进 python 2.5,应该是正式确定了名称。

其次注意的是根据源代码里面对函数不同的声明,还得选择采用 cdll 还是 windll 来实例化一个动态库,用 WINAPI 声明的函数需要用 windll.LoadLibrary(dll_file_path)。因为不同的声明导致参数传递的方法不一样,我自己就是费了好长时间的尝试,才搞清楚为什么总是报错"rocedure called with not enough arguments (xx bytes missing) or wrong calling convention"。ctypes 的手册里面还提到另外有 oledll, pydll 两种类型.

如果一个 dll 里面即有普通方法定义的函数,也有 WINAPI 定义的函数,而你只希望只 Load 一次动态库,那么就需要 WINFUNCTYPE 或者 CFUNCTYPE 这样的方法来指定不同的函数类型了。

大家都应该机器上安装 XviD 解码器了吧,:)
现在我们分别用两个不同的方法取出 XviD 编码器的缺省配置(C 源代码参考 xvidcore-x.y.z\vfw\src\driverproc.c)

  1. from ctypes import *
  2. DriverProc = windll.LoadLibrary("c:\\windows\\system32\\xvidvfw.dll").DriverProc
  3.  
  4. configsize = DriverProc(c_int(0), c_int(0), c_int(0x5000), c_voidp(0), c_voidp(0))  
  5. # 获取结构体大小 configsize
  6.  
  7. did = DriverProc(c_int(0), c_int(0), c_int(0x0003), c_voidp(0), c_voidp(0))
  8. # 获取访问句柄 did
  9.  
  10. config = create_string_buffer(configsize, configsize)
  11. # 创建 buffer, 返回一个 Python 对象
  12.  
  13. pconfig = addressof(config)
  14. # buffer 的地址,让我想起了 C 里面的 &
  15.  
  16. DriverProc(c_int(did), c_int(0), c_int(0x5000), pconfig, c_voidp(0))
  17. # 这次调用就是把缺省配置复制到传入的内存区域内
  18.  
  19. s = string_at(pconfig, configsize)
  20. # 最后我们从 pconfig 地址里的内容生成一个字符串对象出来

上面的代码通过 cdll + WINFUNCTYPE 来写就是

  1. from ctypes import *
  2. from ctypes.wintypes import *
  3. xvidvfw = cdll.LoadLibrary("c:\\windows\\system32\\xvidvfw.dll")
  4. # 看好了,这里可用的是 cdll
  5.  
  6. prototype = WINFUNCTYPE(LONG, DWORD, DWORD, UINT, LPARAM, LPARAM)
  7. # LONG 是返回值,DWORD, DWORD, UINT, LPARAM, LPARAM 是参数列表
  8.  
  9. paramflags = (1, "driverid", 0), \
  10.              (1, "hdriver", 0), \
  11.              (1, "umsg", 0), \
  12.              (1, "para1", 0), \
  13.              (1, "para2", 0)
  14. # 设定一下参数表,以及缺省参数,就可以用 key=value 的方式来传递了
  15.  
  16. x = prototype(("DriverProc", xvidvfw), paramflags)
  17. # ...
  18. configsize = x(umsg=0x5000)
  19. # 这里只传入一个参数,其它的就自动用缺省的了;而且无需 c_int 这样来转换
  20. did = x(umsg=0x0003)
  21. # .... 以下就不需要注释了吧
  22. config = create_string_buffer(configsize, configsize)
  23. pconfig = addressof(config)
  24. y = x(driverid=did, umsg=0x5000, para1=pconfig)
  25. s = string_at(pconfig, configsize)

最后要说的是通过 dumpbin.exe /exports dll_file_path,就可以查看一个 dll 里面有哪些函数是被 export 出来,可以给我们来调用的(我自己猜测) . dumpbin.exe 可以从 masm32 里面免费获得

update: 在上述第一个例子里面,传入的参数用 addressof 去做一次转换并不是必须的. 可能 ctypes 会在内部自动处理

Topic: 技术

Win32 下的音视频软件(开源的和免费的)

下面是科普时间...

LAME
lame 号称是这个星球上 MP3 编码音质最佳的编码器,而且是 GPL 的.

在我的 DV-2-XviD 里面也是采用 lame.exe 来压缩 DV 的音频的。除了 lame .exe 这个命令行工具外,这里可以找到很多基于 lame 的程序。我现在使用的是 winLAME,它除了支持文件转换外,还可以 rip CD,包括去 freedb.org 上寻找 CD 信息,至少我刚从卓越买来的《Unplugged in New York》和《时光漫步》都能被正确识别出来

ffdshow 和 FFmpeg
FFmpeg是一款强大到有些变态的多媒体编码库。它是在 Linux 下开发的,核心是 libavcodec(就是win32下说的Codecs) 和 libavformat(用于文件格式的处理),ffmpeg 只是其前端命令行程序。由于专利权问题(大部分影音编码都是有专利的),Linux 发行版本通常不会把 ffmpeg 作为发行缺省部分。
ffdshow 从其命名来看应该是脱胎于 ffmpeg,主要的解码库也用的是 libavcodec,可以说是 ffmpeg 的 DirectShow 版本。当然随着发展,它已经远远不限于 livavcodec 了,还增加了许多后处理的特性以增强低质量视频的播放效果。要说的是这些特性也多半来自 Mplayer——另一个 Linux 下开发的媒体播放器项目,其实 Linux 下多媒体处理还是很棒的。

BTW,从 Youtube 下载的 flv 格式的文件就是用 ffdshow 来enable相应的 decoder filter 就可以了.

AviSynth
AviSynth 简直可以用神奇来形容。首先解释一下 Frame Server 的概念,通常我们所谓的多媒体处理都是直接处理文件,处理网络媒体流的现在也很常见,那么 Frame Server 就可以说是生成"程序媒体流 or 来自程序的媒体流"的程序。再举一个例子,我们访问 http 服务器请求的只是一个 URL,但是这个 URL 里面可能囊括了图片、视频,现在还有 AJAX 程序... 最终组织成一个丰富多彩的页面;AviSynth 就是一种这样的服务器,它对外展示的只是一个 .avs 脚本,但这个脚本则可以把原视频文件做各种各样的处理,打开这个 .avs 文件得到的就是做过处理以后的视频流。
通常那些压缩 DVD 的人都要写 avs 脚本来去拉丝修改分辨率,渲染一下比如加亮度.. 后,再调用 Codecs 来压缩 avs 流.
AviSynth 目前只能在 Win32 上工作,不过支持 Linux 的 AviSynth 3.0 正在开发中,3.0 还将包括一个 Gstreamer 插件.

另一个有关的消息是 AviSynth 似乎打算放弃维护自己的脚本引擎,而会改用 Python

VirtualDubMod 和 VirtualDub
由于专利问题,VirtualDub 一直拒绝直接支持 MPEG-2 文件的处理,但人们的需求是压缩 DVD,于是就有了一票修改版本们的出现,VirtualDubMod 便是其中的佼佼者,它除了支持 MPEG2 以外,还增加了支持 VBR MP3 等特性。
虽然 VirtualDub/VDubMod 号称是一个视频捕获和处理程序(包括视频编辑),但我一直都用的是它的命令行功能:和 avs 类似,写一段小的 vdub 脚本,然后交给 vdub 去执行。在我的 DV-2-XivD 程序里面,整套执行流程如下:
 1. 写一个 vdub 脚本,将 PCM/Wav 格式的音频从 DV avi 里面分离出来
 2. 调用 lame,将声音压缩成 mp3
 3. 写一个 vdub 脚本,将 DV avi 做 XviD 的 1-pass 压缩,生成 stat 文件

 4. 写一个 vdub 脚本,执行 2-pass 压缩,并且和 mp3 文件 合并到最后的 avi 文件里.

AutoGK 和 DVDdecrypter
上面介绍的全都是 GPL or LGPL 的软件,现在来介绍两个免费软件(freeware)
虽然已经有了很多工具,但把一张 DVD 制作成一张 700M 的 XviD/DivX 还是很麻烦的,于是就有了 Gordian Knot 这个软件包,但我实在搞不明白 Gordian Knot 这个名字是自嘲,还是标榜自己是亚历山大之剑那样的解决方案。
事实上 AutoGK 才是真正的亚历山大之剑,它和 DVDdecrypter(原站点 DVDDecrypter.com 已经在压力下关闭了)的配合可以说天衣无缝,很轻松就能把 DVD 压缩好。我家那些宝宝反复看的 DVD 全都是这么处理的,而且不再担心盘片被宝宝弄坏.

我的 DV-2-XviD 也是来源于 AutoGK,包括 vdub 脚本,我也是学着 autogk 的中间处理结果来生成的.

Celtic Druid
这个不是软件,而是一个网名。这个家伙最擅长的就是在 win32 下 build 从 cvs 里 checkout 出来的代码并发布,doom9 这样的论坛经常可以看到大家谈论 Celtic_Druid build,AutoGK 通常就用他编译的 XviD。

原始站点(celticdruid.no-ip.com/)被 GFW 了,不明白为什么.. 不过还是有很多 mirror 可以访问,很容易可以搜索到。他编译的包括:Media Player Classic、ffdshow、XviD、x264...

====================================

最后是广告时间...

DV-2-XviD
用 Python 写成,GPL
功能是合并多个 DV avi 文件,在画面底部增加拍摄时间码,压缩成 XviD.
目前已知的问题包括:
 1. 只能和 xvid-1.1-test2 一起工作 :(
 2. 压缩 XviD 的文件大小控制有问题

 3. wxPython 窗口在压缩过程中会失去响应

原来我的 DV 是压缩成 MPEG2/SVCD 保存的(而且是用的没有合法许可的软件),最近一年多以来,开始用 XviD 压缩,感觉不错。计划修补完上述缺陷后,再考虑是不是改成 MPEG4 AVC 方案,比如 x264,如果这样的话,这个项目的名字可能也需要改成 DV-2-MPEG4,或者 DVgk?

Topic: 技术

AVI 文件格式(dv_info.py 的文档)

首先声明:本文的内容都是我从开发过程中总结出来的,以我的理解在尽可能短的篇幅里对 DV AVI 文件的分析作介绍。真要作开发还需要参考原始的文档。

AVI 文件总是以 12 个字节开始的,就是 'RIFF' + size + 'AVI '。这里 size 是一个 4 字节的整数,声明其后的字节数(包括'AVI '这4个字节数)

现在问题就出来了,这样的格式就是限定了 size 的最大取值只能是 4G,后来人们就扩展了 AVI 的结构——当分析到声明的字节数后,如果后面是扩展格式,那么就继续分析。

扩展部分类似 AVI 的格式,只不过从 'AVI ' 变成了 'AVIX',而且可能有多个扩展部分。因此这一部分的分析代码就是:

head = struct.unpack('<4sI4s', avifile.read(12))
if head[0] != 'RIFF' or head[2] != 'AVI ':
return None
while True:
xread = readChunk(avifile, head[1]-4, 0) # 分析剩余的数据
s = avifile.read(12)
if 0 == len(s): # 如果没有什么可读的了,自然是分析完了
break
head = struct.unpack('<4sI4s', s)
if head[0] != 'RIFF' or head[2] != 'AVIX':
break

由于 AVI 内部嵌套的数据块的格式也类似 4bytes info + size + data 这样的结构,因此 readChunk 被设计成一个递归函数,返回值为 0 或 -1,中途解析失败就返回 -1,根据此返回值退出嵌套调用。(回过头来看这样一段程序,递归调用分析的可读性很糟糕,主要是因为开始编程的时候对 Python 没有太多的认识所致)

可能是为了便于编程,各个数据块被设计成 4 字节对齐的,但 data 的大小未必是 4 的整数倍,从文件中读出来的 size 只是表示 data 的长度,有时候必须计算对齐。下面两行语句就是作这个的:

page = (head[1] - 1)/4
chunksize = (page + 1) * 4

为了便于播放器去 seek 一个特定的位置,比如从文件的第 12 分 32 秒开始播放,需要一个索引方案可以快速定位到相应的数据。这就是 'idx1' chunk 里面定义的东东。但传统的定义里面偏移量最大只能为 4G,因此扩展格式里面增加了 super index,或者说 index 的 index,里面可以放 longlong 的 64 位整数来避免这种寻址困境,估计在我有生之年都不会有这么大个的数据文件问世。

readChunk 函数的主要功能就是生成一个 index 列表,然后从这个列表的最前面和最后面分别 seek 到相应的数据存储区域,找出时间码。如果发现 AVI 里面有 super index,就在 readChunk 返回后,再根据 super index 生成 index 列表。程序里面这个列表变量名为 offset

分析 DV 格式获取时间的函数是 readtime。DV 可能是每次记录 12000 字节数据(类似磁盘扇区的概念??),因此在每 12000 字节数据里面都会存储一个时间码。我的当时参考的代码里面在每个 index 指向的数据块里循环了 15 次还是 10 次,但我发现我这里只能循环 12 次就碰到了数据的尽头,后来估计是 PAL/NTSC 的差异,也就没有继续追究下去。

Topic: 技术

dada 最新语录

爷爷带她经过游泳池,问她想不想去游泳,回答不会。爷爷说可以去学,奶奶和她一起学,回答:一个太小,一个太老,有点难.

呵呵,上个月奶奶还发现她照镜子用毛笔对着自己的眉毛描来描去,不晓得是学谁的样.

另:今天下午看到了彩虹,记忆中是这辈子第一次看到彩虹,而且是很壮观的彩虹,几乎横跨整个天际,仔细看还能看到另一道很浅颜色的彩虹.. 同时两道彩虹,哇!!

Topic: 生活

AVI 介绍

计划把这一年多以来业余作 Python 相关开发的一些知识整理一下,这是第一篇。

迄今还记得第一次看到的 AVI 文件,在 windows 3.1 上,一个邮票大小的窗口里,一个人(男女实在看不清楚)在滑帆板。那是我们不知道从哪里弄来的一个软件包(当然现在知道是一个 VFW 驱动)里面附带的一个 sample,宣称装了这个东东后计算机就进入多媒体时代;随着后来 .dat/.mpg (VCD) 的流行,对比下 avi 给我的印象就成了落后,低质量的代名词。

进入 BT 时代后,突然就发现下载来的电影文件几乎都是 avi 文件,通常是 700MB,就拥有不输于 DVD 4G 容量的数据所包括的音视频质量。就有了这么一个疑问——AVI,它到底是个什么玩意儿。

专业的回答是这样的:AVI 是一种容器(container)格式。通常来说没有把音视频一起编码的方案(用大脚趾都能想到同时编码的效率一定不高),而是独立编码,然后打包在这样一个容器里面,做成一个单独的文件供人使用。播放的时候首先将容器里包含的不同的数据流分离出来(splitter),再交给不同的引擎(Codecs)去解码(decode),播放器还得根据容器包装的规则让视频音频能同步起来。我们现在使用的那些 avi 文件准确说是包括了 XviD/DivX 压缩的视频流和 AC-3 or MP3 音频流的 container .. 随 XP/2000 提供的缺省多媒体附件包括一个 avi 的 splitter,以及一个 mp3 的 decoder。只要再安装一个 XviD 的解码器和一个 AC-3 的解码器基本上就可以看所有的影片了。

事实上 rmvb 也是一个 container,无需 real 播放器,有一个 rmvb splitter 和合适的 codecs,就可以在任何支持 dshow 的播放器欣赏 rmvb 了;DVD 上的 .vob 就是另外一种容器,里面除了 MPEG-2 图象和 DTS/Dolby 音频外,还会包括 n 条字幕流。

言归正传,qyb 为什么要研究 AVI 格式呢?因为在 DV-2-XviD 这个软件的功能里面,有个需求就是从 DV 抓取的 AVI 文件里面,获取拍摄该视频当时的时间。我要作的事情一是把视频流从 AVI 里面分离出来,然后再从视频流里面获得保存在里面的时间戳。

网上很容易可以搜索到一篇关于 AVI 格式的文档(链接是一个 pdf 文件!),它组织的很好,是我一开始起步时的主要参考,但后来处理 >1G AVI 文件的时候感觉这篇文档描述并不清楚。最后还是依靠这篇完成了 avi 分析部分。

本期科普工作到这里结束,计划下一期简单汉化一下 AVI 相关文档... 可能更类似程序文档吧。

Topic: 技术

山东行流水帐6

今天起得不算太早,收拾屋子,打扫卫生,力争恢复它我们来扫荡之前的风貌。在锁好楼上楼下的门窗后,我们与海景房告别。计划去蓬莱阁转转,然后参加新娘家的午宴,最后打道回府。

旅游城市的路标做得不错,没进市区就看见专门的旅游景点标示牌了。按照路标直奔蓬莱阁,沿着海边的公路经过八仙过海口(PP),在蓬莱阁外面的停车场下车。天空下着毛毛细雨,我们各自行动。看样子大伙都对眼前的蓬莱阁(PP)没什么兴趣,只是打算逛逛纪念品市场,买点珍珠项链什么的。

到了中午时分我们离开蓬莱阁前还发生了一个小小的意外,耽误了一些时间。午宴上看到海鲜我敬而远之,只吃了以前没吃过的鲍鱼一只。喜烟自然要让新娘来点,喜酒自然要让新郎来敬。我们四个男生,两个司机,另一个是后备司机,说不定也要开车,我代表他们喝酒看样子是推托不掉了。新郎拿着手上的金六福往我喝饮料的玻璃杯里倒酒,当他倒了三分之一时,我连忙阻止,没听我的。我心想,随便吧,反正多的我肯定喝不了。他继续,倒了满满一杯。然后也给自己倒了一杯。同时举杯,我喝了一大口,放下杯子,看见他正仰着脖子,咣咣咣,把酒喝完,然后看着我。我暗暗感觉了一下,觉得这酒没有很高的度数,估计能搞定,拿起杯子,把剩下的一饮而尽。在座的大伙都知道我的量,看到先是一惊,然后都明白了——新郎手上拿的瓶子里肯定有@#……&%。我这个代表这回当的是轻松顺利,新郎真是厚道人啊,哈哈。

吃完饭,大概一点半,告别新郎新娘,我们上路。回去的路程大概有一千一百公里,中途休息了三四次,晚上十一点有惊无险地到达北京。我们找了一家马兰拉面,吃饭,算账,每人花了一千一百三十几。所有人都累得够呛,特别是司机。大伙散了,回去休息五一七天假的最后一天。至此二○○六年五一黄金周山东行胜利结束。

附:五月七日,蓬莱海边出现海市蜃楼

Topic: 生活

十年前的感觉

北京今年雨确实多。

早上听天气预报,傍晚有阵雨。按我的经验,如果天气预报这么说,傍晚肯定没有雨,晚上就不一定了。估计傍晚应该能下班,于是骑车,并且没拿伞。

六点半,吃了正午的盘子,还有点活,没有立即走,这时已经把晚上可能下雨的事忘光光了。到了八点多,雨哗的就下下来了,而且不小。想到我的捷安特Hunter-2型爱车这已是第三次淋雨了,心一阵阵发痛。事已至此,没有办法了。

九点多跟同事一起下楼,看到门厅好些人,原来是叫不到出租车。等了半天,车也没叫进来两辆。这时又来了一个住处跟我离得很近的同事,我看雨已经变得小些了,对他说,干脆一起骑回去得了,车也少淋半宿雨。他稍一思索同意了我的建议。两人步入雨中。

同事:“回去不会感冒吧?”

我:“高中夏天那雨,出去五秒,全身湿透透,还不是照骑,从没感过冒,呃——得有十年了吧。”

同事:“十年,十年前你多棒啊,现在——老了!”

我:……

下雨,路上还是要慢慢骑,安全第一。

十年前的感觉,真爽!

Topic: 生活

Onmyōji


呵呵,也用一次搞怪的标题... Onmyōji (陰陽師, 或者说 Yin-Yang Masters),

前两天一口气把梦枕貘的阴阳师看完, 确实是一部"抓人的小说", 非常精彩不忍释卷. 前言里面提到的鲁迅评《三国》里的诸葛亮:"状诸葛之多智而近妖" .. 呵呵,鲁迅是不是因为深深受日本文化影响,所以才有这样的结论呢?反正在光荣的三国志英杰传里面就叫妖术师;还有玩PS2上的三国无双,里面关于诸葛的CG画面羽扇纶巾,说不出的妖异。日本对这类人物事件的解析还是挺独特的。

鬼故事能写到这个份上,已经是极至了。其中的灵异事件未必很扣人心弦,但作者把平安时期的文化风貌刻画的精致飘逸. 不耐心看源氏物语的,可以从此小说一窥当时的贵族生活。上网搜了搜关于这本小说的信息,发现谈论电影的也大有人在,尤其是大家对狂言师野村万斋饰演的安倍情明更是赞不绝口,不由得生了极大的好奇心,想弄张 DVD 来看看这个号称可以媲美于张国荣的美男子.

关于阴阳师这个很有前途的职业,很早很早以前看《东京巴比伦》的时候就知道了,现在只记得那个叫皇昂流的阴阳师很 COOL,几乎都要忘了里面还有暧昧的同性爱. 小说《阴阳师》里面主角也是两个男人,关系虽然比较隐讳,但从作者强烈要求野村万斋来演电影来看,他还是觉得需要强调一下这两个男人之间的感情吧。不得不承认日本文化的骨子里就有赞赏男子美和同性之爱的强烈倾向。

Topic: 文化 生活

下届青歌赛会有戏剧类吗?

第十二届中国青年歌手电视大奖赛已经收了尾。上上周四偶然看电视,原生态唱法四场决赛已比到最后一场,为没有看到前三场后悔不已。上上周六看了一场民族唱法的比赛。

我注意了一下,民族唱法的比赛中有一半数量的歌的曲子都是由两个人共同创作的,他们可真够“高产”的。其中一个人坐在评委席上。这些歌明显比其他的歌难听。一个人演唱水平再高,可是歌旋律不好,我想在评委中的印象都是要打折扣的。

民族唱法的选手们不知是紧张还是什么别的原因,演唱完回答综合知识里面的听辨题,对音高和节奏的辨别大部分人还不如我。

今年的比赛在去年的民族、美声、通俗三类上增加了原生态、组合这两类。我想到一个问题,美声唱法是怎么来的,应该是源自欧洲的歌剧。在中国能够欣赏美声的观众很多吗?我看不一定有喜爱京剧的人数多,为什么作为中国戏剧的京剧不能作为大奖赛的一类?这不是崇洋媚外吧,也许下次大奖赛会增设戏剧类比赛。

Topic: 音乐
订阅 RSS - 博客 | BT的花