当前位置

qyb的博客

远程控制 PC

刚工作的时候,接触网管系统,就知道先进的系统都支持报警模式。最初很不明白,软件怎么去向人报警呢?后来韩爽姐姐和冰河哥哥教育我,这个东西可以接一个modem,然后向寻呼机发一条呼叫(估计只能支持自动台了)。立时做顿悟状,幻想某天晚上睡梦中被一条寻呼信息惊醒,然后直扑图书馆或化学楼的 5505

后来接触湖南的项目,局方有一变态的需求,要邮件系统的监控程序可以实现声光报警。我看了需求很诧异这个东西是怎么答应下来的,于是问 ray 同学,回答是计划调用 mpg123 之类的东西放首歌,至于光报警的实现方式,还没有太想好(后来看到的 MIT 学生自制的 Disco Dance Floor 到是一个不错的方案)。

上面说的是利用 PC 的声卡/音箱、串口来产生信息的方案,但是有谁考虑过怎样远程控制 PC 产生动能呢??

请看 Engadget 的自动猫咪喂食器

Topic: 

周末腐败

都是家庭内部活动,老婆,小姨子,我弟,加上我一共4人.

周六下午去 K 歌,。去的是住处附近的京师大厦. 巨大的房间(放下10个人绰绰有余),从 15:00 开唱到 20:00, 只要 80RMB, 好便宜. 不这么便宜当然就不包括吃东西啦,需要自己去买.

音响效果不好,想要唱的开心并不推荐去那里。但它硬件设备做的好玩,有"鼓掌" "欢呼" "倒彩" 等按键。

发现了在钱柜和麦乐迪都没有的歌:《用手走路》 , HAHA.. 加上以前从来没有唱过的林子祥的敢爱敢恨, 这次还算是玩的不错.

周日晚上去必胜客,照例要了一个沙拉,然后去费劲的垒起来,仍只是垒了两层就摇摇欲坠只好放弃了.

然后我想了一个恶搞的主意:随便弄一碗沙拉,吃完以后把碗舔干净,然后再去盛不就行了么?何必一层一层这么麻烦

然后 qyt 同学教育我:何必舔干净,套上塑料袋岂不是更好?

Topic: 

QQ-YY-BT 的国米写真

二周前,我们兄弟俩各买了一件国际米兰的T-shirt. 距当初到服装街给我们班球队买国米球服已经是过了整整 10 年.

虽然是在 nike 买的,但是袖口上莫明其妙绣的是英格兰的圣乔治旗的图案. 今天下午拍了一套身穿此 T-Shirt 的写真。呵呵,好久没有如此大规模的拍照片了. 照片上载到了我的 Picasa Web Albums

下面是一段典型的邱氏兄弟对话:

qyb: 如果你脸再尖一点就比我帅了

qyt: 。。。。。。放屁

附件大小
图像图标 guomi_collage.jpg68.66 KB
Topic: 

Internet Explorer 7 RC1 推出

两个感想:

1. 必须开始重视 IE 7 了,马上我们就会面对一个更加混乱的世界。如果是新起步的网站其实优势还是很大,现在开发界面只需要考虑兼容 IE7 和 Firefox 就好,产品成熟后估计 IE6 就要走下坡路了。

2. 作为开发者还是需要英文版的操作系统,因为现在只有 IE7rc1 的英文版可用。不晓得我的 R51e 的 COA 是否许可我去安装一个英文版的 xp home edition.

Topic: 

时光●漫步●那一年

数月前买了一台桌面mini音响,那天翻出来《Nirvana:Unplugged in New York》,大概是十年前买的盗版 CD,结果放到 Plateau 的时候放不下去了,盘面被划伤了。虽然我对乐器一窍不通,但听 Unplugged in New York 总能给人带来一种扒带的冲动,这兴头突然被终止,非常不爽,于是寻找看有没有什么替代品。

结果发现这张《那一年》,它是我弟很久以前丢在我这里的。我以前对许巍的印象只限于,气氛还算接近 Nirvana,于是丢进唱机里。和完全不同,《那一年》里面没有绝望的低吟,换的是爱的欢乐和彷徨。不晦涩,很好听。

第二天去订《Unplugged in New York》,顺手搜索了一下许巍的专辑,决定把《时光·漫步》买回来听听,结果彻底被许巍征服了。

我的整个高中是被港台音乐毒害的,到北方上学后耳朵一下子被拓宽,每天听刚推出的中国歌曲榜。先是红星推出的赤裸裸,然后是魔岩三杰。尤其是《黑梦》,第一次体会到专辑的概念完整性。接着我阴差阳错的选择了和别人合买了一台 PC,而不是去买一把吉他,这辈子的生活道路就这么确定下来了。

然后是我弟也来了北方,他开始给我供应磁带。我记得的有《无能的力量》,《伍佰夏夜晚风》,最后是我买了一张甲壳虫纪念专辑《ONE》,摇滚音乐就从我生活中消失了。

回过头来说许巍,我没有听过专辑《在别处》,但从可以推想他的风格。许巍的音乐变化和我的成长很类似,好像我跨越的这10年许巍都完整的用他的音乐表达出来的。后来看乐迷的评论,这种人生轨迹的契合是我们喜欢许巍的最大原因。

音乐诗人许巍,这是我给他的定义。

Topic: 

Python ctypes 里使用 create_string_buffer, addressof, string_at

已经写了一篇 blog 里面介绍了如何传入结构体指针的方法,而前不久发现了另外一种传入一整块 buffer 的方案,不用定义 Structure class,直接类似 malloc 那样的方法去执行,就是 create_string_buffer addressof string_at 系列函数,感觉更接近底层调用.

首先修正上篇文档里面的一个问题,就是 load 这个方法已经取消了(当时我使用的好像是 0.9.9.3 版的 ctypes),LoadLibrary 这个接口随着 ctypes 1.0 的发布并被集成进 python 2.5,应该是正式确定了名称。

其次注意的是根据源代码里面对函数不同的声明,还得选择采用 cdll 还是 windll 来实例化一个动态库,用 WINAPI 声明的函数需要用 windll.LoadLibrary(dll_file_path)。因为不同的声明导致参数传递的方法不一样,我自己就是费了好长时间的尝试,才搞清楚为什么总是报错"rocedure called with not enough arguments (xx bytes missing) or wrong calling convention"。ctypes 的手册里面还提到另外有 oledll, pydll 两种类型.

如果一个 dll 里面即有普通方法定义的函数,也有 WINAPI 定义的函数,而你只希望只 Load 一次动态库,那么就需要 WINFUNCTYPE 或者 CFUNCTYPE 这样的方法来指定不同的函数类型了。

大家都应该机器上安装 XviD 解码器了吧,:)
现在我们分别用两个不同的方法取出 XviD 编码器的缺省配置(C 源代码参考 xvidcore-x.y.z\vfw\src\driverproc.c)

  1. from ctypes import *
  2. DriverProc = windll.LoadLibrary("c:\\windows\\system32\\xvidvfw.dll").DriverProc
  3.  
  4. configsize = DriverProc(c_int(0), c_int(0), c_int(0x5000), c_voidp(0), c_voidp(0))  
  5. # 获取结构体大小 configsize
  6.  
  7. did = DriverProc(c_int(0), c_int(0), c_int(0x0003), c_voidp(0), c_voidp(0))
  8. # 获取访问句柄 did
  9.  
  10. config = create_string_buffer(configsize, configsize)
  11. # 创建 buffer, 返回一个 Python 对象
  12.  
  13. pconfig = addressof(config)
  14. # buffer 的地址,让我想起了 C 里面的 &
  15.  
  16. DriverProc(c_int(did), c_int(0), c_int(0x5000), pconfig, c_voidp(0))
  17. # 这次调用就是把缺省配置复制到传入的内存区域内
  18.  
  19. s = string_at(pconfig, configsize)
  20. # 最后我们从 pconfig 地址里的内容生成一个字符串对象出来

上面的代码通过 cdll + WINFUNCTYPE 来写就是

  1. from ctypes import *
  2. from ctypes.wintypes import *
  3. xvidvfw = cdll.LoadLibrary("c:\\windows\\system32\\xvidvfw.dll")
  4. # 看好了,这里可用的是 cdll
  5.  
  6. prototype = WINFUNCTYPE(LONG, DWORD, DWORD, UINT, LPARAM, LPARAM)
  7. # LONG 是返回值,DWORD, DWORD, UINT, LPARAM, LPARAM 是参数列表
  8.  
  9. paramflags = (1, "driverid", 0), \
  10.              (1, "hdriver", 0), \
  11.              (1, "umsg", 0), \
  12.              (1, "para1", 0), \
  13.              (1, "para2", 0)
  14. # 设定一下参数表,以及缺省参数,就可以用 key=value 的方式来传递了
  15.  
  16. x = prototype(("DriverProc", xvidvfw), paramflags)
  17. # ...
  18. configsize = x(umsg=0x5000)
  19. # 这里只传入一个参数,其它的就自动用缺省的了;而且无需 c_int 这样来转换
  20. did = x(umsg=0x0003)
  21. # .... 以下就不需要注释了吧
  22. config = create_string_buffer(configsize, configsize)
  23. pconfig = addressof(config)
  24. y = x(driverid=did, umsg=0x5000, para1=pconfig)
  25. s = string_at(pconfig, configsize)

最后要说的是通过 dumpbin.exe /exports dll_file_path,就可以查看一个 dll 里面有哪些函数是被 export 出来,可以给我们来调用的(我自己猜测) . dumpbin.exe 可以从 masm32 里面免费获得

update: 在上述第一个例子里面,传入的参数用 addressof 去做一次转换并不是必须的. 可能 ctypes 会在内部自动处理

Topic: 

Win32 下的音视频软件(开源的和免费的)

下面是科普时间...

LAME
lame 号称是这个星球上 MP3 编码音质最佳的编码器,而且是 GPL 的.
在我的 DV-2-XviD 里面也是采用 lame.exe 来压缩 DV 的音频的。除了 lame .exe 这个命令行工具外,这里可以找到很多基于 lame 的程序。我现在使用的是 winLAME,它除了支持文件转换外,还可以 rip CD,包括去 freedb.org 上寻找 CD 信息,至少我刚从卓越买来的《Unplugged in New York》和《时光漫步》都能被正确识别出来

ffdshow 和 FFmpeg
FFmpeg是一款强大到有些变态的多媒体编码库。它是在 Linux 下开发的,核心是 libavcodec(就是win32下说的Codecs) 和 libavformat(用于文件格式的处理),ffmpeg 只是其前端命令行程序。由于专利权问题(大部分影音编码都是有专利的),Linux 发行版本通常不会把 ffmpeg 作为发行缺省部分。
ffdshow 从其命名来看应该是脱胎于 ffmpeg,主要的解码库也用的是 libavcodec,可以说是 ffmpeg 的 DirectShow 版本。当然随着发展,它已经远远不限于 livavcodec 了,还增加了许多后处理的特性以增强低质量视频的播放效果。要说的是这些特性也多半来自 Mplayer——另一个 Linux 下开发的媒体播放器项目,其实 Linux 下多媒体处理还是很棒的。
BTW,从 Youtube 下载的 flv 格式的文件就是用 ffdshow 来enable相应的 decoder filter 就可以了.

AviSynth
AviSynth 简直可以用神奇来形容。首先解释一下 Frame Server 的概念,通常我们所谓的多媒体处理都是直接处理文件,处理网络媒体流的现在也很常见,那么 Frame Server 就可以说是生成"程序媒体流 or 来自程序的媒体流"的程序。再举一个例子,我们访问 http 服务器请求的只是一个 URL,但是这个 URL 里面可能囊括了图片、视频,现在还有 AJAX 程序... 最终组织成一个丰富多彩的页面;AviSynth 就是一种这样的服务器,它对外展示的只是一个 .avs 脚本,但这个脚本则可以把原视频文件做各种各样的处理,打开这个 .avs 文件得到的就是做过处理以后的视频流。
通常那些压缩 DVD 的人都要写 avs 脚本来去拉丝修改分辨率,渲染一下比如加亮度.. 后,再调用 Codecs 来压缩 avs 流.
AviSynth 目前只能在 Win32 上工作,不过支持 Linux 的 AviSynth 3.0 正在开发中,3.0 还将包括一个 Gstreamer 插件.
另一个有关的消息是 AviSynth 似乎打算放弃维护自己的脚本引擎,而会改用 Python

VirtualDubMod 和 VirtualDub
由于专利问题,VirtualDub 一直拒绝直接支持 MPEG-2 文件的处理,但人们的需求是压缩 DVD,于是就有了一票修改版本们的出现,VirtualDubMod 便是其中的佼佼者,它除了支持 MPEG2 以外,还增加了支持 VBR MP3 等特性。
虽然 VirtualDub/VDubMod 号称是一个视频捕获和处理程序(包括视频编辑),但我一直都用的是它的命令行功能:和 avs 类似,写一段小的 vdub 脚本,然后交给 vdub 去执行。在我的 DV-2-XivD 程序里面,整套执行流程如下:
 1. 写一个 vdub 脚本,将 PCM/Wav 格式的音频从 DV avi 里面分离出来
 2. 调用 lame,将声音压缩成 mp3
 3. 写一个 vdub 脚本,将 DV avi 做 XviD 的 1-pass 压缩,生成 stat 文件
 4. 写一个 vdub 脚本,执行 2-pass 压缩,并且和 mp3 文件 合并到最后的 avi 文件里.

AutoGK 和 DVDdecrypter
上面介绍的全都是 GPL or LGPL 的软件,现在来介绍两个免费软件(freeware)
虽然已经有了很多工具,但把一张 DVD 制作成一张 700M 的 XviD/DivX 还是很麻烦的,于是就有了 Gordian Knot 这个软件包,但我实在搞不明白 Gordian Knot 这个名字是自嘲,还是标榜自己是亚历山大之剑那样的解决方案。
事实上 AutoGK 才是真正的亚历山大之剑,它和 DVDdecrypter(原站点 DVDDecrypter.com 已经在压力下关闭了)的配合可以说天衣无缝,很轻松就能把 DVD 压缩好。我家那些宝宝反复看的 DVD 全都是这么处理的,而且不再担心盘片被宝宝弄坏.
我的 DV-2-XviD 也是来源于 AutoGK,包括 vdub 脚本,我也是学着 autogk 的中间处理结果来生成的.

Celtic Druid
这个不是软件,而是一个网名。这个家伙最擅长的就是在 win32 下 build 从 cvs 里 checkout 出来的代码并发布,doom9 这样的论坛经常可以看到大家谈论 Celtic_Druid build,AutoGK 通常就用他编译的 XviD。
原始站点(celticdruid.no-ip.com/)被 GFW 了,不明白为什么.. 不过还是有很多 mirror 可以访问,很容易可以搜索到。他编译的包括:Media Player Classic、ffdshow、XviD、x264...

====================================
最后是广告时间...

DV-2-XviD
用 Python 写成,GPL
功能是合并多个 DV avi 文件,在画面底部增加拍摄时间码,压缩成 XviD.
目前已知的问题包括:
 1. 只能和 xvid-1.1-test2 一起工作 :(
 2. 压缩 XviD 的文件大小控制有问题
 3. wxPython 窗口在压缩过程中会失去响应

原来我的 DV 是压缩成 MPEG2/SVCD 保存的(而且是用的没有合法许可的软件),最近一年多以来,开始用 XviD 压缩,感觉不错。计划修补完上述缺陷后,再考虑是不是改成 MPEG4 AVC 方案,比如 x264,如果这样的话,这个项目的名字可能也需要改成 DV-2-MPEG4,或者 DVgk?

Topic: 

AVI 文件格式(dv_info.py 的文档)

首先声明:本文的内容都是我从开发过程中总结出来的,以我的理解在尽可能短的篇幅里对 DV AVI 文件的分析作介绍。真要作开发还需要参考原始的文档。

AVI 文件总是以 12 个字节开始的,就是 'RIFF' + size + 'AVI '。这里 size 是一个 4 字节的整数,声明其后的字节数(包括'AVI '这4个字节数)

现在问题就出来了,这样的格式就是限定了 size 的最大取值只能是 4G,后来人们就扩展了 AVI 的结构——当分析到声明的字节数后,如果后面是扩展格式,那么就继续分析。

扩展部分类似 AVI 的格式,只不过从 'AVI ' 变成了 'AVIX',而且可能有多个扩展部分。因此这一部分的分析代码就是:

  1. head = struct.unpack('<4sI4s', avifile.read(12))
  2. if head[0] != 'RIFF' or head[2] != 'AVI ':
  3.     return None
  4. while True:
  5.     xread = readChunk(avifile, head[1]-4, 0)  # 分析剩余的数据
  6.     s = avifile.read(12)
  7.     if 0 == len(s):                           # 如果没有什么可读的了,自然是分析完了
  8.         break
  9.     head = struct.unpack('<4sI4s', s)
  10.     if head[0] != 'RIFF' or head[2] != 'AVIX':
  11.         break

由于 AVI 内部嵌套的数据块的格式也类似 4bytes info + size + data 这样的结构,因此 readChunk 被设计成一个递归函数,返回值为 0 或 -1,中途解析失败就返回 -1,根据此返回值退出嵌套调用。(回过头来看这样一段程序,递归调用分析的可读性很糟糕,主要是因为开始编程的时候对 Python 没有太多的认识所致)

可能是为了便于编程,各个数据块被设计成 4 字节对齐的,但 data 的大小未必是 4 的整数倍,从文件中读出来的 size 只是表示 data 的长度,有时候必须计算对齐。下面两行语句就是作这个的:

  1. page = (head[1] - 1)/4
  2. chunksize = (page + 1) * 4

为了便于播放器去 seek 一个特定的位置,比如从文件的第 12 分 32 秒开始播放,需要一个索引方案可以快速定位到相应的数据。这就是 'idx1' chunk 里面定义的东东。但传统的定义里面偏移量最大只能为 4G,因此扩展格式里面增加了 super index,或者说 index 的 index,里面可以放 longlong 的 64 位整数来避免这种寻址困境,估计在我有生之年都不会有这么大个的数据文件问世。

readChunk 函数的主要功能就是生成一个 index 列表,然后从这个列表的最前面和最后面分别 seek 到相应的数据存储区域,找出时间码。如果发现 AVI 里面有 super index,就在 readChunk 返回后,再根据 super index 生成 index 列表。程序里面这个列表变量名为 offset

分析 DV 格式获取时间的函数是 readtime。DV 可能是每次记录 12000 字节数据(类似磁盘扇区的概念??),因此在每 12000 字节数据里面都会存储一个时间码。我的当时参考的代码里面在每个 index 指向的数据块里循环了 15 次还是 10 次,但我发现我这里只能循环 12 次就碰到了数据的尽头,后来估计是 PAL/NTSC 的差异,也就没有继续追究下去。

Topic: 

dada 最新语录

爷爷带她经过游泳池,问她想不想去游泳,回答不会。爷爷说可以去学,奶奶和她一起学,回答:一个太小,一个太老,有点难.

呵呵,上个月奶奶还发现她照镜子用毛笔对着自己的眉毛描来描去,不晓得是学谁的样.

另:今天下午看到了彩虹,记忆中是这辈子第一次看到彩虹,而且是很壮观的彩虹,几乎横跨整个天际,仔细看还能看到另一道很浅颜色的彩虹.. 同时两道彩虹,哇!!

附件大小
图像图标 dada060815_dup2.JPG64.5 KB
Topic: 

AVI 介绍

计划把这一年多以来业余作 Python 相关开发的一些知识整理一下,这是第一篇。

迄今还记得第一次看到的 AVI 文件,在 windows 3.1 上,一个邮票大小的窗口里,一个人(男女实在看不清楚)在滑帆板。那是我们不知道从哪里弄来的一个软件包(当然现在知道是一个 VFW 驱动)里面附带的一个 sample,宣称装了这个东东后计算机就进入多媒体时代;随着后来 .dat/.mpg (VCD) 的流行,对比下 avi 给我的印象就成了落后,低质量的代名词。

进入 BT 时代后,突然就发现下载来的电影文件几乎都是 avi 文件,通常是 700MB,就拥有不输于 DVD 4G 容量的数据所包括的音视频质量。就有了这么一个疑问——AVI,它到底是个什么玩意儿。

专业的回答是这样的:AVI 是一种容器(container)格式。通常来说没有把音视频一起编码的方案(用大脚趾都能想到同时编码的效率一定不高),而是独立编码,然后打包在这样一个容器里面,做成一个单独的文件供人使用。播放的时候首先将容器里包含的不同的数据流分离出来(splitter),再交给不同的引擎(Codecs)去解码(decode),播放器还得根据容器包装的规则让视频音频能同步起来。我们现在使用的那些 avi 文件准确说是包括了 XviD/DivX 压缩的视频流和 AC-3 or MP3 音频流的 container .. 随 XP/2000 提供的缺省多媒体附件包括一个 avi 的 splitter,以及一个 mp3 的 decoder。只要再安装一个 XviD 的解码器和一个 AC-3 的解码器基本上就可以看所有的影片了。

事实上 rmvb 也是一个 container,无需 real 播放器,有一个 rmvb splitter 和合适的 codecs,就可以在任何支持 dshow 的播放器欣赏 rmvb 了;DVD 上的 .vob 就是另外一种容器,里面除了 MPEG-2 图象和 DTS/Dolby 音频外,还会包括 n 条字幕流。

言归正传,qyb 为什么要研究 AVI 格式呢?因为在 DV-2-XviD 这个软件的功能里面,有个需求就是从 DV 抓取的 AVI 文件里面,获取拍摄该视频当时的时间。我要作的事情一是把视频流从 AVI 里面分离出来,然后再从视频流里面获得保存在里面的时间戳。

网上很容易可以搜索到一篇关于 AVI 格式的文档(链接是一个 pdf 文件!),它组织的很好,是我一开始起步时的主要参考,但后来处理 >1G AVI 文件的时候感觉这篇文档描述并不清楚。最后还是依靠这篇完成了 avi 分析部分。

本期科普工作到这里结束,计划下一期简单汉化一下 AVI 相关文档... 可能更类似程序文档吧。

Topic: 
订阅 RSS - qyb的博客