我于09年9月27日-10月8日在柬埔寨独自背包旅行,其间的经历和收获数不胜数。相关的经历我曾在09年10月底在Beijing Open Party 上有过一次交流分享,现在把旅行途中以及后来的一些记录陆续发布到这里,请感兴趣的朋友关注这里的更新。除正文中的照片以外,还可以在我的Footbig以及我的豆瓣相册中欣赏因篇幅原因未能在文章中出现的照片上一次交流分享的slides可以在我的slideshare页面看到。

早晨起床,先去离住处非常近的马德望中心市场吃早饭。柬埔寨人的早餐种类很多:(在金边吃过的)高棉三明治、各种米线、高棉炒面以及一种煎饼。再次吃了我非常喜欢的高棉炒面。有个摩托司机和我搭话,简单聊了聊当地的风土人情,很有收获。我喜欢淳朴得多的马德望,和你搭讪的司机也都少了那么多的商业味。还尝了尝他点的当地早餐----大煎饼,吃起来感觉挺亲切。中央市场的食品摊在早上热闹非凡,各种各样的人都在这里悠闲地吃着早餐。摩托司机、警察和形形色色的不知道做什么却也不急着上班的人们。早餐甚至还有大扎的冰咖啡。

九点和先前约定好的TukTuk司机汇合,起程去坐马德望的招牌旅游特色----竹车。一路上经过昨天开庙会的地方,现场一片狼藉。不远处的大卡车上放着一艘长长的龙舟,而坐在卡车上的二三十人则高声地喊号唱歌,司机告诉我说这是昨天龙舟赛的胜利队伍,他们会这么又喊又唱地一路赶回家乡。

P1050740.JPGTukTuk开出几个路口就进入了小乡村,看似悠闲的乡村小路却并不平静。不一会儿就看到了正在建设的跨河大桥。而旁边进行的是道路的扩建工程。司机和我说,来自中国和日本的公司们正在争先恐后地投入到这样的项目中。正说着,一棵高大的棕榈树应声而倒,紧接着工人们一阵沸腾,听司机说,树倒以后工人们发现了一只猴子,他们正抢着捉住猴子去卖钱。

然后就到了一个小村子前面。竹车当地人称为"Norry",马德望的竹车已经是当地的一个旅游品牌,竹车游览也已经是一个非常成熟的产业。乘竹车往返一趟要价 $10,因为自己是一个人,和老板划了下价格,以$8成交。然后就在两名小伙子的带领下,开启竹车之旅。那么什么是竹车呢?简单地说,就是两个火车的轮子,一个柴油机,和供人去坐的一块竹板在铁轨上面跑。原以为速度不会太快,可实际坐上去,也会开到大约几十公里的时速。坐在那块木板上,感觉着每一个铁轨接点的颠簸,很是特别。不过铁轨只有一条,有时会有反方向的车开过来,这也是为什么安排两个小伙子在车上的原因:一个人驾车,另一个人站在车上远眺,远远地看到有迎面驶来的车,就逐渐减速,直到两个车面对面停下。随后有一个不成文的规矩:乘客较少的车上的人下车,将车解体(拿下发动机、拿下传动皮带、拿下木板,拿下轮子),让乘客较多的车先通过。这一路上停了两三次,因为这条竹车线路不只是为了游客游览,也有不少村民乘坐竹车在两地之间往返。

norry.jpg颠簸了二十分钟左右,到达一处小村子。下车走了两步,就被一个中年妇女带领到一个砖窑,开始非常详细地介绍烧制的流程,从模具到过程到最终的成品,带着我这儿看看那儿看看,我心想这下是"被"一条龙服务了。果然,讲解完后要收费$1。不过现在回想起来,那里的民众还算比较纯朴,收费不高(请对比国内旅游景点)。参观完之后坐车返回。结束了竹车之旅。不过此时时候尚早,还不到中午,于是和TukTuk司机商量了一下,再去马德望附近的一座早期吴哥寺庙 Wat Ek Phnom 参观一下。

于是小TukTuk又开始了旅途,重新开进马德望市区并一路向北,开进另外的小山村。太阳挂在正中,景色出奇地好。路上还见到了近百人聚餐的盛景,我以为是当地的婚宴,司机和我说这是村子的一年一度的(中秋)节日聚餐。路上还经过了一间1975年就已经停产的百事可乐工厂,进去简单参观了以下这个独特的地方。

DSC_1057.JPG
DSC_0992.JPGTukTuk又前进了近半小时,就来到了在一座小山顶上的Wat Ek Phnom寺,由一位旅游警察收取门票($2),这是个前吴哥时期的遗迹,所以现在看来就是个保存得并不太完整的庙宇。但这地方仍是当地宗教活动的中心。古庙的前面就是近年建起的佛教大殿,而旁边座落着一尊新建的大佛。终于,这是个再没有其它游客的地方(我只见到一对当地的年轻情侣),景点没有什么特别,却有着那种迷人的幽静感觉。

watekphnom.jpg随后返回住处休息片刻,下午出来步行逛马德望市区。市区在我看来真是小得可怜,走出几个街区,再一家学校旁的小餐馆吃了非常美式的午餐(5000R=1.25$),随后步行前往附近的马德望博物馆。走进博物馆,发现大门开了但是展厅却没开,想来是自己早早就到了。当时就去问院子里坐在摩托上的一位大叔,不料该大叔完全不懂英语。大叔看起来有些为难,好像和我说了什么,然后就跳上摩托车走了。我不得其解,就坐在那个安静的院子里继续享受马德望的中午。不一会儿大叔就载着一位姑娘来开门。这下我有点儿不好意思了(似乎提前了别人的工作时间)。博物馆里面没有金边的国家博物馆漂亮,也没有亮丽的展品,大量的残破雕像都被随意地丢在地上。

而后又走过几个街区去看荒废已久的马德望火车站,与博物馆只相隔了几个路口。火车站这片地区也是一片乡村景色,废弃的车站,蓝天、绿草,是马德望的著名景色。

DSC_1093.JPG随意逛,走到一个车站附近,惊喜地发现有便于观赏风景的双层城际巴士,就订了后天开往金边的车票。于是,大多数的事情都已完备。连续几天的忙碌后,马德望这个有着独特风格的幽静城市,让我决定在这里好好休息,消磨些时光。

DSC_1114.JPG傍晚买了足够的食品和饮品回到住处,津津有味地看各种电影频道。晚上找了个当地人吃饭的盖饭摊吃了一顿。刹那间,有了一种自己已在当地生活了许久的感觉。

未完待续

要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。本系列文章可能会省略一些旅行中的细节内容,如果您也打算出游,并还想了解更多详细信息的话,欢迎在网站页面留言,我会很高兴帮助您。
我于09年9月27日-10月8日在柬埔寨独自背包旅行,其间的经历和收获数不胜数。相关的经历我曾在09年10月底在 Beijing Open Party 上有过一次交流分享,现在把旅行途中以及后来的一些记录陆续发布到这里,请感兴趣的朋友关注这里的更新。除正文中的照片以外,还可以在我的Footbig以及我的豆瓣相册中欣赏因篇幅原因未能在文章中出现的照片上一次交流分享的slides可以在我的slideshare页面看到。

皮卡在满是大水的暹粒城区的几个GH间穿梭,接起各个一同前往马德望的旅客。渐渐地车上就热闹起来。一对来自悉尼的老年游客,谈起他们四处旅行的经历,他们在八十年代初就到过中国,家里还珍藏着一套那个年代买的蓝色工装。同车还有两个在中国工作的意大利人以及几个美国女孩,很快皮卡上就满员了。

太阳慢慢升起,虽然吹着的风似乎比电影里看到的风要猛烈地多,但这感觉却让人有无数憧憬,在异乡的美丽景色间流连,感觉非常舒服。因为很多路被水淹没而不得不绕路而行,车开了一个多小时才到码头。刚一到码头就有一群卖面包和水的小贩湊了上来(价格比正常市价略贵)。码头停着两条船,大一点儿的船开往金边,而开往马德望的小船,看起来略为可怜,十来排木制座椅、一个可以爬上去的船顶,没有什么特别的了。游客上船以后,船上倒显得空荡荡的。就这样,伴随着巨大的发动机轰鸣声,小船启航了。

P1050466.JPG洞里萨湖是东南亚地区最大的内陆湖,坐在船上向湖中心方向看过去,与远望海面的感觉差不多,只是浪要小一些。初升的太阳使得这水上的风景慢慢地显出了它美丽的一面。

DSC_0760.JPG随后路过了一个水上村庄,小孩子都在尖叫着冲着游船招手。小村庄有着像陆地上一样的寺庙、餐馆和小商店,只是代步工具变成了船。我们乘坐的船放缓了一些速度,伴随着村庄里的几声喇叭声,有小船载着乘客向我们这艘船驶来。原来是沿途村庄前往马德望的民众。上来的人有老有少,渐渐的船上就热闹起来了。

village_on_tonle_sap_lake.jpgDSC_0810.JPG船继续前行,河道一会儿变宽一会儿变窄。自己还用指南针反复查看以找出在地图上确切的路线,后来发现这航道实在是太绕了,地图上也只是标出了较宽的航道而已。渐渐地,船舱里的外国游客都走出船舱,爬到船顶上去了。

我起先只是好奇,不知船顶有什么好玩的可以吸引那么多人上去。直到自己也小心翼翼地爬上船顶,端坐在一角时才发现,原来整个旅途观看风景的核心就在这里。通常看到的湛蓝色的天空、壮丽的云朵,突然在眼前变成了数百公里绵延不断的景色,没有高楼和任何建筑物的打扰,只有这样美丽的天空,映着同样美丽的广阔湖面,以及点缀期间的碧绿色植物。坐在湖中行驶的船上,高温酷热突然也变得不再是任何问题,太阳逐渐升高,变得很晒。但自己宁可把大把的防晒霜抹上,也不愿回到船舱里面----任何事物也不能阻挡自己与大自然如此接触。不过坐在船舱上面在过狭窄河道的时候,要注意沿途植物带刺的枝杈,一不小心,就会被划伤,注意闪避。

Touring_TonleSapLake.jpg接近中午的时候,在一家小饭馆停船休息,简单地吃了个盖饭($1),小屋里面的装饰倒是无比吸引我。

P1050544.JPG继续出发,沿途又路过了四五个村子。沿途只要见到小孩子就一定是在猛烈地挥着手,大声地打招呼。偶尔能见到从马德望方向开过来的船,以及满载着柬埔寨人(真的是满载)的客船。大家看到的都是一张张此起彼伏的笑脸,卖力地挥手,以及'hello~'的的喊声,美丽、亲切、又温暖。河道越来越曲折,有越来越多的乘客开始在各个村庄下船,又行驶了约二十分钟,远处的河岸突然出现了一大片的人,随后船停在了长约5米的一个小码头上。马德望到了。

dragon_boat_racing.jpg看看表,13点整,距离上午8点开船正好5小时。挑了一个TukTuk司机,联系找个住宿的地方,先去了一家有名的店,结果连空调房都没有。不过司机推荐的第二个店却非常不错,除了没有名气,但其它设施齐全。与司机约好明天上午去乘竹车。

打开电视,看到的景象赫然发现在河边看到的一样。原来,这天是端午节,马德望在举行全国一年一度的龙舟大赛。赶紧拿起相机出门,前往河边。原来这里根本不只有龙舟,河边的街道摆满了摊位,还有交通管制,一派过年庙会的胜景。两旁的摊位卖着各种各样的东西。从类似'动感地带'的手机号、洗衣粉、各种服饰、大头贴、各种食品、抽奖游戏,乃至搭建起的简易旋转木马、摩天轮,应有尽有。

P1050589.JPGBattambang_City.jpg相信我自己也成了这来来往往景色中的一部分。和暹粒的热闹喧嚣不同的是,在这个热闹的庙会氛围中,我几乎没发现其他游客。所以在来来往往的当地居民眼中,我这个满头大汗、背着相机的中国小伙,也算是个景色了。东瞧瞧西看看,眼睛根本不够用,尝试了一杯颇受欢迎的甘蔗汁,继续沿着河边探索。

河边的建筑果然保留着法国殖民期间的特色,城市里的寺庙也很多,LP里说是由于红色高棉时期一位不服从命令的指挥官才得以保存下来的。几乎每个寺庙的外面都有僧人在为寺庙修缮筹款。走到城南边一个LP上面推荐的便宜小饭馆吃了顿Pizza,期间一个学生模样的男孩和我用中文搭话。原来他的上一辈和上上辈都是潮州人,从他那里还得到很多情况。这里华人很多,而且在当地经济中占据了十分重要的地位。没想到能在这里和他人用母语交谈,感觉不错。晚上漫步河边走回旅店。河上的一艘小船还放出了小小的焰火作为庆祝。

忙了这些天,回去就早早休息了,准备明早体验马德望的特色风情:竹车。

未完待续

要查看本系列更多文章,欢迎点击页面右侧的Cambodia标签。本系列文章可能会省略一些旅行中的细节内容,如果您也打算出游,并还想了解更多详细信息的话,欢迎在网站页面留言,我会很高兴帮助您。

OpenParty "熙春暖意"

| No Comments
"熙春暖意"是农历新年后的第一期OpenParty活动。当天北京的天气虽不像活动的标题一样美丽----迎接我们的是一个寒意依旧,沙尘满天的日子,不过这不能阻挡众多热爱分享和交流的朋友的脚步。此次活动话题众多,还有一位前辈史无前例地贡献了一连三场话题,实在佩服。参与人数再度达到百人,现场到处都可以看到三两一组对技术/文化/其它各种各样话题进行交流的人,气场还是那么足。

还是简要叙述下自己参与的三个话题:

UI/UE设计讨论

这个是个现场讨论的话题,在话题组织者的带领下,大家针对UI/UE设计领域的问题各抒己见,自己在不少方面也有了更新的了解。限于讨论性话题的分散性,在这里仅简单记录下印象比较深刻的观点。

话题组织者引导大家做了这样一个用户体验试验:请一位用户扮作盲人,另一位用户帮助他读出鼠标所指处的文字来引导'盲人'用户完成某一个特定的任务。在这个看似简单的实验里,却能发现很多平常难以窥见的细节,如屏幕阅读会读出很多不需要的东西,从而给用户造成困惑等。事实上这个实验也是行业中的实际案例,在国外的某个网站项目中,有盲人用户致电客服,提出了很多实用性上的问题。其实不只是针对盲人,一个文字冗余、不直观、不对用户友好的界面设计,也是用户体验产品的直接障碍。
抓住用户目标性和随意性浏览的特点,达到用户和网站需求的平衡
通过调查、用户测试、观察、客观反馈、访问数据等方式进行用户的研究,"提升正面反馈,消除负面反馈"。
用户体验的度量。

现场参与的朋友也谈到了很多:

新版本上线前实施AB测试,引导 10%的用户到新版本设计。查看用户是否"尖叫"(即对新设计有尖锐的抵触),如果存在尖叫状况,新设计下线->进入Rollback设计流程。
谈到现今互联网领域的UI/UE问题,除了一些设计以及体验上的问题以外,还有一位朋友提出了"网站的服务意识差,用户的被服务意识也很差,如果更好地沟通以及交流反馈,在有些时候也是问题。用户积极参与的意识很重要。"

--------

把街机搬回家

@gokeeper 带来的,当天让无数技术男燃起的话题。讲述了如何把原汁原味的街机搬回家,要注意:使用的不是寻常的模拟器、PC摇杆,而是真正的街机硬件、街机框体和摇杆,当然还包括投入代币这种可勾起无数人美好回忆的体验。

其实如果想照葫芦画瓢实现一个也不是什么大问题,gokeeper的解决方案也说明了,山寨产品+淘宝+用心实现的激情基本上可以解决全部的问题。

自己简单记录下来的几个要点,供大家参阅:

  • 街机主板的游戏卡槽上,连接一款通过电脑来提供游戏的转接卡,价格不贵。
  • 山寨厂街机框体可定制,价格 1200 元左右,包括框体、29寸CRT、定制的摇杆和按钮。注意相较之下日本原厂的使用近十年的框体还要万余元,山寨厂的街机框体,价格便宜量又足。
  • 电视的扫描频率问题。显卡默认输出的刷新率过高,需通过更换驱动等特殊方式,降到15KHz左右
  • 淘宝上订购的精巧的投币装置 40元
  • 整套设备还具备传统街机难以想象的扩展能力,可以通过KAI与网上的玩家进行对战,还可以与Xbox 360进行连接,在庞大的街机框体上执行家用机游戏。

--------

网页正文提取初步

宋进亮博士带来的话题,整个话题其实也是自然语言识别领域的一小部分内容,不过宋博士的开场就先声明:"整个应用不限定特定行业,演讲中不用忽悠人的词",于是整个话题也就在轻松的环境下讲述了众多非常有料的内容。

现场演示的实例: 从Blog以及网站页面里面抓取正文

大体上看,目前的文字抓取方式,无外乎以下三种方法:
  • 通过正则表达式抓取:通过诸如 BeautifulSoup 这样的工具进行。
    • 方法简单,但是性能可能会有问题。与所抓取的目标网页依赖过大,一旦网页格式发生变动,就需要对抓取的方式进行一些更新。出于偷懒的原则,如果程序能够自动识别变化,那样才比较完美。
  • 标签特征,本话题所述方法即属于此类别
  • 基于视觉的处理,跨越标签领域,有一些的技术门槛,此话题暂不涉及。
    • (在2009年2月的OpenParty"有狐"活动中,有位来自雅虎中国的朋友分享了一篇在服务器端使用Firefox进行网页抓取和内容识别工作的话题,实际上就是基于视觉的处理实现)

基于文本密度算法的实现,是上述的标签特征类别的方法。
基本公式:纯文本字符数/HTML源码字符数

原始方法
  1. 记录HTML标签起始位置
  2. 统计HTML源码首尾包括的字符数和其中的文本字符数

使用Python的matplotlib对统计的结果进行图示查看,从直方图中直观地可以发现,网页中有一部分的文本密度明显高于其它部分。在整个过程中还可以使用Tidy软件包来清理HTML代码,实例中演示的Sina页面,使用Tidy进行清理后进行识别的效果要好很多。

从实际状况出发,对算法进行小调整:从以前的文本前后判断,变成标签前后判断

优点:数据的整体性更好。
缺点:数据的分布情况不够直观,有干扰。可以适当地加入一些值的过滤方式来实现

整个实现方法所使用的代码量:加入注释以及模式过滤的原脚本大约有200多行Python代码,如果是根据网上论文的原始实现,大约100多行Python代码

所参考的论文中描述的人工智能文本识别方法:
  • 使用神经网络模型
    • 可使用FANN库,有相应的Python封装
  • 采用原始的一刀切方式,会有丢行的现象产生。    
  • 个别行的密度会比较小。

神经网络模型的算法,可以采用机器进行学习的方式进行。不过要注意,学习所采用的原料和实际使用中所针对的目标相似度的关系也很重要。学习的量较少,可能会达不到完成任务所需的精度;而学习量过大,出现"过学习"的状况,也可能会出现过度吻合,从而导致对目标数据的变化非常敏感。

其它智能方法

针对HTML标签序列
  • 统计方法
  • 贝叶斯
  • 马尔可夫
  • CRF

不过为了达成我们的目标,找到最窍门的地方,才是最关键的。比如在很多应用场合下,看似粗旷的'一刀切'方法可能效果也非常不错。

这里介绍的自然语言识别只是一个具体的分支应用,而这个大领域还包括很多其他的内容,如逐渐变热的分词技术,也是值得关注的。

总的来说,自然语言识别技术需要根据应用领域、应用环境来提供相应的解决方案。没有银弹!

我一知半解的记录肯定略有偏差,想要详细了解此内容的朋友(如查阅上文提到的论文等内容),欢迎访问宋博士"提取HTML文档正文"的页面以及他的Blog访问详情。 

------

依旧分身乏术,本期活动还有很多其它大牛带来的精彩话题,只好期待其它参与朋友的记录了。现在每次在活动现场的事情越来越丰富:与各方朋友交流信息、控制话题时间安排、拍照、结识新朋友...... 诸多事情精力有限,再加上 OpenParty 的话题越来越多元化,自己对各个话题基于简单了解的记录,难免粗浅以至问题多多,还望大家多多包涵(了解细节请多参考来自演讲者的第一手资料)。我只希望自己这些简单的记录是引导大家进入某个话题或领域的一小步,就好像 OpenParty 帮助大家结识、了解和交流一样,我们没有奢望这种简单的事情能够立即带来什么翻天覆地的变化,但是这些却打开了无数的门,孕育了无数种可能。这就是最让我们兴奋的事情。


Find recent content on the main index or look in the archives to find all content.

OpenID accepted here Learn more about OpenID