星期二, 十二月 25, 2007
原来谷歌的同学们也知道在中国份额越来越少,广告越来越没价值了
星期六, 十一月 24, 2007
《Google革命-改变你人生的"搜索"》值得一看
星期五, 八月 10, 2007
Google的邮件通知系统全面乱码化一天了
昨天,看朋友的Blog,听说Google Alert的邮件全都是乱码(用Gmail查看),朋友问道“估计昨晚刚升级了什么东西,编码全乱套了,发布的时候难道没有好好的测试一下吗?”
紧接着,我收到了我订阅的一些其他的Google的通知信,发现乱码这事儿,不独独出现在Google Alert身上,所有的通知信都是这样,看来所有的通知信都是从一个接口发送出来的,而这个系统不知道出了什么问题。
下面是部分出错的通知信
Google Alert的

Google日历的
Google分析的
Google Docs的
其实,Google这么复杂的系统,出现个把Bug并不是什么不能接受的事情。我唯一疑惑的是,这两天也不是公众假期,难道Google的工作人员不使用他们自己的通知信么?这种编码错误,基本上可以确定就是些简单配置出现了问题,如果他们知道出现了错误,更正应该是很容易的,为什么不能反应快点呢?
星期四, 八月 02, 2007
我和Google Adsense那点故事
昨天,awflasher发来一篇新文章的链接《ByeBye Google Adsense - 全面撤下我的内容广告》,意思基本上是不满Adsense盈利能力下降,觉得去掉广告可以提高用户体验。说起来,早在今年4月,火炬也写过类似的文章《去掉了blog上的google adsense》,火炬文中谈到的Adsense牛皮癣化,我们曾经多次一起讨论,也一起听朋友说过他那个社区,一年内Adsense盈利降了6倍。
然而,直至今日我从来没打算去掉我blog里面的Google Adsesne广告,这不是出于对谷歌团队的信任,对他们的不满,我从来不避讳。有朋友直接告诉我,别把谷歌当作Google的一部分就是了。
不过今天,我只想讲讲故事,讲些关于我和Google Adsense的故事。
我算得上国内比较早开始研究Google Adsense的人,刚开始知道Google Adsense以后,我马上申请了帐号。之后,我写了篇文章《Google的内容相关性广告简要分析》。因为这篇文章了,我认识了两个人,就叫他们老L和老X吧。
老L同志当时打电话给我商量一起做类似Google Adsense的广告系统,不过后来他的公司跟某公司合并,他去做CTO了,这事儿就搁置了。前些日子,我去参观过他现在参与的创业团队,做的是个准备超越Google Adsense的广告系统。
老X看到这篇文章后,也很看好Google Adsense系统。不过他的做法更加有趣,他找了四家有一定流量(日10万pv左右),但是没有广告渠道(那文章写于2004年10月,那时候多数小网站都没有好的盈利渠道)的网站。他说,可以给他们放广告,帮助他们盈利。这个生意做了3个多月,收入有数千人民币,直到其中一家网站为了得到更高收入作弊,帐号被封,才结束。老X把一半的广告费发给了那些网站,一半留给自己,发了比小财。这个故事,老X今年年初才告诉我,还说以为我当时也是这么做的。我只得说,老X是天生的商人,而我……
日子就这么过了一年多,我的Google Adsense才挣到了100美元,我的所有的Blog(至少有6-7个,不同领域的内容)都放有Google Adsense广告,而且那时候我的blog更新比较频繁,流量也还算可观。
又过了有些日子,Google Adsense推出Adsense的推介广告,有朋友质疑这个推介的意义,针对这个观点,我写了篇《我为什么推荐别人去用Google Adsense来赚钱》,讲述我对Google Adsense的理解。这个文章发出后,两三天内,有21个人点击我的Adsense推介广告来注册Google Adsense。按照推介的算法,如果这些帐号三个月后都能挣到100美元的话,我就应该能得到2100美元,好可观,发财梦貌似就要实现了。
紧接着,貌似是《我为什么推荐别人去用Google Adsense来赚钱》惹了一些人生气(怀疑是一些被Google有理无理删除Adsense帐号的用户),我的一个页面渠道一天内只有8个pv,但是居然有1000多个点击。我担心会出问题,发信给Google Adsense的信箱,结果没有任何结果。没到一个月,我的帐号被封了。
说真的,这点收入,即使那2100美元真的能到手的话,对我来说,也算不上什么大钱。但是我真得很郁闷,我自己从来不作弊,我相信Google监测无效点击的技术,我主动沟通,无人理睬,最后被封。但是我仍旧对Google Adsense模式很看好。
就这么过了有一年多,有个朋友找我帮他做了一个网站,流量有20万pv一天左右,每天Adsense大概也能到20美元多。所以很快,账户就到了100美元,我没等来支票,却等来了,账户被删除的通知信。原因是,认为这个帐号和一个以前作弊的帐号有关系。我那个朋友跟李开复同志也算说的上话的,于是给李开复,还有Google负责大陆Adsense业务的人写了信。然后,谷歌某个高级员工跟我通了4个小时的电话,讨论这个事情。
整个沟通过程,让我对谷歌完全失去信心,电话内容要是放出来保证比zuola的视频有意思多了。这里就不多说内容了,毕竟太久了,我也记不清楚了。最后,他总算保证把我所有的申诉信发给相关人员,另外要求我更仔细的说明情况。
这之后,估计有三四个月,我收到了一封来自Google Adsense的信,说我的老帐号恢复了,不过里面所有的收入都被调整无效点击调整没了。这就是我现在网站上面的那个Google Adsense帐号。
从那到现在,差不多又有一年了,我的帐号终于又快到100美元了,谁知道之后会迎来一张支票还是删除帐号的信呢?我不知道。
那为什么我不删除blog上面的广告呢?
好,我承认贪财肯定是原因之一,万一我的blog哪天流量突破100pv/天呢,那可不是一笔小收入啊!
另外的原因是,我放Google Adsense是为了研究它,研究它在不同内容下的表现,研究它的产品设计。
再其次,我认同商业的价值,我认为好的内容旁边应该有广告对内容提供者带来收益,我认为我的内容值得一份回报,我绝不耻于谈及这点。虽然,我已经写了上千篇blog,才赚了200美元,而我给客户随便写个方案,写个程序,就不止200美元。
So,其实我不是拜Google教徒,但是你有更好的替代方案么?有的话,告诉我,我会换下Google Adsense的(研究之用的部分除外)。
星期六, 五月 12, 2007
[伟大的谷歌]谷歌技术人员成功将google汉字搜索引擎进化为汉词搜索引擎
“《财经》杂志封面报道:谷歌重来”一文中,有段对谷歌技术总监王劲的采访,我看了惊为天人,给一些朋友看后,大家都被伟大的谷歌的伟大的贡献所折服,所以收录如下,以供后世景仰:
“美国工程师不懂中文,无法准确分词,常常造成可笑的问题。”谷歌中国技术总监王劲说。比如,用户输入“电脑”两个字,正常的情况是,页面左侧应出现电脑的搜索结果,右边应该出现电脑产品广告,但美国工程师不懂中文,可能会把“电脑”分成“电”和“脑”两个字,出现的结果和广告是关于“电”和“脑” 的,令人啼笑皆非。
感想:
1、原来我们在谷歌诞生前用的都是Google的汉字搜索引擎,我们还感觉不错,我们真傻。
2、谷歌才是汉词搜索引擎,真伟大啊。
3、有些人真不知道什么叫做脸红么?谷歌需要业绩,需要作秀,这我都能理解,问题是这样连外行人都能揭穿的谎话,何必撒呢?
相关文章:谁比Google 懂中文?
星期五, 四月 13, 2007
谷歌这个名字的可怕的示范作用,外企都疯了是么?
今天听说ZDNet征求来了个中文名字——至顶网,真是要多难听有多难听,要多恶心有多恶心。
人说股市是在博傻,我看谷歌和至顶网在比赛谁在起名方面更加SB!!!
这帮外企的人都疯了?起个中文名字就叫本地化了?谷歌和至顶网,不错,每个字都是汉字,但是这叫中文么?谁告诉你们,用汉字写出来的东西就一定是中文???中文是这么恶心这么难听的么???别侮辱中国人了!
还是那句话,IBM的中文名字有人叫么?
好,IBM太高端了,Verycd够本地化了吧?中文名字是什么?Discuz够本地化了吧?中文名字是什么?
谁跟你们说我们中国人都是白痴,你把他送来,我抽丫的。
就算我们是白痴,你们也别拿这些恶心的名字来恶心我们好么?
星期六, 四月 07, 2007
[谷歌不是Google] 我想请李开复博士回答的三个问题!
很早就收到了CSDN 2007英雄大会的邀请,草拟的会议日程中有李开复博士的一个演讲。4月4日,也就是清明节前夕,谷歌发布了一个谷歌输入法,旋即该输入法抄袭了搜狗输入法词库的证据就被人发现了。所以我准备了三个问题想在今天的CSDN英雄大会上请李开复博士回答。
早晨我到了会场,才得知,李开复博士因为有其他的事情无法出席这次英雄会。本想哪天直接跑到谷歌中国办公室去问这些问题,但是估计那样会有生命危险,所以只好写在Blog里面,期待李开复博士能看到,或者期待有人在其他的会议遇到李开复博士,可以帮我问一下。
这三个问题是:
1、谷歌在4月4日发布的谷歌输入法,发布后旋即发现该输入法实际上抄袭了搜狗输入法的词库。这件事情请问李开复博士是否知道,谷歌公司是否知道?Google公司是否知道?
2、不管之前知道与否,现在知道了吧?谷歌公司和李开复博士准备如何处理肇事者?开除/批评/扣钱,还是加薪/升职/掀起公司内学习该同志的高潮?Google公司准备如何处理?包括准备如何处理李开复博士的连带责任或者说连带贡献?
3、在李开复博士忙于与前雇主微软的诚信和竟业禁止官司时,国内舆论都认为李开复博士长期居住在美国,属于超级海归,所以谷歌公司的本地化一定会成为大问题。那么最近半年,谷歌公司一系列动作,热榜、导航、以及据说要收购流氓流量为主的265,当然还有这次的抄袭事件。这些动作是不是标志着说,谷歌的本地化已经初见成效,成为一家跟中国其他公司一样土鳖,一样流氓的目标已经指日可待了呢??
哎,本来为了采访李开复博士,我还特地带了自己的DV去现场,真是可惜了。
你猜李开复博士会如何回答呢?我真的很期待!
星期三, 十二月 13, 2006
谷歌的失败正好证明Google的成功
在偏执狂才能生存的世界,放弃偏执放弃理想,就放弃了你与众不同的那一点,也就失去了存在的价值。
谷歌这个名字
谷歌这个名字的诞生,就意味着自信的Google文化并没有跟李开复先生一起抵达中国。谁规定说在中国的产品就必须有一个中文名字?IBM的中文名字是什么?国际商用机器公司,有几个人知道?
退一万步说,如果中文名字是真的必须的,那么你在地址栏是不是还要输英文字母。谷歌这个名字诞生了这么久,开复先生能不能给我一个统计数字,告诉我中国的用户更喜欢输入guge.cn和guge.com着两个域名呢?如果,他们真的喜欢这两个名字,那为什么还要把这两个地址转向到google.com或者google.cn上去?
Google.cn这个域名
除了IT圈子的老鸟,我想知道,有多少人知道Google.cn这个域名,有多少人知道它和Google.com的区别。Google.cn的搜索结果和伟大的Baidu.com一样纯洁,绝对不会引起屏蔽。但是为什么大家抛弃Google投到Baidu门下,首要的理由都是无法访问呢?
Google黑板报写了这么多篇了,有一篇告诉用户如果你的Google.com访问不了的时候,你可以用Google.cn来代替么?
当GFans都承认在全中文的搜索情况下,Google的结果确实可能比Baidu更差(虽然没有出售的排名带来的不公平,但更多的SEO,更多排名本地化问题)。Google.cn除了去掉一些可以导致危险的结果以外,还做了什么?
Power By MapABC的ditu.google.cn
对这个产品,我不想多说,只能说新版虽然样子跟maps.google.com越来越接近,但是它彻头彻尾是一个OEM产品,技术和数据都不来自Google或谷歌。数据很好理解,由于政策因素,购买或者租用国内地理信息服务公司的数据顺理成章。但是技术就完全说不过去了,Maps.Google.com是目前同类产品中最好的(Yahoo和微软还在追赶)。有人可能觉得我太技术倾向了,但是我最关心的其实是用户体验,ditu.google.cn中的分词,地址查找等等都垃圾得一塌糊涂。
在国内有go2map和百度地图这样的对手前提下,OEM这么一个产品,对市场分额没好处,用户满意度没好处,唯一的好处是,你看,我们谷歌也在努力工作呢,但是唯一的结果是给谷歌其实不懂中文这一论点提供了论据。
谷歌不是Google
这段时间,谷歌努力地向我们证明,一个公司的基因,不是它的资本构成,不是它漂亮的办公大楼,不是员工的双屏电脑(我倒宁愿是,现在我也是双屏了,我比他们还强,我有一台PC和一台MacBook一起用。So酷,http://www.flickr.com/photos/chinapodcast/319506132/),不是随便取用的饮料和食品,不是高薪的大厨,不是20%的创新时间,甚至不是公司总部任命的全球副总裁。
所以,在Google全球业务蒸蒸日上的时候,我们迎来了一个新的年度搜索报告,
在以新标准公布的数据中,谷歌(Google)的网页搜索市场份额首次跌破20%,仅为14.9%,而根据稍早前CNNIC和正望咨询从其他角度分析的数据,谷歌2006年在中国搜索引擎市场上的份额分别为25.3%和20.6%,都不同程度表明了其市场份额萎缩的趋势。如果这个报告准确的话,那么Google通过建立一个叫做谷歌的公司来退出中国市场的伟大计划,又得到了进一步的成果。
如果对比,谷歌进入之前的市场份额,那么我的题目就不算离谱了“谷歌的失败正好证明Google的成功”。
本文的英文版。
星期四, 十一月 23, 2006
最近值得推荐的两篇文章《Map Reduce - the Free Lunch is not over?》以及《函数式编程另类指南》
MapReduce
分布是Web应用的必然发展方向,当你的网站用户数量在10万内,你可以不懂什么叫分布,而当你的网站用户数量超过百万数量级,你不可能不懂什么叫做分布。
Google 的使命是整合全球信息,使人人皆可访问并从中受益。所以Google比一般网站更早遭遇了只有分布才能存储的数据,这导致了Google File System的诞生。紧接着他们遇到的问题是怎么才能让公司所有的程序员都学会些分布计算的程序,因为他们用Google File System存储的海量数据分析起来需要的运算量也是惊人的。这就催生了MapReduce技术,通过把海量数据集的常见操作抽象为Map和Reduce两种集合操作,大大简化了程序员编写分布计算程序的难度。
很早以前我翻译了Wiki上的MapReduce文档,可是很多人说还是看不懂。现在好了,孟岩写了一篇分析深入浅出的文章,把这个东西讲解得很清晰。请看《Map Reduce - the Free Lunch is not over?》
函数式编程
MapReduce论文中,没有忘记提及历史悠久的函数式编程给Google的天才们带来的启示:“我们的灵感来自lisp和其他函数式编程语言中的古老的映射和化简操作”( "Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages.")。
由于中国教育的实用主义倾向,很多从业多年的程序员都有可能对函数式编程一无所知。当然这也跟整个计算机史的一些偶然和必然事件相关,这里就不赘述了。
或者我们可以说,函数式编程的思想更接近于推理、抽象等等人类思维逻辑的方式,而图灵机(那个牛比的无限纸带模型,想想自动织布机,其实就是那东西)更接近一个物理可实现的计算模型。
我们现行的计算机的原理就来自于图灵机,所以过程式的语言跟机器语言有比较简单的对应关系。而函数式语言在现行计算机上面的实现,实际上是一个计算模型的转换。这造成了函数式语言相对过程语言的效率低下,这也就限制了函数式语言在微型机上面的应用。
然而,随着微机平台运算能力的发展,特别是多核等技术的出现。如何提高微型机上应用程序的并行能力等等需求出现了。
有趣的地方正在于此,不管是Web平台还是客户端应用程序开发,趋势都是一样的并行!!!
这正是我认为函数式编程将越来越热的原因,至于函数式编程为什么有更好的并行特性,以及历史和特点等等的信息,还是去看《函数式编程另类指南》吧。这么好的文章,我无论如何是写不出来的。
星期日, 十月 15, 2006
Gdrive客户端泄露带来了什么信息?
10月13日,Google Blogoscoped的Philipp Lenssen发布消息《Google Gdrive Client Leaked(Google Gdrive客户端泄露)》。这让每个人关心Gdrive的人都感到兴奋,在前面讨论Foldershare的文章里,我就表达过对目前Gdrive相关信息太少的遗憾。
那么就让我们看看Philipp带给了我什么。
首先是Platypus(鸭嘴兽,Gdrive客户端的名字)运行的截图:
首先我们发现Philipp使用Windows,其次我们发现Philipp的任务栏在左边,他的机器上有WAMP,Win Media Encoder,BrowserPool,Audacity,他用德语……Oh,I am sorry。我们不是在做狗仔队啊,我们是在分析Gdrive。
好,首先我们发现这似乎是第一个有吉祥物图标的Google服务(也可能Google习惯在内部测试的时候用吉祥物标志,Who知道呢?),然后我们发现它的使用方式看来跟Foldershare很像,都是一个需要登陆的客户端,在托盘显示一个图标。
然后我们看下Platypus的帮助(Windows版),
如何进入我的Gdrive?双击你的任务栏托盘里面的
图标,或者访问“我的电脑”里面的G:盘(这点颇为有趣,一定是G:盘么?)。
你的G:盘上的每个顶级目录都对应于Platypus的共享。缺省情况下,你只能看到你私有的Platypus共享。它的名字与你的LDAP用户名相同。
如何挂接其他的共享?
右键点击Platypus的托盘图标,选择“Connect Share”(连接共享)菜单。你可以输入你可以访问的其他Platypus用户的名字(如,jeske),或者公开的共享的名字(入,test1)。在你挂接一个共享后,Platypus会开始在共享和你的硬盘之间进行同步,下载它包含的所有文件。Platypus会在后台进行同步,所以你可以如常的继续使用你的电脑。
如果你想为你的团队,邮件留言板,创建新的共享。指定一个共享名,指定读写权限即可。
如何在Web上访问我的文件?
列目录: http://platypus.corp.google.com/sharename
特定文件: http://platypus.corp.google.com/sharename/foldername/filename如何和其他的Googler共享文件?
访问Web界面,选择设定页。
如何从Platypus共享中添加/修改/删除/文件和目录?
你私人共享对应的目录和和你电脑里面的其他目录没有什么区别,你可以同等对待。你连到网络的时候,你的文件的改变会自动发送给服务器。如果你在离线情况下改变它们,你下次重新连接的时候服务器会自动更新。
如何帮助改进platypus?我有20%的时间可以用(Google员工的20%兴趣时间)。
好!我们非常欢迎您在工程,界面设计和市场方面的帮助。写信给Justin如果你可以做一些志愿工作。或者你可以通过使用和提交bug的方式帮助platypus进步。
我可以在platypus共享内保存什么数据?
我们鼓励用户保存任何文件,除了敏感数据以及与用户协议相矛盾的文件以外的任何文件,包括你的Office文档,照片,个人笔记,。
Linux版本的帮助除了一些操作细节以外,大同小异,这里就不详述了。最值得一提的是,我们发现从操作方法到运行模式等等,platypus和Foldershare惊人的相似。
然后,我们看看Philipp提供的文件列表:
我们发现,其中有7个Jar文件:- commons-codec.jar
- commons-logging.jar
- httpclient.jar
- jlansrv.jar
- program.jar
- sqlite.jar
- util.concurrent-1.3.2.jar
- sqlite_jni.dll
- swt-win32-213.dll
- TrayIcon12.dll
- win32NetBios.dll
- win32Utils.dll
- autoupdater.exe
- devset.exe
- platypus.exe
- processcleanup.exe
- uninst.exe
- configure_adapters.vbs
- exec.vbs
- modify_fw.vbs
具体看那些Jar文件我们发现,他们涉及到了国际化编码、日志、http协议通信、数据库等等。而同时这个客户端是跨平台的,所以我们可以确定的说,这个产品主要是用Java写的。program.jar应该就是主程序。platypus.exe应该是一个本地包装。TrayIcon12.dll、win32NetBios.dll和win32Utils.dll应该是本地化的一些补充(因为在一些细节上,java跨平台没问题,细节却不够完美,或效率不足)。*.vbs文件是一些事务性的脚本,在linux版本上应该是shell脚本或者py脚本(可惜linux版本没有泄露,所以我们无法确切的知道)。
标签: Distributed Storage System, Foldershare, Gdrive, Google, p2p, Platypus
星期一, 九月 25, 2006
google发布bigtable论文
8个人开发了2年半,现在bigtable的神秘面纱终于揭开了。google发布了一篇相当详细的论文“Bigtable: A Distributed Storage System for Structured Data ”(pdf版本)。美人他爹和彼岸正在翻译这篇论文,点击查看译文。
这篇论文内容空前详细,包括bigtable的目的,数据模型,一些实例api调用的代码,性能参数,还有和其他相关产品的比较。
如标题所述 ,bigtable是一个用来存储结构数据的分布式存储系统。与平时常用的数据库不同,bigtable并非一个支持sql语言的关系数据库,而是map方式的,列导向的数据库(一列数据连续存储)。bigtable为读进行了优化,对数据库的读取访问远远大于写入是互联网服务的重要特点。bigtable的时间特性也颇为引人注目,bigtable中数据都带有timestamp字段,可以保存不同时间的多个版本。
论文中提到,google已经有6个服务已经运行于bigtable上了。分别是:Google Analytics,Google Earth,Personalized Search,Google Finance, Orkut,Writely。这里面我觉得最值得注意的是Writely和Analytics,这两个都是google收购来的服务,通过一段时间的改造,已经重组了其架构,使他们成为可以承担海量负荷的大型服务。这似乎也标志了google对于Writely的重视。
特别值得注意的是,这6个服务都是恰好带有明显时间特性的服务,借助bigtable的时间特性,可谓如虎添翼。最近Google Earth也增加了时间的标签。将来,bigtable必将用于更多的地方,事实上,时间标签对于web服务是相当重要的特征,但由于数据量太大,保存困难,限制了很多应用的发展,bigtable应用于wiki或是archive.org之类的服务的时候,必将势如破竹。
以前我们分析过,google通过收购和内部创业等方式获得新型服务,然后通过强大的基础技术改造这些服务,使其成为高可用性,高负荷高稳定性的服务。这或许就是google未来的发展方向。google通过一系列的包装,使分布式数据库这样复杂的东西可以被简单的api调用,这无疑将大大提高google内部各小组的开发能力。
ps:感谢youfeng及时提供这个消息。
发表者virushuo @ 时间 14:15 | 5 条评论
星期四, 九月 21, 2006
youos距离webos有多远
youos自称是一个新的平台,也就是webos。
几个月以前,tinyfool在讨论webos的时候遭到了众人围殴,看到了youos,我还是想鼓足勇气,讨论一下看看。
youos完全在浏览器中提供了了看起来很象操作系统的东西。于是有人大骂,这算什么东西,只不过是个花架子。然而,真的就是一堆无用的花哨代码吗?看问题不能这么简单,让我们来看看表象下面的东西。
youos并非一个封闭架构,而是一个众多开发者参与的项目,除了youos的基础系统,上面,大部分“应用程序”都是由爱好者开发提供的。这样也就造成了很多看上去没什么意义的程序出现。比如说youos 浏览器(浏览器中的浏览器?)这听起来像一个笑话。但是,一个开放的体系就是这样的,未必有用,但是有人就喜欢。创意也往往就是这么产生的。
为了从大量的程序中挑选出来真正有用的,youos采用积分的方式来让好用的程序排在前面,或是直接放在桌面里面。
youos提供了一些api(包装了一些js的代码),一些接口(可以用来挂接倒系统中),一些共享的数据结构(数据可以方便的在个系统中交互),甚至提供了一套IDE来辅助开发。
这些资源和开发方式,非常类似于普通操作系统的运转方式,操作系统厂商提供基础平台,提供api和接口,提供开发工具,然后开发者开发,并用自己开发的产品盈利。
当然,youos在一个浏览器页面中模仿桌面应用,这并不是什么好主意。比如我切换程序的时候,往往会利用本地系统的功能,而不是在youos的界面上点来点去。
youos值得借鉴的是他的模式,虽然实现出来的产品仍然是个玩具。我理想中的webos,应该是本地系统与web程序充分结合的产物。我们说webos,并不是说本地系统可以仍掉不用了,而是要将数据和应用保存在服务器端。youos可以方便的和其他用户“共享音乐”,这也是数据保存在服务器的优势。
以目前的互联网发展程度,用户已经主观的意识到了,数据保存在服务器(或是说保存在网络上)具有很大优势。youos介绍自己的优点时候说:做些工作,然后退出,等你换一台机器,登录,一切都跟刚才一样,就好像你从来没离开过,这是多么令人欣喜的体验。
在这个webos的概念中,是数据为王,应用为王的。如果数据能够自由的在个应用之间流动,那就能提供更多更好的服务。比起真正自由流动的数据,现在的所谓web 2.0网站提供的那一点点api算得了什么呢?在youos上,我们至少看到数据呈现了在应用之间自由流动的趋势。youos的“Why develop on YouOS?”中说道了Powerful Shared Data Structures。
youos的模式有很多创新,这让他变成了一个很有趣的试验,尽管这个试验距离真正的应用,还有不小的距离。纵观业界,能够拥有将这种试验变成真正应用的能力的,大概也只有google了。google所掌握的技术,正是最好的基础。如果google能提供基础技术,让开发者自由加入,同时令应用和数据自由的交换和流动,这个传说中的webos大概就成型了。
比如说,
google开放了搜索技术,开放了gfs和bigtable用来做存储,开放了account用做通行证。我们看到,其实google也在朝这个方向行进,比如,google maps就提供了足够好的api,并且有很多不错的应用建立与这个基础上。只是目前开放到这个程度的资源还不够多。类似的,mapreduce之类大量基础技术,还仅仅以公布论文的方式进行讨论(这一步其实也远远走在了其他公司前面)。
事实上,google已经收购了类似blogger.com,writely.com之类优秀的资源,并开始尝试在一个框架下整合。(昨天收到writely发来的mail: you'll need to use your Google Account password when signing in, not your Writely password 账号整合是不是第一步?)
联想到google公司内部,自由创意和自由开发的模式,似乎也可以认为,google已经开放了足够多的技术接口,只不过,这种开放还仅仅停留在公司内部。尚不能被广大开发者所自由应用,这是未来的希望,也是目前的遗憾。或许,这也是未来google帝国真的要做的事情。
前几天大家讨论过的p2p海量存储问题,其实也与此有关。这样看来,未来真是很有趣的。
发表者virushuo @ 时间 16:14 | 3 条评论
星期二, 九月 19, 2006
你不点广告,Google就会把它挪走?
9月15日,有人在webmasterworld.com提出疑问,他发现搜索结果顶端的广告(顶端的蓝色背景的赞助商链接块,只在某些特定关键字下才会出现,最近一个阶段才出现的广告位置)消失了。
有人告诉他,这是Google正在试验一个新功能:如果Google发现用户每次搜索后都不会点击顶端的广告的话,就会把这些广告移到右边(搜索结果显示广告的传统位置)去。既然用户不想看到这些广告,那么别让这些广告占用用户的浏览空间。这个设定会保存在Cookie里面,如果用户清除了Cookie,那么他就会重新看到那些顶端广告。
我的朋友JustSo说,这是典型的工程师思维,广告就是强迫才有广播群发的效果意义。
然而,我很喜欢这种做法,既然你无论如何从某些用户身上也得不到广告收益,那么为什么不去掉广告以提高用户体验呢?
就在Google刚刚推出搜索结果顶端广告的时候,有很多人评价说这和百度的推广链接没什么区别,违反了不作恶的信条。但是,我觉得这是完全不同的,Google的搜索结果顶端广告有醒目的背景和很大的Sponsored Link标志。Google一贯的政策是让用户能够清晰的分清搜索结果和广告。而百度的普通用户里面有几个人真正知道推广两个字是什么意思呢?
我不认为这是道德问题,也不想说百度的方法是作恶。但是我一直认为这是两种不同心态的表现,一种是对自己的产品和用户选择的自信,把和用户建立长期可靠的合作关系当作最重要的任务;另一种是对产品和用户选择的没信心,能挣一点挣一点,认为短期利益最重要。
这个新功能也如是,跟Google的经营思想一脉相承,那就是“以用户为中心,其他一切纷至沓来”。
标签: baidu, Google, webmasterworld, 广告
星期一, 九月 18, 2006
每个人都需要个版本服务器-也谈p2p海量存储
从我知道cvs那个东西开始,我就喜欢死这个东西了。只要你敢用,他比任何的备份工具都好。什么都能装,保证能同步,还能回溯到历史某一点。我大半文件都是用这个存的。其实解决同步问题,只要你给自己建一个cvs/svn的服务器,就都ok了。
说起来这个,是看到美人她爹,tinyfool一干人等正讨论p2p的存储问题。
从tiny的叙述中,我们可以看到,他对存储的最大需求是“备份和同步”,没错,这正是存储服务的主流。如果仅仅是共享一些mp3,照片之类,随便找个p2p软件就能作到了(emule就很好)。用这种存储服务的意义并不太大。
这就回到了标题所说,每个人都需要个版本服务器。假设基础文件所有人都有,只保存更新信息,那么所需要存储的容量立刻就大规模下降了。如果采用这种方式的话,我们需要的就不是一个类似社区的服务,而是一个类似email的工具类服务了。这里面,p2p的作用是进一步提高稳定性和降低成本。allmydata提供的10:1的服务就很好 (提供10M硬盘空间给别人用,自己得到1M虚拟存储空间)这种交换模式,和过去的区别是“你帮助别人存储的文件 ”对于你自己是否有用。emule方式共享mp3或是电影,是对你本人有用的,而allmydata的方式,则对你自己未必有用。emule是p2p的方式共享文件,而allmydata是共享空间。换个通俗的话来说,也就是,你并不知道别人在你共享出来的空间上放了什么,也基本上不可能去使用这些文件。
在这样的模式下,可以用这种10:1的方式达到大量冗余,多点存放的方式。如果再配合一些地理信息和统计学方法,就可以计算出来对于“你”所在的网络情况,谁的硬盘最适合存在你的资料,配合中央服务器,就更稳定了。这样一个基本的网络框架就算出来了。
综上所述,我得到2个结论:
1 这种存储不同于emule共享,文件本身对存储者不完全有意义。(有一些有意义,但大部分人可能没意义)
2 文件更新信息比文件本身更容易被频繁的读取。这些更新信息将是这个网络负担得主要流量。
最后说说我的希望:
google有足够的技术可以完成这个,无论是中央存储,还是同步工具,或是探测哪些机器适合保存你的资料(数据统计和挖掘技术)都是他的强项。
发表者virushuo @ 时间 09:49 | 1 条评论
星期日, 九月 17, 2006
Foldershare以及P2p在线存储服务

看了彼岸的在线存储:现实还是明天?一文之后,想把我对Foldershare的一些理解写出来与大家分享。Foldershare目前是微软Live战略的在线存储部分,Google与之相对应的是服务是GDrive,可惜我们现在能得到的GDrive的信息太少了,无法进行比较。
我原以为Foldershare是一个垃圾
最早知道Foldershare是来自Keso的邀请信,之前我从来没听说过这东西,还以为Keso中了什么流氓软件的招呢。Google了一下才知道,这是微软2005年收购的一项基于P2p技术的文件共享服务。然后,我就问Keso文件共享怎么P2p呢?要知道两个人之间的文件传输本来就是P2p啊?这有什么特殊的呢?难道QQ的文件传输是先从一方传到服务器再传到另一方的么?为什么别人都不说他们的文件传输或者共享服务是P2p呢?莫非微软现在也学会了我国某些人才写论文的方式了,文件传输就叫P2p?
简单的探讨了下,我们估计这可能是用服务器端保存和用户之间支持传输相接合的方式来进行文件共享的一种服务。如果是这样,文件共享的两端就不需要同时在线,这就比传统的简单的文件传输服务方便多了。于是我们进行了一项试验,Keso用Foldershare共享了几百首Mp3歌曲出来,我来接收这些文件。传输到一半的时候,Keso下线,然而出乎意料的是传输立刻停止了。这说明这项服务并没有提供任何的服务器端存储。那么问题来了,这样一个东西有什么用?或者说,他跟QQ传输文件的方式有什么区别?微软为什么会购买这么一个东西呢?真的是钱多得烧的么?我不知道为什么。
后来发现它还有点用处
本来,我已经准备删除这个看不出来有啥用处,但是会浪费我的空间和Cpu时间的软件了。但是我终于发现了它的一个用处,就是用来在我的办公用机和我的家庭电脑之间同步数据。
我在家里和公司各自使用产权属于我自己和我的老板的两台电脑。而与此同时,我是一个几乎24小时不离开电脑的人。相信很多跟我类似的人都会有跟我相同的烦恼:下班了,程序没写完,但是厌烦了办公室里面的污浊空气,准备把工作带回家继续完成,那么就要把代码打包,发到自己的邮箱或者上传到某个服务器,回到家里,打开打包文件继续工作;睡前把所有的修改打包,传到自己邮箱,然后第二天早晨在公司打开文件继续工作。或者是其他有两台电脑的人,往往都会被文件同步的问题弄得焦头烂额。实话说,我认为这才是笔记本越来越受老板和打工仔们一直欢迎的原因,因为可以把一切繁琐的同步步骤抛到脑后。
而Foldershare正好有这么一个功能,在两台电脑之间同步目录。非常方便,只要你在两台机器上面设置好,然后你就什么都不用管了。你在A机器对文件做了任何修改,Foldershare立刻记录在案,如果B机器在线就直接把修改发送给B机器,否则就B机器在线的时候自动完成同步。当然,既然他是纯粹基于P2p技术的,那么他就有一个无法解决的问题,那就是A和B必须同时在线,才会进行同步。我采用了最无耻的办法,那就是让公司的电脑24小时开着(当老板的看不到这句话,你看不到!!!)。
前些日子我换公司,因为我一直以来把所有自己的文件用Foldershare管理,所以离职的时候我没有做任何备份工作,直接把硬盘清空就走人了(私人文件,公司的交接早做好了)。到了新公司以后,我建立我的工作环境(包括大量的技术电子书,私人的代码库,趁手的开发辅助工具等等,共2G),仅仅花了一天时间。
然而,核心问题还是没有改变,如果我们需要在两台不能同时在线的机器之间同步数据,那么Foldershare岂不是又没有用处了吗?
Web上面的共享目录岂不是办公必备
公司里面有很多文档是需要用Doc格式或者Ppt格式的,而我们的文档共享一直是用Google Groups,这就变得有些不方便。如果我对某个文档进行了修改,我只能再把它传到Google Groups上去一次。而每个同事也需要重新从Google Groups下载这些文档。这着实让我感到很烦。
于是,我想到让每个同事都安装Foldershare,一切就变得简单了。每个人在本机修改文档即可,Foldershare会自动把更新发送到每个人的电脑里去。
说到这里,也许有人会说,其实这根Windows的共享目录有区别么?呵呵,你问的对,其实用起来一点区别都没有。唯一的问题在于,那只能用在局域网,而现在的公司,现在的团队运作往往已经不局限于局域网了。(VPN当然也能实现这类需求,但是从成本来看高下立判,当然这里不是诋毁VPN,大家的用途不同嘛。)
我的灵光一闪
突然,我感觉我明白了P2p在线存储的真谛了。

左图是传统的在线存储业务,所有数据保存在服务器端,客户机修改了数据,需要传送到服务器。然后所有其他的同步客户机从服务器得到这些改变了的数据。这样的服务器基本不可能成功,因为对服务器端的带宽和存储能力需求太大了。这就是我们见过形形色色的在线存储服务,而多数不是苛刻的限制用户可以使用的空间大小,就是慢的让人无法忍受。
右图是基于P2p的在线存储业务,所有的数据保存在客户端,服务器只保存更新日志。客户机修改了数据后,更新服务器的同步日志。服务器在其他同步客户机上线的时候根据同步日志,来协调客户机之间的数据传输。这样服务提供者就无需支付昂贵的空间和流量成本了。
当然这也带来了新的问题。如果我需要在A和B两台机器之间同步数据,我就需要它们至少在某一个时刻是同时在线的,这个时候同步流程才能启动。而对大多数需要同步的用户来说,这可能是一个不可能逾越的障碍(除非他们不在乎电费以及让机器24小时开着可能带来的火灾隐患)。
就像解决平面几何问题经常会做的那样,我们引入一个辅助线。如果现在有第三台机器可以永久在线,或者在你的两台机器不能在线的时候它可以恰好在线的话。所有问题就解决了。这第三台机器在传统的在线存储中实际上就是服务器,而在这里我们发现,他可以是任何一台客户机。那么,为什么会有人肯提供这第三台机器呢?
P2p虚拟存储空间市场
现在考虑如下的场景,我现在需要第三台机器,在我短暂的两台机器都不在线的切换期帮助我保存我的共享数据的更新,而不是让我的某一台机器24小时在线。那么,我可能愿意用金钱购买这个临时存储,或者用我的机器在线期间帮助别人提供同等服务作为交换。这个时候,就产生了一个虚拟存储空间的交换市场。这样,你就可以把你的空闲硬盘空间拿出去换钱了。当然,这种市场需要大量的用户参与才取得比较好的效果。
而基于P2p和同步协议的在线存储方案,还能带来另一个变化,那么就是如果服务提供者想自己提供空间服务,他的存储单元配置方式也变得非常简单。
星期二, 九月 05, 2006
我翻译的Google Maps API中文同步文档正式发布了
详情请见 :http://googlemapsapicn.blogspot.com/2006/09/google-maps-api.html
标签: Google, google maps api, 文档
星期二, 八月 29, 2006
想知道Google商店的访问量情况么?嗯,看这里!
8月24日Inside Adsense Blog的一篇宣传Google Analytics的文章“Google Analytics hearts AdSense publishers”中,我发现其中的示例图用的是Google商店(Google商店是Google经营的Google相关纪念品的商店,出售印有Google图案的T恤,Google杯子,熔岩灯,等等好玩的东西。)的数据,有兴趣分析的朋友可以看看。

- 这个网站每天的访问者不超过一万,Pv不超过6万,91.09的新来访者(似乎说明黏度不够)
- 从地理上看分布比较均匀,中国的北京、上海以及沿海一带有一定量的访问,可是最有趣的是,在南美洲有一个最大的热点,Keso说应该是南美的智利,我看成非洲了......
- Blogger.com是最大的访问来源,很有趣。不过除了Blogger.com和关于Google的页面,Google的其他产品页面确实也没有Google商店的链接。
标签: Adsense, Analytic, Google, googlestore, lavalamp
如何知道你的网站是否被Google索引?如何知道Google的爬虫上次是什么时候光临?
一直以来站长们总是用"site:tinydust.net"这样的搜索来查询自己的网站是否已经被Google索引。这个方法的问题是,Google有非常多的服务器,他们的索引是不同步的,所以这种查询并不能准确表明你的网站是否已经被索引。而且以往我们也只能靠日志分析得知Google的爬虫(GoogleBot)在什么时候曾经大架光临。
现在Google推出了一个很小的站长工具,可以同时回答这两个问题,这要你简单的输入你的网站地址即可,不需要注册,也不需要耐心的等待,你需要做的仅仅是输入你的网站地址即可。
这个工具叫做Site status,很简单,你只需要如下操作即可:
然后就会得到结果
第一行说明你的网站已经被Google收录了,第二行说明Google的爬虫在2006年8月26日爬过这个网站。
你也许会说这有什么意思呢?首先我承认这是一个非常简单的工具,但是有一点他很独特,就是他不限制你查询任何网站,你甚至可以输入sina.com.cn来看看,来研究研究Google爬虫对Sina的喜爱程度,是不是很好玩呢?
标签: Google, robot, sitestatus, webmaster
星期一, 八月 28, 2006
网页版Google Earth?也许并不遥远了
浏览Google Blogoscoped的时候,Google Maps 3D Interface这个文章标题引起了我极大的兴趣。你们猜猜这是什么?对,一个可以在网页面滚动的地球,除了不能缩放,不能直接浏览北京的街景,不能作标记以外,他确实很像Google Earth的网页版。这个让人惊喜的东西叫做“Google Maps Shortcut”,在这个可以旋转地球上的任意点单击,就会跳到Google Map的相应页面,这显然不像一个功能,而像一个Demo。
那么现在唯一的问题就是,爱好者已经先走了一步,Google什么时候给我们一个惊喜呢?从这个Demo上看,技术上面的可能性已经被证实了,那么,耐心等待吧!
发表者Tinyfool @ 时间 23:09 | 2 条评论
星期日, 八月 20, 2006
Google Adsense新功能“我自己的网站中显示搜索结果”的Bug
8月17日,Inside AdSense的一篇Blog“Search no further than your own site”宣告了一个新功能,在自己的网站显示搜索结果。这个新功能相信一定是广大Google Adsense用户企盼已久的,一方面你可以用这个功能挣钱,另一方面等于在本站实现了一个跟Google功能一样强大的搜索引擎。
然而,我发现这个功能有些让人无可奈何的小Bug。请看下面的演示:
如果你搜索了一个没有匹配出任何广告的结果,那么EveryThing是OK的,比如搜索Tinyfool
那么什么时候会出问题呢?很简单,你搜索一个会产生广告匹配的关键字即可,比如IBM
那么这个问题是怎么产生的呢?我们查看下Google Adsense提供的代码就明白了,有一句 var googleSearchFrameHeight = 1300;,这是用来控制显示搜索结果的区域的大小的,1300这个大小很适合没有广告的情况,经我测试,如果想在有广告的情况下,仍旧可以看到结果页码,这个参数必须在1700以上。把这个参数改成1700可以解决这个Bug,但是还有两个问题:
1、参数1700适合有广告的情况,但是没有广告的情况下,你的页面会空白500个像素,非常不美观。
2、Google的用户协议不允许用户随便改变广告代码,做修改有被Google惩罚的危险。
所以,请期待Google尽快修正这个Bug。
发表者Tinyfool @ 时间 20:31 | 4 条评论




图标





