分类存档: 互联网

比价只是第一步

上周开始的京东大战苏美的好戏仍在持续。这场腥风血雨的战争最终结果尚未知晓,但不论结果如何,etao肯定是赚足了眼球。etao的核心功能是购物搜索,最大亮点就是比价。对于价格战来说,她无疑就是一面魔镜,能照出各大平台的真真假假。

etao的出现,无疑是为了解决一个日益严重的网络购物问题:选择困难。各大电商的网站越做越复杂,产品类库越来越庞大,同质化现象非常严重,哪怕是仅在一家平台上购物都会出现选择困难的问题,何况是多个平台多个商家。为了能买到放心的东西,我不知道是比较同一件商品的不同卖家好,还是比较不同卖家提供的同一款商品好。尽管各自的平台在导航、搜索、排序等功能上下足了功夫,但做出一个购物决策却越来越困难。最终下单的商品很有可能不是价格最便宜的,而是最放心,最省事儿的。

我现在已经很少很少直接去淘宝买东西了,去的最多的是一号店,其次是京东,再其次是天猫。除非这三个地方都找不到满意的,才会再去淘宝搜索一下。原因很简单,前面两个平台的商品正品率比较高,加上货到付款的确方便不少。我相信这不是我一个人的选择,我不止一次的问过身边很多跟我收入差不多生活档次也差不多的同事和朋友,他们的回答也大致如此。虽然这个结论不具有普遍性,但真的能说明一些问题。从价格上来讲,C2C的商品肯定是最便宜的。但无疑C2C的商品也是最没有质量保证,下单最不方便的地方。记得以前有人统计过,平均价格在200左右(以内)的商品最适合放在网上来销售。200块能买到什么呢?都是一些生活用品,很有可能是一次性购买多种商品,这在C2C淘宝上,是很难在一家店买齐的。所以就火了一号店和京东,淘宝也推出天猫超市。 继续阅读 »

如何防止网站关键数据被人恶意采集

昨天晚上花了几个小时用Jsoup写了一个网站采集器,帮一个高中同学采集了一个工业信息门户上的芯片待售信息。网站上显示的数据多达60w+条, 我写的程序跑了7个小时只采集了一半,算是可以交差了。

这已经是我第二次写这种采集器了。之前在做波菜网的时候,写过一个更复杂的。当时网站上线以后苦于没有原生态的内容,我就写了一个采集器从“百度身边”采集各大城市的餐馆和菜品信息,并通过google地图的接口获取餐馆的地理位置,然后转存到我们自己的网站上。

我必须承认,做这些事儿都是不光彩的,属于不劳而获,弄不好还得背上法律责任。但是在国内这个互联网的环境下,这种小规模的数据采集想上升到法律层面去禁止,还是不切实际的。那么从一个网站的开发或者运营的角度,如何来防范别人的恶意采集呢?如何做到在防范的同时又不影响搜索引擎的蜘蛛的采集工作呢?

从我个人的采集经验来看,我觉得这种防御可以从两个方面着手。

  1. 服务器端的配置。至少可以通过防火墙来屏蔽某些ip的高频率访问,或者在web服务器设置规则来禁止关键页面被某些ip高频请求。也可以先通过防火墙设置预警机制,一旦发现异常立即通知web服务器采取屏蔽措施。不管是专业的采集器还是像我的这种纯代码级别的采集,最基本的原理就是模拟用户浏览网站行为,发送http请求到网站的server,然后解析返回的结果。出于效率起见这种采集行为都有几个共同的特点。一是发出请求的ip地址比较固定,二是请求的频率比较稳定,三是访问的页面也比较固定。防火墙的设置可以基于前面两个特征,web服务器的过滤规则可以基于后面两个特征。当然这些措施只是从物理层面的防御,放不了真正的高手。我在我的采集器里面实现的多线程采集,就会把采集频率用随机时间来控制,也就是发送采集请求的频率是随机的,有可能是3秒钟一次,有可能是2秒钟一次。另外如果我是黑客,我可以发动多个ip的肉机来发送请求。总之一句话,服务器上的防御,防得了君子,防不了高级的小人,但是有总比没有好。
  2. 代码级别的防御。采集器可以模拟浏览器大部分的行为,但是肯定有模仿不到的地方。比如说带参数的ajax请求。从我的经验来看,你至少可以在通过以下三种方式来优化你的代码,以防止恶意采集。 继续阅读 »

这一年,我们一起奋斗的波菜(展望篇)

在上一篇总结帖里面,我大篇幅的提到了遇到的问题,只字未提团队做的好的方面以及优势。在给出问题解决方案之前,我想先谈谈这些。解决方案是否可行,取决于这些优势是否能够保持并继续发扬广大。

  1. 团队气氛活跃,彼此坦诚相见,互相信任。
  2. 每个人都具有超强的执行力,主动承担责任。
  3. 每个人都自信,自觉,自律,自省。
  4. 每个人都非常的smart,任何技术都能活学活用,多面手。

下面来说说每个问题的解决方案。

1> 有关项目管理。我期待借助于一种协同工作的工具,来解决目前项目管理上的混乱。初步定为TeamOffice,尝试一个月。为了更好的发挥这个工具的效用,我们需要遵守以下几个基本原则: 继续阅读 »

这一年,我们一起奋斗的波菜(总结篇)

回顾了那么多,总结起来其实蛮痛苦的。因为现在遇到的问题真的不少,有些甚至还是致命的。

先来说说在春节放假之前我们共同总结出来的问题。

1>  手机客户端第一版为什么不能迟迟的发布?首先可以肯定的是不是团队成员消极怠工造成的。我们这个团队最大的优点就在于所有成员都是高度自觉的,彼此之间高度信任,都能主动承担各自的开发任务。问题不是出在成员的积极性上,是出在了项目管理上。

首先是任务安排时间粗粒度。以前在一些大牛的博客上读到,创业团队的任务划分最好精细到小时。当时很不理解,现在终于明白了,也深刻的认识到,对于我们这种纯兼职的团队,这种细粒度的任务管理是多么的重要。我们每个人每天的精力都很分散,白天在公司至少待了8个小时,晚上回到家靠的是毅力来强迫自己干活,效率可想而知不可能是满血状态的。在这种客观条件下,如果一项任务没有时间概念或者时间概念很模糊(一个礼拜,两个礼拜等),干活的是时候惰性就会伴随着各种借口乘虚而入,总会以为时间很充足,今天待明日,反正没有deadline。 继续阅读 »

这一年,我们一起奋斗的波菜(回顾篇)

2011年3月19日,我们兄弟三个(我+S君+X君)加上一个美工(C同学),在凤起路上的菲比咖啡大谈特谈LBS+美食分享的未来,畅想着健康饮食+SNS的未来种种可能。通过头脑风暴,我们给她取名波菜。原因是任何人见到“菠菜”,都会想到绿色健康。谐音传播的播,波浪的波,定名为波菜网

随后开始抢注域名,可惜与“博彩”同音,好的域名都已被抢注。最终我们抢到了bocai007.com这个域名,我们都是80后,007这个数字对我们来说还算有些意义。几个月之后还抢到了一个boocai.me,目前已经开通了。
继续阅读 »

网站用户自动城市定位的免费解决方案

服务器通过HttpRequest拿到访问者的IP,然后通过下面几个方式来定位所在城市(以下方式兼容所有浏览器):

  1. Server端用java+纯真版QQ IP数据库。优点:实现原理简单,网上用例丰富。IP数据库更新方便。命中率高。缺点:涉及大量的java IO操作,对并发访问的支持比较差。
  2. 发送HttpRequest将ip传给第三方接口(http://api.liqwei.com/location/),等待返回城市结果。缺点:第三方接口的性能,安全性和稳定性未知,不可控。优点:实现简单,不用担心数据不够新。命中率高。
  3. 使用GeoLite City。Apache加载二进制数据库文件到内存中,利用apache的url过滤功能对指定页面(有地图的页面)的request做ip定位。缺点:命中率低,对服务器的内存有要求。数据库文件30M左右,每个apahce进程的内存消耗都会徒增30m左右。官方数据命中率只有79%。优点:对并发支持的比较好,能自由定制。

波菜网一开始是采用方案2主用+方案1备用的方式,发现网站定位比较慢,网络高峰期第三方接口不稳定导致网站定位失败。目前采用的是方案3. 目前运行状态良好。

Monit is enabled

生产环境下的JDK7+Tomcat 7遇到了一个很诡异的问题,Tomcat会间歇性的挂掉,没有任何异常的log,每次收到监控宝发送的503 Service Temporarily Unavailable邮件都会感到心急火燎。今天花了几个小时在server上装了monit,这个工具可以通过配置可以监控几个关键process,一旦出现问题就会自动重启被监控的进程,甚是方便,省心。

下面是我给monit设置的monitor配置文件: 继续阅读 »

淘宝网的礼品频道:“淘礼满天下”,我们如此相近

今天一不小心看到了淘宝礼物频道–“淘礼满天下beta2”, 内心禁不住一沉,难道一直以来我苦苦构思的“送礼平台”就这么被淘宝“捷足先登”了?仔细看了一下,得到的答案是肯定的。我只能感叹,我还不够敏锐,我能想到的点子别人也能想到,我的执行速度也远远不如Ta!我非常仔细地的体验了这个产品,发觉原来我们是如此的相似。

  1. Ta叫“淘礼满天下”,我给我的etomy取名“礼易天下”,这个名字貌似并没有输给Ta什么。
  2. 礼品分类:Ta除了有根据对象来分类,也有根据“送礼场景”来分类,然后就是根据价格来过滤。我的构思里面也有这三种分类,不过我的etomy似乎要比Ta要更细致一些。我有根据节日来分类,根据礼品原始物种分类,另外我还有根据送礼人跟送礼对象之间的关系分类。每种人际关系又有感情深浅之分,送礼的时候礼品的价值就能体现这种深浅。当然网站只能给出价格参考。详细请看我的“startup”栏目的几篇博客。
  3. Ta有一个“送礼向导”。这就是我一直所推崇的“基于知识导航型购物”理念。虽然Ta在“送礼向导”整理出的“送礼尝试”、“送礼禁忌”、“送礼技巧”知识点个个都是精品,但内容比较概括,显得比较单薄,没有像礼品首页一样有各种各样的知识分类。中华文明博大精深,送礼讲究何其之多,单凭这么一张简单的页面岂能囊括所有?所以在我的构思里面,我用了一个专门的CMS分站点来负责送礼知识的普及。
  4. Ta有一个“淘礼分享”。仔细看看原来Ta是想借助于“淘江湖”这个SNS产品来负责口碑营销。这个构思比我的精妙,做起来也比较方便。我的构思里面是通过一个论坛来图文并茂的讲述送礼成功的例子,然后在首页动态显示最新的帖子。我相信成功案例是最好的营销材料。不同的是Ta需要用户自己分享,而我是需要运维人员来发布这些消息的。这样SNS的优势就能完全体现出它的发散式口碑营销了。我有些无奈,如今SNS网站多余牛毛,难道我需要单独搭建这么一个平台么?我觉得没必要,我有信心能搭建好,也没有信心仅靠“送礼”吸引大量的人来注册使用。
  5. Ta有一个“淘礼帮派”。淘宝帮派是淘宝另外一个社区产品,由各种卖家(较多)或者买家(比较少)自由“拉帮结派”,然后集中发布广告,发布销售或者购买心得的地方。Ta想借助这个平台来组建一个送礼帮派,让送礼的人在这里分享送礼心得,“互相炫耀”。在我的构思里面etomy也有这一块,论坛里一定会有“心得分享”这么一个板块。

团购网 + LBS = ?

团购网如今这么火爆,LBS是将来互联网应用发展很热门的一个方向,两者有交集吗?仔细想想还是有的。

糯米网,其定位已经从先前单纯的“团购”转变成了 “本地精品生活指南”。本文以此站为例子,假想一下将来他是如何通过LBS来为广大团客们提供服务的。

团购网结合LBS,有两个前提需要先解决一下。一是即时团购消费,其次是智能手机的普及。

团购网目前普遍所采用的消费策略是先团购,等团购结束后才能凭团购凭证(比如说短信)去消费,而团购时间有一天两天至一个星期不等。这个间隔时间其实属于激情冷冻期。曾几何时,想出去吃顿大餐的时候才想起来团购,等找到了合适的团购发现要等两天才能消费,很是无奈(我不知道有没有哪个团购网站是否已经打破了这个规则,至少我所体验过的十几个网站都没有)。说到底团购还是属于计划性消费–团购成功了才去规划时间去消费。如果这个规则可以打破,团客们出门在外随时用手机浏览团购网站,看到感兴趣的产品立即购买,然后凭立即消费,这该是多么方便的服务啊。 继续阅读 »

杭州地区团购网评测

2010年互联网风起云涌,团购网站短短半年时间内发展起来了成千上万家。团购市场这块蛋糕被瓜分得七零八碎。2010年底,国际团购巨头groupon高调宣布进军内陆,势必会引起一番震荡,或许到了该重新洗牌的时候了。能够活下来的属有特色的强者,弱者必将垂死挣扎烧钱致死。春节期间我闲来无事,仔细体味了一下目前在杭州地区业务发展有一定规模的团购网站,并对他们的特色以及缺陷略说一二。还有很多团购网站我没有罗列出来,不是我不想写他们,是因为他们真的没有什么特色,一样的模板,一样的色调,产品也有很多重复,没必要写出来了。

  • 快抱网:推出快抱商城,与都市快报以及19lou合作。主页上推出产品的时候只显出了团购价,没有给出“原价”。我觉得这是致命的硬伤,人们参加团购图的就是便宜实惠,你如果不首先告诉他通过团购能省多少钱,他十有八九就会对你不屑一顾。所以,不管是在标题上还是在图片上,一定要让浏览者一眼就能看到差价。 继续阅读 »