博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文锐推榜优化·二
阅读量:6819 次
发布时间:2019-06-26

本文共 973 字,大约阅读时间需要 3 分钟。

@ 20090812

 

一、 搜索索引的问题

    由于锐推榜利用的是 Twitter Search API 入口,所以是否能足够全地找到所有中文 Retweets(又名:锐推//转推) ,很多时候取决于 twitter 自己的索引是否能正确地识别 tweet 所采用的语言。

    今年曾经有一度,长达一个月的时间,Twitter 的亚洲语言索引全部乱掉,日文、泰语、韩文、中文等语言写就的 Tweets 混乱地分布在不同国家语言的索引中,而日文和中文的索引几乎不再更新。所以说,Twitter 的搜索真的真的很需要  这样的实时搜索技术专家支援。

    Twitter Search 不能良好地识别 Tweets 语言的结果,可能就是  会漏掉消息。

二、包含 RT 单词的消息并不都是锐推

    这个问题其实相当严重,最近至少发生过两次。上次是某人发消息送大礼,消息体内说请大家RT。结果 默认将第一个找到的转发消息正文作为上榜消息正文,于是很多人以为是  要派送大礼。

    这次是 @faytoday 发消息求助,正文的“rt会走桃花运.”带了RT标志,于是锐推榜检测到足够多的转发次数后,就原样转发了这条消息,害得 @faytoday 回复说 @rtmeme 抢了他的风头。

    锐推榜只是搜索 tweets 文字中的 RT/Retweet/Retweeting/rTwt/转发:等单词,所以程序并不能明确判别一个 tweet 是不是锐推。

    但必须改进这一点。

    锐推榜针对“始发消息中含RT字样但并不是锐推”的情况,将自动在上榜消息前把找到的第一个消息发送者的用户帐号按照“RT @first_rtuser_id ”的格式加上,这样大家就不会误认为是 @ 在发推或评论了。

    举例:

    现在,统计程序检测到超过6个人在转发这条消息:“RT @Fenng: 有些公司的促销活动就是浪费。专门给爱占小便宜和钻空子的用户准备的。用户只有有需求才用你的网站,而不是凑热闹才用你的网站。”,那么它应该上榜;然后找到锐推榜所能索引到的第一个转发者ID是 @ ,于是,这条上榜消息就变成了:

    “

    ”

    这样做的缺点就是, 本来可以在上处于第二传播梯队,现在不得不变成第三传播梯队。

    就是这样了。

参考资源:

1、《》2009-06-16

2、《》2009-06-19

3、《》2009-06-25

转载地址:http://xglzl.baihongyu.com/

你可能感兴趣的文章
报表软件JS开发引用HTML DOM的location和document对象
查看>>
Windows7 Python-3.6 安装PyCrypto(pycrypto 2.6.1)出现错误以及解决方法
查看>>
《Linux学习并不难》Linux常用操作命令(14):grep命令查找文件中符合条件的字符串...
查看>>
MFC界面库BCGControlBar v25.1新版亮点四:网格控件等
查看>>
Linux下定时切割Nginx访问日志并删除指定天数前的日志记录
查看>>
zabbix 监控项目
查看>>
跨交换机实现VLAN
查看>>
Python的"print"函数在“Hello World”之外的延伸
查看>>
计划任务
查看>>
获取无序数组中第n大的数及快速排序算法使用
查看>>
我的友情链接
查看>>
MongoDB复制集原理
查看>>
Java开发(2) - Tomcat配置JNDI数据源
查看>>
Highcharts error #12 问题解决办法
查看>>
HA配置方案
查看>>
局域网络必备-mac地址修改
查看>>
Linux学习之逻辑卷管理
查看>>
about asm in linux
查看>>
我的友情链接
查看>>
通过Power Shell 管理Office 365
查看>>