有哪些的数据获取数据的方式方式

您所在的位置: &
盘点:大数据公司的四种数据获取方法
盘点:大数据公司的四种数据获取方法
对于所有号称涉足大数据的互联网公司而言,可以从两方面判断其前景与价值,其一是否有稳定的数据源,其二是否有持续的变现能力,其中包含数据理解运用的经验积累。涉及大数据的公司发展在互联网时代如雨后春笋,除了巨头百度腾讯阿里巴巴外,还有一些成立时间不算久但底蕴深厚的公司。如国云数据、帆软等。不过不管公司多大,获取数据都是非常重要的基础。
对于所有号称涉足大数据的互联网公司而言,可以从两方面判断其前景与价值,其一是否有稳定的数据源,其二是否有持续的变现能力,其中包含数据理解运用的经验积累。涉及大数据的公司发展在互联网时代如雨后春笋,除了巨头百度腾讯阿里巴巴外,还有一些成立时间不算久但底蕴深厚的公司。如国云数据、帆软等。不过不管公司多大,获取数据都是非常重要的基础。
就数据获取而言,大的互联网企业由于自身用户规模庞大,把自身用户的电商交易、社交、搜索等数据充分挖掘,已经拥有稳定安全的数据资源。那么对于其它公司而言,目前大概有四类数据获取方法:
第一、利用广告联盟的竞价交易平台。比如你从广告联盟上购买某搜索公司广告位1万次展示,那么基本上搜索公司会给你10万次机会让你选取,每次机会实际上包含对客户的画像描述。如果你购买的量比较大,积累下来也能有一定的互联网用户数据资料,可能不是实时更新的资料。这也是为什么用户的搜索关键词通常与其它网站广告位的推荐内容紧密相关,实质上是搜索公司通过广告联盟方式,间接把用户搜索画像数据公开了。
第二、利用用户Cookie数据。Cookie就是服务器暂时存放在用户的电脑里的资料(.txt格式的文本文件),好让服务器用来辨认计算机。互联网网站可以利用cookie跟踪统计用户访问该网站的习惯,比如什么时间访问,访问了哪些页面,在每个网页的停留时间等。也就是说合法的方式某网站只能查看与该网站相关的Cookie信息,只有非法方式或者浏览器厂家有可能获取客户所有的Cookie数据。真正的大型网站有自己的数据处理方式,并不依赖Cookie,Cookie的真正价值应该是在没有登录的情况下,也能识别客户身份,是什么时候曾经访问过什么内容的老用户,而不是简单的游客。
第三、利用APP联盟。APP是获取用户移动端数据的一种有效手段,在APP中预埋SDK插件,用户使用APP内容时就能及时将信息汇总给指定服务器,实际上用户没有访问时,APP也能获知用户终端的相关信息,包括安装了多少个应用,什么样的应用。单个APP用户规模有限,数据量有限,但如某数据公司将自身SDK内置到数万数十万APP中,获取的用户终端数据和部分行为数据也会达到数亿的量级。
第四、与拥有稳定数据源公司进行战略合作。上述三种方式获取的数据均存在完整性、连续性的缺陷,数据价值有限。BAT巨头自身价值链较为健全,数据变现通道较为完备,不会轻易输出数据与第三方合作(获取除外)。政府机构的数据要么全部免费,要么属于机密,所以不会有商业性质的合作。拥有完整的互联网(含移动互联网)的通道数据资源,同时变现手段及能力欠缺的运营商,自然成为大数据合作的首选目标。【编辑推荐】【责任编辑: TEL:(010)】
关于的更多文章
前几天和长辈闲聊之下,“大数据”,竟然也从老人家嘴里蹦出来。
所以姑娘,让我们做一枚花见花开的程序媛。
讲师: 4人学习过讲师: 11人学习过讲师: 39人学习过
借助Google的三大论文,Hadoop打开了低成本海量数据处
春运大军前天正式启动了。昨天的新闻有几条不怎么好的
每年的一月份大约都是在看似忙忙碌碌中度过的。最近一
本书论述了软件开发价值增加的思维方式。这一思维方式构成了VSTS的基础,包括VSTS的指导思想,为什么这些指导思想会以某些方式表
51CTO旗下网站获取信息的途径有哪些? 从因特网获取信息主要包括哪些内容?_百度知道
获取信息的途径有哪些? 从因特网获取信息主要包括哪些内容?
拜托大家在今天之前帮帮我吧 一定要准确答好追分
从因特网获取信息主要包括获取信息的途径有:①检索信息;②保存信息
其他类似问题
为您推荐:
其他3条回答
获取信息的途径 很多报纸 电视新闻
朋友等等都可以获取信息INTERNET获取信息 主要通过 新闻
论坛社区 网友圈子
获取信息在于自己的目的
网上有你任何想要的只有想不到得
没有搜不到得
问题都不确切没法回答,是在网络上获取信息的途径还是所有获取信息途径
因特网的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁[Android]Android数据的四种存储方式 - Ron Ngai - 博客园
Android提供以下四种存储方式:
SharePreference
ContentProvider
Android系统中数据基本都是私有的,一般存放在&data/data/程序包名&目录下。如果要实现数据共享,正确的方式是使用ContentProvider。
SharedPreference
SharedPreference是一种轻型的数据存储方式,实际上是基于XML文件存储的&key-value&键值对数据。通常用来存储程序的一些配置信息。其存储在&data/data/程序包名/shared_prefs目录下。
SharedPreference本身只能获取数据,不支持存储和修改。存储和修改要通过Editor对象来实现。
修改和存储数据
根据Context的getSharedPrerences(key, [模式])方法获取SharedPreference对象;
利用SharedPreference的editor()方法获取Editor对象;
通过Editor的putXXX()方法,将键值对存储数据;
通过Editor的commit()方法将数据提交到SharedPreference内。
综合例子:
& &&//设置单例里面的数值,然后再将数值写入到SharedPreference里
private String setCityName(String _cityName){
City.getCity().setCityName(_cityName);
Context ctx =MainActivity.this;
SharedPreferences sp =ctx.getSharedPreferences("CITY", MODE_PRIVATE);
Editor editor=sp.edit();
editor.putString("CityName", City.getCity().getCityName());
return City.getCity().getCityName();
同样根据Context对象获取SharedPreference对象;
直接使用SharedPreference的getXXX(key)方法获取数据。
综合例子:
& &&//从单例里面找,如果不存在则在SharedPreferences里面读取
private String getCityName(){
String cityName = City.getCity().getCityName();
if(cityName==null ||cityName==""){
Context ctx =MainActivity.this;
SharedPreferences sp =ctx.getSharedPreferences("CITY", MODE_PRIVATE);
City.getCity().setCityName(sp.getString("CityName", "广州"));
return City.getCity().getCityName();
getSharedPrerences(key, [模式])方法中,第一个参数其实对应到XML的文件名,相同key的数据会保存到同一个文件下。
使用SharedPreference的getXXX(key)方法获取数据的时候,如果key不存在的活,不会出现报错,会返回none。建议使用getXXX()的时候指定默认值。
SQLite是一个轻量级关系型数据库,既然是关系型数据库,那操作起来其实跟mysql、sql server差不多的。
需要注意的一点是,SQLite只有NULL、INTEGER、REAL(浮点数)、TEXT(字符串)和BLOB(大数据)五种类型,不存在BOOLEAN和DATE类型。
创建数据库
& &&& &&通过openOrCreateDatabase(String path, SQLiteDatabase.CursorFactory factory)方法创建,如果库已创建,则打开数据库。
SQLiteDatabase&db&=this.openOrCreateDatabase("test_db.db",&Context.MODE_PRIVATE,&null);
& &&& &&SQLiteDatabase没有提供创建表的方法,所以要靠execSQL()方法来实现。看名字也知道execSQL()用于直接执行sql的。
String sql="create table t_user (id INTEGER PRIMARY KEY AUTOINCREMENT, name TEXT NOT NULL,password TEXT NOT NULL)";
db.execSQL(sql);
& &&& &&使用SQLiteDatabase的insert(String table, String nullColumnHack, ContentValues values)方法插入数据。ContentValues&类,类似于java中的Map,以键值对的方式保存数据。
ContentValues values=new ContentValues();
values.put("name", "liangjh");
values.put("password", "123456");
db.insert("t_user", "id", values);
& &&& &&删除数据就比较直接了。使用SQLiteDatabase的delete(String table, String whereClause, String[] whereArgs)实现。如果不想把参数写在whereArgs里面,可以直接把条件写在whereClause里面。
// 方式1 直接将条件写入到条件里面(个人觉得容易被注入,但其实数据都在客户端,没啥安全性可言)
db.delete("t_user", "id=1", null);
// 方式2 条件分开写,感觉比较安全
db.delete("t_user", "name=? and password =?", new String[]{"weiyg","112233"});
& &&& &&查询有2个方法,query()和rawQuery()两个方法,区别在于query()是将sql里面的各参数提取出query()对应的参数中。可参考下面例子。
// 使用rawQuery
// Cursor c = db.rawQuery("select * from t_user", null);
// db.rawQuery("select * from t_user where id=1", null);
// db.rawQuery("select * from t_user where id=?", new String[]{"1"});
// 使用query()
Cursor c = db.query("t_user", new String[]{"id","name"}, "name=?", new String[]{"weiyg"}, null, null, null);
c.moveToFirst();
while(!c.isAfterLast()){
String msg="";
for(int i=0,j=c.getColumnCount();i&j;i++){
msg+="--"+c.getString(i);
Log.v("SQLite", "data:"+msg);
c.moveToNext();
& &&& &&使用SQLiteDatabase的update(String table, ContentValues values, String whereClause, String[] whereArgs)可以修改数据。whereClause和whereArgs用于设置其条件。ContentValues对象为数据。
ContentValues values=new ContentValues();
values.put("password", "111111");
// 方式1 条件写在字符串内
db.update("t_user", values, "id=1", null);
// 方式2 条件和字符串分开
db.update("t_user", values, "name=? or password=?",new String[]{"weiyg","123456"});
无论何时,打开的数据库,记得关闭。
db.close()
另外使用beginTransaction()和endTransaction()可以设置事务。
& &&& &&文件储存方式,很久以前讲过,这里不说明。
ContentProvider
ContentProvider相对于其它的方式比较复杂,当然其功能相对于其它的方式也是革命性的改变。它能够实现跨应用之间的数据操作。利用ContentResolver对象的delete、update、insert、query等方法去操ContentProvider的对象,让ContentProvider对象的方法去对数据操作。实现方式为:
在A程序中定义一个ContentProvider,重载其增删查改等方法;
在A程序中的AndroidManifest.xml中注册ContentProvider;
在B程序中通过ContentResolver和Uri来获取ContentProvider的数据,同样利用Resolver的增删查改方法来获得和处理数据。
在A程序定义一个Provider
新建一个类,继承ContentProvider,并重载其delete()、insert()、query()、update()、getType()、onCreate()方法。譬如下面的例子,重载其onCreate和query方法。
1 public class MyProvider extends ContentProvider {
public int delete(Uri uri, String selection, String[] selectionArgs) {
// TODO Auto-generated method stub
public String getType(Uri uri) {
// TODO Auto-generated method stub
return null;
public Uri insert(Uri uri, ContentValues values) {
// TODO Auto-generated method stub
return null;
public boolean onCreate() {
// 新建个数据库并插入一条数据
SQLiteDatabase db=this.getContext().openOrCreateDatabase("test_db2.db", Context.MODE_PRIVATE, null);
db.execSQL("CREATE TABLE t_user (id INTEGER PRIMARY KEY AUTOINCREMENT,name TEXT NOT NULL)");
ContentValues values=new ContentValues();
values.put("name", "liangjh2");
db.insert("t_user", "id", values);
db.close();
return false;
public Cursor query(Uri uri, String[] projection, String selection,
String[] selectionArgs, String sortOrder) {
// 获取数据
SQLiteDatabase db=this.getContext().openOrCreateDatabase("test_db2.db", Context.MODE_PRIVATE, null);
Cursor c = db.query("t_user", null, null, null, null, null, null);
db.close();
public int update(Uri uri, ContentValues values, String selection,
String[] selectionArgs) {
// TODO Auto-generated method stub
注册ContentProvider
在AndroidManifest.xml中声明ContentProvider,authorities属性定义了ContentProvider的Uri标识。关于Uri标识属另一个范畴,自行查询。provider标识要放在&application&&/application&里面。如果遇到了"Permission Denial: opening provide..."的错误,可以试试在节点加&android:exported="true"&。
&application ...&
&provider android:name=".MyProvider" android:authorities="com.example.androidtestdemo" android:exported="true"/&
&/application&
在B程序获取数据
用Context获取到当前的ContentResolver,根据Uri地址和ContentResolver的query方法获取A程序的数据。Uri地址和A程序中AndroidManifest.xml定义的autorities要一致。当然,同类可以进行其它的操作。
Context ctx=MainActivity.this;
ContentResolver resolver =ctx.getContentResolver();
Uri uri=Uri.parse("content://com.example.androidtestdemo");
Cursor c = resolver.query(uri, null, null, null, null);
c.moveToFirst();
while(!c.isAfterLast()){
for(int i=0,j=c.getColumnCount();i&j;i++){
Log.v("Android2",""+c.getString(i));
c.moveToNext();有哪些「神奇」的数据获取方式?
刚开始进行经济学研究,已经感受到能够找到合适的 data 有多重(jian)要(nan)。想请教研究前辈,都尝试过哪些神奇的 data 获取方式。能否分享一二。
按时间排序
一天吃完饭出去散步,周围的小房子不少有开始翻修了,有的直接准备起了6层楼。哎?突然产生一个疑问,怎么这么统一?都这个时候修?春季温度上升终于可一开始搅拌水泥而不必担心被冻住?而且可以一直持续到深秋?这是一个我能想到的最合理的解释。那么为什么同一个星期或者有的就在同一天就开始了呢?我觉得有一种冥冥之中的力量在推动他们~~~~
据说有钱的土豪都很迷信风水,也很迷信黄道吉日,没准就是看了今天适合动土就选了今天了。老一辈看阴历,年轻人看阳历,都选在5月20号结婚也可以支持这一心理选择偏差。
来吧,找点数据统计下看看先。
恩,百度的万年历
每天的禁忌还蛮多的, 虽然我完全不知道什么意思。
找到API准备爬数据,精简之后的地址如下,其中query=urllib.parse.quota(“yyyy年mm月”),感兴趣的同学大可以去爬一爬。
百度只有2008年倒2020年的吉凶计算,大概是为了存储空间吧,也可能是按计划存储执行的任务,13年的数据算周期是够了。但是我发现了个秘密。百度家2012年以前没有大小月之分,在api里随处可见这种异常。大概是他们的程序员觉得这样方便hash?行吧,将就用吧~~~
首先两张全部分类的统计数据,一共118个分类简直桑心病狂,吉凶的差集还不为空,看着如此符合古代生活作息的分布规律,我隐隐感觉到了其中的一些端倪。
取其中8年的数据,按每天吉凶类别数量画出时间序列:
看到了期中几个周期性的极大值和极小值,貌似很规律的样子,来做一下自相关
果然,不仅360作为一个大周期,还有31天的小周期,随机和混沌是肯定有的,做一下以360为长度的差分计算:
也就是说,你会发现某月某日是个大吉的日子,次月该日又是一个大吉的日子。
以下是自然月对应的事件吉凶比,貌似五月,十一月还是个挺吉利的月份,明明是忙种和收货的日子,所以是希望这段时间不论你做什么都会给你释放积极信号么。那么看一下我们最初的问题,是不是对于某一个事件,在某个时间段更适合执行呢?找出最热的吉凶事件[入宅,出行,嫁娶,安葬,开市,祭祀]。
祭祀在4月和12月分别出现了极值,分别是清明和元旦所处的日期。而星期则没有任何周期现象存在星期制从唐代波斯才开始引进中国,在农历开始时还没有星期这个概念,没有这种周期现象也就并不奇怪了。是不是古时,统治阶级为了普及知识,又迫于底层民众的愚昧,动过天干地支太极八卦对每天应该做的事情进行编码,最后聚合成一种策略,也不失为一种好的管理方式。例如年用60个天干地支表示,月日分别用一个卦相表示,可以组成14位2进制编码,一共可以出现2^14次方也就是约4096种组合,然后hash到每一天的事件上,然后就成了黄历。如果这种激励制适合古代,那么黄历适合现代社会嘛? The MITRE Corporation有一个研究Twitter的项目,通过每条推文的分词来计算当天的幸福指数选取09年到16年的数据。周五和周六要比平常更加幸福,而且并没有季节性波动,现代已经脱离了农耕社会。黄历需要改进啊。同时,这些数据已经整理好了,需要的同学可以发私信给我,数据打包给你,好了,就这样吧。欢迎各类奇葩怪咖加微信FavorMylikes,嘻~~~
有一个利器,能帮你快速爬取你想要的资源……有时候,你需要下载电影、音乐的资源,却发现下不下来。因为你没安装客户端……或者是找不到下载按钮在哪 这时候,愤怒的你可能会想要自己写个爬虫来搞定,那么在这里要告诉你,不必重新发明轮子了,有这样一个工具,5秒内就能帮你下载好你想要的资源!使用这个工具,只需要输入命令,然后你就会看到5秒内视频下好了……还可以用来任性批量下图……支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载。这个神器的利器叫做:you-get,是一名华人程序员使用 python 3开发的,在 Github 上已经有接近6000 star, 你可以访问: 查看详细的使用说明。简单来说,使用分3步:第一步:你要安装好 Python 3环境,你应该早就安装了对不对!第二步:用 pip 安装 you-get看过实战课程的同学应该对这个很熟悉了在终端/命令行输入:pip 3 install you-get第三步:在终端/命令行输入you-get 加上你想下载的链接,比如:$ you-get 然后伸个懒腰,就下载好啦~快去帮女神下载美剧,帮基友下载动画吧!虽然是利器,可能还是不能完全满足你的需求,比如说,如果你想分析热门视频的点赞量和发布时间的关系,这些字段是不包含在内的,还是需要自己写爬虫……总之,编程是很强大的,能开发出高效的工具节省我们的时间。但如果想要完全按照自己的需求来定制的话,还是投资自己比较快,学好爬虫技能,能让获取信息不再受到阻碍。---想看更多适合编程小白的优质文章,可以关注微信公众号「说人话的Python分享」:
要说最快最有效的获取数据的方式还是使用爬虫,当然要写出复杂的爬虫程序(特别是对于完全不懂技术的小白来说)还是比较难的。相信所有的爬虫工程师都有一个共同的心愿,就是将爬虫编写脚本化,然后将爬虫程序完全云端化——也就是通过简单的脚本代码写出在云端运行的爬虫程序。本着这个思想,我们几个爬虫程序猿便开始了新的尝试!现在我们开发的神箭手云爬虫开发平台()已经上线,让开发者能在5分钟甚至更短的时间内开发出云爬虫程序,欢迎需要爬取数据的开发者都来试一试,也欢迎大家多给我们提意见和bug,督促我们完善系统( ̄▽ ̄)"
还有这种东西……牛!我也去爬数据去。以前偶尔看到这种数据的图都是拿尺子来比着,或者用crapy爬网站,现在多了一种办法。
哈哈哈哈,说个对于ACMer有趣的,爬取自己提交过的代码!Sicily版本:zoj版本:
有兴趣学习爬虫的童鞋可以穿越到---------------分割线互联网数据分析从业者来答。学会写爬虫,整个互联网就是你的数据库,爬虫可以自动化地,大批量地帮你将互联网上大量无规则数据爬取下来并归整。比如用爬虫爬取智联招聘上所有心仪的职位,并对职位描述做词频分析,从而了解该岗位的核心技能要求是什么。爬取智联招聘上深圳地区所有数据挖掘的职位,共608个对职位描述做词频分析,用字体大小代表职位覆盖数量2. 爬取艺恩网上所有华语电影的票房数据,并做成散点图3. 爬取Mtime时光网上所有香港电影的海报,按时间线做成海报墙,展示从1960年到现在香港电影海报风格的变化初次接触爬虫,是为了学Python,作为一个数据分析师,不会一门开源的编程语言实在说不过去,作为一个数据收集癖,爬虫自然是当仁不让的学习Python的切入点,而我第一个爬取的对象,是糗事百科。看到这坨便便真的十分有亲切感看到这坨便便真的十分有亲切感当时还不会用BeautifulSoup,只是学了用urllib的简单循环爬取,爬取了热门笑话的前10页并用txt保存。看到刷刷刷的几秒,我的文件夹多了一个写满几百个笑话的txt文件,我的表情是这样的爬完糗百,然后是豆瓣的电影排名,然后是爬搜房网的二手房信息,接着是学Scrapy,然后是爬JS,一步一步。爬完糗百,然后是豆瓣的电影排名,然后是爬搜房网的二手房信息,接着是学Scrapy,然后是爬JS,一步一步。爬虫的神奇之处,除了获取data的方便快速外,还在于他的自动化。你可以设置定时爬虫任务,每天爬取招聘网站上新更新的公司及职位并对已爬取的职位进行排重,然后每天回到家看到电脑屏幕上显示今天深圳地区新增15个数据分析职位及8家招聘单位,然后下面显示详细信息相较之下,别人找工作是不是low爆了?你可以爬取每天微博上的信息,用Python的分词模块进行分词,每天统计微博上出现最多的词语,这样你可以比别人更早知道最近流行的网络用语,或者是一些舆论热点。你可以爬取网上或者QQ群里的各种表情包,这样跟别人斗图再也不怕弹药不足了。你还能爬取Mtime时光网上热门电影的影评,比如《美人鱼》有20000+条影评,进行分词后统计出每部电影的标签,然后把这些标签化的电影数据库卖给电影舆情公司,捞一笔。评论区有童鞋在问文科生学爬虫难么,以及怎么学的问题。我的回答是不难,Python就是给文科生学的编程语言(大神轻喷,我知道Python是易学难精)。Python的伪代码式的语句,可以让你像看文言文一样,只要稍加联想就能看懂,Python语句的简洁与高效,可以让你在刚学1天就做出一个爬虫的Demo,让你有神器在手,天下我有的感觉。举个栗子,把天涯社区首页上的所有新闻标题爬下来并展示在屏幕上,比如这样只需要短短的15行语句,如下import urllibimport urllib2import reimport pandas as pda=[]url=''request=urllib2.Request(url)response=urllib2.urlopen(request)content=response.read().decode('utf-8')pile('&h3&.*?title="(.*?)".*?title" &',re.S)items=re.findall(pattern,content)for item in items:
a.append(item)b=pd.DataFrame(a)print b首先是引入需要的模块,urllib和urllib2是连接网络请求数据用的,re是正则表达式用于提取特定的文本,pandas用于将数据用表格的形式规范地展现;接着定义一个空的队列,用于装入爬取的新闻标题,然后请求天涯的网页链接,将请求到的网页信息用utf-8解码,接着用正则表达式提取需要的新闻标题;最后用循环的方式把提取到的新闻标题挨个装入队列,转换成表格形式并展现。如果用requests模块代替urllib还可以缩短到12行左右,是不是很简洁?最后,方便的话请点一下关注哦,我会好好维护你的时间线的!
图像处理可以很容易的获取这样的图表的数值
可以试试高校一卡通查询中心哦
数据搜索引擎: (电脑版
tushare不仅能获取股市信息,存取款利率等金融数据,竟然还有票房数据
写个爬虫挂vpn
CAPTCHA。。。。识别难度简直反人类
'神奇'的获得一条祖传染色体的数据╭(°A°`)╮
xxoo算不算?
写个爬虫挂vpn
我说个过分的。马尔奖得主朱松纯老师 ucla统计和计算机两个系教授。2005年时候一心想用他的image parsing彻底解决视觉识别的框架问题 是十分有野心的想法。对如此复杂的框架 收集到足够的人工label数据做ground truth是很难的。朱老师来到湖北鄂州 弄了一个专科学校一帮学美术的 手工帮他label车 椅子 建筑等等等等。 大概一两年 建了个十万多张图片的数据库。后来 mit几个人 还有li feifei 搞了个网络游戏 有点像大家来找茬 有竞赛性质 让人们来点击label。当然 这个label精度比朱老师的数据库查不少 但数量级实在是多出太多了! !我当时就对老美工业思维搞科研的角度震惊了一把 毕竟 几百万张label过照片 和10万张 能做的事太不一样了。后来对 vision没有兴趣了 就加入Google挣钱去了。 一天 看到Google收购了一家公司 做recaptcha 就是验证码 大概2009年。三四个人的公司 卖了两千万 我们组以前的一个intern和他cmu导师和搞的。当时就被其思路震惊了。OCR问题里头有很多corner case 一般识别技术是读不出的 这些corner case要么是扫描的古籍英语 要么是角度不对 highly screwed 的路牌 铭片。他们就把这些东西拿出来做验证码 用众数原则判错或对 同时把majority答案作为label存起来。Google收购后 直接拿来把Google book扫描未识别出的部分拿来做验证码了。label的结果用来改进其识别算法 加速扫描更多的图书和改进street view里未识别出路牌 门牌号。想想吧 每天不得几亿个人工label被收集啊!2000万我都觉得卖贱了!思路啊 很重要!
f(x) = f(-x)x,y -& x,y -x,y
买!数据定制呐,靠谱的数据信息服务商,什么数据都能买的到的
大数据 网络爬虫
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 jndi方式获取数据源 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信