大数据开放平台汇总(国内+国外)

  • 内容
  • 评论
  • 相关

AI 算法基本是开源的(开放源代码),哪怕并不了解算法原理,也可以调用文字识别、图像识别、人脸识别、语音识别的算法。比如,语音识别:

  • 利用声学信息提高语音的识别率;
  • 利用自然语言中的信息,消除语音的错误,提高文字的识别率。

这样的算法是靠数据喂出来的,信息就是钱......当我们无法收集到他人所没有的信息时,我们的算法再好,也无法很好的消除不确定性。要消除不确定性,就需要不断的寻找新的信息。

可惜我们并没有训练算法的大量数据,这些数据往往掌握在大企业里,如:谷歌/百度有搜索数据,Facebook/腾讯有社交数据,亚马逊/阿里有商业行为数据……

所以,我们在此汇总了一些开放的大数据平台, 可以做数据的获取和分析。

1. 世界级大数据开放平台

  • data.worldbank:世界银行,全球人口、大量经济、发展指标的统计数据。
  • Google Trends:互联网搜索行为、热门新闻报道。
  • Google open data:数据极多,此外可视化数据之间的相关性。
  • imf:国际货币基金(余额宝就是货币基金)组织数据:国际货币基金组织公布的有关国际金融,债务利率,外汇储备,商品价格和投资的大数据。
  • markets.ft:世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
  • UN comtrade database:全球贸易大数据平台。

2. 国家级大数据平台

  • stats.gov:中国,包含 总人口、财政、GDP、物价上涨指数CPI 等。
  • data.gov:美国,包含 农业、气候、消费、教育、能源、健康、基建 等14个主议题。
  • data.gov.uk:英国,包含 商业与经济,环境,测绘,犯罪与司法,政府,社会 等。
  • open.canada.ca:加拿大,提供 数据、地图信息、API 等。
  • verikaynagi.com:土耳其
  • data.norge.no:挪威
  • opengovdata.ru:俄罗斯
  • data.gov.au:澳大利亚
  • dati.gov.it:意大利

3. 经济/金融大数据平台

Quandl:经济和金融数据,有助于建立预测经济指标或股票价格的模型。
理杏仁:提供A股、B股、港股、美股以及行业、指数等历史估值数据、财报数据、博弈数据。
天天基金网 查看基金业绩,规模、持仓、基金经理的基本信息。

4. 机器学习大数据平台

机器学习入门阶段:

  • Kaggle:竞赛平台,有许多有趣的数据集
  • UCI机器学习库:很古老了,有货
  • VisualData:计算机视觉数据集

机器视觉:

  • 谷歌开放图像:开源共享
  • 野外标记面:人脸标记图像
  • 斯坦福狗狗:20580张狗狗的图片、120个不同品种。
  • 室内场景识别:室内类别的图像
  • MS COCO:计算机视觉数据集
  • Labelme:大型图像数据集

情绪分析:

  • Sentiment140:数据来自推文,且去了表情
  • 斯坦福情绪树库:带有情感注释的标准情绪数据集。
  • IMDB评论:二元情绪分类的电影评论数据集。

自动驾驶:

  • Berkeley DeepDrive BDD100k:带注释的图像来自纽约和旧金山地区
  • 度娘Apolloscapes:定义了26种不同物体,如汽车、自行车、行人、建筑物、路灯等。
  • LISA:交通标志、车辆检测、交通信号灯和轨迹模式。

自然语言处理:

  • HotspotQA:具有自然、多跳问题的问答数据集,具有支持事实的强大监督。
  • 亚马逊评论
  • 维基百科:有400多万篇文章、近19亿个单词,可按段落、短语或段落进行搜索。
  • Spambase:垃圾邮件过滤数据集

提示:数据的雷区

一般能打起数据官司的,不是侵犯了【隐私】就是【版权】。

如果要做与个人相关的研究,敏感信息要脱敏;如果是传统企业,那么多年,积累下来的数据就是一笔非常宝贵的财富。

可以选择和缺乏数据,但有技术的企业合作,比如美国的 Splunk公司。但是,一定要考虑的是,这份数据的所有权。

中国网络安全法:https://baike.baidu.com/item/中华人民共和国网络安全法/16843044

本文标题:大数据开放平台汇总(国内+国外)

本文地址:https://www.hosteonscn.com/7871.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注