前言
去年年底, 博主有购房的意愿, 本来是打算在青岛市北购房, 怎奈工作变动, 意向转移到了李沧, 坐等了半年以后, 最终选择在红岛附近购置了期房.
也许一些知道青岛红岛的小伙伴会问我, 为什么会跑到那鸟不拉屎的地方去买房子, 目前只能是一个字:"赌, 赌, 赌", 重要的事情说三遍. 下面来分析一下, 我为什么没有在李沧买.
爬取数据
爬取了 2018 年 1 月份到 2019 年 3 月底李沧二手房成交记录, 数据仅限于链家, 不代表李沧地区的全部数据, 但是我觉得应该对大家有一定的参考意义.
创建基本的数据库:
- CREATE TABLE `house` (
- `id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
- `url` varchar(50) NOT NULL COMMENT '网络访问地址',
- `listed_price` double NOT NULL COMMENT '挂牌价格',
- `completion_date` date NOT NULL COMMENT '成交日期',
- `transaction_cycle` int(11) NOT NULL COMMENT '成交周期',
- `modify_price` int(11) NOT NULL COMMENT '调价次数',
- `square_metre` double NOT NULL COMMENT '建筑面积',
- `unit_price` double NOT NULL COMMENT '单价',
- `total_price` double NOT NULL COMMENT '总价',
- `age_completion` int(11) NOT NULL COMMENT '建成年代',
- `community_name` varchar(50) NOT NULL COMMENT '所在小区',
- PRIMARY KEY (`id`)
- ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8
爬取代码:
- __author__ = "小柒"
- __blog__ = "https://blog.52itstyle.vip/"
- import requests
- import time
- # 导入文件操作库
- import os
- import re
- import bs4
- from bs4 import BeautifulSoup
- import sys
- from util.mysql_DBUtils import MySQL
- # 写入数据库
- def write_db(param):
- try:
- sql = "insert into house (url,listed_price,transaction_cycle,modify_price," \
- "square_metre,unit_price,total_price,age_completion,community_name,completion_date)"
- sql = sql + "VALUES(%(url)s,%(listed_price)s, %(transaction_cycle)s,%(modify_price)s,"
- sql = sql + "%(square_metre)s,%(unit_price)s,%(total_price)s," \
- "%(age_completion)s,%(community_name)s,%(completion_date)s)"
- MySQL.insert(sql, param)
- except Exception as e:
- print(e)
- # 主方法
- def main():
- # 给请求指定一个请求头来模拟 Chrome 浏览器
- headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ApplewebKit/537.36'
- '(Khtml, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
- page_max = 24
- # 爬取地址
- for i in range(1, int(page_max) + 1):
- print("第几页:" + str(i))
- if i == 1:
- house = 'https://qd.lianjia.com/chengjiao/licang/'
- else:
- house = 'https://qd.lianjia.com/chengjiao/licang/pg'+str(i)
- res = requests.get(house, headers=headers)
- soup = BeautifulSoup(res.text, 'html.parser')
- li_max = soup.find('ul', class_='listContent').find_all('li')
- for li in li_max:
- try:
- house_param = {}
- # 所在小区
- community = li.find('div', class_='title').text
- community_name = community.split(" ")[0]
- house_param['community_name'] = community_name
- # 成交地址
- title_src = li.find('a').attrs['href']
- house_param['url'] = title_src
- res = requests.get(title_src, headers=headers)
- soup = BeautifulSoup(res.text, 'html.parser')
- # --------------------------------------------------------#
- # 成交日期
- completion_date = soup.find('div', class_='house-title').find('span').text
- completion_date = completion_date.split(" ")[0]
- completion_date = completion_date.replace(".", "-")
- house_param['completion_date'] = completion_date
- # 挂牌价格
- listed_price = soup.find('div', class_='msg').find_all('span')[0].find('label').text
- house_param['listed_price'] = listed_price
- # 成交周期
- transaction_cycle = soup.find('div', class_='msg').find_all('span')[1].find('label').text
- house_param['transaction_cycle'] = transaction_cycle
- # 调价次数
- modify_price = soup.find('div', class_='msg').find_all('span')[2].find('label').text
- house_param['modify_price'] = modify_price
- # 建筑面积
- square_metre = soup.find('div', class_='content').find("ul").find_all('li')[2].text
- square_metre = re.findall(r'-?\d+\.?\d*e?-?\d*?', square_metre)[0]
- house_param['square_metre'] = square_metre
- # 总价
- total_price = soup.find('span', class_='dealTotalPrice').find('i').text
- house_param['total_price'] = total_price
- # 单价
- unit_price = soup.find('b').text
- house_param['unit_price'] = unit_price
- # 建筑年代
- age_completion = soup.find('div', class_='content').find("ul").find_all('li')[7].text
- age_completion = re.findall(r'-?\d+\.?\d*e?-?\d*?', age_completion)[0]
- house_param['age_completion'] = age_completion
- write_db(house_param)
- except Exception as e:
- print(e)
- MySQL.end("commit")
- MySQL.dispose()
- if __name__ == '__main__':
- main()
通过数据爬取, 一共找到了 706 套二手成交房.
分析数据
直奔主题, 数据分析下, 大家比较关心的价格问题, 以下是 2019 年 1 月 - 3 月的二手房成交量以及成交价格:
位置 | 成交量 | 单价 |
---|---|---|
李沧 | 124 | 21100 |
同比去年的二手房成交量以及成交价格:
位置 | 成交量 | 单价 |
---|---|---|
李沧 | 277 | 21306 |
吓的博主赶紧用计算器认认真真, 仔仔细细的核算了三遍, 才敢写下这几个数字, 同比去年, 单价整整降了 206 人民币, 此处有掌声. 再看一下成交量, 相比去年少了足足一半之多, 相信那 124 套房子也是卖家忍痛降了 206 人民币才卖出去的吧!
好了, 再看一下大家比较关心的成交周期, 2019 年 1 月 - 3 月的二手房成交量以及成交周期:
位置 | 成交量 | 成交周期 (天) |
---|---|---|
李沧 | 124 | 96 |
同比去年的二手房成交量以及成交周期:
位置 | 成交量 | 成交周期 (天) |
---|---|---|
李沧 | 277 | 83 |
不得不说, 相比去年房子的确是难卖了.
小结
很多同事, 同学, 13,14 年就已经上车了, 那时李沧 1w 不到, 再看看现在? 不想看, 没眼看, 不能看. 最终没在李沧买房, 也不是买不起, 只是看不到降的希望, 相对压力又大一些, 而且, 也不想把家庭所有的积蓄都赌在这里.
最后, 对于刚需就是一个建议, 能买早买, 有房和没房看一个城市是不一样的, 努力赚钱的最大意义就是提升你的幸福感. 活在人间不食人间烟火? 真以为自己是神仙? 有些东西一说的实际一点真的是会伤到某些人的心, 祝你们用键盘战胜一切.
相关代码: https://gitee.com/52itstyle/Python
来源: https://www.cnblogs.com/smallSevens/p/10638114.html