- Published on
In today's blog post, I will share my experience of using ChatGPT, an AI language model, to extract information from unstructured data. The target data is house advertising in Vietnam.
Specifically, I will show how to extract information such as size, price, address, type, other benefits, and contact from the advertising data.
To begin, I found a website with house advertising and identified the information I wanted to extract. The information included the size of the house, the price, the address, the type of house, other benefits, and contact information.
I want to extract the bellow information from this advertising data
The extracted information included the size of the house, the price, the address, the type of house, other benefits, and contact information.
plain text- Size: 450 m2- Price: 3 tỷ 200- Address: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình Dương- Type: Đất nền- Other benefit: Thổ cư 100%, Mặt tiền đường nhựa 16m, cạnh trường đại học Việt Đức- Contact: 0934107713
So I prepare an example prompt for Chat GPT
plain textI want you to act as an information extractorI will provide the original data inside the `"""` and `"""` mark. And you reply me with the output dataIf I need to talk to you in English, I will use {{something in english}}For example, the original data is"""Cần bán 450m2 đất nằm cạnh trung tâm TP Thủ Dầu Một BD. Giá 3 tỷ 2003,2 tỷ VNDĐịa chỉ: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình DươngLoại hình: Đất nềnDiện tích: 450Diện tích sử dụng: 450Mô tảCần tiền để xử lý công việc gia đình , nên tôi cần ra gấp !* Mục đích tôi mua để đầu tư , nên các vị trí trên đều nằm gần các tiện ích và tiếp giáp với khu công nghiệp .Các lô đất với diện tích như sao :+ 15 x 30 : 450m2+ 5 x 30 : 150m2+ 5,50 x 26 : 143m2 Lô đất này là 2 mặt tiền trước sao . vị trí này thì giáp đuôi với khu công nghiệp !- Tất cả các vị trí trên đều đã có sổ hồng riêng . Thổ cư 100%- Mặt tiền đường nhựa 16m cơ sở hạ tầng đã hoàn thiện .- cạnh trường đại học Việt Đức - Trường ĐH Thủ Dầu Một- cạnh các cụm KCN lớn nhất Bình Dương . kumho, vietsing , kingted...vvv !- là khu vực đông dân cư , nên rất tiện để đầu tư hoặc xây dựng nhà trọ.Liên hệ: 0934107713"""Extracted information you return me- Size: 450 m2- Price: 3 tỷ 200- Address: Phường Phú Mỹ, Thành phố Thủ Dầu Một, Tỉnh Bình Dương- Type: Đất nền- Other benefit: Thổ cư 100%, Mặt tiền đường nhựa 16m, cạnh trường đại học Việt Đức- Contact: 0934107713
For explanation,
I then provided ChatGPT with advertising content only, and ChatGPT replied with the extracted information.
For example
plain text"""Cần bán đất nền dự án giáp ranh thành phố HCM1,4 tỷ VNDĐịa chỉ: Xã Đức Hòa Đông, Huyện Đức Hòa, Tỉnh Long AnLoại hình: Đất nềnDiện tích: 90Diện tích sử dụng: 90Mô tảVị trí đắc địa, mặt tiền đường Tỉnh Lộ 10Cách trung tâm thành phố HCM 30p đi xe.Diện tích 90m2 chỉ 1,4 tỷPháp lý đầy đủ, sổ hồng riêng.Tiện ích đầy đủ, đáp ứng nhu cầu an - sinh - giáo - dưỡng.Hạ tầng hoàn thiện, điện âm nước máy, nhận nền xây dựng ngay, xây dựng tự do.Nằm trong cụm KCN lớn đã được đầu tư phát triển.Đầy đủ hệ thống trung tâm thương mại, dịch vụ, y tế, giáo dục, giải trí..."""Extracted information:Type: Đất nềnSize: 90 m2Price: 1.4 tỷ VNDAddress: Xã Đức Hòa Đông, Huyện Đức Hòa, Tỉnh Long AnOther benefits: Mặt tiền đường Tỉnh Lộ 10, Pháp lý đầy đủ, sổ hồng riêng, Tiện ích đầy đủ (an sinh, giáo dục, y tế, giải trí), Hạ tầng hoàn thiện, điện âm nước máy, Xây dựng tự do, Nằm trong cụm KCN lớn đã được đầu tư phát triển.
Using ChatGPT to extract information from unstructured data was a success.
ChatGPT was able to extract the information I needed from house advertising data with high accuracy.
This technique could be applied to various other industries, and I am excited to explore the possibilities further.
- Published on